Gemma 4をllama.cppでベンチ(CUDAとVulkanの差も見てみる)

Gemma 4がリリースされて以降、ローカルLLM界隈がまた少し活気づいてきた印象があります。
特に今回のモデルは、システムプロンプトへの追従性がかなり良く、ロールプレイや指示の一貫性が崩れにくい点が目立ちます。

さらに、Apache Licenseで公開されていることもあり、商用利用や組み込み用途でも扱いやすく、「手元で動かす前提のモデル」としての魅力が一段と増しています。

そうした流れもあり、実際の性能がどの程度出るのか気になってきたので、今回はllama.cppを使っていくつかの構成でベンチマークを取ってみました。
今回の結果としては、特にRTX系のバランスの良さが目立つ形になりました。

GPU性能差と量子化の影響を見る目的で、主にGPUとモデルの組み合わせを変えて比較しています。
引数は「-ngl 99 -fa 1 -p 512 -n 128 -r 5」で固定です。

GPUバックエンドモデル
P106-100CUDA12.2gemma-4-E4B-it-Q5_K_M
RTX3060CUDA13.0gemma-4-E4B-it-Q5_K_M
RTX3060CUDA13.0gemma-4-26B-A4B-it-UD-IQ1_M
Jetson Xavier NXCUDA 11.4gemma-4-E4B-it-Q5_K_M
Jetson Xavier NXCUDA 11.4gemma-4-E2B-it-Q5_K_M
2400GVulkangemma-4-E4B-it-Q5_K_M
2400GVulkangemma-4-E2B-it-Q5_K_M
2400GVulkangemma-4-26B-A4B-it-UD-IQ1_M
MI25Vulkangemma-4-E4B-it-Q5_K_M
MI25Vulkangemma-4-26B-A4B-it-UD-IQ1_M
MI25Vulkangemma-4-26B-A4B-it-UD-IQ4_NL
続きを読む

Rocky LinuxとRadeon Instinct MI25でROCmを使う②冷却編

Radeon Instinct MI25ですが、GPUはパッシブクーラーがついています。
そのため、FANはついておらずケース内のエアフローで何とかする必要があります。

自作PCで300WのGPUを冷やしきるほどのエアフローは確保できないので、FANをつけて冷やします。

続きを読む

Rocky LinuxとRadeon Instinct MI25でROCmを使う①環境準備編

RX480でのROCmが面白かったので、Radeon Instinct MI25入手してみたので、環境準備を行います。

環境は以下の自作PCにRocky Linux9.4をMinimumインストールしました。
CPU:Ryzen 7 2700X
MB:X470 GAMING PLUS
RAM:16GB×2枚 2400 MHz
SSD:BIOSTAR S120-256
GPU#1:MI25
GPU#2:MI25
GPU#3:V3900

続きを読む

Rocky LinuxとRadeon RX 480でROCmを使ってLLMを動かしてみる

古めの環境ですがRyzen 7 1700とRX 480の環境があったのでROCmで機械学習ができないかと思ったので実験してみます。

環境は以下の自作PCにRocky Linux9.4をMinimumインストールしました。
CPU:Ryzen 7 1700
MB:TUF B450M-PLUS GAMING
RAM:16GB×2枚 2666 MHz
SSD:Intel 670p 1TB

続きを読む

CentOS Stream9とllama.cppでローカルLLM動かしてみる

DeskMini A300(Ryzen5 2400G)が余っていたので、CentOS Stream 9をインストールllama.cppでLLMを動かしてみた記録です。

A300はAPUのVRAMを16Gに指定できるので、ROCmがつかればよかったのですが、どうにもうまく動かせなかったので、とりあえずはCPUでローカルLLMを動かしてみます。

続きを読む