Gemma 4がリリースされて以降、ローカルLLM界隈がまた少し活気づいてきた印象があります。
特に今回のモデルは、システムプロンプトへの追従性がかなり良く、ロールプレイや指示の一貫性が崩れにくい点が目立ちます。
さらに、Apache Licenseで公開されていることもあり、商用利用や組み込み用途でも扱いやすく、「手元で動かす前提のモデル」としての魅力が一段と増しています。
そうした流れもあり、実際の性能がどの程度出るのか気になってきたので、今回はllama.cppを使っていくつかの構成でベンチマークを取ってみました。
今回の結果としては、特にRTX系のバランスの良さが目立つ形になりました。
GPU性能差と量子化の影響を見る目的で、主にGPUとモデルの組み合わせを変えて比較しています。
引数は「-ngl 99 -fa 1 -p 512 -n 128 -r 5」で固定です。
| GPU | バックエンド | モデル |
| P106-100 | CUDA12.2 | gemma-4-E4B-it-Q5_K_M |
| RTX3060 | CUDA13.0 | gemma-4-E4B-it-Q5_K_M |
| RTX3060 | CUDA13.0 | gemma-4-26B-A4B-it-UD-IQ1_M |
| Jetson Xavier NX | CUDA 11.4 | gemma-4-E4B-it-Q5_K_M |
| Jetson Xavier NX | CUDA 11.4 | gemma-4-E2B-it-Q5_K_M |
| 2400G | Vulkan | gemma-4-E4B-it-Q5_K_M |
| 2400G | Vulkan | gemma-4-E2B-it-Q5_K_M |
| 2400G | Vulkan | gemma-4-26B-A4B-it-UD-IQ1_M |
| MI25 | Vulkan | gemma-4-E4B-it-Q5_K_M |
| MI25 | Vulkan | gemma-4-26B-A4B-it-UD-IQ1_M |
| MI25 | Vulkan | gemma-4-26B-A4B-it-UD-IQ4_NL |
OSは基本的にはLinuxですが、UbuntuとRockyLinuxが混在してる環境毎にCPU等もバラバラなので、あくまで参考です。
| GPU | PowerLimit | BackEnd | Model | pp512 | tg128 | Version |
| P106-100 | 120W | CUDA12.2 | gemma-4-E4B-it-Q5_K_M | 536.59 | 26.33 | ff5ef8278 |
| P106-100 | 90W | CUDA12.2 | gemma-4-E4B-it-Q5_K_M | 503.32 | 25.82 | ff5ef8278 |
| P106-100 | 75W | CUDA12.2 | gemma-4-E4B-it-Q5_K_M | 463.42 | 24.78 | ff5ef8278 |
| P106-100 | 60W | CUDA12.2 | gemma-4-E4B-it-Q5_K_M | 396.50 | 21.89 | ff5ef8278 |
| RTX3060 | 100W | CUDA13.0 | gemma-4-E4B-it-Q5_K_M | 2303.12 | 64.50 | a29e4c0b7 |
| RTX3060 | 100W | CUDA13.0 | gemma-4-26B-A4B-it-UD-IQ1_M | 1528.09 | 81.94 | a29e4c0b7 |
| Jetson Xavier NX | 15W | CUDA 11.4 | gemma-4-E4B-it-Q5_K_M | 20.33 | 4.03 | 5d3a4a7da |
| Jetson Xavier NX | 15W | CUDA 11.4 | gemma-4-E2B-it-Q5_K_M | 206.51 | 15.17 | 5d3a4a7da |
| 2400G | 45W | Vulkan | gemma-4-E4B-it-Q5_K_M | 41.89 | 8.95 | f51fd36d7 |
| 2400G | 45W | Vulkan | gemma-4-E2B-it-Q5_K_M | 151.47 | 17.91 | f51fd36d7 |
| 2400G | 45W | Vulkan | gemma-4-26B-A4B-it-UD-IQ1_M | 44.73 | 12.43 | f51fd36d7 |
| MI25 | 100W | Vulkan | gemma-4-E4B-it-Q5_K_M | 454.77 | 37.44 | 85d482e6b |
| MI25 | 100W | Vulkan | gemma-4-26B-A4B-it-UD-IQ1_M | 426.85 | 53.07 | 85d482e6b |
| MI25 | 100W | Vulkan | gemma-4-26B-A4B-it-UD-IQ4_NL | 411.37 | 41.50 | 85d482e6b |
| MI25 | 170W | Vulkan | gemma-4-26B-A4B-it-UD-IQ4_NL | 576.82 | 52.40 | 85d482e6b |
全体的に見て、GPUの世代差はそのまま素直に性能差として出ているものの、量子化やモデルサイズの影響もかなり大きい印象です。
特にIQ1系はサイズのわりに速度が出ていて、用途次第では十分実用的に扱えそうです。
PowerLimitについても確認してみましたが、極端に絞らない限りはそこまで大きく性能が落ちるわけではなく、消費電力とのバランスを取りながら常用するのも現実的そうです。
JetsonやiGPUのようなリソースが限られる環境でも、小さいモデルを選べばそれなりに動くことは確認できたので、用途を割り切れば選択肢にはなりそうです。
一方でAMD系(Vulkan)は、tg128(生成側)はスペック通りのTFLOPSに近いスケーリングでそれなりに健闘しているものの、pp512(プロンプト処理)はCUDAに対してかなり差が出る結果になりました。
実際の体感でも、生成中よりも最初の応答までの待ち時間に差が出やすく、このあたりはバックエンドの最適化や実装差の影響が大きそうです。CUDAへの最適化の差が、このあたりに表れていそうです。
そのうえで今回の結果を見る限り、手元でローカルLLMを試す用途であれば、やはりRTX系はかなり扱いやすい選択肢だと感じます。
特にpp512の差は大きく、E4BではP106-100やMI25をかなり引き離していて、プロンプト投入時の快適さは頭ひとつ抜けています。
生成速度だけを見ると他にも健闘している構成はありますが、実際に触っていて効いてくるのは最初の応答までの軽さだったりするので、その意味でもRTX3060クラスはバランスが良さそうです。
消費電力を100Wに抑えても十分速く、常用環境としてもかなり現実的なラインに収まっています。
Radeon Instinct MI25はハードウェア自体のポテンシャルは感じるものの、こうしたスパコン用途のGPUをローカルで振り回すのはなかなか楽しいところです。ただ、実際の性能面ではややロマン枠に留まってしまっている印象もあります。
また、以下記事のように冷却には非常に苦労するので、常用環境として使うには民生のGPUをおすすめします。
https://blog.gurees.net/?p=708
とはいえ、ベンチの数値だけでは見えない部分も多いので、実際のユースケースでどこまで使えるかは引き続き確認していきたいと思います。