Gemma 4をllama.cppでベンチ(CUDAとVulkanの差も見てみる)

Gemma 4がリリースされて以降、ローカルLLM界隈がまた少し活気づいてきた印象があります。
特に今回のモデルは、システムプロンプトへの追従性がかなり良く、ロールプレイや指示の一貫性が崩れにくい点が目立ちます。

さらに、Apache Licenseで公開されていることもあり、商用利用や組み込み用途でも扱いやすく、「手元で動かす前提のモデル」としての魅力が一段と増しています。

そうした流れもあり、実際の性能がどの程度出るのか気になってきたので、今回はllama.cppを使っていくつかの構成でベンチマークを取ってみました。
今回の結果としては、特にRTX系のバランスの良さが目立つ形になりました。

GPU性能差と量子化の影響を見る目的で、主にGPUとモデルの組み合わせを変えて比較しています。
引数は「-ngl 99 -fa 1 -p 512 -n 128 -r 5」で固定です。

GPUバックエンドモデル
P106-100CUDA12.2gemma-4-E4B-it-Q5_K_M
RTX3060CUDA13.0gemma-4-E4B-it-Q5_K_M
RTX3060CUDA13.0gemma-4-26B-A4B-it-UD-IQ1_M
Jetson Xavier NXCUDA 11.4gemma-4-E4B-it-Q5_K_M
Jetson Xavier NXCUDA 11.4gemma-4-E2B-it-Q5_K_M
2400GVulkangemma-4-E4B-it-Q5_K_M
2400GVulkangemma-4-E2B-it-Q5_K_M
2400GVulkangemma-4-26B-A4B-it-UD-IQ1_M
MI25Vulkangemma-4-E4B-it-Q5_K_M
MI25Vulkangemma-4-26B-A4B-it-UD-IQ1_M
MI25Vulkangemma-4-26B-A4B-it-UD-IQ4_NL

OSは基本的にはLinuxですが、UbuntuとRockyLinuxが混在してる環境毎にCPU等もバラバラなので、あくまで参考です。

GPUPowerLimitBackEndModelpp512tg128Version
P106-100120WCUDA12.2gemma-4-E4B-it-Q5_K_M536.5926.33ff5ef8278
P106-10090WCUDA12.2gemma-4-E4B-it-Q5_K_M503.3225.82ff5ef8278
P106-10075WCUDA12.2gemma-4-E4B-it-Q5_K_M463.4224.78ff5ef8278
P106-10060WCUDA12.2gemma-4-E4B-it-Q5_K_M396.5021.89ff5ef8278
RTX3060100WCUDA13.0gemma-4-E4B-it-Q5_K_M2303.1264.50a29e4c0b7
RTX3060100WCUDA13.0gemma-4-26B-A4B-it-UD-IQ1_M1528.0981.94a29e4c0b7
Jetson Xavier NX15WCUDA 11.4gemma-4-E4B-it-Q5_K_M20.334.035d3a4a7da
Jetson Xavier NX15WCUDA 11.4gemma-4-E2B-it-Q5_K_M206.5115.175d3a4a7da
2400G45WVulkangemma-4-E4B-it-Q5_K_M41.898.95f51fd36d7
2400G45WVulkangemma-4-E2B-it-Q5_K_M151.4717.91f51fd36d7
2400G45WVulkangemma-4-26B-A4B-it-UD-IQ1_M44.7312.43f51fd36d7
MI25100WVulkangemma-4-E4B-it-Q5_K_M454.7737.4485d482e6b
MI25100WVulkangemma-4-26B-A4B-it-UD-IQ1_M426.8553.0785d482e6b
MI25100WVulkangemma-4-26B-A4B-it-UD-IQ4_NL411.3741.5085d482e6b
MI25170WVulkangemma-4-26B-A4B-it-UD-IQ4_NL576.8252.4085d482e6b

全体的に見て、GPUの世代差はそのまま素直に性能差として出ているものの、量子化やモデルサイズの影響もかなり大きい印象です。
特にIQ1系はサイズのわりに速度が出ていて、用途次第では十分実用的に扱えそうです。

PowerLimitについても確認してみましたが、極端に絞らない限りはそこまで大きく性能が落ちるわけではなく、消費電力とのバランスを取りながら常用するのも現実的そうです。

JetsonやiGPUのようなリソースが限られる環境でも、小さいモデルを選べばそれなりに動くことは確認できたので、用途を割り切れば選択肢にはなりそうです。

一方でAMD系(Vulkan)は、tg128(生成側)はスペック通りのTFLOPSに近いスケーリングでそれなりに健闘しているものの、pp512(プロンプト処理)はCUDAに対してかなり差が出る結果になりました。
実際の体感でも、生成中よりも最初の応答までの待ち時間に差が出やすく、このあたりはバックエンドの最適化や実装差の影響が大きそうです。CUDAへの最適化の差が、このあたりに表れていそうです。

そのうえで今回の結果を見る限り、手元でローカルLLMを試す用途であれば、やはりRTX系はかなり扱いやすい選択肢だと感じます。
特にpp512の差は大きく、E4BではP106-100やMI25をかなり引き離していて、プロンプト投入時の快適さは頭ひとつ抜けています。

生成速度だけを見ると他にも健闘している構成はありますが、実際に触っていて効いてくるのは最初の応答までの軽さだったりするので、その意味でもRTX3060クラスはバランスが良さそうです。
消費電力を100Wに抑えても十分速く、常用環境としてもかなり現実的なラインに収まっています。

Radeon Instinct MI25はハードウェア自体のポテンシャルは感じるものの、こうしたスパコン用途のGPUをローカルで振り回すのはなかなか楽しいところです。ただ、実際の性能面ではややロマン枠に留まってしまっている印象もあります。
また、以下記事のように冷却には非常に苦労するので、常用環境として使うには民生のGPUをおすすめします。
https://blog.gurees.net/?p=708

とはいえ、ベンチの数値だけでは見えない部分も多いので、実際のユースケースでどこまで使えるかは引き続き確認していきたいと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)