Gemma 4をllama.cppでベンチ（CUDAとVulkanの差も見てみる）

Gemma 4がリリースされて以降、ローカルLLM界隈がまた少し活気づいてきた印象があります。
特に今回のモデルは、システムプロンプトへの追従性がかなり良く、ロールプレイや指示の一貫性が崩れにくい点が目立ちます。

さらに、Apache Licenseで公開されていることもあり、商用利用や組み込み用途でも扱いやすく、「手元で動かす前提のモデル」としての魅力が一段と増しています。

そうした流れもあり、実際の性能がどの程度出るのか気になってきたので、今回はllama.cppを使っていくつかの構成でベンチマークを取ってみました。
今回の結果としては、特にRTX系のバランスの良さが目立つ形になりました。

GPU性能差と量子化の影響を見る目的で、主にGPUとモデルの組み合わせを変えて比較しています。
引数は「-ngl 99 -fa 1 -p 512 -n 128 -r 5」で固定です。

GPU	バックエンド	モデル
P106-100	CUDA12.2	gemma-4-E4B-it-Q5_K_M
RTX3060	CUDA13.0	gemma-4-E4B-it-Q5_K_M
RTX3060	CUDA13.0	gemma-4-26B-A4B-it-UD-IQ1_M
Jetson Xavier NX	CUDA 11.4	gemma-4-E4B-it-Q5_K_M
Jetson Xavier NX	CUDA 11.4	gemma-4-E2B-it-Q5_K_M
2400G	Vulkan	gemma-4-E4B-it-Q5_K_M
2400G	Vulkan	gemma-4-E2B-it-Q5_K_M
2400G	Vulkan	gemma-4-26B-A4B-it-UD-IQ1_M
MI25	Vulkan	gemma-4-E4B-it-Q5_K_M
MI25	Vulkan	gemma-4-26B-A4B-it-UD-IQ1_M
MI25	Vulkan	gemma-4-26B-A4B-it-UD-IQ4_NL

OSは基本的にはLinuxですが、UbuntuとRockyLinuxが混在してる環境毎にCPU等もバラバラなので、あくまで参考です。

GPU	PowerLimit	BackEnd	Model	pp512	tg128	Version
P106-100	120W	CUDA12.2	gemma-4-E4B-it-Q5_K_M	536.59	26.33	ff5ef8278
P106-100	90W	CUDA12.2	gemma-4-E4B-it-Q5_K_M	503.32	25.82	ff5ef8278
P106-100	75W	CUDA12.2	gemma-4-E4B-it-Q5_K_M	463.42	24.78	ff5ef8278
P106-100	60W	CUDA12.2	gemma-4-E4B-it-Q5_K_M	396.50	21.89	ff5ef8278
RTX3060	100W	CUDA13.0	gemma-4-E4B-it-Q5_K_M	2303.12	64.50	a29e4c0b7
RTX3060	100W	CUDA13.0	gemma-4-26B-A4B-it-UD-IQ1_M	1528.09	81.94	a29e4c0b7
Jetson Xavier NX	15W	CUDA 11.4	gemma-4-E4B-it-Q5_K_M	20.33	4.03	5d3a4a7da
Jetson Xavier NX	15W	CUDA 11.4	gemma-4-E2B-it-Q5_K_M	206.51	15.17	5d3a4a7da
2400G	45W	Vulkan	gemma-4-E4B-it-Q5_K_M	41.89	8.95	f51fd36d7
2400G	45W	Vulkan	gemma-4-E2B-it-Q5_K_M	151.47	17.91	f51fd36d7
2400G	45W	Vulkan	gemma-4-26B-A4B-it-UD-IQ1_M	44.73	12.43	f51fd36d7
MI25	100W	Vulkan	gemma-4-E4B-it-Q5_K_M	454.77	37.44	85d482e6b
MI25	100W	Vulkan	gemma-4-26B-A4B-it-UD-IQ1_M	426.85	53.07	85d482e6b
MI25	100W	Vulkan	gemma-4-26B-A4B-it-UD-IQ4_NL	411.37	41.50	85d482e6b
MI25	170W	Vulkan	gemma-4-26B-A4B-it-UD-IQ4_NL	576.82	52.40	85d482e6b

全体的に見て、GPUの世代差はそのまま素直に性能差として出ているものの、量子化やモデルサイズの影響もかなり大きい印象です。
特にIQ1系はサイズのわりに速度が出ていて、用途次第では十分実用的に扱えそうです。

PowerLimitについても確認してみましたが、極端に絞らない限りはそこまで大きく性能が落ちるわけではなく、消費電力とのバランスを取りながら常用するのも現実的そうです。

JetsonやiGPUのようなリソースが限られる環境でも、小さいモデルを選べばそれなりに動くことは確認できたので、用途を割り切れば選択肢にはなりそうです。

一方でAMD系（Vulkan）は、tg128（生成側）はスペック通りのTFLOPSに近いスケーリングでそれなりに健闘しているものの、pp512（プロンプト処理）はCUDAに対してかなり差が出る結果になりました。
実際の体感でも、生成中よりも最初の応答までの待ち時間に差が出やすく、このあたりはバックエンドの最適化や実装差の影響が大きそうです。CUDAへの最適化の差が、このあたりに表れていそうです。

そのうえで今回の結果を見る限り、手元でローカルLLMを試す用途であれば、やはりRTX系はかなり扱いやすい選択肢だと感じます。
特にpp512の差は大きく、E4BではP106-100やMI25をかなり引き離していて、プロンプト投入時の快適さは頭ひとつ抜けています。

生成速度だけを見ると他にも健闘している構成はありますが、実際に触っていて効いてくるのは最初の応答までの軽さだったりするので、その意味でもRTX3060クラスはバランスが良さそうです。
消費電力を100Wに抑えても十分速く、常用環境としてもかなり現実的なラインに収まっています。

Radeon Instinct MI25はハードウェア自体のポテンシャルは感じるものの、こうしたスパコン用途のGPUをローカルで振り回すのはなかなか楽しいところです。ただ、実際の性能面ではややロマン枠に留まってしまっている印象もあります。
また、以下記事のように冷却には非常に苦労するので、常用環境として使うには民生のGPUをおすすめします。
https://blog.gurees.net/?p=708

とはいえ、ベンチの数値だけでは見えない部分も多いので、実際のユースケースでどこまで使えるかは引き続き確認していきたいと思います。

Think Lab

ThinkPadと……

Gemma 4をllama.cppでベンチ（CUDAとVulkanの差も見てみる）

コメントを残すコメントをキャンセル

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル