Gemma 4がリリースされて以降、ローカルLLM界隈がまた少し活気づいてきた印象があります。
特に今回のモデルは、システムプロンプトへの追従性がかなり良く、ロールプレイや指示の一貫性が崩れにくい点が目立ちます。
さらに、Apache Licenseで公開されていることもあり、商用利用や組み込み用途でも扱いやすく、「手元で動かす前提のモデル」としての魅力が一段と増しています。
そうした流れもあり、実際の性能がどの程度出るのか気になってきたので、今回はllama.cppを使っていくつかの構成でベンチマークを取ってみました。
今回の結果としては、特にRTX系のバランスの良さが目立つ形になりました。
GPU性能差と量子化の影響を見る目的で、主にGPUとモデルの組み合わせを変えて比較しています。
引数は「-ngl 99 -fa 1 -p 512 -n 128 -r 5」で固定です。
| GPU | バックエンド | モデル |
| P106-100 | CUDA12.2 | gemma-4-E4B-it-Q5_K_M |
| RTX3060 | CUDA13.0 | gemma-4-E4B-it-Q5_K_M |
| RTX3060 | CUDA13.0 | gemma-4-26B-A4B-it-UD-IQ1_M |
| Jetson Xavier NX | CUDA 11.4 | gemma-4-E4B-it-Q5_K_M |
| Jetson Xavier NX | CUDA 11.4 | gemma-4-E2B-it-Q5_K_M |
| 2400G | Vulkan | gemma-4-E4B-it-Q5_K_M |
| 2400G | Vulkan | gemma-4-E2B-it-Q5_K_M |
| 2400G | Vulkan | gemma-4-26B-A4B-it-UD-IQ1_M |
| MI25 | Vulkan | gemma-4-E4B-it-Q5_K_M |
| MI25 | Vulkan | gemma-4-26B-A4B-it-UD-IQ1_M |
| MI25 | Vulkan | gemma-4-26B-A4B-it-UD-IQ4_NL |