月別アーカイブ: 2026年4月

Gemma 4をllama.cppでベンチ(CUDAとVulkanの差も見てみる)

Gemma 4がリリースされて以降、ローカルLLM界隈がまた少し活気づいてきた印象があります。
特に今回のモデルは、システムプロンプトへの追従性がかなり良く、ロールプレイや指示の一貫性が崩れにくい点が目立ちます。

さらに、Apache Licenseで公開されていることもあり、商用利用や組み込み用途でも扱いやすく、「手元で動かす前提のモデル」としての魅力が一段と増しています。

そうした流れもあり、実際の性能がどの程度出るのか気になってきたので、今回はllama.cppを使っていくつかの構成でベンチマークを取ってみました。
今回の結果としては、特にRTX系のバランスの良さが目立つ形になりました。

GPU性能差と量子化の影響を見る目的で、主にGPUとモデルの組み合わせを変えて比較しています。
引数は「-ngl 99 -fa 1 -p 512 -n 128 -r 5」で固定です。

GPUバックエンドモデル
P106-100CUDA12.2gemma-4-E4B-it-Q5_K_M
RTX3060CUDA13.0gemma-4-E4B-it-Q5_K_M
RTX3060CUDA13.0gemma-4-26B-A4B-it-UD-IQ1_M
Jetson Xavier NXCUDA 11.4gemma-4-E4B-it-Q5_K_M
Jetson Xavier NXCUDA 11.4gemma-4-E2B-it-Q5_K_M
2400GVulkangemma-4-E4B-it-Q5_K_M
2400GVulkangemma-4-E2B-it-Q5_K_M
2400GVulkangemma-4-26B-A4B-it-UD-IQ1_M
MI25Vulkangemma-4-E4B-it-Q5_K_M
MI25Vulkangemma-4-26B-A4B-it-UD-IQ1_M
MI25Vulkangemma-4-26B-A4B-it-UD-IQ4_NL
続きを読む