4月 | 2026 | Think Lab

Gemma 4がリリースされて以降、ローカルLLM界隈がまた少し活気づいてきた印象があります。
特に今回のモデルは、システムプロンプトへの追従性がかなり良く、ロールプレイや指示の一貫性が崩れにくい点が目立ちます。

さらに、Apache Licenseで公開されていることもあり、商用利用や組み込み用途でも扱いやすく、「手元で動かす前提のモデル」としての魅力が一段と増しています。

そうした流れもあり、実際の性能がどの程度出るのか気になってきたので、今回はllama.cppを使っていくつかの構成でベンチマークを取ってみました。
今回の結果としては、特にRTX系のバランスの良さが目立つ形になりました。

GPU性能差と量子化の影響を見る目的で、主にGPUとモデルの組み合わせを変えて比較しています。
引数は「-ngl 99 -fa 1 -p 512 -n 128 -r 5」で固定です。

Think Lab