https://touch-sp.hateblo.jp/entry/2025/03/24/235620

注意

Gemma-3は最小モデルを除いて画像に対応しています。

しかし、今回は画像を扱っていません。

PC環境

プロセッサ	Intel(R) Core(TM) i7-11700
実装 RAM	64.0 GB
GPU		Intel Arc A770 (VRAM 16GB)

Ubuntu 24.04

事前準備

sudo apt install build-essential cmake git libcurl4-openssl-dev

Vulkanのインストール

こちらの通りにしました。(v1.4.309.0)

wget -qO- https://packages.lunarg.com/lunarg-signing-key-pub.asc | sudo tee /etc/apt/trusted.gpg.d/lunarg.asc
sudo wget -qO /etc/apt/sources.list.d/lunarg-vulkan-noble.list http://packages.lunarg.com/vulkan/lunarg-vulkan-noble.list
sudo apt update
sudo apt install vulkan-sdk

llama.cppのビルド

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=1
cmake --build build --config Release -j

実行

モデルはこちらからダウンロードしました。

cd build/bin
./llama-server -m /home/hoge/Documents/models/gemma-3-27b-it/gemma-3-27b-it-Q4_K_M.gguf -c 8192 --host 0.0.0.0 -ngl 40

他のPCからアクセスする場合「--host 0.0.0.0」をつける必要があります。

結果

load_tensors: offloading 40 repeating layers to GPU
load_tensors: offloaded 40/63 layers to GPU
load_tensors:      Vulkan0 model buffer size =  9423.05 MiB
load_tensors:   CPU_Mapped model buffer size =  6350.57 MiB

補足

IPEX-LLMが「llama.cpp Portable Zip.」というのを公開してくれています。
こちらで速度比較を行いました。
touch-sp.hateblo.jp

ランキング参加中

プログラミング