注意
Gemma-3は最小モデルを除いて画像に対応しています。しかし、今回は画像を扱っていません。PC環境
プロセッサ Intel(R) Core(TM) i7-11700 実装 RAM 64.0 GB GPU Intel Arc A770 (VRAM 16GB)
Ubuntu 24.04
事前準備
sudo apt install build-essential cmake git libcurl4-openssl-dev
Vulkanのインストール
こちらの通りにしました。(v1.4.309.0)wget -qO- https://packages.lunarg.com/lunarg-signing-key-pub.asc | sudo tee /etc/apt/trusted.gpg.d/lunarg.asc sudo wget -qO /etc/apt/sources.list.d/lunarg-vulkan-noble.list http://packages.lunarg.com/vulkan/lunarg-vulkan-noble.list sudo apt update sudo apt install vulkan-sdk
llama.cppのビルド
git clone https://github.com/ggml-org/llama.cpp cd llama.cpp cmake -B build -DGGML_VULKAN=1 cmake --build build --config Release -j
実行
モデルはこちらからダウンロードしました。cd build/bin ./llama-server -m /home/hoge/Documents/models/gemma-3-27b-it/gemma-3-27b-it-Q4_K_M.gguf -c 8192 --host 0.0.0.0 -ngl 40
他のPCからアクセスする場合「--host 0.0.0.0」をつける必要があります。
結果
load_tensors: offloading 40 repeating layers to GPU load_tensors: offloaded 40/63 layers to GPU load_tensors: Vulkan0 model buffer size = 9423.05 MiB load_tensors: CPU_Mapped model buffer size = 6350.57 MiB
補足
IPEX-LLMが「llama.cpp Portable Zip.」というのを公開してくれています。こちらで速度比較を行いました。touch-sp.hateblo.jp