はじめに
以前もやっています。
今回は東京科学大学が公開している日本語特化のオープンLLM「Swallow」シリーズから「Qwen3-Swallow-8B-RL-v0.2」と「GPT-OSS-Swallow-20B-RL-v0.1」を使いました。
Qwen3-Swallow-8B-RL-v0.2
GGUFを こちら からダウンロードして使っています。
コマンド
build/bin/llama-bench -m /home/hoge/models/Qwen3-Swallow-8B-RL-v0.2-Q4_K_M.gguf
結果
SYCL
| model | size | params | backend | ngl | test | t/s |
|---|---|---|---|---|---|---|
| qwen3 8B Q4_K - Medium | 4.68 GiB | 8.19 B | SYCL | 99 | pp512 | 776.07 ± 3.10 |
| qwen3 8B Q4_K - Medium | 4.68 GiB | 8.19 B | SYCL | 99 | tg128 | 17.78 ± 0.06 |
Vulkan
| model | size | params | backend | ngl | test | t/s |
|---|---|---|---|---|---|---|
| qwen3 8B Q4_K - Medium | 4.68 GiB | 8.19 B | Vulkan | 99 | pp512 | 855.92 ± 1.56 |
| qwen3 8B Q4_K - Medium | 4.68 GiB | 8.19 B | Vulkan | 99 | tg128 | 30.53 ± 0.10 |
以前は SYCLの圧勝だったのですが、今回はVulkanの勝利です。
もう一つのモデルでも比較してみましょう。
GPT-OSS-Swallow-20B-RL-v0.1
GGUFを こちら からダウンロードして使っています。
コマンド
build/bin/llama-bench -m /home/hoge/models/GPT-OSS-Swallow-20B-RL-v0.1-Q4_K_M.gguf -ngl 30
結果
SYCL
| model | size | params | backend | ngl | test | t/s |
|---|---|---|---|---|---|---|
| gpt-oss 20B Q4_K - Medium | 14.71 GiB | 20.91 B | SYCL | 30 | pp512 | 529.08 ± 12.05 |
| gpt-oss 20B Q4_K - Medium | 14.71 GiB | 20.91 B | SYCL | 30 | tg128 | 16.14 ± 0.05 |
Vulkan
| model | size | params | backend | ngl | test | t/s |
|---|---|---|---|---|---|---|
| gpt-oss 20B Q4_K - Medium | 14.71 GiB | 20.91 B | Vulkan | 30 | pp512 | 1175.11 ± 5.61 |
| gpt-oss 20B Q4_K - Medium | 14.71 GiB | 20.91 B | Vulkan | 30 | tg128 | 40.14 ± 0.05 |
このモデルでもVulkanの勝ちです。