https://touch-sp.hateblo.jp/entry/2026/02/21/234403

はじめに

以前もやっています。

今回は東京科学大学が公開している日本語特化のオープンLLM「Swallow」シリーズから「Qwen3-Swallow-8B-RL-v0.2」と「GPT-OSS-Swallow-20B-RL-v0.1」を使いました。

GGUFをこちらからダウンロードして使っています。

build/bin/llama-bench -m /home/hoge/models/Qwen3-Swallow-8B-RL-v0.2-Q4_K_M.gguf

model	size	params	backend	ngl	test	t/s
qwen3 8B Q4_K - Medium	4.68 GiB	8.19 B	SYCL	99	pp512	776.07 ± 3.10
qwen3 8B Q4_K - Medium	4.68 GiB	8.19 B	SYCL	99	tg128	17.78 ± 0.06

model	size	params	backend	ngl	test	t/s
qwen3 8B Q4_K - Medium	4.68 GiB	8.19 B	Vulkan	99	pp512	855.92 ± 1.56
qwen3 8B Q4_K - Medium	4.68 GiB	8.19 B	Vulkan	99	tg128	30.53 ± 0.10

以前は SYCLの圧勝だったのですが、今回はVulkanの勝利です。

もう一つのモデルでも比較してみましょう。

GGUFをこちらからダウンロードして使っています。

build/bin/llama-bench -m /home/hoge/models/GPT-OSS-Swallow-20B-RL-v0.1-Q4_K_M.gguf -ngl 30

model	size	params	backend	ngl	test	t/s
gpt-oss 20B Q4_K - Medium	14.71 GiB	20.91 B	SYCL	30	pp512	529.08 ± 12.05
gpt-oss 20B Q4_K - Medium	14.71 GiB	20.91 B	SYCL	30	tg128	16.14 ± 0.05

model	size	params	backend	ngl	test	t/s
gpt-oss 20B Q4_K - Medium	14.71 GiB	20.91 B	Vulkan	30	pp512	1175.11 ± 5.61
gpt-oss 20B Q4_K - Medium	14.71 GiB	20.91 B	Vulkan	30	tg128	40.14 ± 0.05

このモデルでもVulkanの勝ちです。