https://nowokay.hatenablog.com/entry/2025/11/06/065327

Mac Studioを借りたのでいろいろクソデカ言語モデルを試したところ、GLM-4.5-Airがいいなとなってます。

試したモデルこちら。

モデル	パラメータ数	アクティブ	thinking	画像	時期		URL
GPT-oss 120B	120B	5B	o	x	2025/8	OpenAI	hf link
Qwen3 235B-A22B-2507-thinking	235B	22B	o	x	2025/8	Alibaba	hf link
Qwen3-VL 235B-A22B-thinking	235B	22B	o	o	2025/9	Alibaba	hf link
Qwen3-Next-80B	80B	3B	o	x	2025/9	alibaba	hf link
Qwen3 Coder 480B	480B	35B	x	x	2025/7	alibaba	hf link
Qwen3 Coder 30B	30B	3B	x	x	2025/7	alibaba	hf link
GLM 4.6	355B	32B	o	x	2025/9	Z.ai	hf link
GLM 4.5-Air	106B	12B	o	x	2025/8	Z.ai	hf link
GLM-4.5V	106B	12B	o	o	2025/8	Z.ai	hf link
MiniMax M2	230B	10B	o	x	2025/10	MiniMax AI	hf link
Kimi K2-Instruct-0905	1T	32B	x	x	2025/9	Moonshot AI	hf link
DeepSeek-V3.1-Terminus	671B	37B	x	x	2025/9	DeepSeek AI	hf link
Llama 4 Maverick	400B	17B	x	o	2025/4	Meta	hf link
Llama 4 Scout	109B	17B	x	o	2025/4	Meta	hf link

雑感

Macで実用できるのはGPT-oss 120B、GLM 4.5-Air、Qwen3-Next 80Bというところ。その中ではGLM-4.5-Airがよかった。

GPT-ossは生意気さがあるｗ。能力がそこまで高くないのにChatGPT(GPT-5)のようなふるまいをするところが。あと文章を書くのが苦手で物語を書かせても箇条書きを多用してしまう。
Qwen3-Nextは、単発のクエリーは強いけどやりとりが続くと弱い印象。
GLM-4.5-Airはバランスいい。コーディング力も高い。

200B以上のモデルはMacでは遅すぎて使い物になりません。出力スピードはいいのだけど、コンテキストがちょっと長くなると入力プロンプト処理の5分とかかかるようになります。
※ 12/29追記 MLX版が遅いのでGGUFならもう少しいけるかも( 詳しくはこちら )
ただ要約したいとか1ショットで収まるならいいです。そうするとGLM 4.6がよかった。 Qwen3 Coder 480もかなり実装力が高いです。さくらで使おう。3000リクエスト/月が無料。

MiniMax M2は、日本語が怪しくてキリル文字が入りまくるのと、Roo Codeでうまくファイルを作ってくれないのとで、よさそうだけど使えない。あと、なんかやりとりが続くとガンコ。エージェントの学習でうまくいったパスしか学習してないとかかな。

Llama 4は、1/4サイズのモデルと勝負する感じ。なので、Maverickは案外いいのだけど、400Bで100Bモデルと競っても・・・というところ。Scoutはアホい。
貴重な画像認識モデルで、画像認識は優秀そうだけど、テキスト性能が悪い。

GLM 4.5Vはチャットテンプレートがおかしいのか、うまく動きませんでした。

なので画像モデルとしてはQwen3-VL 235Bとなるけど、画像エンコーダーはQwen3-VL 8Bなどと同じ気配なので、画像目的なら小さいモデルでよさそう。

つまり、EVO-X2で十分、という感じですね。

GMKtec