Mac Studioを借りたのでいろいろクソデカ言語モデルを試したところ、GLM-4.5-Airがいいなとなってます。
試したモデルこちら。
| モデル | パラメータ数 | アクティブ | thinking | 画像 | 時期 | URL | |
|---|---|---|---|---|---|---|---|
| GPT-oss 120B | 120B | 5B | o | x | 2025/8 | OpenAI | hf link |
| Qwen3 235B-A22B-2507-thinking | 235B | 22B | o | x | 2025/8 | Alibaba | hf link |
| Qwen3-VL 235B-A22B-thinking | 235B | 22B | o | o | 2025/9 | Alibaba | hf link |
| Qwen3-Next-80B | 80B | 3B | o | x | 2025/9 | alibaba | hf link |
| Qwen3 Coder 480B | 480B | 35B | x | x | 2025/7 | alibaba | hf link |
| Qwen3 Coder 30B | 30B | 3B | x | x | 2025/7 | alibaba | hf link |
| GLM 4.6 | 355B | 32B | o | x | 2025/9 | Z.ai | hf link |
| GLM 4.5-Air | 106B | 12B | o | x | 2025/8 | Z.ai | hf link |
| GLM-4.5V | 106B | 12B | o | o | 2025/8 | Z.ai | hf link |
| MiniMax M2 | 230B | 10B | o | x | 2025/10 | MiniMax AI | hf link |
| Kimi K2-Instruct-0905 | 1T | 32B | x | x | 2025/9 | Moonshot AI | hf link |
| DeepSeek-V3.1-Terminus | 671B | 37B | x | x | 2025/9 | DeepSeek AI | hf link |
| Llama 4 Maverick | 400B | 17B | x | o | 2025/4 | Meta | hf link |
| Llama 4 Scout | 109B | 17B | x | o | 2025/4 | Meta | hf link |
雑感
Macで実用できるのはGPT-oss 120B、GLM 4.5-Air、Qwen3-Next 80Bというところ。その中ではGLM-4.5-Airがよかった。
GPT-ossは生意気さがあるw。能力がそこまで高くないのにChatGPT(GPT-5)のようなふるまいをするところが。あと文章を書くのが苦手で物語を書かせても箇条書きを多用してしまう。
Qwen3-Nextは、単発のクエリーは強いけどやりとりが続くと弱い印象。
GLM-4.5-Airはバランスいい。コーディング力も高い。
200B以上のモデルはMacでは遅すぎて使い物になりません。出力スピードはいいのだけど、コンテキストがちょっと長くなると入力プロンプト処理の5分とかかかるようになります。
※ 12/29追記 MLX版が遅いのでGGUFならもう少しいけるかも( 詳しくはこちら )
ただ要約したいとか1ショットで収まるならいいです。そうするとGLM 4.6がよかった。
Qwen3 Coder 480もかなり実装力が高いです。さくらで使おう。3000リクエスト/月が無料。
MiniMax M2は、日本語が怪しくてキリル文字が入りまくるのと、Roo Codeでうまくファイルを作ってくれないのとで、よさそうだけど使えない。あと、なんかやりとりが続くとガンコ。エージェントの学習でうまくいったパスしか学習してないとかかな。
Llama 4は、1/4サイズのモデルと勝負する感じ。なので、Maverickは案外いいのだけど、400Bで100Bモデルと競っても・・・というところ。Scoutはアホい。
貴重な画像認識モデルで、画像認識は優秀そうだけど、テキスト性能が悪い。
GLM 4.5Vはチャットテンプレートがおかしいのか、うまく動きませんでした。
なので画像モデルとしてはQwen3-VL 235Bとなるけど、画像エンコーダーはQwen3-VL 8Bなどと同じ気配なので、画像目的なら小さいモデルでよさそう。
つまり、EVO-X2で十分、という感じですね。