以下の内容はhttps://nowokay.hatenablog.com/entry/2025/11/06/065327より取得しました。


Qwen3、GLM、GPT-ossなどクソデカ言語モデルを試したところGLM-4.5-Airがお気に入り

Mac Studioを借りたのでいろいろクソデカ言語モデルを試したところ、GLM-4.5-Airがいいなとなってます。

試したモデルこちら。

モデル パラメータ数 アクティブ thinking 画像 時期 URL
GPT-oss 120B 120B 5B o x 2025/8 OpenAI hf link
Qwen3 235B-A22B-2507-thinking 235B 22B o x 2025/8 Alibaba hf link
Qwen3-VL 235B-A22B-thinking 235B 22B o o 2025/9 Alibaba hf link
Qwen3-Next-80B 80B 3B o x 2025/9 alibaba hf link
Qwen3 Coder 480B 480B 35B x x 2025/7 alibaba hf link
Qwen3 Coder 30B 30B 3B x x 2025/7 alibaba hf link
GLM 4.6 355B 32B o x 2025/9 Z.ai hf link
GLM 4.5-Air 106B 12B o x 2025/8 Z.ai hf link
GLM-4.5V 106B 12B o o 2025/8 Z.ai hf link
MiniMax M2 230B 10B o x 2025/10 MiniMax AI hf link
Kimi K2-Instruct-0905 1T 32B x x 2025/9 Moonshot AI hf link
DeepSeek-V3.1-Terminus 671B 37B x x 2025/9 DeepSeek AI hf link
Llama 4 Maverick 400B 17B x o 2025/4 Meta hf link
Llama 4 Scout 109B 17B x o 2025/4 Meta hf link

雑感

Macで実用できるのはGPT-oss 120B、GLM 4.5-Air、Qwen3-Next 80Bというところ。その中ではGLM-4.5-Airがよかった。

GPT-ossは生意気さがあるw。能力がそこまで高くないのにChatGPT(GPT-5)のようなふるまいをするところが。あと文章を書くのが苦手で物語を書かせても箇条書きを多用してしまう。
Qwen3-Nextは、単発のクエリーは強いけどやりとりが続くと弱い印象。
GLM-4.5-Airはバランスいい。コーディング力も高い。

200B以上のモデルはMacでは遅すぎて使い物になりません。出力スピードはいいのだけど、コンテキストがちょっと長くなると入力プロンプト処理の5分とかかかるようになります。
※ 12/29追記 MLX版が遅いのでGGUFならもう少しいけるかも( 詳しくはこちら )
ただ要約したいとか1ショットで収まるならいいです。そうするとGLM 4.6がよかった。 Qwen3 Coder 480もかなり実装力が高いです。さくらで使おう。3000リクエスト/月が無料。

MiniMax M2は、日本語が怪しくてキリル文字が入りまくるのと、Roo Codeでうまくファイルを作ってくれないのとで、よさそうだけど使えない。あと、なんかやりとりが続くとガンコ。エージェントの学習でうまくいったパスしか学習してないとかかな。

Llama 4は、1/4サイズのモデルと勝負する感じ。なので、Maverickは案外いいのだけど、400Bで100Bモデルと競っても・・・というところ。Scoutはアホい。
貴重な画像認識モデルで、画像認識は優秀そうだけど、テキスト性能が悪い。

GLM 4.5Vはチャットテンプレートがおかしいのか、うまく動きませんでした。

なので画像モデルとしてはQwen3-VL 235Bとなるけど、画像エンコーダーはQwen3-VL 8Bなどと同じ気配なので、画像目的なら小さいモデルでよさそう。

つまり、EVO-X2で十分、という感じですね。

  • GMKtec




以上の内容はhttps://nowokay.hatenablog.com/entry/2025/11/06/065327より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14