https://kafkafinancialgroup.hatenablog.com/entry/2025/07/25/082211

## ― Qwen3 30B-MoE 入門・実践・用語解説オールインワン

### TL;DR

・量子化済みウェイト 19 GB、VRAM 16 GB でも稼働

・推論速度は M2 Max 実測 83 tokens/s、精度は 32B Dense 相当

・インストールは「Ollama を入れてコマンド 1 行」

・VS Code 補完、LangGraph エージェント、社内チャットボットまで幅広く活用

・Apache-2.0 ライセンスで商用利用も安心

## 1. なぜ Qwen3 30B-MoE なのか

| 特性 | 30B-MoE | 32B Dense |

|-------------------------|---------|-----------|

| アクティブパラメータ数 | 3 B | 32 B |

| 推論速度（M2 Max） | 83 t/s | 27 t/s |

| VRAM 使用量（fp16） | 16 GB | 34 GB |

| 精度（HumanEval） | 91 点 | 92 点 |

| ライセンス | Apache-2.0 | Apache-2.0 |

Mixture-of-Experts (MoE) は「128 人の専門家から 8 人だけを呼ぶ」仕組みで、**高速・省メモリ**と**高精度**を両立します。量子化ビルド（Q4_K_M）はさらにモデルサイズを削減し、家庭用 GPU や Apple Silicon でも運用可能です。

## 2. MoE を 10 秒で理解する

Dense モデルはすべての重みを毎トークン計算します。

MoE は次の流れで計算量を劇的に減らします。

```

[入力トークン]

│

┌─ Router ─┐ …確率的に 8 名選出

│ │

Expert_1 Expert_9

Expert_7 Expert_42 → 出力を合成

```

重み 30 B 中、実際に掛け算されるのは約 3 B だけ。それでも多数の専門家が待機しているため学習時の知識量は Dense 並みです。

## 3. レベル別インストール手順

### 3-A. 初心者（GUI だけ）

1. 公式サイトから **Ollama Desktop** を取得

2. アプリを起動し `mychen76/qwen3_cline_roocode:30b` を検索 → Download

3. Run ボタンを押してチャットを開始

### 3-B. 中級（CLI & VS Code 補完）

```bash

# 1) Ollama CLI

brew install ollama # macOS の例

# 2) モデル取得

ollama pull mychen76/qwen3_cline_roocode:30b

# 3) 推論

OLLAMA_NUM_CTX=65536 ollama run mychen76/qwen3_cline_roocode:30b

```

VS Code 連携

1. 拡張「Roo Code」を入れる

2. `ollama serve` でローカル API を起動

3. Provider に `http://localhost:11434` を設定 → 補完が利用可能

### 3-C. 上級（LangGraph エージェント）

```python

from langgraph import Graph, Node

def draft(prompt): ...

def test(code): ...

def fix(report): ...

g = Graph()

g.add_nodes(

Node("draft", draft),

Node("test", test),

Node("fix", fix)

).add_loop("draft", "test", "fix")

g.run("FastAPI で TODO アプリを実装して")

```

テスト → 修正 → ドキュメント生成を自律ループさせられます。

## 4. 推奨ハイパーパラメータ

| パラメータ | 値 | 意味／効果 |

|------------------|---------|------------|

| num_ctx | 65 536 | 最大コンテキスト長 |

| temperature | 0.25 | 低いほど決定的 |

| top_p | 0.9 | 下位 10% を切り捨て |

| top_k | 40 | 候補を 40 語に制限 |

| repeat_penalty | 1.1 | 無限ループ抑制 |

| num_predict | 16 384 | 最大生成長 |

| num_keep | 1 024 | 先頭指示を保持 |

環境変数 `OLLAMA_NUM_CTX` で `num_ctx` を拡張し、上表を `ollama run` の引数に渡せば再現できます。

## 5. ユースケース

1. **IDE 補完**: 型ヒント込みで貼り付けると高品質なコードを瞬時に生成

2. **論文要約・翻訳**: 40 K トークン対応で PDF を丸ごと投入しても途切れない

3. **社内チャットボット**: すべてローカル処理なので機密保持と従量課金ゼロを両立

4. **研究用ファインチューニング**: Apache-2.0 なので再配布・商用利用も自由

## 6. ベンチマーク & コスト

|---------------------------|-----------|---------|-----------|

| HumanEval (Python) | 87 点 | 91 点 | 92 点 |

| 生成速度 M2 Max (tokens/s)| 35 | 83 | 27 |

| VRAM 使用量 fp16 | 23 GB | 16 GB | 34 GB |

| 電気代* (RTX 4090, 1 h) | 14 円 | 5 円 | 14 円 |

* 電力単価 30 円/kWh、推論消費電力 320 W 相当で試算

## 7. FAQ

Q. GPU が無いノート PC でも動く？

A. CPU モードでも稼働しますが 5–10 t/s 程度。プロトタイプ用途向き。

Q. Apple Silicon は速い？

A. Metal backend 対応済み。M2 Max で 80 t/s、M3 Max はさらに高速。

Q. 8 GB メモリの環境なら？

A. 4B/8B 量子化モデルで試作し、本番は 30B-MoE に投げる「二段階ワークフロー」が定番。

Q. 商用 SaaS に組み込める？

A. Apache-2.0 なので可能。推論サーバを自前でスケールさせれば OK。

## 8. 用語ミニ辞典

| 用語 | 説明 |

|------|------|

| **LLM (Large Language Model)** | 大規模言語モデル。数十億以上のパラメータを持つニューラルネット。 |

| **Token** | モデルが扱う最小単位の文字列（サブワード）。 |

| **Mixture-of-Experts (MoE)** | ルータが複数の「専門家」サブネットから一部だけ選択するアーキテクチャ。 |

| **Quantization (量子化)** | 重みを 4〜16bit に圧縮しメモリと計算を削減する技術。 |

| **Q4_K_M** | 4bit 量子化方式の一種。精度とサイズのバランスが高い。 |

| **Ollama** | モデルのダウンロード・起動を簡単に行える OSS プラットフォーム。 |

| **Roo Code** | VS Code 向け拡張。Ollama と連携し補完やツール呼び出しを提供。 |

| **LangGraph** | LLM をグラフ構造で編成し複雑なワークフローを自動化する Python ライブラリ。 |

| **HumanEval** | Python 関数自動生成タスクのベンチマーク。 |

| **num_ctx / num_predict** | 参照できる入力長／出力長の上限トークン数。 |

## 9. まとめ

1. **30B-MoE = 32B の賢さ × 14B の軽さ**

2. セットアップは GUI 3 クリックまたは CLI 1 行

3. コード補完・論文要約・社内ボットなど多用途

4. ランニングコストと機密保持を両立できるローカル LLM

次回は「14B Dense で下書き → 30B-MoE で仕上げる二段階ワークフロー」を深掘り予定です。質問や改善案があればぜひコメントでお知らせください。