以下の内容はhttps://kafkafinancialgroup.hatenablog.com/entry/2025/07/25/082211より取得しました。


自宅 PC で GPT-4 クラスの AI を動かす

 

 

## ― Qwen3 30B-MoE 入門・実践・用語解説オールインワン

 

### TL;DR

量子化済みウェイト 19 GB、VRAM 16 GB でも稼働  

・推論速度は M2 Max 実測 83 tokens/s、精度は 32B Dense 相当  

・インストールは「Ollama を入れてコマンド 1 行」  

VS Code 補完、LangGraph エージェント、社内チャットボットまで幅広く活用  

Apache-2.0 ライセンスで商用利用も安心  

 

## 1. なぜ Qwen3 30B-MoE なのか

 

| 特性 | 30B-MoE | 32B Dense |

|-------------------------|---------|-----------|

| アクティブパラメータ数 | 3 B | 32 B |

| 推論速度(M2 Max) | 83 t/s | 27 t/s |

| VRAM 使用量(fp16) | 16 GB | 34 GB |

| 精度(HumanEval) | 91 点 | 92 点 |

| ライセンス | Apache-2.0 | Apache-2.0 |

 

Mixture-of-Experts (MoE) は「128 人の専門家から 8 人だけを呼ぶ」仕組みで、**高速・省メモリ**と**高精度**を両立します。量子化ビルド(Q4_K_M)はさらにモデルサイズを削減し、家庭用 GPUApple Silicon でも運用可能です。

 

## 2. MoE を 10 秒で理解する

 

Dense モデルはすべての重みを毎トークン計算します。  

MoE は次の流れで計算量を劇的に減らします。

 

```

[入力トークン]

      │

  ┌─ Router ─┐ …確率的に 8 名選出

  │ │

Expert_1 Expert_9

Expert_7 Expert_42 → 出力を合成

```

 

重み 30 B 中、実際に掛け算されるのは約 3 B だけ。それでも多数の専門家が待機しているため学習時の知識量は Dense 並みです。

 

## 3. レベル別インストール手順

 

### 3-A. 初心者(GUI だけ)

 

1. 公式サイトから **Ollama Desktop** を取得  

2. アプリを起動し `mychen76/qwen3_cline_roocode:30b` を検索 → Download  

3. Run ボタンを押してチャットを開始

 

### 3-B. 中級(CLI & VS Code 補完)

 

```bash

# 1) Ollama CLI

brew install ollama # macOS の例

 

# 2) モデル取得

ollama pull mychen76/qwen3_cline_roocode:30b

 

# 3) 推論

OLLAMA_NUM_CTX=65536 ollama run mychen76/qwen3_cline_roocode:30b

```

 

VS Code 連携  

1. 拡張「Roo Code」を入れる  

2. `ollama serve` でローカル API を起動  

3. Provider に `http://localhost:11434` を設定 → 補完が利用可能

 

### 3-C. 上級(LangGraph エージェント)

 

```python

from langgraph import Graph, Node

 

def draft(prompt): ...

def test(code): ...

def fix(report): ...

 

g = Graph()

g.add_nodes(

  Node("draft", draft),

  Node("test", test),

  Node("fix", fix)

).add_loop("draft", "test", "fix")

 

g.run("FastAPI で TODO アプリを実装して")

```

 

テスト → 修正 → ドキュメント生成を自律ループさせられます。

 

## 4. 推奨ハイパーパラメータ

 

| パラメータ | 値 | 意味/効果 |

|------------------|---------|------------|

| num_ctx | 65 536 | 最大コンテキスト長 |

| temperature | 0.25 | 低いほど決定的 |

| top_p | 0.9 | 下位 10% を切り捨て |

| top_k | 40 | 候補を 40 語に制限 |

| repeat_penalty | 1.1 | 無限ループ抑制 |

| num_predict | 16 384 | 最大生成長 |

| num_keep | 1 024 | 先頭指示を保持 |

 

環境変数 `OLLAMA_NUM_CTX` で `num_ctx` を拡張し、上表を `ollama run` の引数に渡せば再現できます。

 

## 5. ユースケース

 

1. **IDE 補完**: 型ヒント込みで貼り付けると高品質なコードを瞬時に生成  

2. **論文要約・翻訳**: 40 K トークン対応で PDF を丸ごと投入しても途切れない  

3. **社内チャットボット**: すべてローカル処理なので機密保持と従量課金ゼロを両立  

4. **研究用ファインチューニング**: Apache-2.0 なので再配布・商用利用も自由  

 

## 6. ベンチマーク & コスト

 

| 指標 | 14B Dense | 30B-MoE | 32B Dense |

|---------------------------|-----------|---------|-----------|

| HumanEval (Python) | 87 点 | 91 点 | 92 点 |

| 生成速度 M2 Max (tokens/s)| 35 | 83 | 27 |

| VRAM 使用量 fp16 | 23 GB | 16 GB | 34 GB |

| 電気代* (RTX 4090, 1 h) | 14 円 | 5 円 | 14 円 |

 

* 電力単価 30 円/kWh、推論消費電力 320 W 相当で試算  

 

## 7. FAQ

 

Q. GPU が無いノート PC でも動く?  

A. CPU モードでも稼働しますが 5–10 t/s 程度。プロトタイプ用途向き。

 

Q. Apple Silicon は速い?  

A. Metal backend 対応済み。M2 Max で 80 t/s、M3 Max はさらに高速。

 

Q. 8 GB メモリの環境なら?  

A. 4B/8B 量子化モデルで試作し、本番は 30B-MoE に投げる「二段階ワークフロー」が定番。

 

Q. 商用 SaaS に組み込める?  

A. Apache-2.0 なので可能。推論サーバを自前でスケールさせれば OK。

 

## 8. 用語ミニ辞典

 

| 用語 | 説明 |

|------|------|

| **LLM (Large Language Model)** | 大規模言語モデル。数十億以上のパラメータを持つニューラルネット。 |

| **Token** | モデルが扱う最小単位の文字列(サブワード)。 |

| **Mixture-of-Experts (MoE)** | ルータが複数の「専門家」サブネットから一部だけ選択するアーキテクチャ。 |

| **Quantization (量子化)** | 重みを 4〜16bit に圧縮しメモリと計算を削減する技術。 |

| **Q4_K_M** | 4bit 量子化方式の一種。精度とサイズのバランスが高い。 |

| **Ollama** | モデルのダウンロード・起動を簡単に行える OSS プラットフォーム。 |

| **Roo Code** | VS Code 向け拡張。Ollama と連携し補完やツール呼び出しを提供。 |

| **LangGraph** | LLM をグラフ構造で編成し複雑なワークフローを自動化する Python ライブラリ。 |

| **HumanEval** | Python 関数自動生成タスクのベンチマーク。 |

| **num_ctx / num_predict** | 参照できる入力長/出力長の上限トークン数。 |

 

## 9. まとめ

 

1. **30B-MoE = 32B の賢さ × 14B の軽さ**  

2. セットアップは GUI 3 クリックまたは CLI 1 行  

3. コード補完・論文要約・社内ボットなど多用途  

4. ランニングコストと機密保持を両立できるローカル LLM

 

次回は「14B Dense で下書き → 30B-MoE で仕上げる二段階ワークフロー」を深掘り予定です。質問や改善案があればぜひコメントでお知らせください。

 

 




以上の内容はhttps://kafkafinancialgroup.hatenablog.com/entry/2025/07/25/082211より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14