以下の内容はhttps://cysec148.hatenablog.com/entry/2025/07/11/121254より取得しました。


第31回|LLMをどう訓練するの?学習データと工程を解説

Hello there, ('ω')ノ

🧠 そもそもLLMの“訓練”って?

AIモデルにとっての訓練とは、

「大量のデータを読み込み、そこからルールやパターンを学ぶ」こと。

人間で言えば「本をたくさん読んで、自然と文章力が身につく」のと似ています。


🔁 LLMの訓練ステップは大きく分けて3段階!

🧩 ステップ①:事前学習(Pretraining)

AIが世界中の文章を読みまくる「読み書きの基礎体力作り」

  • 数兆語にも及ぶインターネット上の文章を対象に学習
  • 次の単語を予測するという単純なタスクで、言語のパターン・構文・知識を身につける
  • 例:「私は朝[ ]を飲みます」→「コーヒー」などを予測

📌 ここでAIはまだ「なんとなくそれっぽいことが言える」程度の力を持ちます。


💡 ステップ②:微調整(ファインチューニング)

特定の目的や業務に合うように“クセづけ”する工程

  • チャット、翻訳、要約など特定のタスクに対応できるように学習
  • より正確で一貫性のある応答ができるようになる
  • 例:「質問と回答のペア」などの構造化されたデータを使うことが多い

📌 ChatGPTのような会話AIは、この段階で“会話らしさ”を身につけます。


🙋‍♀️ ステップ③:人間によるフィードバック学習(RLHF)

AIの返答に「人間らしさ」や「好ましさ」を加える最終仕上げ

  • RLHF:Reinforcement Learning from Human Feedback(人間のフィードバックによる強化学習)
  • 手順はこうです:

① AIが複数の回答を出す ② 人間が「より良い回答」を選ぶ ③ AIはその選択を学習して、次から“より人間に好かれる回答”を出すように進化

📌 ChatGPTが「失礼のない表現」や「親しみやすい会話」ができるのは、ここで鍛えられた結果です。


📚 学習データってどこから来るの?

LLMの学習データには以下のようなものがあります。

データの種類 具体例
ウェブデータ ウィキペディア、ニュース記事、ブログ、Q&Aサイトなど
書籍 文学作品、専門書、教科書など(パブリックドメイン中心)
コード GitHubなどのオープンなプログラムコード
会話データ フォーラムやチャットのログ(匿名・加工済み)など
合成データ/人間作成 プロンプトと応答の例を人間が用意したもの、AIが出した結果を加工したものなど

📌 著作権やプライバシーに配慮したフィルタリングが行われることが一般的です。


🔧 訓練に必要なリソース

LLMの学習には、とてつもない計算資源が必要です。

リソース 内容
データ量 数百GB〜数TB(書籍に換算すると数十万冊分)
GPU/TPU 数百台〜数千台の並列処理
学習時間 数週間〜数ヶ月
開発コスト 数億〜数十億円規模(電気代や人件費含む)

だからこそ、企業や研究機関でしかフルスケールのLLMをゼロから訓練するのは難しいのが現実です。


👩‍💻 小規模なLLMなら自分でも訓練できる!

最近では以下のような方法で、個人や企業が小規模なLLMを訓練・活用することも増えています。

  • 🤏 小型モデルのファインチューニング(例:GPT-2や日本語GPT)
  • 📚 自社文書やFAQでの特化学習(業務特化型チャットボットなど)
  • 🔧 LoRA(低リソース学習)などの軽量技術の活用

📌 「大規模」は無理でも、「自分たちにちょうどいいAI」を作ることは十分可能!


✅ まとめ:LLMは“育て方”が命!

✅ LLMの訓練は、事前学習 → 微調整 → 人間フィードバック の3ステップ

✅ 大量のテキストデータを通して“ことばの感覚”を身につける

✅ RLHFによって「人間らしい振る舞い」が可能に

✅ コストは高いが、小規模モデルであれば企業でも導入・活用できる!

Best regards, (^^ゞ




以上の内容はhttps://cysec148.hatenablog.com/entry/2025/07/11/121254より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14