使ってはいるものの、内容を理解していないので、メモ
参考url
- 【日本語 BERT 穴埋め問題】Hugging Face 入門② 〜言語モデルの種類と事前学習を理解しよう〜 【エンコーダモデル・デコーダモデル】 - YouTube
- 【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM
- TransformerをAI進化の流れと共にわかりやすく解説!Attention層に至るまで|スタビジ
- 大規模言語モデル(LLM)の仕組みや種類について分かりやすく解説!|スタビジ
- Encoder-Decoder/Attention/Transformerの調査
- 【論文解説】Transformerを理解する | 楽しみながら理解するAI・機械学習入門
Transformer の概要
EncoderとDecoderで構成され、内部にあったRNN層を除き、 Attention層のみで構成することで「速度、精度、汎用性」が向上
Transformer のLLM例
| LLM | ベース | 使用例 |
|---|---|---|
| Bert (google製) | Encoder | テキスト分類、文章の要約 |
| GPT (openai製) | Decoder | 文章生成、質疑応答 |
Transformer の構成
- EncoderとDecoderはそれぞれ単独利用もOK。
- DecoderのAttention層はEncoder入力を処理するもので、Decoderのみ使用する場合,不要
【Encoder】 【Decoder】
Output
Probablities
↑
┌──────┐ ┌──┴───┐
│Attention層 ├───→│Attention層 │
└──────┘ └──────┘
↑ ↑
│ ┌──┴───┐
│ │Masked │
│ │Attention層 │
│ └──────┘
│ ↑
┌──┴───┐ ┌──┴───┐
│単語位置把握│ │単語位置把握│
└──────┘ └──────┘
↑ ↑
Inputs Outputs
| 構成要素 | 役割 |
|---|---|
| Encoder | テキストの意味表現を固定長数値ベクトル化 |
| Decoder | 意味表現ベクトルから翻訳後のテキスト生成 |
| Attention層 | 文中で重要な単語に重み付け |
| Masked Attention層 | ググった方が早いと思います |