https://qiita.com/qOpenDev/items/e388509324e29d338a84
https://www.nomuyu.com/multi-head-attention/
https://qiita.com/R-Tone/items/24d8a1e2b805d69a13c1
https://zenn.dev/yuto_mo/articles/72c07b702c50df
https://developers.agirobots.com/jp/multi-head-attention/
https://note.com/kikaben/n/nda0d7a609f88
・Scaled Dot-Product Attention
・Self-Attention
→ 自己注意機構
Query、Key、Valueが同じ入力
・SourceTarget Attention ( Cross-Attention )
→ 交差注意機構
Queryはデコーダーの出力由来
Key、Valueはエンコーダーの出力由来
・Masked Attention
→ 単語の先読み禁止したAttention
・Single-Head Attention
→ 学習パラメータを持たないScaled Dot-Product Attentionの表現能力を広げるために、
各入力の直前に学習パラメータを持つLinear層を追加したもの
・Multi-Head Attention
→ Single-Head Attentionを多数並列に配置することで、さまざまな注意表現の学習を可能にしたAttention機構
・フィードフォワード層
→ 入力層に加えて1つの中間層と出力層をもつ、2層の順伝播型ニューラルネットワーク