https://pydocument.hatenablog.com/entry/2024/01/27/154219

RNNとTransformerは、どちらも系列データ（例：文章、音声、株価など）を扱うための技術です。Transformerは、RNNの課題を解決し、より高性能なモデルとして登場しました。この記事では、TransformerがRNNを比較して、違いを解説します。

RNN (Recurrent Neural Network) とは

RNNは、系列データを前から順番に処理するモデルです。RNNは再帰的構造を持ち、現在の状態を計算する際に、前の状態を「記憶」として利用します。この「記憶」があるおかげで、文脈（単語の並びなど）をある程度理解できます。例えば、文章を左から右へ一文字ずつ読んでいくようなもので、前の単語の情報を使って次の単語を予測するような処理が得意です。

RNNでは、情報を「隠れ状態」と呼ばれる形で保持しています。しかし、長い文章になるほど、この隠れ状態が過去の情報をうまく保持できなくなり、学習が難しくなります。この最初の方の情報を忘れてしまうという課題を「勾配消失問題」と呼びます。長い小説を読んでいると、最初の章の内容を忘れてしまうようなイメージです。

この問題を改善するため、LSTM(Long Short-Term Memory) やGRUGRU (Gated Recurrent Unit) といった、より高性能な記憶機能を持つRNNの改良版が登場しました。これらは、どの情報を記憶し、どの情報を忘れるかを学習することで、長い系列にも対応できるようになりました。具体的には、LSTMやGRUは、「ゲート」と呼ばれる仕組みを使って、情報の流れをコントロールします。これにより、必要な情報を長く保持し、不要な情報を忘れることができるようになりました。

Transformer：RNNの課題を克服

Transformerは、2017年にGoogleの研究者たちが発表した論文で提案されたモデルです。Transformerの核となるのが、Self-Attention という仕組みです。Self-Attentionは、系列内の各要素が、他のすべての要素との関連度を計算し、その関連度に基づいて自身の表現を更新します。文章中の各単語が、他のすべての単語との関連度を計算するようなものです。例えば、「彼はりんごを食べた。」という文で、「食べた」はSelf-Attentionにより、「彼」や「りんご」との関連度が強いことを認識し、「誰が」「何を」食べたのかをより正確に捉えます。

Transformerの利点

Self-Attentionにより、Transformerは並列処理が可能です。RNNは文章を前から順番に処理するため時間がかかりますが、Transformerは各単語の関連度を同時に計算できるため、並列処理が可能で、計算が高速です。RNNが1冊の本を順番に読むのに対し、Transformerは複数の本を同時に読めるようなものです。

また、Transformerは長距離の関係性を捉えられます。RNNは長い文章になると最初の方の単語を忘れてしまいがちです。一方、TransformerはSelf-Attentionによって、文章の最初と最後のような、離れた場所にある単語同士の関係性も捉えられます。長い小説の途中で、序盤のエピソードを忘れてしまうRNNに対し、Transformerは小説の序盤の伏線を終盤でも回収できるイメージです。このように、Self-Attentionは、文章中のどの単語とどの単語が関係しているかを、距離に関係なく捉えることができます。

Transformerの構造

Transformerは、Self-Attentionを複数組み合わせた Multi-Head Attentionを使用します。複数の視点から単語間の関連性を捉え、多角的な理解を可能にします。例えば、「りんご」が「果物」の一種、「赤い」、「丸い」など、複数の側面を同時に考慮できます。Multi-Head Attentionは、このSelf-Attentionを何回か行うことで、より複雑な関係性を捉えることができます。

まとめ

特徴	RNN	Transformer
処理方法	逐次処理（順番に処理）	並列処理（同時に処理）
長期依存関係の学習	苦手（忘却しやすい）	得意（離れた要素の関係も捉える）
計算速度	遅い	速い

RNNは有用な技術ですが、Transformerはそれを進化させた、より強力なモデルと言えます。Transformerは並列処理による高速化を実現しており、大量のデータを効率的に処理できます。長距離の関係性の学習ができ、長い文章や複雑な文脈も理解できます。また、Transformerは、自然言語処理に限らず、画像処理など、他の分野でも応用が広がっています。

Transformerはその汎用性の高さから、様々な派生モデルを生み出しています。代表的なものとしては、BERT (Bidirectional Encoder Representations from Transformers) や GPT (Generative Pre-trained Transformer) シリーズがあります。これらのモデルは、大規模なテキストデータで事前学習を行うことで、様々なタスクに対して高い性能を発揮することが知られています。

[PR]

click.linksynergy.com