https://www.tomog-storage.com/entry/Program-etc-AboutAIForBegginer

下記の記事にてAIの基礎となったTransformerについて勉強してきました。

【Transformer】AIで重要な深層学習モデルの基本まとめ7【まとめ】 - TomoGのごちゃまぜ倉庫

しかしただ学んだだけでは何の役にも立たず、どのようにして他のAIに進化してきたのか、どのような取り組みがされていったのかを筆者なりに理解した内容についてまとめていきます。

またTransformerからどのように発展したのかを解説するため、Transformerは前提知識であり、詳細な説明は割愛しています。

よく分かっていない方は、まずは上記の記事をご覧ください。

BERT

BERTの正式名称は【Bidirectional Encoder Representations from Transformers】の略称です。

日本語では「Transformerによる双方向のエンコード表現」と呼ばれています。

Transformerとの違い

このBERTとTransformerの大きな違いはこの2つ。

・Transformerのエンコーダー部分のみ使用

・Transformerよりも全体のスケールを増やした

エンコーダー部分のみを使用は分かりやすいですが、全体のスケールを増やしたというのは分かりにくいかと思います。

ここでのスケールとは、トークン毎のベクトル次元を増やしたり、エンコーダー部分をループさせる回数を増やしたりすることを指します。

またそれに併せてMHAで使用した重み行列の次元数も上げられるため、よりパラメーター数が巨大化したと言っていいでしょう。

どうやって動いているのか

引用：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

どのようにして動いているのかは、原論文に分かりやすく示されており、上図となります。

入力のEはEmbedding、途中のノードTrmはTransformerのエンコード部分、TはTransformerの出力という意味となります。

Trmノード1つにつき、【MHA→Add&Norm→FFN→Add&Norm】の処理を複数回しているため、Transformerのエンコード部分を何回も実行しているのが分かるでしょう。

その後、Masked Language Modeling（通称MLM）とNext Setntence Prediction（通称NSP）という処理を行います。

MLMはトークンにMaskを付けて元のトークンを予測する穴埋め問題をし、NSPでは2文選んで連続した文かどうかを当てるといった処理です。

GPT-1～GPT-3

GPTはOpenAIが開発しているAIで、Generative Pre-trained Transformerの略称です。

無理やり日本語訳すると、事前学習した生成モデルといったところでしょうか。

このGPTについても簡単ではありますが紹介していきます。

初代のGPTは

引用：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

まずは初代であるGPT-1を理解しておくといいしょう。

GPT-1の仕組みについては、BERTの原論文にて図示されており、それが上図となります。

ただ絶対的に違う部分は、BERTはTransformerのエンコーダー部分のみを利用していましたが、GPT-1はデコーダー部分のみを使用しています。

GPT-1からGPT-3まで違い

基本構造はあまり変わらず、主にパラメーター数と学習データ量が一気に跳ね上がりました。

事前学習に関してはLarge Language Model（通称LLM）などが含まれてきますが、そこを含むと長くなりすぎるので割愛します。

そしてパラメーター数ですが、GPT-1からGPT-3までの推移が下図となります。

データ引用：ChatGPTのパラメータ数とは？無料/有料版の違いや影響も紹介

注意点としてパラメーター数をただ増やしたわけではなく、モデルやその他のデータ規模に基づいて設定されています。

BERTとGPT-1～GPT-3までの共通点

さてこれまでBERTとGPT-1からGPT-3までを簡単に確認してきました。

Transformerのどの部分を利用するか差異があるものの、共通していたのは下記の2点。

・Transformer処理を複数回繰り返した

・スケールやパラメーター数を増やした

参考記事

www.ai-souken.com

BERT

・原論文

GPT

deepsquare.jp

toukei-lab.com

metaversesouken.com

・GPT-1原論文

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

・GPT-2原論文

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

・GPT-3原論文

arxiv.org

本記事の内容は以上となります。

Transformerから始まったAIの進化、その中でもTransformerのすぐ後に生まれたAIについてまとめました。

今日筆者たちが触っているAIとは処理速度も精度も全く異なりますが、基礎は全て引き継がれているため理解しておくといいでしょう。

本記事は以上です。お疲れさまでした。