以下の内容はhttps://www.tomog-storage.com/entry/Program-etc-AboutAIForBegginerより取得しました。


【AIの進化】Transformerを基礎とし発展したAIについて【BERT・GPT-1~GPT-3】

本ページには、プロモーションが含まれています。

下記の記事にてAIの基礎となったTransformerについて勉強してきました。

しかしただ学んだだけでは何の役にも立たず、どのようにして他のAIに進化してきたのか、どのような取り組みがされていったのかを筆者なりに理解した内容についてまとめていきます。

またTransformerからどのように発展したのかを解説するため、Transformerは前提知識であり、詳細な説明は割愛しています。

よく分かっていない方は、まずは上記の記事をご覧ください。

BERT

BERTの正式名称は【Bidirectional Encoder Representations from Transformers】の略称です。

日本語では「Transformerによる双方向のエンコード表現」と呼ばれています。

Transformerとの違い

このBERTとTransformerの大きな違いはこの2つ。

・Transformerのエンコーダー部分のみ使用

・Transformerよりも全体のスケールを増やした

エンコーダー部分のみを使用は分かりやすいですが、全体のスケールを増やしたというのは分かりにくいかと思います。

ここでのスケールとは、トークン毎のベクトル次元を増やしたり、エンコーダー部分をループさせる回数を増やしたりすることを指します。

またそれに併せてMHAで使用した重み行列の次元数も上げられるため、よりパラメーター数が巨大化したと言っていいでしょう。

どうやって動いているのか

引用:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

どのようにして動いているのかは、原論文に分かりやすく示されており、上図となります。

入力のEはEmbedding、途中のノードTrmはTransformerのエンコード部分、TはTransformerの出力という意味となります。

Trmノード1つにつき、【MHA→Add&Norm→FFN→Add&Norm】の処理を複数回しているため、Transformerのエンコード部分を何回も実行しているのが分かるでしょう。

その後、Masked Language Modeling(通称MLM)とNext Setntence Prediction(通称NSP)という処理を行います。

MLMはトークンにMaskを付けて元のトークンを予測する穴埋め問題をし、NSPでは2文選んで連続した文かどうかを当てるといった処理です。

GPT-1~GPT-3

GPTはOpenAIが開発しているAIで、Generative Pre-trained Transformerの略称です。

無理やり日本語訳すると、事前学習した生成モデルといったところでしょうか。

このGPTについても簡単ではありますが紹介していきます。

初代のGPTは

引用:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

まずは初代であるGPT-1を理解しておくといいしょう。

GPT-1の仕組みについては、BERTの原論文にて図示されており、それが上図となります。

ただ絶対的に違う部分は、BERTはTransformerのエンコーダー部分のみを利用していましたが、GPT-1はデコーダー部分のみを使用しています。

GPT-1からGPT-3まで違い

基本構造はあまり変わらず、主にパラメーター数と学習データ量が一気に跳ね上がりました。

事前学習に関してはLarge Language Model(通称LLM)などが含まれてきますが、そこを含むと長くなりすぎるので割愛します。

そしてパラメーター数ですが、GPT-1からGPT-3までの推移が下図となります。

データ引用:ChatGPTのパラメータ数とは?無料/有料版の違いや影響も紹介

注意点としてパラメーター数をただ増やしたわけではなく、モデルやその他のデータ規模に基づいて設定されています。

BERTとGPT-1~GPT-3までの共通点

さてこれまでBERTとGPT-1からGPT-3までを簡単に確認してきました。

Transformerのどの部分を利用するか差異があるものの、共通していたのは下記の2点。

・Transformer処理を複数回繰り返した

・スケールやパラメーター数を増やした

参考記事

www.ai-souken.com

BERT

aismiley.co.jp

qiita.com

mieru-ca.com

・原論文

arxiv.org

GPT

deepsquare.jp

toukei-lab.com

metaversesouken.com

・GPT-1原論文

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

・GPT-2原論文

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

・GPT-3原論文

arxiv.org


本記事の内容は以上となります。

Transformerから始まったAIの進化、その中でもTransformerのすぐ後に生まれたAIについてまとめました。

今日筆者たちが触っているAIとは処理速度も精度も全く異なりますが、基礎は全て引き継がれているため理解しておくといいでしょう。

本記事は以上です。お疲れさまでした。




以上の内容はhttps://www.tomog-storage.com/entry/Program-etc-AboutAIForBegginerより取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14