・LeNet
1998年にYann LeCunによって提案された初期のCNN
シグモイド関数
・ネオコグニトロン
1979年に福島邦彦によって提案された初期の画像認識ネットワーク
S細胞
C細胞
・Depthwise Separable Convolution
空間方向とチャネル方向を独立に畳み込み
・Depthwise Convolution
空間方向の畳み込み
・Pointwise Convolution
チャネル方向の畳み込み
・NAS(Neural Architecture Search)
ニューラルネットワークの構造探索技術
・NASNet
NAS技術により得られたネットワーク。
2017年に発表
AutoMLによりNormal LayerとReduction Layerを組み合わせて学習を行う
・MnasNet
NAS技術により得られたネットワーク。高精度で軽量
2018年に発表
画像認識モデル
NASNetのAutoMLを用いて、モバイル端末用に応用した手法
・物体検出
位置特定+クラス識別
FPN
R-CNN
Fast R-CNN
Faster R-CNN
SSD
YOLO
・物体識別
クラス識別のみ
・セマンティックセグメンテーション
同一クラスの物体を区別しない。背景含む
SegNet
U-Net
PSPNet
DeepLab
・インスタンスセグメンテーション
同一クラスの物体を区別する。背景含まない
Mask R-CNN
・パノプティックセグメンテーション
セマンティックセグメンテーションとインスタンスセグメンテーションの組み合わせ。背景含む
・FPN(Feature Pyramid Networks)
ボトムアップ経路
トップダウン経路
横方向の接続
・R-CNN
2段階モデル
Selective Search結果をCNNで処理
SVMでクラス分類
元画像に対して物体領域を提案
・Fast R-CNN
2段階モデル
Selective Search
CNNの出力した固定サイズの特徴量マップに対して物体領域を提案
・Faster R-CNN
2段階モデル
Region Proposal Network
・Mask R-CNN
インスタンスセグメンテーション + 一般物体検出
・YOLO(You Only Look Once)
1段階モデル
2016年発表
・SSD(Single Shot MultiBox Detector)
1段階モデル
解像度の異なる複数の畳み込み層からバウンディングボックスを出力
YOLOの後継モデル
・SegNet
セマンティックセグメンテーション用ネットワーク
エンコーダ・デコーダ構造
・U-Net
1段階
セマンティックセグメンテーション用ネットワーク
エンコーダ・デコーダ構造
FCN
・PSPNet
セマンティックセグメンテーション用ネットワーク
エンコーダ・デコーダ構造の間のPyramid Pooling Moduleで複数解像度のmax pooling
・Dilated Convolution(Atrous Convolution)
フィルタを適用する際にフィルタの各要素に間隔を設ける
間隔のことをDilationという
Dilation=1の場合が通常の畳み込みに相当する
・DeepLab
セマンティックセグメンテーション用ネットワーク
Atrous Convolution (Dilated Convolution)を使用している
Google社
・Open Pose
PAFs(Parts Affinity Fields)を使用した姿勢推定手法
・word2vec
単語のベクトル表現を学習する手法
単語埋め込みモデル
2013年グーグル
① skip-gram
→ ある単語を与えてその周辺を予測
② CBOW(Continuous Bag-of-Words)
→ 周辺の単語を与えてある単語を予測
・fastText
単語の分散表現獲得と、文章の分類を行うツール
2016年フェイスブック
word2vecの発展モデル
訓練データに存在しない単語を表現可能
・ELMo(Embeddings from Language Models)
2018年発表
文章全体の文脈を考慮した単語の分散表現を獲得できるネットワーク
word2vecの発展モデル
二層の双方向LSTM
・分散表現
低次元の実数ベクトルでの表現
・局所表現
高次元のワンホットベクトルでの表現
・Bag-of-Words
文章内の各単語の出現回数をもとに、文章をベクトルで表現する手法
・トピックモデル
文書が複数の潜在的なトピックから確率的に生成されると仮定したモデル
1つのデータを複数のクラスタに割り当てる教師なし学習の手法
・潜在的ディリクレ配分法(LDA: Latent Dirichlet Allocation)
トピックモデル
文章中のトピックを潜在変数としてモデル化
・BERT( Bidirectional Encoder Representations from Transformers )
2018年Google
以下の2つのタスクで事前学習
MLM(Masked Language Model)
NSP(Next Sentence Prediction)
その後、タスクに応じたファインチューニング
Transformerのエンコーダ構造
・PaLM(Pathways Langeage Model)
2022年Googleが発表した大規模言語モデル
・GLUE(General Language Understanding Evaluation)/SuperGLUE
複数の自然言語処理タスクにおける機械学習モデル精度評価のためのベンチマーク
・SQuAD
質疑応答テストのベンチマーク
GLUEに含まれる言語理解のタスクのセット
・音韻
人間が発声する区別可能な音の単位
音素認識を包含しているアクセントなどを含めた抽象的な音体系
・音素
言語ごとに区別される音の最小単位
・隠れマルコフモデル
音声認識手法
状態が直接観測されず、状態遷移によって発生した事象のみが観測できるモデル
・スペクトル包絡
周波数スペクトルにおける音の強さの変化。音色の違いを表す
・メル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)
スペクトル包絡の手法
・フォルマント
スペクトル包絡のピーク
・メル尺度
人間の感じる音の高さの差の尺度
・CTC(Connectionist Temporal Classification)
RNNでの音声認識タスク手法
周波数スペクトルにメルフィルタバンクを適用し、離散フーリエ変換を行う
入力系列と異なる長さの出力系列を扱える
HMMを用いず、DNNのみで音響モデルを構築
・Whisper
音声認識タスクのニューラルネットワーク
・WaveNet
音声生成タスクのニューラルネットワーク
2016年DeepMind社
・Tacotron 2
Googleが開発したText-to-Speechモデル
・Jukebox
OpenAIの音楽生成モデル
・DQN(Deep Q-Network)
Q学習とディープラーニングの組み合わせ
ダブルDQN
ノイジーネットワーク
デュエリングネットワーク
Rainbow
Ape-X
Agent57
・Rainbow
2017年
DQN
ダブルDQN
ノイジーネットワーク
デュエリングネットワーク
マルチステップラーニング
カテゴリカルDQN
優先度付き経験再生
以上7つの手法の組み合わせ
Atari2600プレイ可能
・DQN
状態行動価値Qを学習
最適行動選択と行動価値関数の評価を別のネットワークで行う
・ダブルDQN
最適行動選択と行動価値関数の評価を別のネットワークで行う。TDターゲットが課題評価される問題を解決
最適行動選択 -> Q-network
行動価値関数の評価 -> Target-Q-nework
・ノイジーネットワーク
ネットワーク自体にノイズを加えることで、広い行動範囲を探索
・デュエリングネットワーク
状態価値VとアドバンテージA(=Q-V)を学習する
どのような行動をとっても価値が変わらない状況における学習精度が向上する
・AlphaGo
囲碁用ゲームAI
モンテカルロ木探索と深層強化学習の組み合わせ
Google DeepMind社開発
2015年プロの囲碁棋士に勝利
Policy Network
Value Network
・AlphaGo Zero
人間の棋譜データを使用しない
自己対戦データのみで学習
・アルファゼロ
2017年DeepMind
囲碁、将棋、チェスのチャンピオンモデルに勝利
・AlphaStar
スタークラフト2用ゲームAI
ResNetやLSTMと強化学習の組み合わせ
・OpenAI Five
Dota2用ゲームAI
マルチエージェント学習
LSTMで系列情報を処理
PPO(Proximal Policy Optimization)と呼ばれる強化学習アルゴリズムで学習
・Ape-X
Atari2600用ゲームAI
DQNベース
優先順位付き経験再生を分散強化学習に適用
・Agent57
Atari2600用ゲームAI
DQNベース
Never Give Up(NGU)
R2D2
という二つの強化学習モデルを基盤としている
内部報酬
複数の探索レベルをもつエージェント群+メタコントローラ
・強化学習の手法
オフライン強化学習
残差強化学習
マルチエージェント強化学習
状態表現学習
・状態表現学習
事前に状態に関する特徴表現を学習することで、学習効率を高める手法
転移学習が容易
次元削減可能
・残差強化学習
最適な方策との差分を強化学習で学習
・sim2real
シミュレータで学習したモデルを実世界へ適用すること
・ドメインランダマイゼーション
パラメータをランダムに決めた複数のシミュレータで学習することで実世界とのギャップを軽減する手法
・報酬整形
報酬関数の設計と学習された方策の挙動確認を繰り返し、報酬関数を作りこむプロセス
・敵対的生成ネットワーク(GAN: Generative Adversarial Networks)
ジェネレータとディスクリミネータ
DCGAN(Deep Convolutional GAN)
CycleGAN
Pix2Pix
・DCGAN(Deep Convolutional GAN)
ネットワークにCNNを適用
・CycleGAN
ある画像を生成し、その生成した画像をもとの画像に再変換する
もとの画像と再変換した画像が一致するように学習する
・Pix2Pix
学習には入力画像の他、それとペアになる正解画像のセットが必要
・拡散モデル
ノイズから画像生成
データに対して徐々にノイズを加え、そのノイズを除去する過程を学習する
・Flowベース生成モデル
潜在変数を用いて画像生成
・NeRF(Neural Radiance Fields)
与えられた画像に対して別視点から見た画像を生成できる画像生成技術
・マルチモーダルタスク
VQA(Visual Question Answering)
Text-to-Image
Image Captioning
・CLIP(Contrastive Language-Image Pretraining)
画像とその説明文のペアを使用して学習する画像分類ネットワーク
単体では画像生成はできない
・DALL-E
OpenAIが開発したText-to-Imageネットワーク
・Flamingo
ディープマインド・テクノロジーが開発したネットワーク
Image Captioning
Visual Question Answering
Optical Character Recognition
が可能
・Unified-IO
姿勢推定
物体検出
質問応答
VQA
Text-to-Image
が可能なネットワーク
・CAM(Class Activation Map)
特徴マップの値を利用し、CNNの予測根拠を可視化するXAI手法
・Grad-CAM
CAMを改善したXAI手法
・Guided Grad-CAM
Grad-CAM + GuidedBackPropagation
・LIME(Local Interpretable Model-agnostic Explanations)
XAI手法
一つの予測結果に対して、局所的近似により特徴量を選ぶ
・SHAP(SHapley Additive exPlanations)
XAI手法
・PI(permutation importance)
XAI手法
検証データ全体を用いて、個々の特徴量の重要度を求める手法
・宝くじ仮説
どのようなネットワークにも元のネットワークと同等精度を達成できるサブネットワークが含まれるという仮説
・Seq2Seq
エンコーダデコーダと呼ばれる2つのRNNで構成される
・FCN(Fully Convolutional Network)
セマンティックセグメンテーションに使用される
畳み込み層とプーリング層のみで構成
・能動学習
正解ラベルがついていない大量のデータに対し、適応的にラベルを付与するデータを選択する手法
・転移学習
出力層のみ更新
・ファインチューニング
ネットワーク全体を更新
・GPT
2018年 OpenAI
パラメータ数:1億1700万
Transformerのデコーダ構造
・GPT-2
2019年 OpenAI
パラメータ数:15億
・GPT-3
2020年 OpenAI
パラメータ数:1750億
・ChatGPT
2022年 OpenAI
GPT-3.5をベース
・GPT-4
画像入力可能
・switch-c-2048
2023年 Google
パラメータ数:1.6T
・Bard
2023年 Google
LLMを活用した対話型AI