https://htn20190109.hatenablog.com/entry/2026/01/30/080824

・自己回帰モデル
1種類の時系列データを使用

・ベクトル自己回帰モデル
複数の時系列データを使用

・k-means
階層なしクラスタリング
事前にクラスタ数を決定する必要あり

・ウォード法
階層ありクラスタリング
事前にクラスタ数を決定する必要なし
デンドログラム
分散が最小となるようにデータをクラスタリング

・KNN（K-Nearest Neighbors）
教師あり学習

・協調フィルタリング
複数のユーザの過去の購買情報や評価情報を利用して、予測推薦を行うレコメンデーション手法

・コンテンツベースフィルタリング
商品情報に関する特徴量を利用し、類似する商品を推薦するレコメンデーション手法

・コールドスタート問題
協調フィルタリングで新商品が候補にあがりづらい問題

・多腕バンディット問題
複数スロットマシンから、決められた回数内であたりを引くことを目指す問題

・ε-greedy方策
多腕バンディット問題アルゴリズム
確率εで探索(Exploration)、確率1-εで活用(Exploitation)

・UCB方策(Upper-Confidence Bound Policy)
多腕バンディット問題アルゴリズム
報酬最大の行動と選択回数が少ない行動を優先的に選ぶ
UCBスコア = 平均報酬（活用） + ボーナス項（探索）

・方策勾配法
関数で方策を表し、方策そのものを学習する
REINFORCE
Actor-Critic
A3C
PPO

・REINFORCE
方策勾配法アルゴリズム
AlphaGoに使用

・Actor-Critic
方策勾配法アルゴリズム
価値関数のアプローチと方策勾配法のアプローチの組み合わせ

・A3C(Asynchronous Advantage Actor-Critic)
方策勾配法アルゴリズム
2016年DeepMind

・PPO(Proximal Policy Optimization)
方策の更新を小さく抑えるために、方策比にクリッピングを導入
OpenAI Five

・状態価値関数
・行動価値関数(Q値)

・Q学習
Q値を最適化する手法

・SARSA(State-Action-Reward-State-Action)
Q値を最適化する手法

・赤池情報量基準(AIC)(Akaike's Informtion Criterion)
AIC = -2log(L) + 2k
L: モデルの尤度
k: モデルのパラメータ数

・ベイズ情報量規準(BIC)(Bayesian Information Criterion)
BIC = -2log(L) + klog(n)
L: モデルの尤度
k: モデルのパラメータ数
n: データ数

・ノーフリーランチ定理
あらゆる問題において優れた汎化性能を持つモデルは存在しない

・勾配ブースティング
LightGBM
XGBoost
CatBoost
AdaBoost

・AdaBoost
決定木や線形回帰
ブースティング
軽量

・XGBoost
決定木や線形回帰
ブースティング
高精度かつ高速

・ランダムフォレスト
回帰、分類
決定木
バギング

・次元削減手法
主成分分析(PCA)
t-SNE(t-Distributed Stochastic Neighbor Embedding)
特異値分解(SVD)
多次元尺度構成法(MDS)

・t-SNE(t-Distributed Stochastic Neighbor Embedding)
確率分布を使用する
二つの分布の近さをKL-Divergenceで表現し、この値を小さくする
次元削減後は自由度1のt-分布

・特異値分解(SVD)
A=UΣV
U、V:直行行列、行列Aに対して一意でない
Σ:対角行列、行列Aに対して一意
Σの対角成分が行列Aの特異値(非負)

・多次元尺度構成法(MDS)
データの距離や類似度の大小関係を維持したまま低次元空間に再現

・標準化
特徴量を平均=0、標準偏差=1 に変換

・正規化(サンプル正規化)
特徴量を最小値=0、最大値=1 に変換

・白色化
無相関化 + 標準化

・ROC曲線
TPR vs FPR
陽性判定の閾値を0-100%の間で変化させてプロット

・第一種の過誤
偽陽性

・第二種の過誤
偽陰性