https://uga-box.hatenablog.com/entry/2024/06/17/000000

Googleのサーチアルゴリズムが漏洩して話題になった

このあたりの記事がよく引用されていたので読んでみる

ipullrank.com

漏洩した文書には、Google が検索結果のランク付け方法を決定するために考慮する 14,014 の属性を持つ 2,596 のモジュールがあると記載されているとのこと

Google が検索結果のランク付けに使用するいくつかの要素

ドメインオーソリティ: Google は、ウェブサイトのランク付け能力を評価するために、「ドメインオーソリティ」と呼ばれる機械学習ベースのスコアを使用している
クリック: Google は、ランキングを後押し、低下、または強化するために、クリックに基づく測定値を使用する NavBoost というシステムを使用している
- NavBoostは、Google検索でランキングを調整するためにクリック駆動型の指標を採用したシステム
- 2005年頃から存在し、以前は18か月間のクリックデータを使用
- このシステムは最近更新され、13か月間のデータを使用するようになり、ウェブ検索結果に焦点を当てている
- Googleのスポークスパーソンは、クリックをランキングに使用していないと主張してきたが、漏洩したAPIドキュメントには、クリックシグナルのみに焦点を当てたNavboostのモジュールが含まれている
- Googleの最も強力なランキングシグナルの1つ
- サブドメイン、ルートドメイン、URLレベルでのスコアリングを検討している証拠もあり、サイトのさまざまなレベルを異なる方法で扱っている
ホストエイジ: Google は、PerDocData と呼ばれるモジュールで、新しいサイトをサンドボックス化するために使用される hostAge という属性を使用している
ウェブサイトの年齢や信頼シグナルの欠如に基づいてウェブサイトが隔離されるサンドボックスはないと断言されてきたが、あることがわかった
Chrome からのビュー: ページ品質スコアに関連するモジュールの 1 つに、Chrome からのサイトレベルのビュー測定値があり、Chromeのデータが検索に提供されていることがわかった
作成者: Google は、ドキュメントに関連付けられている作成者をテキストとして明示的に保存し、ページ上のエンティティがそのページの作成者でもあるかどうかを判断しようとする
リンクの関連性: リンクがリンク先のターゲットサイトと一致しない場合、計算上、そのリンクは降格される
インデックス登録の階層: ページがインデックス登録されている場所と、そのページの価値の間に緩やかな関係を示す sourceType という指標がある
- sourceTypeとは、ページがどこにインデックスされているかと、そのページの価値の関係を示す指標
- Googleのインデックスは階層化されており、最も重要で定期的に更新され、アクセスされるコンテンツはフラッシュメモリに保存される
- 重要度の低いコンテンツはソリッドステートドライブに保存され、更新頻度の低いコンテンツは標準のハードドライブに保存される
- つまり、階層が高いほどリンクの価値が高い
- 「新鮮」とみなされるページも高品質とみなされる
- クリックがない場合は低品質のインデックスに入り、リンクは無視
- 検証可能なデバイスからのクリックが多い場合は、高品質のインデックスに入り、リンクはランキングシグナルを渡す
- 新鮮であるか、上位層に掲載されているページからのリンクが理想
リンクスパムの速度: Google は、スパムアンカーテキストの急増を識別するための指標を多数持っている
リンクの変更: Google は、ページに対してこれまでに確認したすべての変更を保持しているが、比較のために DocInfo を取得してデータを表示する場合、ページの最新の 20 個のバージョンのみを考慮する
ホームページの PageRank: すべてのドキュメントには、ホームページの PageRank（Nearest Seed バージョン）が関連付けられていて、新しいページが独自の PageRank を取得するまで、新しいページのプロキシとして使用される可能性がある
ホームページの信頼性: Google は、ホームページをどの程度信頼しているかに基づいて、リンクの価値を判断する
用語とリンクのフォントサイズ: Google は、ドキュメント内の用語の平均加重フォントサイズを追跡していて、リンクのアンカーテキストについても同様のことを行っている
内部リンク: droppedLocalAnchorCount は、一部の内部リンクがカウントされていないことを示唆している
トークンの数: Google は、トークンの数と、本文中の総単語数と一意のトークン数の比率をカウントし、ドキュメントには、Mustang システムでドキュメントに対して考慮できるトークンの最大数が示されており、作成者は最も重要なコンテンツを先頭に置く必要があることが強調されている
キーワードの詰め込み: キーワードの詰め込みスコアがある
ページタイトル: Google は、ページタイトルがクエリとどの程度一致するかに、積極的に価値を与えている
日付: Google は、ページに日付を関連付けようと何度も試みていて、ページに明示的に設定された日付である bylineDate、URL またはタイトルから抽出された日付である syntacticDate、ページの内容から導き出された日付である semanticDate がある
ドメイン登録情報: Google は、複合ドキュメントレベルで最新の登録情報を保存する
動画: サイトのページの 50% 以上に動画が含まれている場合、そのサイトは動画中心とされ、異なる扱いを受ける
YMYL: Google は、YMYL ヘルスと YMYL ニュースのスコアを生成する分類器を持っていて、「フリンジクエリ」またはこれまでに見たことのないクエリが YMYL かどうかを予測する
サイトの埋め込み: Google は、ページがどの程度トピックから外れているかを確認するために、ページとサイトをベクトル化し、ページの埋め込みとサイトの埋め込みを比較していて、 siteFocusScore は、サイトが 1 つのトピックにどの程度固執しているかを捉えている
小規模なパーソナルサイト: Google には、サイトが「小規模なパーソナルサイト」であるかどうかを示す特定のフラグがある
著者名: Google公式のE-E-A-T推奨通り、author属性は特徴量になっていて、Google はドキュメントに関連付けられた著者をテキストとして明示的に保存している

上記は網羅的なリストではないのと、これらの要素がどのように重み付けされているかは、漏洩した文書では明らかになっていないが

日付や著者名など、やれてないところはやっていた方がいいと思った

他参考

https://x.com/kenn/status/1795500175487832491

https://github.com/googleapis/elixir-google-api