インデックス

Googlebot が収集したデータは、検索エンジンが処理しやすい形式に変換されてデータベースに保存されます。この処理はインデックスと呼ばれ、書籍の索引を作成するイメージです。

インデックス時には、ページの情報をそのまま保存するだけでなく、ページに含まれるキーワードや公開からの経過時間など、さまざまな追加情報も一緒にデータとして保存されます。

Google のインデックス情報には、数千億ものWebページが登録されており、そのサイズは 1億ギガバイトを超えるといわれています。こうしたビッグデータの処理はもちろん簡単ではなく、インデックス処理の遅延を問題視したGoogle は2010年にCaffeine(カフェイン)と呼ばれるインデックスシステムを新たに構築しています。

ユーザーが入力した検索キーワードに対して、インデックスに保存されている中から有益で関連性の 高いページを返します。ここで最適なページの抽出を担うのが、 Google が開発した検察アルゴリズム です。検索アルゴリズムは主に次の3つの処理を含みます。

  1. 検索キーワードの分析
  2. 検索キーワードの照合
  3. ページのランキング

ユーザーが入力したキーワードの意味・意図を把握します。この分析処理には高度な自然言語技術が応用されており、同音異義語も精度高く区分することが可能です。

検索キーワードの意味・意図を理解し、要求を満たすものをインデックスされたページ群から抽出します。検索キーワードが含まれたページを索引から探すイメージです。

インデ ックスから抽出したページ群を、ユーザーの有益度に応じて順位付けします。 このランキングアルゴリズムに変数として与えられる要素を評価要素( ランキングシグナル)と呼びます。評価要素は 200 以上あるといわれていますが、その内容はほとんど非公開になっています。評価要素を推測することは、 SEOで非常に重要です。

    

アルゴリズム ONE MOVIE TOP