【根本から検索の仕組みを知る②(クロールとインデックス登録)】検索プロセスで実施される、きめ細かい「情報の検出」と「情報の整理」。
こんにちは、ペンギン男です🐧
Googleの主要な商品は良質な検索結果とその表示だと理解しています。実際、類書にも、クロールやインデックス登録のトピックはゴマンと書いてありますが、どちらかと言えば、二次的なもの、何もしなくてもついてくる、そんなには重要視する必要のない事項として捉えていました。しかし、こうやって改めて、まとまった形で接すると、クロールやインデックス登録の重要性が、かなりクッキリ浮かんできますね。
————————————————————————
【目次】
————————————————————————
上記Google「検索の仕組み」のウェブページでの表記順、見出し順に(基本的に)見ていきます。
クロールによる情報の検出
クローラは、ユーザーがウェブ上でコンテンツを閲覧するときとおなじように、ウェブページを見て、ページ上のリンクをたどります。リンクからリンクを移動し、ウェブページに関するデータをGoogleのサーバーに蓄積していきます
このリンクのネットワークにうまく入ることが出来れば最高なのでしょうね。しかし、どう自サイトを組み込んでもらえるかにつき、具体策は、まるで思い浮かびせん。なので、とにかく(不自然でない流れでの)リンクをたくさん貼り、そして、ある程度ロジカルに、Googleの言葉で言えば、構造的に実施していくことしかないのでしょうね。私には、ちょっと荷が重そうです💦
インデックスによる情報の整理
Google検索のインデックスには何千億ものウェブページが登録されており、その容量は優に1億GBを超えます
しかしインデックスの登録単位はどのようなメッシュ?どのくらい細かい?
各ウェブページに含まれているすべての語が1つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加さらるということです。
そうですか。一語、一語ですか💦すごいですね。
Google検索の凄さの一例
Google検索では、現在、主要な図書館に所蔵されている何万冊という書籍からテキストを検索したり、地域の公共交通機関の移動時間を調べたり、世界銀行などの一般に公開されている情報のデータを検索したりすることができます。
主要図書館からの検索↓
About Google Books – Google Books
公共交通機関の時間検索↓
世界銀行などのデータ検索↓
そういえば、英国オクスフォード大学や、大英博物館とのコラボの記事も目にしたことあります。
特に大英博物館については、大英博物館の展示物をツアー形式で見せてくれるという、かなり楽しい内容になっています😊
最後に
Google検索の基本中の基本技術の解説でした。正直、これで個別の操作に直接的にプラスに貢献することはなさそうですが、ベースの部分に触れられたので、個人的には、若干、安心感が増しております💦
また、次回。
#Google検索の仕組み