HOME > CASISブログ,SEO > クローラ(ロボット)のユーザーエージェント(UA)一覧 | ホームページ制作 【スタジオCASIS】
クローラ(ロボット)のユーザーエージェント(UA)一覧 | ホームページ制作 【スタジオCASIS】
アクセス解析を見ていると、見慣れないクローラ(ロボット)を目にする事があるかと思います。
頻繁にアクセスしてくる見慣れないクローラがあった場合、何のロボットなのか非常に気になったりします。
皆さんも良くご存知のクローラから、見慣れないクローラまでのユーザーエージェントをご紹介したいと思います。
クローラ(Crawler)とは
ウェブページを巡回し、文章や画像などの情報を収集して蓄積し、データベース化するプログラムが「クローラー」です。
ボット(Bot)、ロボット、スパイダー(Spider)などとも呼ばれています。
主に検索エンジンのデータベース、インデックス作成に使われています。
クローラ(ロボット)のユーザーエージェント(UA)一覧
ユーザーエージェントは、グーグルのクローラを例とすると、下記のようなものです。
PC用 | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
---|---|
スマホ用 | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
全部掲載すると見辛いと思うので、ユーザーエージェントの中に含まれているクローラの名称のみ記載します。
クローラ名称 | 説明 |
---|---|
Googlebot | 世界最大の検索エンジンGoogleのクローラ これが来てくれないと、ネット検索にヒットしません |
msnbot | 検索エンジン大手MSNのクローラ PCのOSのWindowsのマイクロソフト社 |
bingbot | MSNが運営する検索エンジンBingのクローラ |
Yahoo! Slurp | 検索エンジン大手Yahoo!のクローラ アメリカのヤフーです |
Y!J | Yahoo! japanのクローラ 日本のヤフーです |
facebookexternalhit | フェイスブックのクローラ |
Twitterbot | ツイッターのクローラ |
Applebot | Appleの独自のWebクローラ |
Linespider | LINEが管理するクローラ |
Baidu | 中国最大の検索エンジンBaiduのクローラ |
YandexBot | ロシアの最大手検索エンジンYandexのクローラ |
Yeti | 韓国の検索エンジンNAVERのクローラ |
dotbot | Mozが運営する「Open Site Explorer」のクローラ |
rogerbot | 米国大手SEO分析ツール会社Mozのクローラー |
AhrefsBot | 大手SEO分析ツール「Ahrefs」のクローラ |
MJ12bot | 英国大手SEO分析ツール「Majestic」のクローラ |
SMTBot | SEO分析ツール「similarweb」のクローラだと思われる |
BLEXBot | SEO分析ツール「WebMeUp」のクローラ |
linkdexbot | SEO分析ツール「linkdexbot」のクローラ |
SemrushBot | SEO分析ツール「SEMRush」のクローラ |
360Spider | 中国の検索エンジンHaosouのクローラ 360Spiderと言うユーザーエージェントを残さず、hn.kd.ny.adslと言うホストで来る場合もある |
spider | 中国の検索エンジンSogouのクローラ |
YoudaoBot | 中国の検索エンジン「有道」のクローラ |
DuckDuckGo | 検索エンジンDuckDuckGoのクローラ |
Daum | 韓国の情報ポータルサイトDaumのクローラ |
Exabot | フランスの検索エンジンExaleadのクローラ |
SeznamBot | チェコ共和国のwebポータルSeznam.czのクローラ |
Steeler | 東京大学の喜連川研究室 で運用しているクローラ |
Sonic | 早稲田大学大学院の山名研究室で運用しているクローラ |
BUbiNG | イタリアのミラノ大学のクローラ コンテンツ分析だと想定される |
Barkrowler | フランスの小さなデータ分析会社のクローラで、取得したデータは検索エンジン開発に利用しているらしい |
GrapeshotCrawler | イギリスのデジタル広告会社のクローラ |
MegaIndex.ru | ロシアのWEBマーケティング会社MegaIndexのクローラー |
archive.org_bot | ウェブアーカイブ「archive.org」のクローラ |
TweetmemeBot | ビッグデータ分析会社データシフトのクローラ |
PaperLiBot | SNSで共有されたコンテンツをを新聞風のレイアウトに並べて表示するスイス発のサービス「Paper.li」のクローラ |
admantx-apacas | デジタル広告会社admantxのクローラで、コンテンツ分析目的らしい |
SafeDNSBot | スイスのネットセキュリティ会社SafeDNSのクローラ |
TurnitinBot | 学生から提出された不正なコピペや盗用チェックする Turnitinのクローラ |
proximic | 米国マーケティング会社COMSCOREのクローラ |
ICC-Crawler | ユニバーサルコミュニケーション研究所のクローラ |
Mappy | 検索エンジン及びマーケティング解析を行う株式会社Coreのクローラ |
YaK | フランスのパリ発のウェブマーケティング会社linkfluence.comのクローラ |
CCBot | Apache Hadoopプロジェクトを利用するNutchベースのウェブクローラです。 |
Pockey | HPを丸ごと保存するフリーソフトGetHTMLWのクローラ |
psbot | 画像サーチエンジンPicsearchのクローラ |
Feedly | RSSリーダーfeedlyのクローラ |
Superfeedr bot | PubSubHubbubを提供しているsuperfeedr.comのクローラ |
ltx71 | 不明。ltx71.comには、セキュリティ調査目的のために継続的にスキャンしているとあります。 |
Mail.RU_Bot | ロシアの検索サイトMail.ruのクローラです。 ブラウザー乗っ取りプログラム「Go.mail.ru」ウイルスなどもあるようなので注意です。 |
クローラ(ロボット)のアクセスをブロックしたい場合
クローラの中にはウィルスやスパム的な動きをするものがあり、ブロックしたいと思われる場合もあるかと思います。
例えば、ロシアの検索サイトMail.ruのクローラ「Mail.RU_Bot」があり、この企業のGo.mail.ruと言うブラウザに感染するウィルスがあるようなので、念のために「Mail.RU_Bot」をブロックしたいと思った場合に、どのようにすれば良いのか、ブロックのやり方の例をご案内します。
robots.txtでブロックする場合の記述の例
User-agent: Mail.RU_Bot
Disallow: /
.htaccessでブロックする場合の記述の例
SetEnvIf User-Agent “Mail.RU_Bot” denybot
order allow,deny
allow from all
deny from env=denybot