HOME > CASISブログ,SEO > クローラ(ロボット)のユーザーエージェント(UA)一覧 | ホームページ制作 【スタジオCASIS】

クローラ(ロボット)のユーザーエージェント(UA)一覧 | ホームページ制作 【スタジオCASIS】

Pocket

アクセス解析を見ていると、見慣れないクローラ(ロボット)を目にする事があるかと思います。
頻繁にアクセスしてくる見慣れないクローラがあった場合、何のロボットなのか非常に気になったりします。
皆さんも良くご存知のクローラから、見慣れないクローラまでのユーザーエージェントをご紹介したいと思います。

クローラ(Crawler)とは

ウェブページを巡回し、文章や画像などの情報を収集して蓄積し、データベース化するプログラムが「クローラー」です。
ボット(Bot)、ロボット、スパイダー(Spider)などとも呼ばれています。
主に検索エンジンのデータベース、インデックス作成に使われています。

クローラ(ロボット)のユーザーエージェント(UA)一覧

ユーザーエージェントは、グーグルのクローラを例とすると、下記のようなものです。

PC用Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
スマホ用Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

全部掲載すると見辛いと思うので、ユーザーエージェントの中に含まれているクローラの名称のみ記載します。

クローラ名称説明
Googlebot世界最大の検索エンジンGoogleのクローラ
これが来てくれないと、ネット検索にヒットしません
msnbot検索エンジン大手MSNのクローラ
PCのOSのWindowsのマイクロソフト社
bingbotMSNが運営する検索エンジンBingのクローラ
Yahoo! Slurp検索エンジン大手Yahoo!のクローラ
アメリカのヤフーです
Y!JYahoo! japanのクローラ
日本のヤフーです
facebookexternalhitフェイスブックのクローラ
Twitterbotツイッターのクローラ
ApplebotAppleの独自のWebクローラ
LinespiderLINEが管理するクローラ
Baidu中国最大の検索エンジンBaiduのクローラ
YandexBotロシアの最大手検索エンジンYandexのクローラ
Yeti韓国の検索エンジンNAVERのクローラ
dotbotMozが運営する「Open Site Explorer」のクローラ
rogerbot米国大手SEO分析ツール会社Mozのクローラー
AhrefsBot大手SEO分析ツール「Ahrefs」のクローラ
MJ12bot英国大手SEO分析ツール「Majestic」のクローラ
SMTBotSEO分析ツール「similarweb」のクローラだと思われる
BLEXBotSEO分析ツール「WebMeUp」のクローラ
linkdexbotSEO分析ツール「linkdexbot」のクローラ
SemrushBotSEO分析ツール「SEMRush」のクローラ
360Spider中国の検索エンジンHaosouのクローラ
360Spiderと言うユーザーエージェントを残さず、hn.kd.ny.adslと言うホストで来る場合もある
spider中国の検索エンジンSogouのクローラ
YoudaoBot中国の検索エンジン「有道」のクローラ
DuckDuckGo検索エンジンDuckDuckGoのクローラ
Daum韓国の情報ポータルサイトDaumのクローラ
Exabotフランスの検索エンジンExaleadのクローラ
SeznamBotチェコ共和国のwebポータルSeznam.czのクローラ
Steeler東京大学の喜連川研究室 で運用しているクローラ
Sonic早稲田大学大学院の山名研究室で運用しているクローラ
BUbiNGイタリアのミラノ大学のクローラ
コンテンツ分析だと想定される
Barkrowlerフランスの小さなデータ分析会社のクローラで、取得したデータは検索エンジン開発に利用しているらしい
GrapeshotCrawlerイギリスのデジタル広告会社のクローラ
MegaIndex.ruロシアのWEBマーケティング会社MegaIndexのクローラー
archive.org_botウェブアーカイブ「archive.org」のクローラ
TweetmemeBotビッグデータ分析会社データシフトのクローラ
PaperLiBotSNSで共有されたコンテンツをを新聞風のレイアウトに並べて表示するスイス発のサービス「Paper.li」のクローラ
admantx-apacasデジタル広告会社admantxのクローラで、コンテンツ分析目的らしい
SafeDNSBotスイスのネットセキュリティ会社SafeDNSのクローラ
TurnitinBot学生から提出された不正なコピペや盗用チェックする
Turnitinのクローラ
proximic米国マーケティング会社COMSCOREのクローラ
ICC-Crawlerユニバーサルコミュニケーション研究所のクローラ
Mappy検索エンジン及びマーケティング解析を行う株式会社Coreのクローラ
YaKフランスのパリ発のウェブマーケティング会社linkfluence.comのクローラ
CCBotApache Hadoopプロジェクトを利用するNutchベースのウェブクローラです。
PockeyHPを丸ごと保存するフリーソフトGetHTMLWのクローラ
psbot画像サーチエンジンPicsearchのクローラ
FeedlyRSSリーダーfeedlyのクローラ
Superfeedr botPubSubHubbubを提供しているsuperfeedr.comのクローラ
ltx71不明。ltx71.comには、セキュリティ調査目的のために継続的にスキャンしているとあります。
Mail.RU_Botロシアの検索サイトMail.ruのクローラです。
ブラウザー乗っ取りプログラム「Go.mail.ru」ウイルスなどもあるようなので注意です。

クローラ(ロボット)のアクセスをブロックしたい場合

クローラの中にはウィルスやスパム的な動きをするものがあり、ブロックしたいと思われる場合もあるかと思います。
例えば、ロシアの検索サイトMail.ruのクローラ「Mail.RU_Bot」があり、この企業のGo.mail.ruと言うブラウザに感染するウィルスがあるようなので、念のために「Mail.RU_Bot」をブロックしたいと思った場合に、どのようにすれば良いのか、ブロックのやり方の例をご案内します。

robots.txtでブロックする場合の記述の例

User-agent: Mail.RU_Bot
Disallow: /

.htaccessでブロックする場合の記述の例

SetEnvIf User-Agent “Mail.RU_Bot” denybot
order allow,deny
allow from all
deny from env=denybot

人気ブログランキングへ

Pocket