NaverBot
出典: フリー百科事典『ウィキペディア(Wikipedia)』
NaverBotは、検索エンジンのためにウェブサイトの情報を集めるNAVERのロボット(クローラ)。しかし、クローラとしてのアルゴリズムの悪さから問題となった。
- 秒間隔で次々リクエストを行うため、DoS攻撃のようにサーバーを不安定にさせる恐れがある。良心的なクローラであれば、適度に時間を空けてリクエストを行う。
- 全てのディレクトリに対し、default.htm, default.html, home.php等インデックスに使われそうな名前のページを、ページの有無を確認せずにリクエストする。
- セッションを識別せず、同じURLに対してセッションだけ変えて何度もリクエストを行う。
- サイト管理者が用意するrobots.txt(クローラのアクセスを制御するファイル)を読み込みながらも無視。あるいは、robots.txtを短時間に何度も読み込む。
- HTMLのMETAエンティティを使ったロボットのアクセス制御を無視する。
以上のような動作のため、サイト管理者たちから敬遠されるようになり、いくつかのサイトでアクセスを拒否する方法が紹介された。しかし、その後NaverBotはHTTPリクエストのUserAgentフィールドを次々に変えるようになった。これは、NaverBotの動作が知られるようになり、「NaverBot」というユーザーエージェント名からのアクセスを拒否するサイトが増えたためと推測される(一般的なアクセス制御はUserAgentフィールドの文字列一致で判断するため、変更されると規制を突破されてしまう)。変名はNABOT/5.0、nhnbot、minibot(NaverRobot)、dloader(NaverBot)、nabot、Cowbot、NaverBot-1.0+(NHN+Corp.+/++82-2-3011-1954+/+nhnbot@naver.com)等さまざまな名前が確認されている。また、robots.txtへのアクセス時にGoogleのクローラGooglebotに似たGoogleBotというユーザーエージェント名を用いたことも確認されている。