ウェブサイトから情報を取得し、利用しやすいように加工する技術のことを ウェブ スクレイピング と言います。
①WebページのHTMLなどの情報を取得することを「クローリング」と言います。
② ①の取得情報を解析し、特定のデータを検索・抽出することがスクレイピングです。
③抽出データを用いるために、整形して、ファイル保存や画面表示をします。
一般的には、①②③をまとめてスクレイピングと言う場合が多いようです。
スクレイピングの注意事項
※サイトによってはスクレイピングを禁止している場合があり、禁止されていない場合も含めて、以下の項目に対する注意が必要です。
- 著作権
- 業務妨害罪
- 利用規約
過去の逮捕事例
Librahack : 容疑者から見た岡崎図書館事件
JANOG的にLibrahackを解説する などをご参照ください。
システムの不具合が原因でも、逮捕される可能性があるということです。
Librahack 事件:「1秒に1回程度」という決して多くない頻度のアクセスでしたが、不具合を抱えたサーバーには過度の負荷となり、「システム障害を目的とした攻撃(サービス不能攻撃:DoS攻撃)」だと見なされ、逮捕され、実名報道され、22日間拘留され、不起訴処分となった事件。
くれぐれも脆弱そうなシステムをクローリングするのはやめましょう。
クローリング自体は悪い行為ではない
クローリング自体が悪い行為だと誤解することがないように、以下のリンクもご参照ください。