スクレイピング

ウェブサイトから情報を取得し、利用しやすいように加工する技術のことを ウェブ スクレイピング と言います。

①WebページのHTMLなどの情報を取得することを「クローリング」と言います。

② ①の取得情報を解析し、特定のデータを検索・抽出することがスクレイピングです。

③抽出データを用いるために、整形して、ファイル保存や画面表示をします。

一般的には、①②③をまとめてスクレイピングと言う場合が多いようです。

スクレイピングの注意事項

※サイトによってはスクレイピングを禁止している場合があり、禁止されていない場合も含めて、以下の項目に対する注意が必要です。

  • 著作権
  • 業務妨害罪
  • 利用規約

過去の逮捕事例

Librahack : 容疑者から見た岡崎図書館事件
JANOG的にLibrahackを解説する などをご参照ください。

システムの不具合が原因でも、逮捕される可能性があるということです。

Librahack 事件:「1秒に1回程度」という決して多くない頻度のアクセスでしたが、不具合を抱えたサーバーには過度の負荷となり、「システム障害を目的とした攻撃(サービス不能攻撃:DoS攻撃)」だと見なされ、逮捕され、実名報道され、22日間拘留され、不起訴処分となった事件。

くれぐれも脆弱そうなシステムをクローリングするのはやめましょう。

クローリング自体は悪い行為ではない

クローリング自体が悪い行為だと誤解することがないように、以下のリンクもご参照ください。

図書館のDX化を推進!静岡県立中央図書館と共同で地域資料収集としての自治体Webサイトクローリングシステムを開発

タイトルとURLをコピーしました