ウェブ・スクレイピング
概要
ウェブスクレイピングとは、日本語に直訳すると「ウェブ削り」であり、ウェブクローラーなどで取得したHTMLなどのデータから余計な部分を削ぎ落とし、目的とする部分を抜き出すソフトウェア、およびそのような行為のことである。
基本的には以下のような手順となる。
- ウェブクローラーで丸ごと保存
- ウェブスクレイパーでガリガリ解析
実際にはウェブクローラーが取得した大量のデータ(いわゆるビッグデータ)からデータマイニングを行うプログラム的な意味合いが強いが、ウェブ魚拓的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、ウェブクローラーと区別するのが面倒なのでクローラーの一部として扱われることが多い。
また、AJAXの普及などに伴い本来はHTML上のJavaScriptで取得している非公式のウェブAPIを直接的に叩き、データを抜き取るような手法も確認されている。