ウェブ・スクレイピング
概要
ウェブスクレイピングとは、日本語に直訳すると「ウェブ削り」であり、ウェブクローラーなどで取得したHTMLなどのデータから余計な部分を削ぎ落とし、目的とする部分を抜き出すソフトウェア、およびそのような行為のことである。
基本的には以下のような手順となる。
- ウェブクローラーで丸ごと保存
- ウェブスクレイパーでガリガリ解析
実際にはウェブクローラーが取得した大量のデータ(いわゆるビッグデータ)からデータマイニングを行うプログラム的な意味合いが強いが、ウェブ魚拓的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、ウェブクローラーと区別するのが面倒なのでクローラーの一部として扱われることが多い。
手法
主なライブラリ
PHP
- Simple HTML DOM Parser
- 重い
- Goutte
- 軽い
Ruby
.NET
- Html Agility Pack
- かなり精度は高い。手軽。並列処理にも強い。
- GeckoFX
- Firefoxそのもの。HTML5かつほぼJavaScriptだけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。