ウェブ・スクレイピング

提供: MonoBook
2015年2月16日 (月) 04:44時点における153.220.18.74 (トーク)による版 (→‎関連項目)
ナビゲーションに移動 検索に移動

ウェブ・スクレイピング英語:web scraping)とは、ウェブ上のHTMLなどから機械的にデータを抜き出すことを言う。

概要

ウェブスクレイピングとは、日本語に直訳すると「ウェブ削り」であり、ウェブクローラーなどで取得したHTMLなどのデータから余計な部分を削ぎ落とし、目的とする部分を抜き出すソフトウェア、およびそのような行為のことである。

基本的には以下のような手順となる。

  • ウェブクローラーで丸ごと保存
  • ウェブスクレイパーでガリガリ解析

実際にはウェブクローラーが取得した大量のデータ(いわゆるビッグデータ)からデータマイニングを行うプログラム的な意味合いが強いが、ウェブ魚拓的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、ウェブクローラーと区別するのが面倒なのでクローラーの一部として扱われることが多い。

手法

プログラミング言語でやる場合にもっとも手軽なのは正規表現でぶっこ抜くという手法である。 これは極端に言えば古くからUNIXsedコマンドなどで行われていたデータ加工となんら変わらない。

主なライブラリ

PHP

Ruby

.NET

  • Html Agility Pack
    かなり精度は高い。手軽。並列処理にも強い。
  • GeckoFX
    Firefoxそのもの。HTML5かつほぼJavaScriptだけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。

関連項目

参考文献