差分
ナビゲーションに移動
検索に移動
'''ウェブ・スクレイピング'''([[英語]]:web scraping)とは、[[ウェブ]]上の[[HTML]]などから機械的に[[データ]]を抜き出すことを言う。
==概要==
ウェブスクレイピングとは、日本語に直訳すると「ウェブ削り」であり、[[ウェブクローラー]]などで取得した[[HTML]]などの[[データ]]から余計な部分を削ぎ落とし、目的とする部分を抜き出す[[ソフトウェア]]、およびそのような行為のことである。
基本的には以下のような手順となる。
*ウェブクローラーで丸ごと保存
*ウェブスクレイパーでガリガリ解析
実際には[[ウェブクローラー]]が取得した大量の[[データ]](いわゆる[[ビッグデータ]])から[[データマイニング]]を行う[[プログラム]]的な意味合いが強いが、[[ウェブ魚拓]]的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、[[ウェブクローラー]]と区別するのが面倒なのでクローラーの一部として扱われることが多い。
==手法==
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。
==主なライブラリ==
===PHP===
*[[Simple HTML DOM Parser]]
*:重い
*[[Goutte]]
*:軽い
===Ruby===
*[[Nokogiri]]
===.NET===
*[[Html Agility Pack]]
*:かなり精度は高い。手軽。並列処理にも強い。
*[[GeckoFX]]
*:[[Firefox]]そのもの。[[HTML5]]かつほぼ[[JavaScript]]だけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。
==関連項目==
==参考文献==
{{reflist}}
{{stub}}
==概要==
ウェブスクレイピングとは、日本語に直訳すると「ウェブ削り」であり、[[ウェブクローラー]]などで取得した[[HTML]]などの[[データ]]から余計な部分を削ぎ落とし、目的とする部分を抜き出す[[ソフトウェア]]、およびそのような行為のことである。
基本的には以下のような手順となる。
*ウェブクローラーで丸ごと保存
*ウェブスクレイパーでガリガリ解析
実際には[[ウェブクローラー]]が取得した大量の[[データ]](いわゆる[[ビッグデータ]])から[[データマイニング]]を行う[[プログラム]]的な意味合いが強いが、[[ウェブ魚拓]]的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、[[ウェブクローラー]]と区別するのが面倒なのでクローラーの一部として扱われることが多い。
==手法==
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。
==主なライブラリ==
===PHP===
*[[Simple HTML DOM Parser]]
*:重い
*[[Goutte]]
*:軽い
===Ruby===
*[[Nokogiri]]
===.NET===
*[[Html Agility Pack]]
*:かなり精度は高い。手軽。並列処理にも強い。
*[[GeckoFX]]
*:[[Firefox]]そのもの。[[HTML5]]かつほぼ[[JavaScript]]だけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。
==関連項目==
==参考文献==
{{reflist}}
{{stub}}