「ウェブ・スクレイピング」を編集中
ナビゲーションに移動
検索に移動
この編集を取り消せます。 下記の差分を確認して、本当に取り消していいか検証してください。よろしければ変更を保存して取り消しを完了してください。
最新版 | 編集中の文章 | ||
1行目: | 1行目: | ||
− | '''ウェブ・スクレイピング'''([[英語]]:web scraping)とは、[[ウェブ]]上の[[HTML]]などから機械的に[[データ]] | + | '''ウェブ・スクレイピング'''([[英語]]:web scraping)とは、[[ウェブ]]上の[[HTML]]などから機械的に[[データ]]を抜き出すことを言う。単にスクレイピングと呼ばれることも多い。 |
==概要== | ==概要== | ||
9行目: | 9行目: | ||
実際には[[ウェブクローラー]]が取得した大量の[[データ]](いわゆる[[ビッグデータ]])から[[データマイニング]]を行う[[プログラム]]的な意味合いが強いが、[[ウェブ魚拓]]的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、[[ウェブクローラー]]と区別するのが面倒なのでクローラーの一部として扱われることが多い。 | 実際には[[ウェブクローラー]]が取得した大量の[[データ]](いわゆる[[ビッグデータ]])から[[データマイニング]]を行う[[プログラム]]的な意味合いが強いが、[[ウェブ魚拓]]的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、[[ウェブクローラー]]と区別するのが面倒なのでクローラーの一部として扱われることが多い。 | ||
− | + | また、[[AJAX]]の普及などに伴い本来は[[HTML]]上[[のJavaScript]]で取得している非公式の[[ウェブAPI]]を直接的に叩き、[[データ]]を抜き取るような手法も確認されている。 | |
− | |||
− | また、[[AJAX]]の普及などに伴い本来は[[HTML]] | ||
==手法== | ==手法== | ||
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。 | [[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。 | ||
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。 | これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。 | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
==主なライブラリ== | ==主なライブラリ== | ||
31行目: | 23行目: | ||
===Ruby=== | ===Ruby=== | ||
*[[Nokogiri]] | *[[Nokogiri]] | ||
− | |||
===.NET=== | ===.NET=== | ||
− | |||
− | |||
*[[Html Agility Pack]] | *[[Html Agility Pack]] | ||
*:かなり精度は高い。手軽。並列処理にも強い。 | *:かなり精度は高い。手軽。並列処理にも強い。 | ||
*[[GeckoFX]] | *[[GeckoFX]] | ||
− | *:[[Firefox]] | + | *:[[Firefox]]そのもの。[[HTML5]]かつほぼ[[JavaScript]]だけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。 |
− | |||
− | |||
− | |||
− | |||
==関連項目== | ==関連項目== |