「ウェブ・スクレイピング」の版間の差分

2015年2月16日 (月) 04:44時点における版

ウェブ・スクレイピング（英語：web scraping）とは、ウェブ上のHTMLなどから機械的にデータを抜き出すことを言う。

ウェブスクレイピングとは、日本語に直訳すると「ウェブ削り」であり、ウェブクローラーなどで取得したHTMLなどのデータから余計な部分を削ぎ落とし、目的とする部分を抜き出すソフトウェア、およびそのような行為のことである。

基本的には以下のような手順となる。

実際にはウェブクローラーが取得した大量のデータ（いわゆるビッグデータ）からデータマイニングを行うプログラム的な意味合いが強いが、ウェブ魚拓的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、ウェブクローラーと区別するのが面倒なのでクローラーの一部として扱われることが多い。

プログラミング言語でやる場合にもっとも手軽なのは正規表現でぶっこ抜くという手法である。これは極端に言えば古くからUNIXのsedコマンドなどで行われていたデータ加工となんら変わらない。

	この項目「ウェブ・スクレイピング」は、まだ書きかけの項目です。加筆、訂正などをして下さる協力者を求めています。
このテンプレートは分野別のスタブテンプレート（Monobook:スタブカテゴリ参照）に変更することが望まれています。

@@ 28行目: / 28行目: @@
 ==関連項目==
+*[[クローラー]]
+*[[ウェブクローラー]]
 ==参考文献==