「ウェブ・スクレイピング」の版間の差分

提供: MonoBook
ナビゲーションに移動 検索に移動
16行目: 16行目:
 
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。
 
[[プログラミング言語]]でやる場合にもっとも手軽なのは[[正規表現]]でぶっこ抜くという手法である。
 
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。
 
これは極端に言えば古くから[[UNIX]]の[[sedコマンド]]などで行われていたデータ加工となんら変わらない。
 +
 +
もう少し複雑なものでは専用のHTMLパーサー([[HTML]]を解析できるライブラリ)を使用してぶっこ抜くという手法が用いられる。
 +
これらは内部的には上記の正規表現を用いたものから、[[XML]]に変換して解析を行うもの、独自の解析を行うものなど様々である。
 +
 +
さらに既存の[[ウェブブラウザ]]のエンジンである[[Gecko]]や[[WebKit]]などを用いて[[JavaScript]]の挙動まで再現してぶっこ抜くという手法もある。
 +
たとえば[[.NET Framework]]で[[GeckoFX]]を用いれば「DOMのreadyイベントを待ってから解析を開始する」などといったことができる。
  
 
==主なライブラリ==
 
==主なライブラリ==

2015年3月5日 (木) 01:33時点における版

ウェブ・スクレイピング英語:web scraping)とは、ウェブ上のHTMLなどから機械的にデータを抜き出すことを言う。単にスクレイピングと呼ばれることも多い。

概要

ウェブスクレイピングとは、日本語に直訳すると「ウェブ削り」であり、ウェブクローラーなどで取得したHTMLなどのデータから余計な部分を削ぎ落とし、目的とする部分を抜き出すソフトウェア、およびそのような行為のことである。

基本的には以下のような手順となる。

  • ウェブクローラーで丸ごと保存
  • ウェブスクレイパーでガリガリ解析

実際にはウェブクローラーが取得した大量のデータ(いわゆるビッグデータ)からデータマイニングを行うプログラム的な意味合いが強いが、ウェブ魚拓的な用途を除けば加工せずに扱うこと自体が非常に稀であるため、ウェブクローラーと区別するのが面倒なのでクローラーの一部として扱われることが多い。

リアルタイムに近い挙動をするものであれば、あたかもウェブAPIを叩いているかのように利用することができる。

また、AJAXの普及などに伴い本来はHTML上のJavaScriptで取得している非公式のウェブAPIを直接的に叩き、データを抜き取るような手法も確認されている。

手法

プログラミング言語でやる場合にもっとも手軽なのは正規表現でぶっこ抜くという手法である。 これは極端に言えば古くからUNIXsedコマンドなどで行われていたデータ加工となんら変わらない。

もう少し複雑なものでは専用のHTMLパーサー(HTMLを解析できるライブラリ)を使用してぶっこ抜くという手法が用いられる。 これらは内部的には上記の正規表現を用いたものから、XMLに変換して解析を行うもの、独自の解析を行うものなど様々である。

さらに既存のウェブブラウザのエンジンであるGeckoWebKitなどを用いてJavaScriptの挙動まで再現してぶっこ抜くという手法もある。 たとえば.NET FrameworkGeckoFXを用いれば「DOMのreadyイベントを待ってから解析を開始する」などといったことができる。

主なライブラリ

PHP

Ruby

.NET

  • Html Agility Pack
    かなり精度は高い。手軽。並列処理にも強い。
  • GeckoFX
    Firefoxそのもの。iOSAndroidのアプリ開発で頻出するWebViewに類似するもので、HTML5かつほぼJavaScriptだけで描画を行っているページですら完璧にぶっこ抜くことが出来てしまう。

関連項目

参考文献