Tesseract-OCR

提供: MonoBook
ナビゲーションに移動 検索に移動

Tesseract OCRとは、オープンソースOCRエンジンである。

もともとはヒューレット・パッカードが1984年から商用販売していたもので、1984年に発明されたアルゴリズムが採用されている。いわゆる最近流行りの機械学習で文字認識する系ではない。

30ヶ国語以上に対応し日本語も認識できる。

2005年にオープンソース化された。直後からGoogleの中の人が殺到してガシガシ改造を始めた。

WindowsでもMac OSでもLinuxでもAndroidなどほとんどのOSで動く。本体はC++で書かれているが、様々なプログラミング言語から呼び出せる。Xamarin.Androidなどでもちょっと遅いけど動く。

関連項目