Tesseract-OCR

提供: MonoBook
2018年8月28日 (火) 04:20時点におけるimported>Administratorによる版
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

Tesseract OCRとは、オープンソースOCRエンジンである。

もともとはヒューレット・パッカードが1984年から商用販売していたもので、1984年に発明されたアルゴリズムが採用されている。いわゆる最近流行りの機械学習で文字認識する系ではない。

30ヶ国語以上に対応し日本語も認識できる。

2005年にオープンソース化された。直後からGoogleの中の人が殺到してガシガシ改造を始めた。

WindowsでもMac OSでもLinuxでもAndroidなどほとんどのOSで動く。本体はC++で書かれているが、様々なプログラミング言語から呼び出せる。Xamarin.Androidなどでもちょっと遅いけど動く。

関連項目[編集 | ソースを編集]