Tesseract-OCR
2018年8月28日 (火) 04:20時点におけるimported>Administratorによる版
Tesseract OCRとは、オープンソースのOCRエンジンである。
もともとはヒューレット・パッカードが1984年から商用販売していたもので、1984年に発明されたアルゴリズムが採用されている。いわゆる最近流行りの機械学習で文字認識する系ではない。
30ヶ国語以上に対応し日本語も認識できる。
2005年にオープンソース化された。直後からGoogleの中の人が殺到してガシガシ改造を始めた。
WindowsでもMac OSでもLinuxでもAndroidなどほとんどのOSで動く。本体はC++で書かれているが、様々なプログラミング言語から呼び出せる。Xamarin.Androidなどでもちょっと遅いけど動く。