◾️はじめに
Java のOCRライブラリについて調べてみた
【1】画像から文字列を取得するには
* 光学文字認識(Optical Character Recognition;OCR)ライブラリを使用する
【2】OCRライブラリ
[1] NHocr [2] Tesseract-OCR / Tess4J [3] Eye [4] Java OCR [5] Aspire OCR
個人的見解
+ フリーで、日本語対応で使用できそうなのは、[1]or[2] + 日本語のみの比較なら[1]の方がよさそう + アルファベット交じりの場合、[2](もしくは[1]との併用)
1)NHocr
* 日本語サポート * サポート画像:PBM/PGM/PPM * プログラム言語:C++(Javaじゃないので直接使う事は出来ない)
v0.22の制約事項
https://ja.osdn.net/projects/nhocr/docs/about-140830/ja/19/about-140830.html
より、以下の事項は認識率が悪い。 * 全角・半角の文字が混在 * プロポーショナルフォント * ASCII文字
ライセンス
* Apache License V2.0
デモサイト
http://maggie.ocrgrid.org/nhocr/index-j.html
ダウンロードサイト
https://ja.osdn.net/projects/nhocr/
環境設定
OCRライブラリ「NHocr」をインストールする ~ Debian編 ~
2)Tesseract-OCR / Tess4J
* Tesseract(テッセラクト) = 四次元立方体 * プログラム言語:C++ => Tess4J は、Javaで使用できるようにラップしたもの * 日本語サポート * 機械学習により、精度を上げることができる
ライセンス
https://github.com/tesseract-ocr/tesseract
* Apache License V2.0
公式サイト
https://github.com/tesseract-ocr/tesseract/wiki
* Tess4J
http://tess4j.sourceforge.net/
ダウンロードサイト
https://github.com/tesseract-ocr
* Tess4J
https://sourceforge.net/projects/tess4j/?source=typ_redirect
サンプル
https://dk521123.hatenablog.com/entry/2017/01/09/000100
3)Eye
* 100% Java製
公式サイト
http://eyeocr.sourceforge.net/
ダウンロードサイト
https://sourceforge.net/projects/eyeocr/files/?source=navbar
4)Java OCR
* 100% Java製
* ドキュメントが(英語含めて)、全然ない...
=> ソースから解説するしかなさそう。
「net.sourceforge.javaocr.ocrPlugins.mseOCR.OCRScanner」クラス付近
から見てみるといいかもしれないが...
ライセンス
* Apache License V2.0
ダウンロードサイト
https://sourceforge.net/projects/javaocr/
ソースコード
https://sourceforge.net/projects/javaocr/files/Releases/
参考文献
http://at-j.co.jp/blog/?p=2927
http://wordpress.ideacompo.com/?p=5546
NHocr
For Linux
http://bassabsoft.blogspot.jp/2010/03/optical-japanese-character-recognize.html
http://diary.overlasting.net/2010-07-01-3.html
http://dsaku.hatenablog.com/entry/2014/01/03/120430
http://d.hatena.ne.jp/simpg/20120922/1348283995
For Raspberry PI
http://www.neko.ne.jp/~freewing/raspberry_pi/raspberry_pi_3_ocr_nhocr/
For Windows
http://blog.livedoor.jp/unker/archives/1068511.html
Tesseract-OCR
http://kevin3sei.blog95.fc2.com/blog-entry-168.html
http://independence-sys.net/main/?p=1777
http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316
in java
http://tphangout.com/how-to-use-the-tesseract-api-to-perform-ocr-in-your-java-code/
関連記事
Java OCRライブラリ~ Tesseract-OCR / Tess4J ~
https://dk521123.hatenablog.com/entry/2017/01/09/000100
漢字からカタカナを取得する (日本語形態素解析ライブラリ)
【Linux】 OCRライブラリ「NHocr」をインストールする ~ Debian編 ~
ライセンスについて
Python 〜 Tesseract OCR 〜
https://dk521123.hatenablog.com/entry/2025/10/03/141326