以下の内容はhttps://dk521123.hatenablog.com/entry/2017/01/17/215359より取得しました。


【Java】Java OCRライブラリ~ 入門編 ~

◾️はじめに

Java のOCRライブラリについて調べてみた

【1】画像から文字列を取得するには

* 光学文字認識(Optical Character Recognition;OCR)ライブラリを使用する

【2】OCRライブラリ

[1] NHocr
[2] Tesseract-OCR / Tess4J
[3] Eye
[4] Java OCR
[5] Aspire OCR

個人的見解

 + フリーで、日本語対応で使用できそうなのは、[1]or[2]
 + 日本語のみの比較なら[1]の方がよさそう
 + アルファベット交じりの場合、[2](もしくは[1]との併用)

1)NHocr

 * 日本語サポート
 * サポート画像:PBM/PGM/PPM
 * プログラム言語:C++(Javaじゃないので直接使う事は出来ない)

v0.22の制約事項
https://ja.osdn.net/projects/nhocr/docs/about-140830/ja/19/about-140830.html

より、以下の事項は認識率が悪い。
 * 全角・半角の文字が混在
 * プロポーショナルフォント
 * ASCII文字

ライセンス

 * Apache License V2.0

デモサイト
http://maggie.ocrgrid.org/nhocr/index-j.html
ダウンロードサイト
https://ja.osdn.net/projects/nhocr/
環境設定

OCRライブラリ「NHocr」をインストールする ~ Debian編 ~ 

2)Tesseract-OCR / Tess4J

* Tesseract(テッセラクト) = 四次元立方体
* プログラム言語:C++ => Tess4J は、Javaで使用できるようにラップしたもの
* 日本語サポート
* 機械学習により、精度を上げることができる

ライセンス
https://github.com/tesseract-ocr/tesseract

* Apache License V2.0

公式サイト
https://github.com/tesseract-ocr/tesseract/wiki

* Tess4J

http://tess4j.sourceforge.net/

ダウンロードサイト
https://github.com/tesseract-ocr

* Tess4J

https://sourceforge.net/projects/tess4j/?source=typ_redirect
サンプル
https://dk521123.hatenablog.com/entry/2017/01/09/000100

3)Eye

* 100% Java製

公式サイト
http://eyeocr.sourceforge.net/
ダウンロードサイト
https://sourceforge.net/projects/eyeocr/files/?source=navbar

4)Java OCR

* 100% Java製
* ドキュメントが(英語含めて)、全然ない...
  => ソースから解説するしかなさそう。
    「net.sourceforge.javaocr.ocrPlugins.mseOCR.OCRScanner」クラス付近
  から見てみるといいかもしれないが...

ライセンス

* Apache License V2.0

ダウンロードサイト
https://sourceforge.net/projects/javaocr/
ソースコード
https://sourceforge.net/projects/javaocr/files/Releases/

参考文献

http://at-j.co.jp/blog/?p=2927
http://wordpress.ideacompo.com/?p=5546

NHocr

For Linux
http://bassabsoft.blogspot.jp/2010/03/optical-japanese-character-recognize.html
http://diary.overlasting.net/2010-07-01-3.html
http://dsaku.hatenablog.com/entry/2014/01/03/120430
http://d.hatena.ne.jp/simpg/20120922/1348283995
For Raspberry PI
http://www.neko.ne.jp/~freewing/raspberry_pi/raspberry_pi_3_ocr_nhocr/
For Windows
http://blog.livedoor.jp/unker/archives/1068511.html

Tesseract-OCR

http://kevin3sei.blog95.fc2.com/blog-entry-168.html
http://independence-sys.net/main/?p=1777
http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316
in java
http://tphangout.com/how-to-use-the-tesseract-api-to-perform-ocr-in-your-java-code/

関連記事

Java OCRライブラリ~ Tesseract-OCR / Tess4J ~
https://dk521123.hatenablog.com/entry/2017/01/09/000100
漢字からカタカナを取得する (日本語形態素解析ライブラリ)
LinuxOCRライブラリ「NHocr」をインストールする ~ Debian編 ~
ライセンスについて

Python 〜 Tesseract OCR
https://dk521123.hatenablog.com/entry/2025/10/03/141326




以上の内容はhttps://dk521123.hatenablog.com/entry/2017/01/17/215359より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14