(OpenText_Captiva から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/19 03:56 UTC 版)
ナビゲーションに移動 検索に移動Captivaは、主として紙から、画像を介してデータを取得するキャプチャーソフトウェアである。現在はOpenTextのキャプチャー製品の一つとして提供され、OpenText Captivaと称されている。
[1] Pixel Translationsからのイメージ処理、キャプチャープロセス全体のInputAccel、SWTからの機械学習を含む分類・認識技術に源流がある。
最新[2] のバージョンは2018年1月にリリースされた7.7である。
ISISドライバーを使用したスキャナーを直接制御して紙からのスキャンが可能。この機能の一環として、画像の自動変換や補正なども可能。近年では、複合機でスキャンされた画像やEメールなど、紙以外の入力にも対応している。
5種類のアルゴリズムがある。このうち、SWTに源流を持つ、画像を使った分類は、事前のOCR処理を必要としないために高速とされ、また同様に対象となる文書で使用されている言語を問わない、ともされる。
対象文書の内容すべてをテキスト化する全文抽出、あるいは文書内に存在する特定のフィールドを特定して個別にデータを取り出すAdvanced Recognition(高度な抽出)が可能である。また両抽出機能は排他的ではなく、組み合わせることも可能とされる。Advanced Recognition(高度な抽出)は、ドキュメントタイプと呼ばれるデータモデルと、個別書類のレイアウトに対応するためのテンプレートを組み合わせて行われる。テンプレートには次のような複数のタイプがある。
テンプレートでは、各フィールドに対して認識エンジンや補正パラメーターを設定できる。例えば数字フィールドであれば数字に特化したエンジン、英数フィールドであれば英数(欧文)エンジンを適用し、日本語を含むフィールドのみ日本語エンジンを適用することができる。またSDKによって標準提供されているもの以外のエンジンを組み込むことが可能である。
[4] 抽出されたデータを検証するために、Completionクライアント機能が提供されている。検証用画面フォーム(レイアウト)は、データモデルに沿って生成されるが、検証作業を支援するための各種ロジックや外部データベースなどによるチェック機能、選択用のプルダウンなどを組み込むこともできる。また画面上でコメントやマーキングなどを付加するアノテーション機能がある。自動分類の結果を変更したり、ドキュメントの構成を変更したり、抽出できなかった項目に対して画像の領域を指定して認識させたりすることもできる。
データおよびコンテンツを、CSV, XMLやPDF等、各種の形式で出力し、ODBCやCMISなどのインターフェース経由でデータベースやコンテンツ管理等の各種システムに連携する機能。
各種の業務に応じた一連の処理の流れを、フローとしてGUIで定義する機能。これを起動し、実行することによって、自動処理と人的な処理で構成される全体のプロセスが処理されていく。
PAL (Production Auto Learning): 適切なテンプレートが存在しない場合に、人的な操作からのデータとイメージの蓄積を学習し、分類・抽出で使用するテンプレートを自動生成する機能。
スキャンや検証用のクライアントは、元々事務センターなどでの集中処理向けであり、分散処理には適していない。近年はCaptiva Web Clientと称するWebベースのクライアントも提供されている。またモバイルアプリケーションにキャプチャー機能を組み込むためのSDKが提供されている。
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/22 00:13 UTC 版)
「オープンテキスト」の記事における「OpenText Captiva」の解説
紙および電子媒体をデータおよびコンテンツとするキャプチャーソリューション。
※この「OpenText Captiva」の解説は、「オープンテキスト」の解説の一部です。
「OpenText Captiva」を含む「オープンテキスト」の記事については、「オープンテキスト」の概要を参照ください。