OCR アプリ

Humanitext OCR

Humanitext OCRは、Google社の強力なマルチモーダルAI「Gemini」を基幹エンジンとして活用する、次世代の光学文字認識(OCR)プラットフォームです。単に文字を読み取るだけでなく、利用者が自然言語で指示を与えることで、文書の特定部分のみを抽出したり、複雑な構造を持つ情報を自動でJSON形式に整形したりすることが可能です。さらに、AIによる自動校正機能も搭載しており、従来のOCRで課題だった誤認識をインテリジェントに修正します。研究資料のデジタル化から日常的なデータ入力作業まで、あらゆる文字起こしのニーズに高い精度と柔軟性で応えます。

ハイライト

  • Gemini AIによる高精度な文字認識
  • 自然言語の指示による抽出箇所の柔軟な制御
  • ユーザー定義スキーマによるJSON形式の構造化出力
  • AIによる自動校正機能で認識精度をさらに向上

Humanitext OCRとは?

Humanitext OCR(ヒューマニテクスト・オーシーアール)は、従来のOCRが持つ「決まったルールで文字を認識する」という枠組みを超え、AIの「文脈理解能力」と「指示追従能力」を最大限に活用した文字認識ツールです。

このシステムの核心は、PDFや画像ファイルをアップロードした後、利用者がテキストボックスに「この文書はXXです。ヘッダーとフッターは無視して、本文だけを抽出してください」といった自由な指示を追加できる点にあります。バックエンドでは、アップロードされた画像とこの指示テキストがGeminiモデルに送られ、AIは人間のように指示内容を理解してOCR処理を実行します。

これにより、これまで手作業での修正やスクリプト作成が必要だった、文書からの特定情報の抜き出し作業を、誰でも簡単に行えるようになります。

目的:あらゆるドキュメントを、意味のあるデータに

私たちの周りには、スキャンされた論文、古い書籍の写真、議事録のPDFなど、テキスト情報が画像として埋め込まれたドキュメントが溢れています。これらのドキュメントから情報を再利用可能にするためには、高精度で柔軟なOCRが不可欠です。

Humanitext OCRは、この課題を解決し、あらゆるドキュメントを単なるテキストの羅列ではなく、「意味のある構造化データ」として蘇らせることを目的としています。

  • 研究者・学生のために 論文や史料からの引用箇所抽出、手書きメモを含むフィールドノートのデジタル化、参考文献リストの構造化データ作成など、研究活動における面倒なデータ化作業を劇的に効率化します。

  • ビジネスパーソンのために 請求書や領収書から特定の項目をJSON形式で抽出したり、会議の議事録から決定事項だけを抜き出したりと、定型・非定型の業務書類のデータ入力を自動化します。

  • すべての人のために 紙の書籍の内容を取り込んで電子化したり、写真に撮ったポスターの情報をテキスト化したりと、日常生活における様々な「文字起こし」の手間を解消します。

基本機能と使い方

Humanitext OCRは、2段階のシンプルなステップで高精度なOCRを実現します。

1. ファイルのアップロードと設定

まず、OCR処理したいPDF(1ファイルのみ)または画像ファイル(複数可)をアップロードします。その後、必要に応じて以下の設定を行います。

  • LLMへの指示: テキストエリアに、OCR処理に関する具体的な要望を入力します。(例: ラテン語とギリシャ語が混在しています。各ページの冒頭に[p.XX]とページ番号を挿入してください。
  • 出力形式の選択:
    • textファイル: 抽出結果を自由なテキスト形式で出力します。
    • JSONファイル: 抽出したい情報の「キー」と「型」(単一、リスト、入れ子など)をGUIで定義することで、構造化されたJSONデータとして出力します。これにより、後工程でのデータ活用が非常に容易になります。
  • 自動校正: 「LLMによるOCRの自動校正を行う」にチェックを入れると、AIがOCRの初回結果を再度画像と比較し、誤りを自動で修正します。精度が向上する一方で、処理時間は約2倍になります。

2. テスト実行と本処理

設定が完了したら、2段階のプロセスで処理を進めます。

  • Step 1: OCRのテストを実行 アップロードしたファイルの最初の1ページ(または最初の1枚)だけを処理し、結果をプレビューします。この結果を見て、LLMへの指示や設定が適切だったかを確認します。

  • Step 2: この設定で残りを処理 テスト結果に満足できれば、このボタンを押すことで、残りのすべてのページやファイルが同じ設定で一括処理されます。処理完了後、個別のファイルまたは全結果をまとめたZIPファイルをダウンロードできます。テスト結果が不十分な場合は、「やり直し」ボタンで設定を再調整できます。


大量ファイルの一括処理(バッチ処理)について

Humanitext OCRには、数百〜数千ページに及ぶ大量のPDFファイルを並列で一括処理する、より高度なバッチ処理機能も存在します。この機能は一般公開されていませんが、大規模な資料のデジタル化など、特別なニーズをお持ちの研究機関や個人の方向けに個別相談に応じています。ご関心のある方はプロジェクトまでお問い合わせください。