Java 経由で Python を使用して画像からテキストへの変換を習得する
Python で画像内のテキストを認識する
その他のショーケース ># Initialize OCR engine
recognitionEngine = AsposeOcr()
# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")
# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)
> pip install aspose-ocr-python-java or
download
Java 経由で Python に Aspose.OCR を使用する理由
Java 経由の Aspose.OCR for Python は、強力な光学式文字認識 (OCR) 機能をクロスプラットフォームの Python ノートブックおよびアプリケーションにシームレスに統合します。直感的で高速な API を使用すると、スキャン、スクリーンショット、Web リンク、またはスマートフォンの写真からテキストを簡単に抽出し、すぐに統合、分析、または保存できる結果を提供できます。スキャンした画像、スマートフォンの写真、スクリーンショット、スキャンした PDF を認識し、結果を一般的なドキュメント形式で保存します。高度な前処理フィルターは、回転、歪み、ノイズのある画像を処理します。タスクを GPU にオフロードすることでパフォーマンスを最適化します。
迅速かつ正確な OCR
Java テクノロジーを使用した高度な Python を使用して、高速で正確な OCR 結果を実現します。
多言語サポート
ラテン語、キリル文字、アラビア語、ペルシア語、インド語、中国語の文字を含む 130 以上の言語のテキストを認識し、Java 経由で Python アプリケーションの汎用性を確保します。
柔軟な画像のサポート
スキャナー、カメラ、スマートフォンからの画像を Java 経由で Python でシームレスに処理します。
漢字認識の精度
Java を介して Python プロジェクトで 6,000 を超える漢字を正確に認識します。
フォントのスタイルと書式を保持する
Java を介して Python アプリケーションで認識されたテキストを正確に表現するために、フォント スタイルと書式設定を維持します。
ライブコードサンプル
わずか 3 行のコードで画像からのテキスト認識を開始します。シンプルさを体験してください!
* ファイルをアップロードするかサービスを使用することにより、次のことに同意したことになります。 利用規約 そして プライバシーポリシー.
画像をテキストに変換する
他の例 ># Initialize OCR engine
recognitionEngine = AsposeOcr()
# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")
# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)
好みを選択してください
ニーズに合わせて適切なライブラリをお選びください。利用可能な API とその機能を調べて、最も効率的なソリューションを選択します。
多用途性
Python via .NET
均一
Python via Java
パフォーマンス
Python via C++
Java バックエンドの互換性
Python モジュールとして設計されたこのライブラリは、 Java をサポートする主要なオペレーティング システム間での互換性を保証します (Microsoft Windows、Linux、macOS など)。クラウドプラットフォーム。これにより、あるプラットフォームでアプリケーションを開発し、別のプラットフォームでシームレスに実行できるため、コードを変更する必要がなくなります。
サポートされているファイル形式
Aspose.OCR for Python via Java 事実上あらゆる[ファイル]を扱うことができます( https://docs.aspose.com/ocr/python-java/supported-file-formats/ ) スキャナーやカメラから取得できます。認識結果は、最も一般的なファイルおよびデータ交換形式で返され、保存、データベースへのインポート、またはリアルタイムでの分析が可能です。
画像
- JPEG
- PNG
- TIFF
- GIF
- Bitmap
バッチOCR
- Multi-page PDF
- ZIP
- Folder
認識結果
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
Java 経由で Python を簡単にインストール
Java 経由の Python 用 Aspose.OCR は、Python パッケージとして、または依存関係を最小限に抑えた ダウンロード可能なファイル として提供されます。これをプロジェクトに簡単に インストール するだけで、サポートされている複数の言語でテキストを認識し、認識結果をさまざまな形式で保存できるようになります。
試用版ライセンスをリクエスト して、制限なく完全に機能する OCR アプリケーションの開発を開始します。
Python アプリケーション用の強力な OCR
私たちのライブラリは簡単に統合できるため、デスクトップ Windows、Windows Server、macOS、Linux、クラウドなど、あらゆるプラットフォームで Python アプリケーションをシームレスに実行できます。
130 以上の認識言語
当社の Python および Java OCR API は、混合言語を含む、多数の言語と一般的なスクリプトを認識します。
言語検出をライブラリに任せるか、認識パフォーマンスと信頼性を向上させるために自分で言語を定義します。
- 拡張ラテン語 アルファベット: 英語、スペイン語、フランス語、インドネシア語、ポルトガル語、ドイツ語、ベトナム語、トルコ語、イタリア語、ポーランド語、その他 80 以上。
- キリル文字 アルファベット: ロシア語、ウクライナ語、カザフ語、セルビア語、ベラルーシ語、ブルガリア語。
- アラビア語、ペルシア語、ウルドゥー語。
- 中国語およびデーヴァナーガリー文字(ヒンディー語、マラーティー語、ボージプリ語などを含む)。
強化された画像処理フィルター
光学式文字認識の精度は、元の画像の品質に大きく依存します。 Java 経由の Aspose.OCR for Python は、OCR エンジンに送信する前に画像を最適化するための、自動および手動の両方の幅広い画像処理フィルターを提供します。
- わずかに傾いた画像を自動的にまっすぐに補正します。
- 著しく歪んだ画像の回転を手動で修正します。
- 汚れ、シミ、傷、まぶしさ、不要なグラデーション、その他の種類のノイズを自動的に除去します。
- 画像のコントラストを自動的に調整します。
- 画像を自動的にアップスケールするか、手動でサイズ変更します。
- 画像を白黒またはグレースケールに変換します。
- 画像の色を反転して、明るい部分を暗く見せ、暗い部分を明るく見せます。
- 画像内の文字を太くします。
- 文字のエッジを維持しながら、ノイズの多い画像をぼかします。
- ページの傾きを補正し、ページ写真のカメラレンズの歪みを修正します。
さまざまなドキュメントタイプに特化した API
Java 経由の Aspose.OCR for Python は、特定の種類の画像からテキストを最高の精度で抽出するために特別にトレーニングされたニューラル ネットワークを提供します。
- スキャンまたは写真撮影した ID カードとパスポート。
- 車のナンバープレート。
- 請求書。
- 領収書。
内蔵スペルチェッカー
Java 経由の Aspose.OCR for Python は高い認識精度を提供しますが、印刷欠陥、汚れ、または標準以外のフォントにより、特定の文字や単語が正しく認識されない可能性があります。認識結果をさらに向上させるには、スペル チェッカーを有効にすると、選択した認識言語に基づいてスペル エラーを検出し、自動的に修正します。
認識されたテキストに、一般的なスペル辞書に存在しない専門用語、略語、その他の単語が含まれている場合は、独自の単語リストを提供できます。
効率的なバッチ認識
当社の Python OCR API を使用すると、画像認識を合理化できます。汎用性の高いバッチ処理メソッドを利用して、1 回の呼び出しで複数の画像を効率的に処理します。
- 複数ページの PDF、TIFF ファイルを認識します。
- フォルダー内のすべてのファイルを処理します。
- アーカイブ内のすべてのファイルの認識を処理します。
- 指定されたリストから画像を認識します。
Python の例による学習
当社の OCR ソリューションの機能と能力をすぐに理解できるように設計されたさまざまな Python の例 をご覧ください。特定のビジネス要件を満たすカスタマイズされたソリューションの作成に関する洞察を迅速に得ます。
特徴と機能
Aspose.OCR for Python via Java Aspose.OCR for Python の高度な機能を探索する
写真OCR
スキャンレベルの精度でスマートフォンの写真からテキストを抽出します。
検索可能なPDF
あらゆるスキャンを完全に検索可能でインデックス可能なドキュメントに変換します。
URL認識
画像をローカルにダウンロードせずに、URL から画像を認識します。
一括認識
複数ページのドキュメント、フォルダー、アーカイブからすべての画像を読み取ります。
任意のフォントとスタイル
すべての一般的な書体とスタイルのテキストを識別して認識します。
認識を微調整する
最良の認識結果が得られるように、すべての OCR パラメータを調整します。
スペルチェッカー
スペルミスの単語を自動的に修正することで結果を改善します。
画像内のテキストを検索する
一連の画像内のテキストまたは正規表現を検索します。
画像テキストを比較する
大文字と小文字やレイアウトに関係なく、2 つの画像上のテキストを比較します。
Python コードサンプル
Java 経由で Aspose.OCR for Python をアプリケーションにシームレスに統合するコード サンプルを見つけてください。
簡単な取り付け
Aspose.OCR for Python via Java は、Python パッケージまたは最小限の依存関係を持つダウンロード可能なファイルとして、簡単に配布できます。これを Python からプロジェクトに直接統合すると、完全な OCR 機能を利用して、認識結果をさまざまな形式で保存する準備が整います。
インストール後、Java 経由で Aspose.OCR for Python の使用をすぐに開始します。一定の制限はありますが。一時ライセンスでは、30 日間の試用版の制限がすべて解除されます。この期間を利用して完全に機能する OCR アプリケーションの開発を開始し、後で Java 経由で Aspose.OCR for Python を購入するかどうかを十分な情報に基づいて決定できるようにします。
ライセンスをロードする
lic = License()
lic.set_license(self.licPath)
画像認識
OCR アプリケーションにおける主な課題は、エンド ユーザー向けのスキャナーが不足していることです。 Java を介して Python とシームレスに統合された API は、回転、歪み、ノイズのある画像を処理する堅牢な組み込み画像前処理フィルターを備えています。すべての画像形式のサポートと組み合わせることで、スマートフォンの写真からも確実に認識できます。ほとんどの前処理と画像補正は自動化されており、困難な場合にのみユーザーの介入が必要になります。
自動画像補正を適用する - Python
api = AsposeOcr()
# set preprocessing options
filters = PreprocessingFilter()
filters.add(PreprocessingFilter.auto_skew())
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE, filters)
input.add("sample.png")
# set recognition options
settings = RecognitionSettings()
settings.set_detect_areas_mode(DetectAreasMode.TABLE)
settings.set_threads_count(1)
settings.set_language(Language.ENG)
# recognize
result = api.recognize(input, settings)
# print result
print(res[0].recognition_text)
Python ユニバーサル コンバーター
当社の API は、スキャナ、カメラ、スマートフォンから PDF ドキュメント、JPEG、PNG、TIFF、GIF、BMP ファイルなどのあらゆる画像を適切に読み取ります。複数ページの PDF ドキュメント、TIFF、DjVu 画像を完全にサポートしているため、多用途性が保証されます。 URL を介して Web から画像を提供することもできます。
認識結果は、プレーン テキスト、PDF、Microsoft Word、Microsoft Excel、JSON、XML などの一般的なドキュメントおよびデータ交換形式で返されます。
PDF を認識し、結果をさまざまな出力形式で保存する - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(aspose.models.InputType.PDF)
file = os.path.join(self.dataDir, "pdfs/multi_page_1.pdf")
input.add(file, 0, 3)
set = RecognitionSettings()
set.set_detect_areas_mode(DetectAreasMode.NONE)
result = api.recognize(input, set)
api.save_multipage_document("test.xml", Format.XML, result)
api.save_multipage_document("test.json", Format.JSON, result)
api.save_multipage_document("test.pdf", Format.PDF, result)
api.save_multipage_document("test.xlsx", Format.XLSX, result)
api.save_multipage_document("test.docx", Format.DOCX, result)
api.save_multipage_document("test.txt", Format.TEXT, result)
api.save_multipage_document("test.html", Format.HTML, result)
api.save_multipage_document("test.epub", Format.EPUB, result)
api.save_multipage_document("test.rtf", Format.RTF, result)
リソース使用の最適化
OCR は、テキストがまばらで、ノイズが多い/色付きの背景を持つ画像からコンテンツを抽出するための特別な認識アルゴリズムを提供します。この方法により、次のビジネス ケースで OCR の精度が大幅に向上します。
- 街路の写真からテキストを読み取ります。
- 道路画像内の道路標識や看板をセグメント化して識別します。
- 価格タグを見つけて、抽出されたテキストを価格として解釈します。
- 栄養情報や成分リストなど、食品ラベル上の関心のある領域を検索して集計します。
- 車のナンバープレートを識別して分析します。
- メニューやカタログからテキストを抽出します。
オープンエリア OCR - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("border.jpg")
result = api.recognize(input, RecognitionSettings())
result_street = api.recognize_street_photo(input)
print(result[0].recognition_text)
ストリート写真からテキストを抽出する
OCR for Python は、車両のナンバー プレートから暗い写真やぼやけた写真などのテキストを抽出する特別な認識アルゴリズムを提供します。結果のテキストはデータベースに自動的に保存されたり、自動的に検証されたりすることができます。
車のナンバーを認識する - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add(os.path.join(self.dataDir, "CarNumbers.jfif"))
# recognize
result = api.recognize_car_plate(input, CarPlateRecognitionSettings())
# print result
print(result[0].recognition_text)