.NET に Aspose.OCR を使用する理由

Aspose.OCR for .NET は、光学式文字認識用の堅牢で開発者にとって使いやすい、コスト効率の高い API です。 10 行未満のネイティブ C# コードで、OCR 機能を .NET デスクトップ ソリューション、MVC ベースの Web アプリケーション、クラウド サービス、サーバーレス Azure 機能に組み込むことができます。スキャン、写真、スクリーンショットから機械可読テキストを抽出し、スキャンしたページを検索可能でインデックス可能な PDF に変換し、複雑な数学やニューラル ネットワーク、その他の技術的な複雑さではなくビジネス タスクに焦点を当てて画像上のテキストを検索して比較します。当社の機能とメリットの詳細については、以下の項目をクリックしてください。

Illustration ocr

グローバルアプリケーション

6,000 を超える漢字やヒンディー語を含む、ラテン語、キリル文字、アジア文字のテキストを認識します。

すべて読む

スキャナーやカメラを通じて取得したファイルからテキストを取得し、Web リンクから直接画像を処理します。

信頼できる結果

焦点が合っていない、回転している、歪んでいる、ノイズのある画像など、あらゆる画像に対して高い認識精度を実現します。

バッチ認識

フォルダーとアーカイブからすべての画像を一括認識します。複数ページの PDF ドキュメントと TIFF 画像を読み取ります。

レイアウト検出

画像内のコンテンツ ブロックを識別して分類し、レイアウトに関係なく、抽出されたテキストの正しい順序を確保します。

ライブコードサンプル

Aspose.OCR を使用すると、このテクノロジーに慣れていない開発者にとっても、光学式文字認識は簡単で簡単なタスクになります。わずか数行のコードだけで、画像からテキストを抽出して画面に表示できます。本当に簡単ですので、ぜひ試してみてください。

認識する準備ができています 認識する準備ができています ここにファイルをドロップするか、クリックして参照します *

* ファイルをアップロードするかサービスを使用することにより、次のことに同意したことになります。 利用規約 そして プライバシーポリシー.

認識結果
 

画像をテキストに変換する

他の例 >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

プラットフォームの独立性

Aspose.OCR for .NET は、.NET、.NET Core、または .NET Framework をサポートする 任意のプラットフォーム で動作します (ローカル環境であっても)。マシン上、Web サーバー上、またはクラウド上で。

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

サポートされているファイル形式

Aspose.OCR for .NET 事実上あらゆる[ファイル]を扱うことができます( https://docs.aspose.com/ocr/net/supported-file-formats/ ) スキャナーやカメラから取得できます。認識結果は、最も一般的なファイルおよびデータ交換形式で返され、保存、データベースへのインポート、またはリアルタイムでの分析が可能です。

画像

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

バッチOCR

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

認識結果

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

あらゆるコンテンツに適しています

テキスト認識の精度と信頼性は、元の画像の品質に大きく依存します。 Aspose.OCR for .NET は、OCR エンジンに送信される前に画像を強化する、完全に自動化された画像処理フィルターと手動の画像処理フィルターの両方を広範に提供します。

強力な画像処理とカスタマイズ可能なコンテンツ構造検出アルゴリズムにより、高品質のスキャンから街頭写真に至るまで、事実上あらゆる画像からテキストを抽出できます。最高の認識品質を得るために、同じ画像に複数の処理フィルターを適用できます。

リソースの最適化

Aspose.OCR for .NET を使用すると、特定のユースケースごとに認識速度、品質、リソース使用率の非常に柔軟なバランスをとることができます。

  • 完全な認識と高速認識のどちらかを選択します。
  • 認識用に割り当てられるスレッドの数を指定するか、ライブラリがプロセッサ コアの数に合わせて自動的にスケーリングできるようにします。
  • 計算を GPU にオフロードすることで CPU を解放します。

130 以上の認識言語

Aspose.OCR for .NET は、世界規模でのドキュメント処理、データ抽出、コンテンツのデジタル化のためのユニバーサル ソリューションです。ヨーロッパ、中東、アジアの膨大な数の筆記体をサポートしているため、あらゆる規模に適応し、中小企業と多国籍企業の両方に対応します。

言語検出をライブラリに委任するか、言語を手動で指定して、認識パフォーマンスと信頼性を向上させることができます。次の言語がサポートされています。

  • 拡張ラテン語 アルファベット: 英語、スペイン語、フランス語、インドネシア語、ポルトガル語、ドイツ語、ベトナム語、トルコ語、イタリア語、ポーランド語、その他 80 以上。
  • キリル文字 アルファベット: ロシア語、ウクライナ語、カザフ語、セルビア語、ベラルーシ語、ブルガリア語。
  • アラビア語、ペルシア語、ウルドゥー語。
  • 中国語およびデーヴァナーガリー文字(ヒンディー語、マラーティー語、ボージプリ語などを含む)。

特徴と機能

Aspose.OCR for .NET は、写真またはスキャンした画像からテキストを自動的に抽出するため、ドキュメントを手動で再入力する必要がなくなります。

Feature icon

写真OCR

スキャンレベルの精度でスマートフォンの写真からテキストを抽出します。

Feature icon

検索可能なPDF

あらゆるスキャンを完全に検索可能でインデックス可能なドキュメントに変換します。

Feature icon

URL認識

画像をローカルにダウンロードせずに、URL から画像を認識します。

Feature icon

一括認識

複数ページのドキュメント、フォルダー、アーカイブからすべての画像を読み取ります。

Feature icon

任意のフォントとスタイル

すべての一般的な書体とスタイルのテキストを識別して認識します。

Feature icon

認識を微調整する

最良の認識結果が得られるように、すべての OCR パラメータを調整します。

Feature icon

スペルチェッカー

スペルミスの単語を自動的に修正することで結果を改善します。

Feature icon

画像内のテキストを検索する

一連の画像内のテキストまたは正規表現を検索します。

Feature icon

画像テキストを比較する

大文字と小文字やレイアウトに関係なく、2 つの画像上のテキストを比較します。

使いやすい

数行のコードだけで、画像からテキストへの変換、検索可能な PDF の作成、認識結果のドキュメントへの保存などを行うことができます。コード サンプルを参照して、Aspose.OCR for .NET をソリューションに統合する方法を理解してください。

インストール

Aspose.OCR for .NET は、 NuGet パッケージ または ダウンロード可能なファイル として配布されます。 ocr/net/) への依存関係は最小限に抑えられます。パッケージは Microsoft Visual Studio から直接プロジェクトに追加できます。プロジェクトにインストールするだけで、画像からテキストを抽出し、サポートされている形式で認識結果を保存する準備が整います。システムに CUDA 対応 GPU が搭載されている場合は、 GPU 高速化 OCR エンジン を使用して認識パフォーマンスを大幅に向上させることができます。

いくつかの 制限事項 を除き、インストール直後から Aspose.OCR for .NET の使用を開始できます。一時ライセンスを使用すると、30 日間試用版のすべての制限が解除されます。これを使用して、完全に機能する OCR アプリケーションの構築を開始し、後で Aspose.OCR for .NET を購入する最終決定を下します。

写真からテキストを抽出する

一般に OCR (光学式文字認識) について考えるとき、最初に連想されるのは、主なキャプチャ デバイスとしてのスキャナであることがよくあります。この関連付けには歴史的な理由があり、今でも多くの状況で普及しており、物理的な文書から印刷されたテキストを比類のない品質で取り込むための一貫した制御された環境を提供します。ただし、スキャナは特殊な機器であり、常に手元にあるわけではなく、操作するには固定ワークステーションが必要です。幸いなことに、現代の世界では、従来のスキャナーに代わる便利な代替手段であるスマートフォンのカメラが提供されています。スマートフォンのカメラ技術の進歩により、エントリーレベルのスマートフォンでも OCR 対応ドキュメントをキャプチャするのに十分な品質が確保されています。また、内蔵メモリにより、外出先で大量の文書、新聞、書籍、道路標識、その他のテキストをこれまでより簡単にデジタル化できます。必要なのは、写真を機械可読テキストに変換する適切なテクノロジーだけです。

Aspose.OCR for .NET は、あらゆるタイプの画像をすぐに認識できるように特別に設計されており、低品質の写真でも処理できるようにさらに微調整できます。最新のスマートフォンと組み合わせることで、日常的なスキャンやテキスト認識タスクのほとんどに対応する強力な OCR アプリケーションを作成できます。最先端の画像処理と文書構造分析が数行のコードで実行されるため、複雑な数学的アルゴリズム、ニューラル ネットワーク、その他の複雑な技術的な作業ではなく、ビジネスに集中できます。

写真 OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

スキャンから検索可能な PDF を作成する

PDF は、特に複数のページを 1 つのファイルに結合できるため、紙の文書をスキャンするための最も一般的な形式の 1 つです。この形式は、個人、企業、銀行、政府機関の間での契約書、請求書、法的文書、パスポート、ID カード、その他多くの文書の交換に広く使用されています。ただし、スキャンされた PDF は基本的に画像のコレクションです。機械可読テキストは含まれていないため、ユーザーは文書の内容を検索、コピー、その他の操作を行うことができません。

Aspose.OCR for .NET は、スキャンされた PDF を完全に検索可能でインデックス可能なドキュメントに変換する、高速、簡単、信頼性の高い方法を提供します。ページのコンテンツを正確に認識し、元の画像の上に機械可読のテキスト レイヤーに変換します。テキスト レイヤーは選択、コピー、音声合成ソフトウェアで読み上げられるほか、翻訳者、要約者、その他の AI を利用した分析によって自動的に処理することもできます。ツール。

PDF にテキスト オーバーレイを追加する - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

画像内のテキストを検索する

特に大規模な組織では、デジタル アーカイブはスキャンや写真の膨大なコレクションで構成されることが多く、その多くには複数ページのドキュメントが含まれる場合があります。このようなアーカイブを効果的に効率的に管理および編成することは、情報の検索とナビゲーションを容易にするために不可欠です。ただし、画像には機械可読テキストが含まれていないため、文書の内容を検索して分析することはできません。

Aspose.OCR for .NET を使用すると、フォント、テキスト サイズ、スタイル、その他のパラメーターに関係なく、画像内のテキストを簡単に検索できます。このライブラリは、大文字と小文字を区別しない検索と正規表現もサポートしており、さまざまなアプリケーションや業界で非常に役立ちます。この機能は、テキスト内のコンテンツ、キーワード、またはパターンに基づいてドキュメントを分類するために使用できます。契約書や契約書内の特定の用語や条項を検索する。ファイル内で見つかったキーワードまたはコンテンツに基づいてファイルを再編成します。文書内の個人データを見つけて識別できるため、GDPR への準拠を容易にし、機密情報をより効果的に管理できます。画像内の検索により、自動化されたワークフローを作成し、署名済みの契約書や請求書を受け取った際のさまざまなビジネス プロセスを合理化することもできます。

画像内のテキストを検索 - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}