.NET アプリケーション用の C# OCR ライブラリ
C# OCR で画像をテキストに変換する
その他のショーケース >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source
= new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("image-with-text.png");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
> dotnet add package Aspose.OCR
Aspose OCR ライブラリを選択する理由?
強力な OCR 機能を .NET アプリに数秒で構築します。使いやすい OCR API を使用すると、最小限の C# コードで画像やスキャンからテキストを抽出したり、検索可能な PDF を作成したりできます。 .NET デスクトップ、Web、クラウド、サーバーレス機能に最適です。当社の機能とメリットの詳細については、以下の項目をクリックしてください。
グローバル OCR アプリケーション
C# OCR は、英語、キリル文字、アラビア語、ペルシア語、中国語、日本語、韓国語、ヒンディー語、タミル語、および混合言語のテキストを認識します。
すべて読む
スキャナーまたはカメラを通じて取得したファイルからテキストを取得し、Web リンクから直接画像を処理します。
信頼できる結果
焦点が合っていない、回転している、歪んでいる、ノイズのある画像など、あらゆる画像に対して高い認識精度を実現します。
バッチ認識
フォルダーとアーカイブからすべての画像を一括認識します。複数ページの PDF ドキュメントと TIFF 画像を読み取ります。
レイアウト検出
画像内のコンテンツ ブロックを識別して分類し、レイアウトに関係なく、抽出されたテキストの正しい順序を確保します。
ライブコードサンプル
Aspose OCR API を使用すると、新しい開発者にとっても、.NET OCR は簡単で簡単なタスクになります。わずか数行のコードだけで、画像からテキストを抽出して画面に表示できます。本当に簡単ですので、ぜひ試してみてください。
* ファイルをアップロードするかサービスを使用することにより、当社の 利用規約 そして プライバシーポリシー.
画像をテキストに変換する
他の例 >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
プラットフォームの独立性
クロスプラットフォーム OCR ライブラリは、ローカル マシン上でも、 Webサーバーまたはクラウド上で。
サポートされているファイル形式
Aspose.OCR for .NET 任意の[ファイル]を操作できます( https://docs.aspose.com/ocr/net/supported-file-formats/ ) スキャナーやカメラから取得できます。認識結果は保存したり、データベースにインポートしたり、リアルタイムで分析したりできます。
画像
- JPEG
- PNG
- TIFF
- BMP
- GIF
バッチOCR
- Multi-page PDF
- DjVu
- ZIP
- Folder
認識結果
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
あらゆるコンテンツに適しています
C# でのテキスト認識の精度と信頼性は、画像の品質に大きく依存します。 .NET OCR は、自動および手動の画像最適化のフルセットを提供し、優れた認識結果を保証します。
強力な画像処理、完全にカスタマイズ可能なテキスト検出、後処理、および自動スペル修正により、あらゆるスキャンまたは写真から最高の精度でテキストを抽出できます。
OCRリソースの最適化
Aspose の C# OCR ライブラリを使用すると、特定のユースケースごとに認識速度、品質、リソース使用率の非常に柔軟なバランスを実現できます。
- 完全な認識と高速認識のどちらかを選択します。
- 認識用に割り当てられるスレッドの数を指定するか、.NET OCR ライブラリがプロセッサ コアの数に合わせて自動的にスケールされるようにします。
- 計算を GPU にオフロードすることで CPU を解放します。
140 以上の認識言語
当社の C# OCR ライブラリは、世界規模での文書処理、データ抽出、コンテンツのデジタル化のためのユニバーサル ソリューションです。ヨーロッパ、中東、アジアの膨大な数の筆記体をサポートしているため、あらゆる国やビジネスにうまく適応できます。
中国語/英語、アラビア語/フランス語、キリル文字/英語などの混合言語で書かれたドキュメントを認識できます。次の言語がサポートされています。
- 拡張ラテン語: 英語、スペイン語、フランス語、インドネシア語、ポルトガル語、ドイツ語、ベトナム語、トルコ語、イタリア語、ポーランド語、その他 80 以上;
- キリル文字 アルファベット: ロシア語、ウクライナ語、カザフ語、ブルガリア語 (キリル文字と英語の混合テキストを含む)。
- アラビア語、ペルシア語、ウルドゥー語、英語と混合したテキストを含む。
- 中国語、韓国語、日本語、デーヴァナーガリー語、ヒンディー語、タミル語、マラーティー語などのドラヴィダ語。
特徴と機能
C# OCR は写真またはスキャンからテキストを自動的に抽出するため、文書を手動で再入力する必要がなくなります。
写真OCR
スキャンレベルの精度でスマートフォンの写真からテキストを抽出します。
検索可能なPDF
あらゆるスキャンを完全に検索可能でインデックス可能なドキュメントに変換します。
URL認識
画像をローカルにダウンロードせずに、URL から画像を認識します。
一括認識
複数ページのドキュメント、フォルダー、アーカイブからすべての画像を読み取ります。
任意のフォントとスタイル
すべての一般的な書体とスタイルのテキストを識別して認識します。
認識を微調整する
最良の認識結果が得られるように、すべての OCR パラメータを調整します。
スペルチェッカー
スペルミスの単語を自動的に修正することで結果を改善します。
画像内のテキストを検索する
一連の画像内のテキストまたは正規表現を検索します。
画像テキストを比較する
大文字と小文字やレイアウトに関係なく、2 つの画像上のテキストを比較します。
使いやすいOCR
C# OCR API を使用すると、数行の C# コードを記述するだけで、画像からテキストへの変換、検索可能な PDF の作成、認識結果のドキュメントへの保存などを行うことができます。コード サンプルを参照して、OCR API を .NET ソリューションに統合する方法を理解してください。
インストール
いくつかの[制限]付きで、インストール直後からAspose OCR for .NETの使用を開始できます( https://docs.aspose.com/ocr/net/licensing/ )。一時ライセンスを使用すると、30 日間試用版のすべての制限が解除されます。これを使用して、完全に機能する OCR アプリケーションの構築を開始し、後で .NET 用の OCR を購入する最終決定を下します。
写真からテキストを抽出する
一般に OCR (光学式文字認識) について考えるとき、最初に連想されるのは、主なキャプチャ デバイスとしてのスキャナであることがよくあります。この関連付けには歴史的な理由があり、今でも多くの状況で普及しており、物理的な文書から印刷されたテキストを比類のない品質で取り込むための一貫した制御された環境を提供します。ただし、スキャナは特殊な機器であり、常に手元にあるわけではなく、操作するには固定ワークステーションが必要です。幸いなことに、現代の世界では、従来のスキャナーに代わる便利な代替手段であるスマートフォンのカメラが提供されています。スマートフォンのカメラ技術の進歩により、エントリーレベルのスマートフォンでも OCR 対応ドキュメントをキャプチャするのに十分な品質が確保されています。また、内蔵メモリにより、外出先で大量の文書、新聞、書籍、道路標識、その他のテキストをこれまでより簡単にデジタル化できます。必要なのは、写真を機械可読テキストに変換する適切なテクノロジーだけです。
当社の C# OCR ライブラリは、あらゆる種類の画像をすぐに認識できるように特別に設計されており、低品質の写真でも処理できるようにさらに微調整できます。最新のスマートフォンと組み合わせることで、日常的なスキャンやテキスト認識タスクのほとんどに対応する強力な OCR アプリケーションを作成できます。最先端の画像処理と文書構造分析が数行のコードで実行されるため、複雑な数学的アルゴリズム、ニューラル ネットワーク、その他の複雑な技術的な作業ではなく、ビジネスに集中できます。
写真 OCR - C#
// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
PreprocessingFilter.ContrastCorrectionFilter(),
PreprocessingFilter.AutoDewarping()
};
// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");
// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;
// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);
// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);
スキャンから検索可能な PDF を作成する
PDF は、特に複数のページを 1 つのファイルに結合できるため、紙の文書をスキャンするための最も一般的な形式の 1 つです。この形式は、個人、企業、銀行、政府機関の間での契約書、請求書、法的文書、パスポート、ID カード、その他多くの文書の交換に広く使用されています。ただし、スキャンされた PDF は基本的に画像のコレクションです。機械可読テキストは含まれていないため、ユーザーは文書の内容を検索、コピー、その他の操作を行うことができません。
Aspose .NET OCR は、スキャンされた PDF を完全に検索可能でインデックス可能なドキュメントに変換する、高速、簡単、信頼性の高い方法を提供します。ページのコンテンツを正確に認識し、元の画像の上に機械可読のテキスト レイヤーに変換します。テキスト レイヤーは選択、コピー、音声合成ソフトウェアで読み上げられるほか、翻訳者、要約者、その他の AI を利用した分析によって自動的に処理することもできます。ツール。
PDF にテキスト オーバーレイを追加する - C#
// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");
// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);
// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");
画像内のテキストを検索する
特に大規模な組織では、デジタル アーカイブはスキャンや写真の膨大なコレクションで構成されることが多く、その多くには複数ページのドキュメントが含まれる場合があります。このようなアーカイブを効果的に効率的に管理および編成することは、情報の検索とナビゲーションを容易にするために不可欠です。ただし、画像には機械可読テキストが含まれていないため、文書の内容を検索して分析することはできません。
C# OCR ライブラリを使用すると、フォント、テキスト サイズ、スタイル、その他のパラメーターに関係なく、画像内のテキストを簡単に検索できます。このライブラリは、大文字と小文字を区別しない検索と正規表現もサポートしており、さまざまなアプリケーションや業界で非常に役立ちます。この機能は、テキスト内のコンテンツ、キーワード、またはパターンに基づいてドキュメントを分類するために使用できます。契約書や契約書内の特定の用語や条項を検索する。ファイル内で見つかったキーワードまたはコンテンツに基づいてファイルを再編成します。文書内の個人データを見つけて識別できるため、GDPR への準拠を容易にし、機密情報をより効果的に管理できるようになります。画像内の検索により、自動化されたワークフローを作成し、署名済みの契約書や請求書を受け取った際のさまざまなビジネス プロセスを合理化することもできます。
画像内のテキストを検索する - C#
string sourceFolder = "images";
string searchFor = "OCR";
// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
bool found = api.ImageHasText(image, searchFor);
if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}