适用于 .NET 应用程序的 C# OCR 库
在 C# OCR 中将图像转换为文本
更多展示 >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source
= new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("image-with-text.png");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
> dotnet add package Aspose.OCR
为什么选择 Aspose OCR 库?
在几秒钟内将强大的 OCR 功能构建到您的 .NET 应用程序中。我们易于使用的 OCR API 可让您使用最少的 C# 代码从图像和扫描中提取文本、创建可搜索的 PDF 等。 .NET 桌面、Web、云和无服务器功能的理想选择。单击下面的项目以了解有关我们的功能和优势的更多信息。
全球 OCR 应用
C# OCR 可识别英语、西里尔语、阿拉伯语、波斯语、中文、日语、韩语、印地语、泰米尔语和混合语言文本。
阅读所有内容
从通过扫描仪或相机获得的任何文件中获取文本,并直接从网络链接处理图像。
可靠的结果
对所有图像(包括失焦、旋转、扭曲和噪声图像)实现高识别精度。
批量识别
批量识别文件夹和档案中的所有图像;阅读多页 PDF 文档和 TIFF 图像。
布局检测
识别图像中的内容块并对其进行分类,以确保提取文本的顺序正确,无论布局如何。
实时代码示例
借助 Aspose OCR API,.NET OCR 成为一项简单而简单的任务,即使对于新开发人员也是如此。只需几行代码就足以从图像中提取文本并将其显示在屏幕上。真的就是这么简单 - 尝试一下。
将图像转换为文本
更多示例 >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
平台独立性
跨平台 OCR 库可以在 .NET、.NET Core 或 .NET Framework 下 任何地方 工作 - 无论是在本地计算机上、在Web 服务器或云中。
支持的文件格式
Aspose.OCR for .NET 可以处理任何 文件 您可以通过扫描仪或相机获取。识别结果可以保存、导入数据库或实时分析。
图片
- JPEG
- PNG
- TIFF
- BMP
- GIF
批量OCR
- Multi-page PDF
- DjVu
- ZIP
- Folder
识别结果
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
适合任何内容
C# 中文本识别的准确性和可靠性很大程度上取决于图像质量。 .NET OCR 提供全套自动和手动图像优化,确保卓越的识别结果。
强大的图像处理、完全可定制的文本检测、后处理和自动拼写纠正功能可以以最高精度从任何扫描或照片中提取文本。
OCR资源优化
Aspose 的 C# OCR 库可为每个特定用例实现识别速度、质量和资源利用率的高度灵活平衡:
- 在彻底识别和快速识别之间进行选择。
- 指定分配用于识别的线程数,或允许我们的 .NET OCR 库自动缩放到处理器核心的数量。
- 通过将计算卸载到 GPU 来释放 CPU。
140+识别语言
我们的 C# OCR 库是全球范围内文档处理、数据提取和内容数字化的通用解决方案。它支持大量欧洲、中东和亚洲书写脚本,非常适合任何国家和企业。
您可以识别以混合语言编写的文档,例如中文/英文、阿拉伯文/法文或西里尔文/英文。支持以下语言:
- 扩展拉丁语:英语、西班牙语、法语、印度尼西亚语、葡萄牙语、德语、越南语、土耳其语、意大利语、波兰语等 80 多种;
- 西里尔文字母表:俄语、乌克兰语、哈萨克语、保加利亚语,包括混合西里尔语/英语文本;
- 阿拉伯语、波斯语、乌尔都语,包括与英语混合的文本;
- 中文、韩语、日语、梵文和德拉威语,包括印地语、泰米尔语、马拉地语等。
特性和功能
C# OCR 自动从照片或扫描件中提取文本,无需手动重新输入文档。
照片识别
以扫描级精度从智能手机照片中提取文本。
可搜索的 PDF
将任何扫描结果转换为完全可搜索和可索引的文档。
网址识别
从 URL 识别图像,无需下载到本地。
批量识别
读取多页文档、文件夹和档案中的所有图像。
任何字体和样式
识别并识别所有流行字体和样式的文本。
微调识别
调整每个 OCR 参数以获得最佳识别结果。
拼写检查器
通过自动更正拼写错误的单词来提高结果。
查找图像中的文本
在一组图像中搜索文本或正则表达式。
比较图像文本
比较两个图像上的文本,无论大小写和布局如何。
易于使用的 OCR
借助我们的 C# OCR API,您只需几行 C# 代码即可将图像转换为文本、创建可搜索的 PDF、将识别结果保存到文档等等。浏览代码示例,了解如何将我们的 OCR API 集成到您的 .NET 解决方案中。
安装
您可以在安装后立即开始使用 Aspose OCR for .NET,但有一些 限制 。临时许可证可消除试用版 30 天的所有限制。使用它开始构建功能齐全的 OCR 应用程序,并稍后做出购买 .NET OCR 的最终决定。
从照片中提取文本
当人们通常想到 OCR(光学字符识别)时,第一个联想通常是扫描仪作为主要捕获设备。这种关联有历史原因,并且在许多情况下仍然普遍存在,为从物理文档中捕获打印文本提供了一致且受控的环境,具有无与伦比的质量。然而,扫描仪是专用设备,并不总是在手边,需要固定工作站才能操作。幸运的是,现代世界提供了传统扫描仪的便捷替代品 - 智能手机摄像头。智能手机摄像头技术的进步确保即使是入门级智能手机也能提供足够的质量来捕获 OCR 就绪文档。内置内存使您可以比以往更轻松地随时随地数字化大量文档、报纸、书籍、街道标志和其他文本。您所需要的只是将这些照片转换为机器可读文本的正确技术。
我们的 C# OCR 库专门设计用于识别所有类型的开箱即用的图像,并且可以进一步微调以处理低质量的照片。与现代智能手机相结合,它允许您为大多数日常扫描和文本识别任务创建强大的 OCR 应用程序。最先进的图像处理和文档结构分析只需几行代码即可执行,使您能够专注于业务而不是复杂的数学算法、神经网络和其他复杂的技术。
照片 OCR - C#
// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
PreprocessingFilter.ContrastCorrectionFilter(),
PreprocessingFilter.AutoDewarping()
};
// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");
// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;
// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);
// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);
从扫描件创建可搜索的 PDF
PDF 是扫描纸质文档最流行的格式之一,特别是因为它能够将多个页面合并为一个文件。这种格式广泛用于个人、企业、银行和政府机构之间交换合同、发票、法律文件、护照和身份证以及许多其他文件。然而,任何扫描的 PDF 本质上都是图像的集合。它不包含机器可读的文本,因此用户无法搜索、复制或以其他方式操作文档内容。
Aspose .NET OCR 为您提供了一种快速、简单且高度可靠的方法,将任何扫描的 PDF 转换为完全可搜索和可索引的文档。它可以准确识别页面内容,将其转换为原始图像上的机器可读文本层,可以通过文本转语音软件进行选择、复制和读取,甚至可以由翻译器、摘要器和其他人工智能分析工具自动处理工具。
向 PDF 添加文本叠加 - C#
// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");
// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);
// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");
搜索图像中的文本
数字档案,特别是在大型组织中,通常包含大量扫描和照片,其中许多可能包含多页文档。有效地管理和组织此类档案对于轻松的信息检索和导航至关重要。然而,图像不包含机器可读的文本,因此无法搜索和分析文档内容。
C# OCR 库允许您轻松搜索图像中的文本,无论字体、文本大小、样式和其他参数如何。该库还支持不区分大小写的搜索和正则表达式,这在各种应用程序和行业中都非常有用。此功能可用于根据文本中的内容、关键字或模式对文档进行分类;搜索协议和合同中的具体条款或条款;根据关键字或文件中的内容重新组织文件;查找和识别文档中的个人数据,从而更轻松地确保 GDPR 合规性并更有效地管理敏感信息。通过图像搜索还可以创建自动化工作流程,并在收到签署的合同和发票后简化各种业务流程。
搜索图像中的文本 - C#
string sourceFolder = "images";
string searchFor = "OCR";
// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
bool found = api.ImageHasText(image, searchFor);
if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}