为什么选择 Aspose.OCR for .NET?

Aspose.OCR for .NET 是一个强大、开发人员友好且经济高效的光学字符识别 API。只需不到 10 行本机 C# 代码,您就可以将 OCR 功能构建到 .NET 桌面解决方案、基于 MVC 的 Web 应用程序、云服务和无服务器 Azure 功能中。从扫描件、照片和屏幕截图中提取机器可读的文本,将扫描的页面转换为可搜索和可索引的 PDF,查找和比较专注于业务任务的图像上的文本,而不是复杂的数学、神经网络和其他复杂的技术。单击下面的项目以了解有关我们的功能和优势的更多信息。

Illustration ocr

全球应用

识别拉丁文、西里尔文和亚洲文字文本,包括 6,000 多个汉字和印地语。

阅读所有内容

从通过扫描仪或相机获得的任何文件中检索文本,并直接处理来自网络链接的图像。

可靠的结果

对所有图像(包括失焦、旋转、扭曲和噪声图像)实现高识别精度。

批量识别

批量识别文件夹和档案中的所有图像;阅读多页 PDF 文档和 TIFF 图像。

布局检测

识别图像中的内容块并对其进行分类,以确保提取的文本的顺序正确,无论布局如何。

实时代码示例

使用 Aspose.OCR,光学字符识别成为一项简单而简单的任务,即使对于刚接触该技术的开发人员也是如此。只需几行代码就足以从图像中提取文本并将其显示在屏幕上。真的就是这么简单 - 尝试一下。

准备好识别 准备好识别 将文件拖放到此处或单击浏览*

* 通过上传您的文件或使用我们的服务,您同意我们的 使用条款隐私政策.

识别结果
 

将图像转换为文本

更多示例 >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

平台独立性

Aspose.OCR for .NET 可以在支持 .NET、.NET Core 或 .NET Framework 的 任何平台 上工作 - 无论是在本地机、网络服务器或云中。

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

支持的文件格式

Aspose.OCR for .NET 几乎可以处理任何 文件 您可以通过扫描仪或相机获取。识别结果以最流行的文件和数据交换格式返回,可以保存、导入数据库或实时分析。

图片

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

批量OCR

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

识别结果

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

适合任何内容

文本识别的准确性和可靠性很大程度上取决于原始图像的质量。 Aspose.OCR for .NET 提供了广泛的全自动和手动图像处理过滤器,可在将图像发送到 OCR 引擎之前对其进行增强。

强大的图像处理和可定制的内容结构检测算法可以从几乎任何图像中提取文本,从高质量扫描到街头照片。可以将多个处理过滤器应用于同一图像以获得最佳的识别质量。

资源优化

Aspose.OCR for .NET 可针对每个特定用例实现识别速度、质量和资源利用率的高度灵活平衡:

  • 在彻底识别和快速识别之间进行选择。
  • 指定分配用于识别的线程数,或允许库自动缩放到处理器核心的数量。
  • 通过将计算卸载到 GPU 来释放 CPU。

130+识别语言

Aspose.OCR for .NET 是全球范围内文档处理、数据提取和内容数字化的通用解决方案。它支持大量欧洲、中东和亚洲书写脚本,非常适合任何规模,适合中小型企业以及跨国公司。

您可以将语言检测委托给库或手动指定语言,从而增强识别性能和可靠性。支持以下语言:

  • 扩展拉丁字母表:英语、西班牙语、法语、印度尼西亚语、葡萄牙语、德语、越南语、土耳其语、意大利语、波兰语等 80 多种;
  • 西里尔文字母:俄语、乌克兰语、哈萨克语、塞尔维亚语、白俄罗斯语、保加利亚语;
  • 阿拉伯语、波斯语、乌尔都语;
  • 中文和梵文文字,包括印地语、马拉地语、博杰普尔语等。

特性和功能

Aspose.OCR for .NET 自动从照片或扫描图像中提取文本,无需手动重新输入文档。

Feature icon

照片识别

以扫描级精度从智能手机照片中提取文本。

Feature icon

可搜索的 PDF

将任何扫描结果转换为完全可搜索和可索引的文档。

Feature icon

网址识别

从 URL 识别图像,无需下载到本地。

Feature icon

批量识别

读取多页文档、文件夹和档案中的所有图像。

Feature icon

任何字体和样式

识别并识别所有流行字体和样式的文本。

Feature icon

微调识别

调整每个 OCR 参数以获得最佳识别结果。

Feature icon

拼写检查器

通过自动更正拼写错误的单词来提高结果。

Feature icon

查找图像中的文本

在一组图像中搜索文本或正则表达式。

Feature icon

比较图像文本

比较两个图像上的文本,无论大小写和布局如何。

便于使用

您只需几行代码即可将图像转换为文本、创建可搜索的 PDF、将识别结果保存到文档等等。探索代码示例以了解如何将 Aspose.OCR for .NET 集成到您的解决方案中。

安装

Aspose.OCR for .NET 作为 NuGet 包 或作为 [可下载文件]( https://releases.aspose.com/ ocr/net/) 具有最小的依赖性。该包可以直接从 Microsoft Visual Studio 添加到您的项目中。只需将其安装到您的项目中,您就可以从图像中提取文本并以任何支持的格式保存识别结果。如果您的系统具有支持 CUDA 的 GPU,则可以使用 GPU 加速 OCR 引擎 来显着提高识别性能。

您可以在安装后立即开始使用 Aspose.OCR for .NET,但有一些 限制 。临时许可证可消除试用版 30 天的所有限制。使用它开始构建功能齐全的 OCR 应用程序,并稍后做出购买 Aspose.OCR for .NET 的最终决定。

从照片中提取文本

当人们通常想到 OCR(光学字符识别)时,第一个联想通常是扫描仪作为主要捕获设备。这种关联有历史原因,并且在许多情况下仍然普遍存在,为从物理文档中捕获打印文本提供了一致且受控的环境,具有无与伦比的质量。然而,扫描仪是专用设备,并不总是在手边,并且需要固定工作站才能操作。幸运的是,现代世界提供了传统扫描仪的便捷替代品 - 智能手机摄像头。智能手机摄像头技术的进步确保即使是入门级智能手机也能提供足够的质量来捕获 OCR 就绪文档。内置内存使您可以比以往更轻松地随时随地数字化大量文档、报纸、书籍、街道标志和其他文本。您所需要的只是将这些照片转换为机器可读文本的正确技术。

Aspose.OCR for .NET 专门设计用于识别所有类型的开箱即用的图像,并且可以进一步微调以处理低质量的照片。与现代智能手机相结合,它允许您为大多数日常扫描和文本识别任务创建强大的 OCR 应用程序。最先进的图像处理和文档结构分析只需几行代码即可执行,使您能够专注于业务而不是复杂的数学算法、神经网络和其他复杂的技术。

照片 OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

从扫描件创建可搜索的 PDF

PDF 是扫描纸质文档最流行的格式之一,特别是因为它能够将多个页面合并为一个文件。这种格式广泛用于个人、企业、银行和政府机构之间交换合同、发票、法律文件、护照和身份证以及许多其他文件。然而,任何扫描的 PDF 本质上都是图像的集合。它不包含机器可读的文本,因此用户无法搜索、复制或以其他方式操作文档内容。

Aspose.OCR for .NET 为您提供了一种快速、简单且高度可靠的方法,将任何扫描的 PDF 转换为完全可搜索和可索引的文档。它可以准确识别页面内容,将其转换为原始图像上的机器可读文本层,可以通过文本转语音软件进行选择、复制和读取,甚至可以由翻译器、摘要器和其他人工智能分析工具自动处理工具。

向 PDF 添加文本叠加 - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

搜索图像中的文本

数字档案,特别是在大型组织中,通常包含大量扫描和照片,其中许多可能包含多页文档。有效地管理和组织此类档案对于轻松的信息检索和导航至关重要。然而,图像不包含机器可读的文本,因此无法搜索和分析文档内容。

Aspose.OCR for .NET 允许您轻松搜索图像中的文本,无论字体、文本大小、样式和其他参数如何。该库还支持不区分大小写的搜索和正则表达式,这在各种应用程序和行业中都非常有用。此功能可用于根据文本中的内容、关键字或模式对文档进行分类;搜索协议和合同中的具体条款或条款;根据关键字或文件中的内容重新组织文件;查找和识别文档中的个人数据,从而更轻松地确保 GDPR 合规性并更有效地管理敏感信息。通过图像搜索还可以创建自动化工作流程,并在收到签署的合同和发票后简化各种业务流程。

搜索图像中的文本 - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}