为什么aspose.ocr for python via via .net?

通过.NET乘坐Aspose OCR乘坐Aspose OCR(一种多功能且用户友好的OCR API)踏上了Python的旅程。将OCR功能嵌入您的Python应用程序中,其代码少于5行,从而消除了对复杂的数学或神经网络的需求。我们强大的OCR引擎提供了无与伦比的速度和准确性,支持140多种语言,包括英语,西里尔,阿拉伯语,波斯语,印地语,中国,日语,韩文,泰米尔语等。无论是扫描的图像,智能手机照片,屏幕截图还是扫描的PDF,都以流行文档和数据交换格式获得结果。利用预处理过滤器来处理旋转,偏斜和嘈杂的图像。

Illustration ocr

高效而精确的OCR

通过先进的Python技术,在OCR结果中体验无与伦比的速度和精度。

多种语言

以140多种语言识别文本:英语,法语,德语,西班牙语,俄语,中文,印地语,日语,韩语,泰米尔语,阿拉伯语,波斯语等。

普遍的

使用Python轻松地处理来自扫描仪,相机和智能手机的各种来源的图像。

亚洲语言

精确地认识了中文,阿拉伯语,Devanagari和Dravidian脚本,以及混合语言文本。

保留布局

维护源格式以进行准确的文本表示,并识别表。

实时代码样本

将图像转换为文本,仅在三行Python代码中。为自己尝试!

准备识别 准备识别 在此处放置文件或单击浏览 *

*通过上传文件或使用您同意我们的服务 使用条款隐私政策.

识别结果
 

将图像转换为文字

发现更多例子 >
# Initialize OCR engine
recognitionEngine = AsposeOcr()

# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")

# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)

选择您的偏好

为您的需求选择合适的库。探索可用的API及其选择最有效解决方案的功能。

多功能性

Python via .NET

代码的易于开发,可读性和可维护性
拥有最多的功能并获得最频繁的更新
总体速度可能比其他平台慢一点

统一

Python via Java

在任何平台上使用相同的库
在任何设备上无缝运行您的应用程序
需要Java运行时环境(JRE)版本8或更高版本

表现

Python via C++

无论平台如何,最快的速度
对资源管理的大量控制
针对经验丰富的开发人员

到处跑

无论名称如何,python via via a aspose.ocr不需要在目标平台上安装.net。安装软件包已经随附所有必需的组件,并且可以在任何平台上无缝操作 - 无论是本地计算机,Web服务器还是云。

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

支持的文件格式

Aspose.OCR for Python via .NET 可以使用任何 文件 您可以从扫描仪或相机中获得。识别结果可以保存,导入到数据库或实时分析。

图像

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

批量OCR

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

识别结果

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

安装

aspose.ocr for python via via .net作为Python包裹的套件,或[可下载的文件](https://releases.aspose.com/ocr/py/python-net/)或[pypi package https://releases.aspose.com.com.com.com/propi.org/popi.org/propopect/aspose-appose-ocr-pocr-pocr-py–pocr-pyynet/net/—轻松[install](https://docs.aspose.com/ocr/python-net/installation/)它进入您的项目,您可以用140多种语言识别文本,并以各种格式保存识别结果。

[请求试用许可证](https://purchase.aspose.com/temporary-license),以启动无限制的功能性OCR应用程序的开发。

在Python下的OCR

我们的库轻松集成,使Python应用程序能够在任何平台上无缝运行 - 桌面Windows,Windows Server,Macos,Linux和The Cloud。

140多种识别语言

我们的Java OCR库是在全球范围内用于文档处理,数据提取和内容数字化的通用解决方案。为了支持各种欧洲,中东和亚洲写作脚本,它适合任何国家和商业。

Java的Aspose OCR在多语言文档中识别文本,例如中文/英语,阿拉伯语/法语或西里尔/英语。支持以下语言:

  • 扩展拉丁语:英语,西班牙语,法语,印尼,葡萄牙语,德国,越南语,土耳其语,意大利语,波兰语和80岁以上;
  • 西里尔字母:俄罗斯,乌克兰,哈萨克,保加利亚人,包括混合的西里尔/英语文本;
  • 阿拉伯语,波斯语,乌尔都语,包括与英语混合的文字;
  • 中文,韩国,日本,德文纳加里和德拉维语,包括印地语,泰米尔语,马拉地语等。还支持混合语言文本。

强大的处理过滤器

光学特征识别的准确性和可靠性高度取决于原始图像的质量。 python的Aspose OCR通过.NET提供大量的全自动和手动图像处理过滤器,这些滤镜在将图像发送到OCR引擎之前会增强图像:

  • 自动颠倒并旋转图像。
  • 检测倒立的图像并提取黑色的白色文本。
  • 自动删除污垢,斑点,划痕,眩光,不需要的梯度和其他噪音。
  • 自动调整图像对比度。
  • 自动高档或手动调整图像大小。
  • 将图像转换为黑白或灰色。
  • 找到图像的潜在问题区域,并返回有关缺陷类型及其坐标的信息。
  • 增加图像中字符的厚度。
  • 保留字母边缘时模糊嘈杂的图像。
  • 弄平页面曲率并修复了页面照片的相机镜头失真。

针对特定文档类型进行了优化

Python通过.NET的Aspose OCR提供了经过特殊训练的神经网络,可从某些类型的图像中提取文本,以最大的准确性:

内置咒语检查器

尽管我们的Python OCR库提供了高识别精度,但打印缺陷,污垢或非标准字体可能会导致某些字符或单词被错误地识别。为了进一步改善识别结果,您可以打开拼写检查器,该检查器可以根据所选的识别语言找到并自动纠正拼写错误。

如果公认的文本包含常见拼写字典中不存在的专业术语,缩写和其他单词,则可以提供自己的单词列表。

批识别

我们的Python OCR API使您摆脱了一个一个一个一个一个识别图像。采用各种批处理方法在一个呼叫中识别多个图像:

  • 识别多页PDF,TIFF和DJVU文件。
  • 识别文件夹中的所有文件。
  • 识别存档中的所有文件。
  • 从列表中识别所有文件。

通过样本学习

python的OCR提供了一系列[示例](https://docs.aspose.com/ocr/python-net/developer-reference/),用python编写,使您可以快速熟悉其功能和能力。获得创建量身定制的解决方案以满足您的Python业务需求的见解。

功能和功能

Aspose.OCR for Python via .NET Aspose.ocr for Python通过.NET快速而简单地解决您的任务。

Feature icon

照片OCR

从智能手机照片中提取文字,具有扫描级别的精度。

Feature icon

可搜索的PDF

将任何扫描转换为完全可搜索,可索引和可编辑的文档。

Feature icon

URL识别

识别来自URL的图像而无需在本地下载。

Feature icon

散装认可

阅读来自多页文档,文件夹和档案的所有图像。

Feature icon

任何字体和样式

识别并识别所有流行字体和样式中的文本。

Feature icon

微调识别

调整每个OCR参数以获得最佳识别结果。

Feature icon

拼写检查器

通过自动纠正拼写错误的单词来改善结果。

Feature icon

在图像中找到文字

在一组图像中搜索文本或正则表达式。

Feature icon

比较图像文本

无论情况和布局如何,都比较两个图像上的文本。

Python代码样本

深入研究代码样本,将OCR无缝集成到您的Python应用程序中。

安装

以python轮或独立下载的软件包的形式分发,aspose.ocr for python via via .net很容易分发。直接来自您首选的Python集成开发环境(IDE),整合到Python项目中,是一个无缝的过程。只需安装它,就可以准备好利用OCR功能的完整范围,以节省识别方式各种格式。

后安装后,您可以迅速开始使用aspose.ocr for python via via .net,尽管有一定的限制。临时许可将使所有试用版本限制30天。利用这一时期来启动功能齐全的OCR应用程序的开发,使您可以在以后的阶段对Python for Python做出明智的决定。

加载许可证

lic = License()
lic.set_license(self.licPath)

在照片上识别文字

从Aspose OCR中的任何内容中读取文本,就像调用通用识别方法一样容易。

将照片转换为文字-Python

api = AsposeOcr()
# Add image to the recognition batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("source1.png")

# Set recognition language
recognitionSettings = RecognitionSettings()
recognitionSettings.language = Language.UKR;

# Recognize the image
results = api.recognize(input, recognitionSettings)

# Print recognition result
for result in results:
print(result.recognition_text)

Python通用转换器

我们的API擅长读取扫描仪,相机或智能手机的任何图像:PDF文档,JPEG,PNG,TIFF,GIF,GIF,BMP图像,甚至DJVU文件。对多页PDF文档,TIFF和DJVU图像的全面支持可确保多功能性。您还可以通过URL从Web提供图像。

识别结果以流行文档和数据交换格式返回:纯文本,PDF,Microsoft Word,Microsoft Excel,JSON和XML。

识别PDF并将结果保存到各种输出格式-Python

api = AsposeOcr()

# Create OcrInput and add images
input = OcrInput(aspose.ocr.models.InputType.PDF)
file = os.path.join(self.dataDir, "pdfs/multi_page_1.pdf")
input.add(file, 0, 3)

set = RecognitionSettings()
set.set_detect_areas_mode = DetectAreasMode.NONE
result = api.recognize(input, set)
api.save_multipage_document("test.xml", SaveFormat.XML, result)
api.save_multipage_document("test.json", SaveFormat.JSON, result)
api.save_multipage_document("test.pdf", SaveFormat.PDF, result)
api.save_multipage_document("test.xlsx", SaveFormat.XLSX, result)
api.save_multipage_document("test.docx", SaveFormat.DOCX, result)
api.save_multipage_document("test.txt", SaveFormat.TEXT, result)
api.save_multipage_document("test.html", SaveFormat.HTML, result)
api.save_multipage_document("test.epub", SaveFormat.EPUB, result)
api.save_multipage_document("test.rtf", SaveFormat.RTF, result)

Python中的资源优化

光学特征识别需要资源。我们的API提供了平衡经典时间价格质量三合会的灵活方法:

  • 在透彻识别和快速识别之间进行选择。
  • 指定分配识别的线程数,或允许库自动扩展到处理器内核的数量。
  • 通过将计算释放到.NET后端来释放CPU。

快速识别 - python

api = AsposeOcr()

# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample_line.png")

result = api.recognize_fast(input)

识别单行

如果您的图像已经将其修剪为单行文本,则可以在最快的模式下识别它,而无需自动校正,内容结构检测和其他资源耗费的步骤。它可以加快OCR的速度比正常识别过程快7倍。

在图像上识别单行文本 - python

api = AsposeOcr()

# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample_line.png")

# recognize without regions detection
settings = RecognitionSettings()
settings.recognize_single_line = True

result = api.recognize(input, settings)

print(result[0].recognition_text)