通过 Java 使用 Python OCR API 将图像转换为文本
使用 Python 识别图像中的文本
更多展示 ># Initialize OCR engine
recognitionEngine = AsposeOcr()
# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")
# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)
> pip install aspose-ocr-python-java or
download
为什么通过 Java 实现 Aspose.OCR for Python?
Aspose.OCR for Python via Java 将强大的光学字符识别 (OCR) 功能无缝集成到您的跨平台 Python 笔记本和应用程序中。借助我们直观且高速的 API,您可以轻松地从扫描、屏幕截图、网络链接或智能手机照片中提取文本,提供可用于整合、分析或存储的结果。识别扫描图像、智能手机照片、屏幕截图和扫描 PDF,并将结果保存为流行的文档格式。高级预处理滤镜可处理旋转、倾斜和噪声图像。通过将任务卸载到 GPU 来优化性能。
快速准确的 OCR
使用我们先进的 Python 通过 Java 技术实现高速、准确的 OCR 结果。
多语言支持
识别 130 多种语言的文本,包括拉丁语、西里尔语、阿拉伯语、波斯语、印度语和中文脚本,确保通过 Java 实现 Python 应用程序的多功能性。
灵活的图像支持
通过 Java 使用 Python 无缝处理来自扫描仪、相机和智能手机的图像。
汉字识别精度
通过 Java 在 Python 项目中精确识别 6,000 多个汉字。
保留字体样式和格式
维护字体样式和格式,以便通过 Java 在 Python 应用程序中准确表示已识别的文本。
实时代码示例
只需三行代码即可启动图像文本识别。体验简单!
将图像转换为文本
更多示例 ># Initialize OCR engine
recognitionEngine = AsposeOcr()
# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")
# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)
选择您的偏好
选择适合您需求的库。探索可用的 API 及其功能,以选择最有效的解决方案。
多功能性
Python via .NET
均匀度
Python via Java
表现
Python via C++
Java 后端兼容性
我们的库设计为 Python 模块,可确保支持 Java 的主要操作系统的兼容性 - 包括 Microsoft Windows、Linux 和 macOS,或云平台。这使您能够在一个平台上开发应用程序并在另一平台上无缝运行它们,无需修改任何代码。
支持的文件格式
Aspose.OCR for Python via Java 可以处理任何 文件 您可以通过扫描仪或相机获取。识别结果可以保存、导入数据库或实时分析。
图片
- JPEG
- PNG
- TIFF
- GIF
- Bitmap
批量OCR
- Multi-page PDF
- ZIP
- Folder
识别结果
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
适用于 Python 应用程序的强大 OCR
我们的库可以轻松集成,使 Python 应用程序能够在任何平台上无缝运行 - 桌面 Windows、Windows Server、macOS、Linux 和云。
130+ 识别语言
我们的 Python 和 Java OCR API 可识别多种语言和流行的书写脚本,包括混合语言:
将语言检测留给库或您自己定义语言,以增强识别性能和可靠性。
- 扩展拉丁字母表:英语、西班牙语、法语、印度尼西亚语、葡萄牙语、德语、越南语、土耳其语、意大利语、波兰语等 80 多种;
- 西里尔文字母:俄语、乌克兰语、哈萨克语、塞尔维亚语、白俄罗斯语、保加利亚语;
- 阿拉伯语、波斯语、乌尔都语;
- 中文和梵文文字,包括印地语、马拉地语、博杰普尔语等。
增强型图像处理滤镜
光学字符识别的精度在很大程度上依赖于原始图像的质量。 Aspose.OCR for Python via Java 提供了多种自动和手动图像处理过滤器,可在提交到 OCR 引擎之前优化图像:
- 自动拉直稍微倾斜的图像。
- 手动校正严重倾斜图像的旋转。
- 自动去除污垢、斑点、划痕、眩光、不需要的渐变和其他类型的噪音。
- 自动调整图像对比度。
- 自动放大或手动调整图像大小。
- 将图像转换为黑白或灰度。
- 反转图像颜色,使亮区域显得暗,暗区域显得亮。
- 增加图像中字符的粗细。
- 模糊噪声图像,同时保留字母边缘。
- 拉直页面倾斜并纠正页面照片中的相机镜头失真。
适用于各种文档类型的专用 API
Aspose.OCR for Python via Java 提供经过专门训练的神经网络,可以以最高的精度从某些类型的图像中提取文本:
- 扫描或拍照的身份证和护照。
- 车辆牌照。
- 发票。
- 收据。
内置拼写检查器
虽然 Aspose.OCR for Python via Java 提供了很高的识别精度,但打印缺陷、污垢或非标准字体可能会导致某些字符或单词被错误识别。为了进一步提高识别结果,您可以打开拼写检查器,它会根据所选的识别语言查找并自动纠正拼写错误。
如果识别的文本包含专业术语、缩写词以及常见拼写词典中不存在的其他单词,您可以提供自己的单词列表。
高效批量识别
我们的 Python OCR API 使您能够简化图像识别。利用通用的批处理方法在一次调用中高效处理多个图像:
- 识别多页 PDF、TIFF 文件。
- 处理文件夹内的所有文件。
- 处理存档中所有文件的识别。
- 识别指定列表中的图像。
通过Python示例学习
探索各种 Python 示例 ,旨在帮助您快速掌握我们的 OCR 解决方案的功能和功能。快速深入了解创建满足您特定业务需求的定制解决方案。
特性和功能
Aspose.OCR for Python via Java 探索 Aspose.OCR for Python 的高级功能
照片识别
以扫描级精度从智能手机照片中提取文本。
可搜索的 PDF
将任何扫描结果转换为完全可搜索和可索引的文档。
网址识别
从 URL 识别图像,无需下载到本地。
批量识别
读取多页文档、文件夹和档案中的所有图像。
任何字体和样式
识别并识别所有流行字体和样式的文本。
微调识别
调整每个 OCR 参数以获得最佳识别结果。
拼写检查器
通过自动更正拼写错误的单词来提高结果。
查找图像中的文本
在一组图像中搜索文本或正则表达式。
比较图像文本
比较两个图像上的文本,无论大小写和布局如何。
Python 代码示例
发现代码示例,通过 Java 将 Aspose.OCR for Python 无缝集成到您的应用程序中。
轻松安装
作为 Python 包或具有最小依赖性的可下载文件,Aspose.OCR for Python via Java 确保轻松分发。直接从 Python 将其集成到您的项目中,您就可以利用完整的 OCR 功能,以各种格式保存识别结果。
安装后,立即开始通过 Java 使用 Aspose.OCR for Python,尽管有一定的限制。临时许可证可消除 30 天内的所有试用版限制。利用这段时间开始开发功能齐全的 OCR 应用程序,以便您稍后做出明智的决定是否通过 Java 购买 Aspose.OCR for Python。
加载许可证
lic = License()
lic.set_license(self.licPath)
图像识别
OCR 应用的主要挑战是最终用户缺乏扫描仪。我们的 API 通过 Java 与 Python 无缝集成,具有强大的内置图像预处理过滤器,可处理旋转、倾斜和噪声图像。结合对所有图像格式的支持,即使是智能手机照片,它也能实现可靠的识别。大多数预处理和图像校正都是自动化的,仅在具有挑战性的情况下才需要您的干预。
应用自动图像校正 - Python
api = AsposeOcr()
# set preprocessing options
filters = PreprocessingFilter()
filters.add(PreprocessingFilter.auto_skew())
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE, filters)
input.add("sample.png")
# set recognition options
settings = RecognitionSettings()
settings.set_detect_areas_mode(DetectAreasMode.TABLE)
settings.set_threads_count(1)
settings.set_language(Language.ENG)
# recognize
result = api.recognize(input, settings)
# print result
print(res[0].recognition_text)
Python 通用转换器
我们的 API 能够熟练地读取来自扫描仪、相机或智能手机的任何图像:PDF 文档、JPEG、PNG、TIFF、GIF、BMP 文件。对多页 PDF 文档、TIFF 和 DjVu 图像的全面支持确保了多功能性。您还可以通过 URL 提供来自网络的图像。
识别结果以流行的文档和数据交换格式返回:纯文本、PDF、Microsoft Word、Microsoft Excel、JSON 和 XML。
识别 PDF 并将结果保存为各种输出格式 - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(aspose.models.InputType.PDF)
file = os.path.join(self.dataDir, "pdfs/multi_page_1.pdf")
input.add(file, 0, 3)
set = RecognitionSettings()
set.set_detect_areas_mode(DetectAreasMode.NONE)
result = api.recognize(input, set)
api.save_multipage_document("test.xml", Format.XML, result)
api.save_multipage_document("test.json", Format.JSON, result)
api.save_multipage_document("test.pdf", Format.PDF, result)
api.save_multipage_document("test.xlsx", Format.XLSX, result)
api.save_multipage_document("test.docx", Format.DOCX, result)
api.save_multipage_document("test.txt", Format.TEXT, result)
api.save_multipage_document("test.html", Format.HTML, result)
api.save_multipage_document("test.epub", Format.EPUB, result)
api.save_multipage_document("test.rtf", Format.RTF, result)
优化资源使用
OCR 提供了一种特殊的识别算法,用于从具有稀疏文本和噪声/彩色背景的图像中提取内容。该方法在以下业务场景中显着提高OCR准确率:
- 阅读街头照片中的文字。
- 分割并识别街道图像中的路标和招牌。
- 找到价格标签并将提取的文本解释为价格。
- 查找并汇总食品标签上感兴趣的区域,例如营养信息或成分列表。
- 识别和分析汽车牌照。
- 从菜单和目录中提取文本。
开放区域 OCR - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("border.jpg")
result = api.recognize(input, RecognitionSettings())
result_street = api.recognize_street_photo(input)
print(result[0].recognition_text)
从街道照片中提取文本
Python 的 OCR 提供了一种特殊的识别算法,可以从车牌中提取文本,包括黑暗和模糊的照片。然后,生成的文本可以自动保存到数据库或自动验证。
识别车牌号——Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add(os.path.join(self.dataDir, "CarNumbers.jfif"))
# recognize
result = api.recognize_car_plate(input, CarPlateRecognitionSettings())
# print result
print(result[0].recognition_text)