使用 Java OCR API 将图像转为文本
在Java中将图像转换为文本
更多展示 >// Initialize OCR engine
AsposeOCR api = new AsposeOCR();
OcrInput images = new OcrInput(InputType.SingleImage);
images.add("image1.png");
// Recognize images
ArrayList<RecognitionResult> results = api.Recognize(images);
System.out.println(results[0].recognition_text);
为什么选择 Java 版 Aspose OCR 库?
使用 Aspose OCR Java 库解锁强大的 OCR。我们的 Java API 是一种高效、用户友好且经济高效的 OCR API。只需五行 Java 代码,即可为您的应用程序添加强大的 OCR 功能,而无需了解神经网络和其他技术细节。
我们的 OCR 引擎提供无与伦比的速度和准确性,支持 130 多种语言,包括英语、西里尔语、阿拉伯语、波斯语、中文、日语、韩语、印地语、泰米尔语等等。无论您使用扫描件、智能手机照片、屏幕截图还是 PDF,我们的 OCR 都会提取文本并生成所有流行格式的结果。
图像预处理会自动校正旋转、模糊、倒置和噪声图像,以确保在以下情况下获得最高的识别精度:任何条件。
快速、准确的 OCR
利用我们先进的 Java 技术实现高速、准确的 OCR 结果。
多语言支持
识别 140 多种语言的文本,包括英语、法语、西里尔语、阿拉伯语、波斯语、印度语、中文、日语、韩语、泰米尔语和其他文字。
所有图片
处理来自各种来源的图像,例如扫描仪、相机和智能手机。
混合语言检测
识别以混合语言编写的文档,例如中文/英文、阿拉伯文/法文、印地文/英文和西里尔文/英文。
任何字体、样式和格式
准确保留文本布局、检测表格结构并无缝识别文本,无论字体样式如何。
实时代码示例
体验简单性:只需几行 Java 代码即可将图像转换为文本
将图像转换为文本
探索更多示例 >AsposeOCR api = new AsposeOCR();
// Add images to the recognition batch
OcrInput images = new OcrInput(InputType.SingleImage);
images.add("image1.png");
images.add("image2.png");
// Recognition language
RecognitionSettings recognitionSettings = new RecognitionSettings();
recognitionSettings.setLanguage(Language.Eng);
// Recognize images
ArrayList<RecognitionResult> results = api.Recognize(images, recognitionSettings);
results.forEach((result) -> {
System.out.println(result.recognition_text);
});
跨平台
Aspose Java OCR 代码可在任何支持 Java SE 6.0 或更高版本 的平台上无缝运行 – 无论是本地计算机、Web 服务器还是云。
支持的文件格式
Aspose.OCR for Java 可以处理任何 文件 您可以通过扫描仪或相机获取。识别结果可以保存、导入数据库或实时分析。
图片
- JPEG
- PNG
- TIFF
- GIF
- Bitmap
批量OCR
- Multi-page PDF
- ZIP
- Folder
识别结果
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
随处可用
我们的 Java 库完全支持 Java SE 6 或更高版本,使您的应用程序能够在任何平台上无缝运行 - 桌面 Windows、Windows Server、macOS、Linux 和云。
140+ 识别语言
我们的 Java OCR 库是全球范围内文档处理、数据提取和内容数字化的通用解决方案。它支持大量欧洲、中东和亚洲书写脚本,非常适合任何国家和企业。
Aspose OCR for Java 可识别多语言文档中的文本,例如中文/英语、阿拉伯语/法语或西里尔语/英语。支持以下语言:
- 扩展拉丁语:英语、西班牙语、法语、印度尼西亚语、葡萄牙语、德语、越南语、土耳其语、意大利语、波兰语等 80 多种;
- 西里尔文字母表:俄语、乌克兰语、哈萨克语、保加利亚语,包括混合西里尔语/英语文本;
- 阿拉伯语、波斯语、乌尔都语,包括与英语混合的文本;
- 中文、韩语、日语、梵文和德拉威语,包括印地语、泰米尔语、马拉地语等。
特性和功能
Aspose.OCR for Java 探索 Aspose OCR for Java 的高级特性和功能。
照片识别
以扫描级精度从智能手机照片中提取文本。
可搜索的 PDF
将任何扫描件转换为可搜索和可编辑的文档。
网址识别
从 URL 识别图像,无需下载到本地。
批量识别
读取多页文档、文件夹和档案中的所有图像。
任何字体和样式
识别并识别所有流行字体和样式的文本。
微调识别
调整每个 OCR 参数以获得最佳识别结果。
拼写检查器
通过自动更正拼写错误的单词来提高结果。
查找图像中的文本
在一组图像中搜索文本或正则表达式。
比较图像文本
比较两个图像上的文本,无论大小写和布局如何。
全世界
通过自动语言检测提取任何语言的文本。
关键细节提取
自动从身份证中提取重要详细信息。
与 Aspose 解决方案完全集成
将 OCR 与其他 Aspose 产品无缝集成,以获得全面、高效的 Java 解决方案。
代码示例
探索代码示例,了解如何将 OCR API 无缝集成到您的 Java 应用程序中。
安装
安装后,您可以立即开始使用 Aspose.OMR for Java ,尽管有一定的限制。临时许可证可解除 30 天内的所有试用版限制。利用这段时间开始开发功能齐全的 OCR 应用程序,以便您在稍后阶段做出购买 Aspose.OCR for Java 的明智决定。
使用 Java 识别扫描图像上的文本
克服 OCR 应用程序缺乏广泛扫描仪的挑战。我们的 API 拥有强大的内置图像预处理过滤器,可以熟练处理旋转、倾斜和噪声图像。结合对所有图像格式的支持,即使是智能手机照片也能确保可靠的识别。大多数预处理和图像校正都是自动化的,仅在具有挑战性的情况下才需要您的干预。
应用自动图像校正 - Java
// Create instance of OCR API
AsposeOCR api = new AsposeOCR();
// Define pre-processing filters
PreprocessingFilter filters = new PreprocessingFilter();
filters.add(PreprocessingFilter.ToGrayscale());
filters.add(PreprocessingFilter.Rotate(-90));
// Pre-process image before recognition
BufferedImage imageRes = api.PreprocessImage(imagePath, filters);
// Recognize image
RecognitionResult result = api.RecognizePage(imageRes, set);
用 Java 从照片中提取文本
将文本检测和识别集成到您的 Java 应用程序中。轻松获取照片的精确结果,增强您的图像处理能力。提升图像处理能力,从照片中获得准确的结果。
检测并识别照片上的文本 - Java
// Add a photo to the recognition batch
OcrInput images = new OcrInput(InputType.SingleImage);
images.add("photo.jpg");
// Set photo recognition mode
RecognitionSettings recognitionSettings = new RecognitionSettings();
recognitionSettings.setDetectAreasMode(DetectAreasMode.PHOTO);
// Extract text from a photo
ArrayList<RecognitionResult> results = api.Recognize(images, recognitionSettings);
results.forEach((result) -> {
System.out.println(result.recognition_text);
});
Java 中的资源优化
光学字符识别需要资源。我们的 API 提供了灵活的方法来平衡经典的时间-价格-质量三元组。它允许您限制识别引擎使用的线程数。虽然此调整可能会导致识别速度变慢,但它使您能够为并行图像处理、Web 服务器操作、数据库管理或后台数据分析等并发任务分配资源。
- 在彻底识别和快速识别之间进行选择。
- 指定分配用于识别的线程数,或允许库自动缩放到处理器核心的数量。
- 通过将计算卸载到 GPU 来释放 CPU。
平衡资源使用
RecognitionSettings recognitionSettings = new RecognitionSettings();
recognitionSettings.setThreadsCount(2);
只需最少的设置即可快速识别
如果您的图像是高质量扫描件,没有倾斜或失真,您可以使用最快的识别模式,消耗尽可能少的资源:
快速识别 OCR - Java
AsposeOCR api = new AsposeOCR();
// Add images to the recognition batch
OcrInput images = new OcrInput(InputType.SingleImage);
images.add(os.path.join(self.dataDir, "source1.png"));
images.add(os.path.join(self.dataDir, "source2.png"));
// Fast recognize images
ArrayList<RecognitionResult> results = api.RecognizeFast(images);
results.forEach((result) -> {
System.out.println(result);
});