[Aspose.Imaging cho Java] ( https://products.aspose.com/imaging/java ) xử lý hình ảnh được quét hoặc thậm chí ảnh điện thoại thông minh ở định dạng TIFF và tạo tài liệu TIFF chứa văn bản được nhận dạng. Để thêm nó vào dự án của bạn, bạn chỉ cần lấy * Aspose.OCR * [Maven] ( https://repository.aspose.com/webapp/#/artifacts/browse/tree/General/repo/com/aspose/aspose-imaging ) hoặc chỉ định cấu hình kho lưu trữ Aspose Maven và cài đặt nó trong dự án dựa trên Maven của bạn bằng cách thêm các cấu hình sau vào pom.xml. Đối với các ví dụ về Graddle, Ivy, Sbt, hãy xem [kho lưu trữ] của chúng tôi ( https://repository.aspose.com/ocr/) .
Maven Dependency
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>22.5</version>
</dependency>
Với Java OCR và chỉ một vài dòng mã, bạn có thể tạo ứng dụng đầy đủ tính năng để chuyển đổi hình ảnh TIFF thành tài liệu DOCX:
- Tạo một thể hiện của lớp AsposeOcr
- Gọi phương thức AsposeOCR.RecognizePage
- Chuyển đường dẫn tệp TIFF làm tham số
- AsposeOCR.RecognizePage trả về một Chuỗi hoặc tệp thuộc loại DOCX
yêu cầu hệ thống
Trước khi chạy ví dụ này, hãy đảm bảo rằng Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) trở lên được cài đặt trên hệ thống của bạn.
- Đã cài đặt JDK 1.6 trở lên.
//Create API instance
AsposeOCR api = new AsposeOCR();
//Prepare rectangles with texts.
ArrayList rectArray = new ArrayList();
rectArray.add(new Rectangle(138, 352, 2033, 537));
rectArray.add(new Rectangle(147, 890, 2033, 1157));
String result = api.RecognizePage("srcImage.png", rectArray);
System.out.println("Result with rect: " + result);
TIFF Là gì TIFF Định dạng tệp
TIFF hoặc TIF, Định dạng tệp hình ảnh được gắn thẻ, đại diện cho hình ảnh raster được sử dụng trên nhiều thiết bị tuân thủ tiêu chuẩn định dạng tệp này. Nó có khả năng mô tả dữ liệu hình ảnh mức độ mật, thang độ xám, bảng màu và dữ liệu hình ảnh đầy đủ màu sắc trong một số không gian màu. Nó hỗ trợ các lược đồ nén mất dữ liệu cũng như không mất dữ liệu để lựa chọn giữa không gian và thời gian cho các ứng dụng sử dụng định dạng. Định dạng này có thể mở rộng và đã trải qua một số sửa đổi cho phép đưa vào một lượng thông tin cá nhân hoặc mục đích đặc biệt không giới hạn. Định dạng không phụ thuộc vào máy và không bị giới hạn như bộ xử lý, hệ điều hành hoặc hệ thống tệp.
Đọc thêmDOCX Là gì DOCX Định dạng tệp
DOCX là một định dạng nổi tiếng cho tài liệu Microsoft Word. Được giới thiệu từ năm 2007 với việc phát hành Microsoft Office 2007, cấu trúc của định dạng Tài liệu mới này đã được thay đổi từ dạng nhị phân thuần túy sang dạng kết hợp của tệp nhị phân và XML. Tệp Docx có thể được mở bằng Word 2007 và các phiên bản bên nhưng không mở được bằng các phiên bản MS Word trước đó hỗ trợ phần mở rộng tệp DOC.
Đọc thêm