[Aspose.Imaging cho Java] ( https://products.aspose.com/imaging/java ) xử lý hình ảnh được quét hoặc thậm chí ảnh điện thoại thông minh ở định dạng DJVU và tạo tài liệu DJVU chứa văn bản được nhận dạng. Để thêm nó vào dự án của bạn, bạn chỉ cần lấy * Aspose.OCR * [Maven] ( https://repository.aspose.com/webapp/#/artifacts/browse/tree/General/repo/com/aspose/aspose-imaging ) hoặc chỉ định cấu hình kho lưu trữ Aspose Maven và cài đặt nó trong dự án dựa trên Maven của bạn bằng cách thêm các cấu hình sau vào pom.xml. Đối với các ví dụ về Graddle, Ivy, Sbt, hãy xem [kho lưu trữ] của chúng tôi ( https://repository.aspose.com/ocr/) .
Maven Dependency
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>22.5</version>
</dependency>
Với Java OCR và chỉ một vài dòng mã, bạn có thể tạo ứng dụng đầy đủ tính năng để chuyển đổi hình ảnh DJVU thành tài liệu TXT:
- Tạo một thể hiện của lớp AsposeOcr
- Gọi phương thức AsposeOCR.RecognizePage
- Chuyển đường dẫn tệp DJVU làm tham số
- AsposeOCR.RecognizePage trả về một Chuỗi hoặc tệp thuộc loại TXT
yêu cầu hệ thống
Trước khi chạy ví dụ này, hãy đảm bảo rằng Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) trở lên được cài đặt trên hệ thống của bạn.
- Đã cài đặt JDK 1.6 trở lên.
//Create API instance
AsposeOCR api = new AsposeOCR();
//Prepare rectangles with texts.
ArrayList rectArray = new ArrayList();
rectArray.add(new Rectangle(138, 352, 2033, 537));
rectArray.add(new Rectangle(147, 890, 2033, 1157));
String result = api.RecognizePage("srcImage.png", rectArray);
System.out.println("Result with rect: " + result);
DJVU Là gì DJVU Định dạng tệp
DjVu, được phát âm là “déjà vu”, là một định dạng tệp đồ họa dành cho các tài liệu và sách được quét, đặc biệt là những tài liệu có chứa sự kết hợp của văn bản, bản vẽ, hình ảnh và ảnh chụp. Nó được phát triển bởi AT&T Labs. Nó sử dụng nhiều kỹ thuật như tách lớp hình ảnh của văn bản và hình ảnh nền, tải liên tục, mã hóa số học và nén mất dữ liệu cho hình ảnh bitonal. Vì tệp DJVU có thể chứa hình ảnh, ảnh, văn bản và bản vẽ màu được nén nhưng chất lượng cao và có thể được lưu trong ít dung lượng hơn, do đó, nó được sử dụng trên web dưới dạng sách điện tử, sách hướng dẫn, báo chí, tài liệu cổ, v.v.
Đọc thêmTXT Là gì TXT Định dạng tệp
Tệp có phần mở rộng .TXT đại diện cho một tài liệu văn bản có chứa văn bản thuần túy ở dạng dòng. Các đoạn trong tài liệu văn bản được nhận dạng bằng ký tự xuống dòng và được sử dụng để sắp xếp nội dung tệp tốt hơn. Một tài liệu văn bản tiêu chuẩn có thể được mở trong bất kỳ trình soạn thảo văn bản hoặc ứng dụng xử lý văn bản nào trên các hệ điều hành khác nhau. Tất cả văn bản trong một tệp như vậy đều ở định dạng con người có thể đọc được và được biểu thị bằng chuỗi ký tự.
Đọc thêm