HTML JPG OCR XML BMP
Aspose.OCR  cho Java
DOCX

[Aspose.Imaging cho Java] ( https://products.aspose.com/imaging/java ) xử lý hình ảnh được quét hoặc thậm chí ảnh điện thoại thông minh ở định dạng WBMP và tạo tài liệu WBMP chứa văn bản được nhận dạng. Để thêm nó vào dự án của bạn, bạn chỉ cần lấy * Aspose.OCR * [Maven] ( https://repository.aspose.com/webapp/#/artifacts/browse/tree/General/repo/com/aspose/aspose-imaging ) hoặc chỉ định cấu hình kho lưu trữ Aspose Maven và cài đặt nó trong dự án dựa trên Maven của bạn bằng cách thêm các cấu hình sau vào pom.xml. Đối với các ví dụ về Graddle, Ivy, Sbt, hãy xem [kho lưu trữ] của chúng tôi ( https://repository.aspose.com/ocr/) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

Với Java OCR và chỉ một vài dòng mã, bạn có thể tạo ứng dụng đầy đủ tính năng để chuyển đổi hình ảnh WBMP thành tài liệu DOCX:

  • Tạo một thể hiện của lớp AsposeOcr
  • Gọi phương thức AsposeOCR.RecognizePage
  • Chuyển đường dẫn tệp WBMP làm tham số
  • AsposeOCR.RecognizePage trả về một Chuỗi hoặc tệp thuộc loại DOCX

yêu cầu hệ thống

Trước khi chạy ví dụ này, hãy đảm bảo rằng Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) trở lên được cài đặt trên hệ thống của bạn.

  • Đã cài đặt JDK 1.6 trở lên.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • WBMP Là gì WBMP Định dạng tệp

    WBMP là định dạng tệp đồ họa đơn sắc được tối ưu hóa cho các thiết bị điện toán di động. Ảnh WBMP là ảnh đơn sắc (đen trắng) để kích thước ảnh được giữ ở mức tối thiểu. Một pixel màu đen được ký hiệu là 0 và một pixel màu trắng được ký hiệu là 1.

    Đọc thêm

    DOCX Là gì DOCX Định dạng tệp

    DOCX là một định dạng nổi tiếng cho tài liệu Microsoft Word. Được giới thiệu từ năm 2007 với việc phát hành Microsoft Office 2007, cấu trúc của định dạng Tài liệu mới này đã được thay đổi từ dạng nhị phân thuần túy sang dạng kết hợp của tệp nhị phân và XML. Tệp Docx có thể được mở bằng Word 2007 và các phiên bản bên nhưng không mở được bằng các phiên bản MS Word trước đó hỗ trợ phần mở rộng tệp DOC.

    Đọc thêm

    TXT (Tệp tài liệu văn bản)
    Text (Tệp tài liệu văn bản)
    DOC (Tài liệu được tạo bởi Microsoft Word)
    DOCX (Tài liệu Microsoft Word)
    XLS (Định dạng tệp nhị phân Microsoft Excel)
    XLSX (Tài liệu Microsoft Excel)
    PDF (Định dạng tài liệu di động (PDF))
    Searchable PDF (Đồ họa mạng di động có thể tìm kiếm)
    XML (Ngôn ngữ đánh dấu có thể mở rộng)
    JSON (Ký hiệu đối tượng JavaScript)