HTML JPG OCR XML BMP
Aspose.OCR  cho Java
PDF

[Aspose.Imaging cho Java] ( https://products.aspose.com/imaging/java ) xử lý hình ảnh được quét hoặc thậm chí ảnh điện thoại thông minh ở định dạng JPEG2000 và tạo tài liệu JPEG2000 chứa văn bản được nhận dạng. Để thêm nó vào dự án của bạn, bạn chỉ cần lấy * Aspose.OCR * [Maven] ( https://repository.aspose.com/webapp/#/artifacts/browse/tree/General/repo/com/aspose/aspose-imaging ) hoặc chỉ định cấu hình kho lưu trữ Aspose Maven và cài đặt nó trong dự án dựa trên Maven của bạn bằng cách thêm các cấu hình sau vào pom.xml. Đối với các ví dụ về Graddle, Ivy, Sbt, hãy xem [kho lưu trữ] của chúng tôi ( https://repository.aspose.com/ocr/) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

Với Java OCR và chỉ một vài dòng mã, bạn có thể tạo ứng dụng đầy đủ tính năng để chuyển đổi hình ảnh JPEG2000 thành tài liệu PDF:

  • Tạo một thể hiện của lớp AsposeOcr
  • Gọi phương thức AsposeOCR.RecognizePage
  • Chuyển đường dẫn tệp JPEG2000 làm tham số
  • AsposeOCR.RecognizePage trả về một Chuỗi hoặc tệp thuộc loại PDF

yêu cầu hệ thống

Trước khi chạy ví dụ này, hãy đảm bảo rằng Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) trở lên được cài đặt trên hệ thống của bạn.

  • Đã cài đặt JDK 1.6 trở lên.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • JPEG2000 Là gì JPEG2000 Định dạng tệp

    JPEG 2000 (JP2) là một hệ thống mã hóa hình ảnh và tiêu chuẩn nén hình ảnh hiện đại nhất. Được thiết kế, sử dụng công nghệ wavelet JPEG 2000 có thể mã nội dung không mất dữ liệu ở bất kỳ chất lượng nào cùng một lúc. Hơn nữa, không có bất kỳ hình phạt đáng kể nào về hiệu quả mã hóa, JPEG 2000 có khả năng truy cập và giải mã hiệu quả cùng một nội dung thành nhiều độ phân giải và chất lượng khác. Các dòng mã trong JPEG 2000 có khả năng mở rộng đáng kể khi có các vùng quan tâm cung cấp cơ sở cho việc truy cập ngẫu nhiên theo không gian. Sở hữu tới 16384 linh kiện đa dạng với kích thước tính bằng terapixel và độ chính xác có thể cao tới 38 bit / mẫu.

    Đọc thêm

    PDF Là gì PDF Định dạng tệp

    Định dạng tài liệu di động (PDF) là một loại tài liệu được tạo bởi Adobe vào những năm 1990. Mục đích của định dạng tệp này là giới thiệu một tiêu chuẩn để trình bày tài liệu và tài liệu tham khảo khác ở định dạng độc lập với phần mềm ứng dụng, phần cứng cũng như Hệ điều hành. Định dạng tệp PDF có đầy đủ khả năng chứa thông tin như văn bản, hình ảnh, siêu liên kết, trường biểu mẫu, đa phương tiện, chữ ký số, tệp đính kèm, siêu dữ liệu, các tính năng không gian địa lý và các đối tượng 3D trong đó có thể trở thành một phần của tài liệu nguồn.

    Đọc thêm

    TXT (Tệp tài liệu văn bản)
    Text (Tệp tài liệu văn bản)
    DOC (Tài liệu được tạo bởi Microsoft Word)
    DOCX (Tài liệu Microsoft Word)
    XLS (Định dạng tệp nhị phân Microsoft Excel)
    XLSX (Tài liệu Microsoft Excel)
    PDF (Định dạng tài liệu di động (PDF))
    Searchable PDF (Đồ họa mạng di động có thể tìm kiếm)
    XML (Ngôn ngữ đánh dấu có thể mở rộng)
    JSON (Ký hiệu đối tượng JavaScript)