Hình ảnh thành văn bản với API Java OCR
Chuyển đổi hình ảnh thành văn bản trong Java
Thêm phòng trưng bày >// Initialize OCR engine
AsposeOCR api = new AsposeOCR();
OcrInput images = new OcrInput(InputType.SingleImage);
images.add("image1.png");
// Recognize images
ArrayList<RecognitionResult> results = api.Recognize(images);
System.out.println(results[0].recognition_text);
Tại sao chọn thư viện Aspose OCR cho Java?
Mở khóa OCR mạnh mẽ với thư viện Aspose OCR Java. API Java của chúng tôi là API OCR hiệu quả, thân thiện với người dùng và tiết kiệm chi phí. Chỉ trong năm dòng mã Java, hãy thêm chức năng OCR mạnh mẽ vào ứng dụng của bạn mà không cần hiểu mạng thần kinh và các chi tiết kỹ thuật khác.
Công cụ OCR của chúng tôi cung cấp tốc độ và độ chính xác chưa từng có, hỗ trợ hơn 130 ngôn ngữ, bao gồm cả tiếng Anh , Cyrillic, Ả Rập, Ba Tư, Trung Quốc, Nhật Bản, Hàn Quốc, Hindi, Tamil và nhiều hơn nữa. Cho dù bạn làm việc với bản quét, ảnh trên điện thoại thông minh, ảnh chụp màn hình hay tệp PDF, OCR của chúng tôi sẽ trích xuất văn bản và tạo ra kết quả ở tất cả các định dạng phổ biến.
Tính năng xử lý trước hình ảnh sẽ tự động sửa các hình ảnh bị xoay, mờ, đảo ngược và nhiễu để đảm bảo độ chính xác nhận dạng cao nhất trong bất kỳ điều kiện nào.
OCR nhanh và chính xác
Đạt được kết quả OCR tốc độ cao và chính xác bằng công nghệ Java tiên tiến của chúng tôi.
Hỗ trợ đa ngôn ngữ
Nhận dạng văn bản bằng hơn 140 ngôn ngữ, bao gồm tiếng Anh, tiếng Pháp, tiếng Cyrillic, tiếng Ả Rập, tiếng Ba Tư, tiếng Ấn Độ, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Tamil và các chữ viết khác.
Tất cả hình ảnh
Xử lý hình ảnh từ nhiều nguồn khác nhau, chẳng hạn như máy quét, máy ảnh và điện thoại thông minh.
Phát hiện ngôn ngữ hỗn hợp
Nhận dạng tài liệu được viết bằng các ngôn ngữ hỗn hợp, chẳng hạn như tiếng Trung/tiếng Anh, tiếng Ả Rập/tiếng Pháp, tiếng Hindi/tiếng Anh và tiếng Cyrillic/tiếng Anh.
Bất kỳ phông chữ, kiểu dáng và định dạng nào
Giữ nguyên bố cục văn bản một cách chính xác, phát hiện cấu trúc bảng và nhận dạng văn bản một cách liền mạch bất kể kiểu phông chữ.
Mẫu mã trực tiếp
Trải nghiệm sự đơn giản: chuyển đổi hình ảnh thành văn bản chỉ trong vài dòng mã Java
* Bằng cách tải lên các tập tin của bạn hoặc sử dụng dịch vụ, bạn đồng ý với chúng tôi Điều khoản sử dụng Và Chính sách bảo mật.
Chuyển đổi hình ảnh thành văn bản
Khám phá thêm ví dụ >AsposeOCR api = new AsposeOCR();
// Add images to the recognition batch
OcrInput images = new OcrInput(InputType.SingleImage);
images.add("image1.png");
images.add("image2.png");
// Recognition language
RecognitionSettings recognitionSettings = new RecognitionSettings();
recognitionSettings.setLanguage(Language.Eng);
// Recognize images
ArrayList<RecognitionResult> results = api.Recognize(images, recognitionSettings);
results.forEach((result) -> {
System.out.println(result.recognition_text);
});
Đa nền tảng
Mã Java OCR của Aspose hoạt động liền mạch trên mọi nền tảng hỗ trợ Java SE 6.0 trở lên – có thể là máy cục bộ, máy chủ web hoặc đám mây .
Các định dạng tập tin được hỗ trợ
Aspose.OCR for Java có thể làm việc với bất kỳ [tập tin]nào( https://docs.aspose.com/ocr/java/supported-file-formats/ ) bạn có thể lấy từ máy quét hoặc máy ảnh. Kết quả nhận dạng có thể được lưu, nhập vào cơ sở dữ liệu hoặc phân tích theo thời gian thực.
Hình ảnh
- JPEG
- PNG
- TIFF
- GIF
- Bitmap
OCR hàng loạt
- Multi-page PDF
- ZIP
- Folder
Kết quả công nhận
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
Dễ dàng cài đặt
Aspose.OCR dành cho Java được phân phối dưới dạng tệp Lưu trữ Java (JAR) nhẹ hoặc dưới dạng tệp có thể tải xuống với mức độ phụ thuộc tối thiểu. Chỉ cần cài đặt vào dự án của bạn và bạn đã sẵn sàng nhận dạng văn bản bằng nhiều ngôn ngữ được hỗ trợ và lưu kết quả nhận dạng ở nhiều định dạng khác nhau.
Yêu cầu giấy phép dùng thử để bắt đầu phát triển ứng dụng OCR đầy đủ chức năng mà không có giới hạn.
Hoạt động ở mọi nơi
Thư viện Java của chúng tôi hỗ trợ đầy đủ Java SE 6 trở lên, cho phép các ứng dụng của bạn chạy liền mạch trên mọi nền tảng – máy tính để bàn Windows, Windows Server, macOS, Linux và đám mây.
Hơn 140 ngôn ngữ nhận dạng
Thư viện Java OCR của chúng tôi là một giải pháp phổ quát để xử lý tài liệu, trích xuất dữ liệu và số hóa nội dung trên quy mô toàn cầu. Với sự hỗ trợ cho nhiều loại chữ viết ở Châu Âu, Trung Đông và Châu Á, nó có thể thích ứng tốt với mọi quốc gia và doanh nghiệp.
Aspose OCR for Java nhận dạng văn bản trong các tài liệu đa ngôn ngữ, chẳng hạn như tiếng Trung/tiếng Anh, tiếng Ả Rập/tiếng Pháp hoặc tiếng Cyrillic/tiếng Anh. Các ngôn ngữ sau được hỗ trợ:
- Tiếng Latin mở rộng: tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Indonesia, tiếng Bồ Đào Nha, tiếng Đức, tiếng Việt, tiếng Thổ Nhĩ Kỳ, tiếng Ý, tiếng Ba Lan và hơn 80 ngôn ngữ khác;
- Bảng chữ cái Cyrillic: tiếng Nga, tiếng Ukraina, tiếng Kazakh, tiếng Bungari, bao gồm các văn bản hỗn hợp tiếng Anh/Cyrillic;
- Tiếng Ả Rập, tiếng Ba Tư, tiếng Urdu, bao gồm cả văn bản pha trộn với tiếng Anh;
- Các ngôn ngữ Trung Quốc, Hàn Quốc, Nhật Bản, Devanagari và Dravidian, bao gồm tiếng Hindi, tiếng Tamil, tiếng Marathi và các ngôn ngữ khác.
Tính năng và khả năng
Aspose.OCR for Java Khám phá các tính năng và khả năng nâng cao của Aspose OCR cho Java.
Ảnh OCR
Trích xuất văn bản từ ảnh trên điện thoại thông minh với độ chính xác ở mức quét.
PDF có thể tìm kiếm
Chuyển đổi bất kỳ bản quét nào thành tài liệu có thể tìm kiếm và chỉnh sửa.
Nhận dạng URL
Nhận dạng hình ảnh từ URL mà không cần tải xuống cục bộ.
Nhận dạng hàng loạt
Đọc tất cả hình ảnh từ các tài liệu, thư mục và kho lưu trữ nhiều trang.
Bất kỳ phông chữ và phong cách
Xác định và nhận dạng văn bản ở tất cả các kiểu chữ và kiểu phổ biến.
Tinh chỉnh nhận dạng
Điều chỉnh mọi tham số OCR để có kết quả nhận dạng tốt nhất.
Trình kiểm tra chính tả
Cải thiện kết quả bằng cách tự động sửa các từ sai chính tả.
Tìm văn bản trong hình ảnh
Tìm kiếm văn bản hoặc biểu thức chính quy trong một tập hợp hình ảnh.
So sánh văn bản hình ảnh
So sánh văn bản trên hai hình ảnh, bất kể kiểu chữ và bố cục.
Trên toàn thế giới
Trích xuất văn bản của bất kỳ ngôn ngữ nào với tính năng phát hiện ngôn ngữ tự động.
Trích xuất chi tiết chính
Tự động trích xuất các chi tiết quan trọng từ thẻ ID.
Tích hợp đầy đủ với các giải pháp Aspose
Tích hợp OCR liền mạch với các sản phẩm Aspose khác để có giải pháp Java toàn diện và hiệu quả.
Mẫu mã
Khám phá các mẫu mã để tìm hiểu cách tích hợp liền mạch API OCR vào các ứng dụng Java của bạn.
Cài đặt
Sau khi cài đặt, bạn có thể nhanh chóng bắt đầu sử dụng Aspose.OMR cho Java , mặc dù có những hạn chế nhất định. Giấy phép tạm thời dỡ bỏ tất cả các hạn chế về phiên bản dùng thử trong 30 ngày. Tận dụng khoảng thời gian này để bắt đầu phát triển ứng dụng OCR đầy đủ chức năng, cho phép bạn đưa ra quyết định sáng suốt về việc mua Aspose.OCR cho Java ở giai đoạn sau.
Nhận dạng văn bản trên hình ảnh được quét trong Java
Vượt qua thách thức của các ứng dụng OCR thiếu máy quét phổ biến. API của chúng tôi tự hào có các bộ lọc xử lý trước hình ảnh tích hợp mạnh mẽ giúp xử lý thành thạo các hình ảnh bị xoay, lệch và nhiễu. Kết hợp với sự hỗ trợ cho tất cả các định dạng hình ảnh, nó đảm bảo khả năng nhận dạng đáng tin cậy ngay cả từ ảnh trên điện thoại thông minh. Hầu hết quá trình xử lý trước và chỉnh sửa hình ảnh đều được tự động hóa, chỉ yêu cầu bạn can thiệp trong những trường hợp khó khăn.
Áp dụng Chỉnh sửa hình ảnh tự động - Java
// Create instance of OCR API
AsposeOCR api = new AsposeOCR();
// Define pre-processing filters
PreprocessingFilter filters = new PreprocessingFilter();
filters.add(PreprocessingFilter.ToGrayscale());
filters.add(PreprocessingFilter.Rotate(-90));
// Pre-process image before recognition
BufferedImage imageRes = api.PreprocessImage(imagePath, filters);
// Recognize image
RecognitionResult result = api.RecognizePage(imageRes, set);
Trích xuất văn bản từ ảnh trong Java
Tích hợp tính năng phát hiện và nhận dạng văn bản trong các ứng dụng Java của bạn. Truy cập kết quả chính xác từ ảnh một cách dễ dàng, nâng cao khả năng xử lý ảnh của bạn. Nâng cao khả năng xử lý hình ảnh, thu được kết quả chính xác từ ảnh.
Phát hiện và nhận dạng văn bản trên ảnh - Java
// Add a photo to the recognition batch
OcrInput images = new OcrInput(InputType.SingleImage);
images.add("photo.jpg");
// Set photo recognition mode
RecognitionSettings recognitionSettings = new RecognitionSettings();
recognitionSettings.setDetectAreasMode(DetectAreasMode.PHOTO);
// Extract text from a photo
ArrayList<RecognitionResult> results = api.Recognize(images, recognitionSettings);
results.forEach((result) -> {
System.out.println(result.recognition_text);
});
Tối ưu hóa tài nguyên trong Java
Nhận dạng ký tự quang học đòi hỏi tài nguyên. API của chúng tôi cung cấp những cách linh hoạt để cân bằng bộ ba chất lượng-giá cả-thời gian cổ điển. Nó cho phép bạn hạn chế số lượng luồng được sử dụng bởi công cụ nhận dạng. Mặc dù việc điều chỉnh này có thể dẫn đến tốc độ nhận dạng chậm hơn nhưng nó cho phép bạn phân bổ tài nguyên cho các tác vụ đồng thời như xử lý hình ảnh song song, vận hành máy chủ web, quản lý cơ sở dữ liệu hoặc phân tích dữ liệu nền.
- Chọn giữa nhận dạng kỹ lưỡng và nhận dạng nhanh.
- Chỉ định số lượng luồng được phân bổ để nhận dạng hoặc cho phép thư viện tự động chia tỷ lệ theo số lõi bộ xử lý.
- Giải phóng CPU bằng cách giảm tải các phép tính cho GPU.
Cân bằng sử dụng tài nguyên
RecognitionSettings recognitionSettings = new RecognitionSettings();
recognitionSettings.setThreadsCount(2);
Nhận dạng nhanh với thiết lập tối thiểu
Nếu hình ảnh của bạn là bản quét chất lượng cao mà không bị lệch hoặc biến dạng, bạn có thể sử dụng chế độ nhận dạng nhanh nhất tiêu tốn tài nguyên tối thiểu có thể bằng cách sử dụng:
OCR nhận dạng nhanh - Java
AsposeOCR api = new AsposeOCR();
// Add images to the recognition batch
OcrInput images = new OcrInput(InputType.SingleImage);
images.add(os.path.join(self.dataDir, "source1.png"));
images.add(os.path.join(self.dataDir, "source2.png"));
// Fast recognize images
ArrayList<RecognitionResult> results = api.RecognizeFast(images);
results.forEach((result) -> {
System.out.println(result);
});