Tại sao Aspose.ocr cho Python thông qua .NET?

Tham gia vào một hành trình với ASPose OCR cho Python thông qua .NET-API OCR đa năng và thân thiện với người dùng. Nhúng chức năng OCR vào các ứng dụng Python của bạn với ít hơn 5 dòng mã, loại bỏ sự cần thiết của các mạng toán học hoặc thần kinh phức tạp. Động cơ OCR mạnh mẽ của chúng tôi cung cấp tốc độ và độ chính xác vô song của chúng tôi, hỗ trợ hơn 140 ngôn ngữ, bao gồm tiếng Anh, Cyrillic, tiếng Ả Rập, tiếng Ba Tư, tiếng Hindi, Trung Quốc, Nhật Bản, tiếng Hàn, tiếng Tamil và nhiều thứ khác. Cho dù đó là hình ảnh được quét, ảnh điện thoại thông minh, ảnh chụp màn hình hoặc PDF được quét, có được kết quả trong các định dạng tài liệu và trao đổi dữ liệu phổ biến. Tận dụng các bộ lọc xử lý tiền xử lý để xử lý hình ảnh xoay, lệch và ồn ào.

Illustration ocr

OCR hiệu quả và chính xác

Trải nghiệm tốc độ và độ chính xác vô song trong kết quả OCR với công nghệ Python tiên tiến.

Đa ngôn ngữ

Nhận ra văn bản bằng 140 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Nga, tiếng Trung, tiếng Hindi, tiếng Nhật, tiếng Hàn, tiếng Tamil, tiếng Ả Rập, tiếng Ba Tư, và nhiều hơn nữa.

Phổ quát

Xử lý một cách dễ dàng hình ảnh từ các nguồn khác nhau - máy quét, máy ảnh và điện thoại thông minh - sử dụng Python.

Ngôn ngữ châu Á

Đạt được sự công nhận chính xác của các kịch bản Trung Quốc, Ả Rập, Devanagari và Dravidian, cũng như các văn bản ngôn ngữ hỗn hợp.

Bảo tồn bố cục

Duy trì định dạng nguồn để biểu diễn văn bản chính xác và nhận dạng các bảng.

Mẫu mã trực tiếp

Chuyển đổi một hình ảnh thành văn bản chỉ trong ba dòng mã Python. Cố gắng cho chính mình!

Sẵn sàng để nhận ra Sẵn sàng để nhận ra Thả một tệp ở đây hoặc nhấp để duyệt *

* Bằng cách tải lên các tệp của bạn hoặc sử dụng dịch vụ mà bạn đồng ý với Điều khoản sử dụngChính sách bảo mật.

Kết quả công nhận
 

Chuyển đổi hình ảnh thành văn bản

Khám phá thêm các ví dụ >
# Initialize OCR engine
recognitionEngine = AsposeOcr()

# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")

# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)

Chọn sở thích của bạn

Chọn thư viện phù hợp cho nhu cầu của bạn. Khám phá API có sẵn và khả năng của chúng để chọn giải pháp hiệu quả nhất.

Tính linh hoạt

Python via .NET

Dễ dàng phát triển, dễ đọc và khả năng bảo trì của mã
Tự hào có nhiều tính năng nhất và nhận được các bản cập nhật thường xuyên nhất
Tốc độ tổng thể có thể chậm hơn một chút so với các nền tảng khác

Tính đồng nhất

Python via Java

Sử dụng cùng một thư viện trên bất kỳ nền tảng nào
Chạy liền mạch ứng dụng của bạn trên bất kỳ thiết bị nào
Yêu cầu Môi trường thời gian chạy Java (JRE) phiên bản 8 trở lên

Hiệu suất

Python via C++

Tốc độ nhanh nhất có thể bất kể nền tảng
Rất nhiều quyền kiểm soát đối với quản lý tài nguyên
Nhắm mục tiêu vào các nhà phát triển có kinh nghiệm

Chạy khắp nơi

Bất kể tên nào, Aspose.oc cho Python thông qua .NET không yêu cầu .NET được cài đặt trên nền tảng đích. Gói cài đặt đã đi kèm với tất cả các thành phần cần thiết và có thể hoạt động liền mạch trên bất kỳ nền tảng nào - có thể là máy cục bộ, máy chủ web hoặc đám mây.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Các định dạng tệp được hỗ trợ

Aspose.OCR for Python via .NET có thể làm việc với bất kỳ tệp Bạn có thể nhận được từ máy quét hoặc máy ảnh. Kết quả nhận dạng có thể được lưu, nhập vào cơ sở dữ liệu hoặc được phân tích trong thời gian thực.

Hình ảnh

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

Lô OCR

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Kết quả công nhận

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Cài đặt

Aspose.oc cho Python thông qua .NET được phân phối dưới dạng gói Python với các phụ thuộc tối thiểu hoặc dưới dạng tệp có thể tải xuống hoặc [gói pypi]( https://pypi.org Dễ dàng Cài đặt Nó vào dự án của bạn và bạn đã sẵn sàng nhận ra các văn bản bằng hơn 140 ngôn ngữ và lưu kết quả nhận dạng ở các định dạng khác nhau.

Yêu cầu giấy phép dùng thử để khởi động sự phát triển của một ứng dụng OCR đầy đủ chức năng mà không có giới hạn.

OCR dưới Python

Thư viện của chúng tôi dễ dàng tích hợp, cho phép các ứng dụng Python chạy liền mạch trên bất kỳ nền tảng nào - máy tính để bàn Windows, Windows Server, MacOS, Linux và Cloud.

140 ngôn ngữ nhận dạng

Thư viện Java OCR của chúng tôi là một giải pháp phổ quát để xử lý tài liệu, trích xuất dữ liệu và số hóa nội dung trên quy mô toàn cầu. Với sự hỗ trợ cho một loạt các kịch bản viết châu Âu, Trung Đông và Châu Á, nó được thích nghi tốt với bất kỳ quốc gia và doanh nghiệp nào.

Aspose OCR cho Java nhận ra văn bản trong các tài liệu đa ngôn ngữ, chẳng hạn như tiếng Trung/Anh, tiếng Ả Rập/tiếng Pháp hoặc cyrillic/tiếng Anh. Các ngôn ngữ sau được hỗ trợ:

  • ** Latin mở rộng **: Tiếng Anh, Tây Ban Nha, Pháp, Indonesia, Bồ Đào Nha, Đức, Việt Nam, Thổ Nhĩ Kỳ, Ý, Ba Lan, và hơn 80 người khác;
  • ** Cyrillic ** Bảng chữ cái: Nga, Ukraine, Kazakh, Bulgaria, bao gồm các văn bản cyrillic/tiếng Anh hỗn hợp;
  • Ả Rập, tiếng Ba Tư, tiếng Urdu, bao gồm các văn bản trộn với tiếng Anh;
  • Các ngôn ngữ Trung Quốc, tiếng Hàn, Nhật Bản, Devanagari và Dravidian, bao gồm tiếng Hindi, tiếng Tamil, Marathi và những người khác. Các văn bản ngôn ngữ hỗn hợp cũng được hỗ trợ.

Bộ lọc xử lý mạnh mẽ

Độ chính xác và độ tin cậy của nhận dạng ký tự quang học phụ thuộc rất nhiều vào chất lượng của hình ảnh gốc. Aspose OCR cho Python thông qua .NET cung cấp một số lượng lớn các bộ lọc xử lý hình ảnh hoàn toàn tự động và thủ công để tăng cường hình ảnh trước khi nó được gửi đến động cơ OCR:

  • Tự động xoay ngược xuống và hình ảnh xoay.
  • Phát hiện hình ảnh đảo ngược và trích xuất văn bản trắng-đen.
  • Tự động loại bỏ bụi bẩn, đốm, vết trầy xước, ánh sáng chói, độ dốc không mong muốn và tiếng ồn khác.
  • Tự động điều chỉnh độ tương phản hình ảnh.
  • Tự động cao cấp, hoặc thay đổi kích thước thủ công hình ảnh.
  • Chuyển đổi hình ảnh thành màu đen và trắng hoặc thang độ xám.
  • Tìm các khu vực có khả năng có vấn đề của hình ảnh và trả về thông tin về loại khiếm khuyết và tọa độ của nó.
  • Tăng độ dày của các ký tự trong một hình ảnh.
  • Hình ảnh ồn ào mờ trong khi bảo quản các cạnh của các chữ cái.
  • Làm thẳng trang cong và sửa lỗi của ống kính camera cho ảnh trang.

Được tối ưu hóa cho các loại tài liệu cụ thể

Aspose OCR cho Python thông qua .NET cung cấp các mạng thần kinh được đào tạo đặc biệt để trích xuất văn bản từ một số loại hình ảnh nhất định với độ chính xác tối đa:

Checker chính tả tích hợp

Mặc dù thư viện Python OCR của chúng tôi cung cấp độ chính xác nhận dạng cao, các lỗi in, bụi bẩn hoặc phông chữ không chuẩn có thể khiến một số ký tự hoặc từ nhất định được nhận ra không chính xác. Để cải thiện hơn nữa kết quả nhận dạng, bạn có thể bật trình kiểm tra chính tả, tìm và tự động sửa lỗi chính tả dựa trên ngôn ngữ nhận dạng đã chọn.

Nếu văn bản được công nhận chứa thuật ngữ chuyên ngành, chữ viết tắt và các từ khác không có trong các từ điển chính tả thông thường, bạn có thể cung cấp danh sách từ của riêng mình.

Nhận dạng hàng loạt

API Python OCR của chúng tôi giải phóng bạn khỏi việc nhận ra từng hình ảnh một. Sử dụng các phương pháp xử lý hàng loạt khác nhau để nhận ra nhiều hình ảnh trong một cuộc gọi:

  • Nhận dạng các tệp PDF, TIFF và DJVU nhiều trang.
  • Nhận dạng tất cả các tập tin trong một thư mục.
  • Nhận dạng tất cả các tập tin trong một kho lưu trữ.
  • Nhận dạng tất cả các tập tin từ một danh sách.

Học theo mẫu

OCR cho Python cung cấp một loạt các ví dụ được viết bằng Python, cho phép bạn nhanh chóng làm quen với các chức năng và khả năng của nó. Đạt được những hiểu biết về việc tạo ra các giải pháp phù hợp để đáp ứng nhu cầu kinh doanh Python của bạn.

Tính năng và khả năng

Aspose.OCR for Python via .NET Aspose.oc cho Python thông qua .NET giải quyết các nhiệm vụ của bạn nhanh chóng và dễ dàng.

Feature icon

Ảnh OCR

Trích xuất văn bản từ ảnh điện thoại thông minh với độ chính xác cấp quét.

Feature icon

PDF có thể tìm kiếm

Chuyển đổi bất kỳ lần quét nào thành một tài liệu có thể tìm kiếm đầy đủ, có thể lập chỉ mục và có thể chỉnh sửa.

Feature icon

Công nhận URL

Nhận ra một hình ảnh từ URL mà không tải xuống cục bộ.

Feature icon

Công nhận số lượng lớn

Đọc tất cả các hình ảnh từ các tài liệu, thư mục và tài liệu lưu trữ nhiều trang.

Feature icon

Bất kỳ phông chữ và phong cách

Xác định và nhận dạng văn bản trong tất cả các kiểu chữ và kiểu phổ biến.

Feature icon

Công nhận tinh chỉnh

Điều chỉnh mọi tham số OCR cho kết quả nhận dạng tốt nhất.

Feature icon

Checker chính tả

Cải thiện kết quả bằng cách tự động sửa các từ sai chính tả.

Feature icon

Tìm văn bản trong hình ảnh

Tìm kiếm văn bản hoặc biểu thức chính quy trong một tập hợp các hình ảnh.

Feature icon

So sánh văn bản hình ảnh

So sánh các văn bản trên hai hình ảnh, bất kể trường hợp và bố cục.

Mẫu mã Python

Đi sâu vào các mẫu mã để tích hợp OCR một cách liền mạch vào các ứng dụng Python của bạn.

Cài đặt

Phân phối dưới dạng bánh xe trăn hoặc gói tải xuống khép kín, Aspose.oc cho Python thông qua .NET dễ dàng phân phối. Tích hợp vào dự án Python của bạn, trực tiếp từ môi trường phát triển tích hợp Python ưa thích của bạn, là một quá trình liền mạch. Chỉ cần cài đặt nó và bạn đã chuẩn bị để tận dụng phạm vi đầy đủ các khả năng OCR, lưu kết quả nhận dạng ở các định dạng khác nhau. Giấy phép tạm thời nâng tất cả các hạn chế phiên bản dùng thử trong 30 ngày. Sử dụng giai đoạn này để bắt đầu phát triển ứng dụng OCR đầy đủ chức năng, cho phép bạn đưa ra quyết định sáng suốt về việc mua Aspose.ocr cho Python thông qua .NET ở giai đoạn sau.

Giấy phép tải

lic = License()
lic.set_license(self.licPath)

Nhận biết văn bản trên ảnh

Đọc văn bản từ bất kỳ nội dung nào trong Aspose OCR cho Python cũng dễ dàng như gọi một phương thức nhận dạng phổ quát.

Chuyển đổi ảnh thành văn bản - Python

api = AsposeOcr()
# Add image to the recognition batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("source1.png")

# Set recognition language
recognitionSettings = RecognitionSettings()
recognitionSettings.language = Language.UKR;

# Recognize the image
results = api.recognize(input, recognitionSettings)

# Print recognition result
for result in results:
print(result.recognition_text)

Python Universal Converter

API của chúng tôi đã đọc bất kỳ hình ảnh nào từ máy quét, máy ảnh hoặc điện thoại thông minh: tài liệu PDF, JPEG, PNG, TIFF, GIF, hình ảnh BMP và thậm chí các tệp DJVU. Hỗ trợ đầy đủ cho các tài liệu PDF nhiều trang, hình ảnh TIFF và DJVU đảm bảo tính linh hoạt. Bạn cũng có thể cung cấp một hình ảnh từ web thông qua URL.

Kết quả nhận dạng được trả về trong các định dạng tài liệu và trao đổi dữ liệu phổ biến: Văn bản thuần túy, PDF, Microsoft Word, Microsoft Excel, JSON và XML.

Nhận biết PDF và lưu kết quả cho các định dạng đầu ra khác nhau - Python

api = AsposeOcr()

# Create OcrInput and add images
input = OcrInput(aspose.ocr.models.InputType.PDF)
file = os.path.join(self.dataDir, "pdfs/multi_page_1.pdf")
input.add(file, 0, 3)

set = RecognitionSettings()
set.set_detect_areas_mode = DetectAreasMode.NONE
result = api.recognize(input, set)
api.save_multipage_document("test.xml", SaveFormat.XML, result)
api.save_multipage_document("test.json", SaveFormat.JSON, result)
api.save_multipage_document("test.pdf", SaveFormat.PDF, result)
api.save_multipage_document("test.xlsx", SaveFormat.XLSX, result)
api.save_multipage_document("test.docx", SaveFormat.DOCX, result)
api.save_multipage_document("test.txt", SaveFormat.TEXT, result)
api.save_multipage_document("test.html", SaveFormat.HTML, result)
api.save_multipage_document("test.epub", SaveFormat.EPUB, result)
api.save_multipage_document("test.rtf", SaveFormat.RTF, result)

Tối ưu hóa tài nguyên trong Python

Nhận dạng nhân vật quang học đòi hỏi tài nguyên. API của chúng tôi cung cấp các cách linh hoạt để cân bằng bộ ba chất lượng giá thời gian cổ điển:

  • Chọn giữa nhận dạng kỹ lưỡng và nhận dạng nhanh.
  • Chỉ định số lượng luồng được phân bổ để nhận dạng hoặc cho phép thư viện tự động mở rộng theo số lượng lõi của bộ xử lý.
  • Giải phóng CPU bằng cách giảm tải các tính toán cho phụ trợ .NET.

Nhận dạng nhanh - Python

api = AsposeOcr()

# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample_line.png")

result = api.recognize_fast(input)

Nhận ra dòng đơn

Nếu hình ảnh của bạn đã được cắt theo một dòng văn bản, nó có thể được nhận ra ở chế độ nhanh nhất có thể, mà không cần sửa chữa tự động, phát hiện cấu trúc nội dung và các bước tốn tài nguyên khác. Nó có thể tăng tốc OCR nhanh hơn 7 lần so với quá trình nhận dạng thông thường.

Nhận ra dòng văn bản duy nhất trên hình ảnh - Python

api = AsposeOcr()

# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample_line.png")

# recognize without regions detection
settings = RecognitionSettings()
settings.recognize_single_line = True

result = api.recognize(input, settings)

print(result[0].recognition_text)