Mengapa Memilih Perpustakaan Aspose OCR?

Bangun kemampuan OCR yang kuat ke dalam aplikasi .NET Anda dalam hitungan detik. API OCR kami yang mudah digunakan memungkinkan Anda mengekstrak teks dari gambar dan pemindaian, membuat PDF yang dapat dicari, dan lainnya dengan kode C# minimal. Ideal untuk fungsi .NET Desktop, Web, Cloud, dan Serverless.
Pengalaman OCR yang tidak hanya mengekstrak teks, tetapi memahami dan meningkatkannya dengan AI. Klik item di bawah ini untuk mempelajari lebih lanjut tentang fitur dan manfaat kami.

Illustration ocr

Aplikasi OCR global

C# OCR mengakui bahasa Inggris, Cyrillic, Arab, Persia, Cina, Jepang, Korea, Hindi, Tamil, dan teks-teks berbahasa campuran.

Baca semuanya

Dapatkan teks dari file apa pun yang diperoleh melalui pemindai atau kamera, dan memproses gambar langsung dari tautan web.

Hasil yang dapat diandalkan

Mencapai akurasi pengakuan tinggi untuk semua gambar, termasuk yang tidak fokus, diputar, terdistorsi, dan berisik.

Pengakuan batch

Benar-benar diakui semua gambar dari folder dan arsip; Baca dokumen PDF multi-halaman dan gambar TIFF.

Deteksi tata letak

Identifikasi dan kategorikan blok konten dalam gambar untuk memastikan urutan yang benar dari teks yang diekstraksi, terlepas dari tata letak.

AI postprocessing menggunakan LLMS

Bukan hanya OCR-solusi AI all-in-one Anda untuk pengenalan teks yang lebih pintar dan bebas dari kesalahan. Aspose.OCR sekarang mengintegrasikan AI dan LLM untuk memilih model yang secara signifikan meningkatkan akurasi OCR - memperbaiki kesalahan, memulihkan teks yang hilang, dan meningkatkan kualitas pengenalan secara keseluruhan.

Sampel Kode Langsung

.NET OCR menjadi tugas yang sepele dan langsung dengan Aspose OCR API, bahkan untuk pengembang baru. Hanya beberapa baris kode yang cukup untuk mengekstrak teks dari gambar dan menampilkannya di layar. Sederhana itu - cobalah.

Siap untuk dikenali Siap untuk dikenali Jatuhkan file di sini atau klik untuk menelusuri *

* Dengan mengunggah file Anda atau menggunakan layanan yang Anda setujui dengan kami Ketentuan Penggunaan Dan Kebijakan Privasi.

Hasil pengakuan
 

Konversi gambar ke teks

Lebih banyak contoh >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Kemandirian platform

Perpustakaan OCR Cross-Platform dapat bekerja di mana saja di bawah .net, .NET Core atau .NET Framework-baik di mesin lokal, di server web, atau di cloud.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Format file yang didukung

Aspose.OCR for .NET dapat bekerja dengan file Anda bisa mendapatkan dari pemindai atau kamera. Hasil pengakuan dapat disimpan, diimpor ke database, atau dianalisis secara real time.

Gambar

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

Batch OCR

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Hasil pengakuan

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

OCR bertenaga LLM: Generasi OCR berikutnya yang didorong oleh model bahasa AI.

Akurasi hasil tidak berhenti pada pengakuan - buka kunci tingkat kualitas berikutnya dengan menyempurnakan teks menggunakan LLM eksternal.

  • Secara otomatis mengoreksi ejaan dan tata bahasa dalam teks yang dikenali.
  • Normalisasi ketidakkonsistenan dan memformat masalah di seluruh pemindaian multi-halaman.
  • Adaptasi hasil pengenalan untuk kosa kata khusus subjek menggunakan model prompt-driven.
  • Integrasikan pipa LLM eksternal ke dalam alur kerja OCR Anda dengan hanya beberapa baris kode.

Cocok untuk konten apa pun

Keakuratan dan keandalan pengenalan teks dalam C# sangat tergantung pada kualitas gambar. .NET OCR menawarkan satu set lengkap optimasi gambar otomatis dan manual, memastikan hasil pengenalan yang unggul.

Pemrosesan gambar yang kuat, deteksi teks yang sepenuhnya dapat disesuaikan, pasca-pemrosesan, dan koreksi ejaan otomatis memungkinkan ekstraksi teks dari pemindaian atau foto apa pun dengan akurasi tertinggi.

Optimalisasi Sumber Daya OCR

Perpustakaan Aspose ‘C# OCR memungkinkan penyeimbangan kecepatan pengakuan, kualitas, dan pemanfaatan sumber daya yang sangat fleksibel untuk setiap kasus penggunaan khusus:

  • Pilih antara pengakuan menyeluruh dan pengakuan cepat.
  • Tentukan jumlah utas yang dialokasikan untuk pengakuan, atau izinkan perpustakaan .NET OCR kami untuk secara otomatis skala ke jumlah inti prosesor.
  • Bebaskan CPU dengan membongkar perhitungan ke GPU.

140+ bahasa pengakuan

Perpustakaan C# OCR kami adalah solusi universal untuk pemrosesan dokumen, ekstraksi data, dan digitalisasi konten pada skala global. Dengan dukungan untuk sejumlah besar skrip menulis Eropa, Timur Tengah dan Asia, itu diadaptasi dengan baik untuk negara dan bisnis mana pun.

Anda dapat mengenali dokumen yang ditulis dalam bahasa campuran, seperti Cina/Inggris, Arab/Prancis atau Cyrillic/Inggris. Bahasa berikut didukung:

  • ** Latin yang diperluas **: Inggris, Spanyol, Prancis, Indonesia, Portugis, Jerman, Vietnam, Turki, Italia, Polandia, dan 80+ lainnya;
  • ** Cyrillic ** Alfabet: Rusia, Ukraina, Kazakh, Bulgaria, termasuk teks Cixed Cyrillic/Inggris;
  • Arab, Persia, Urdu, termasuk teks yang dicampur dengan bahasa Inggris;
  • Bahasa Cina, Korea, Jepang, Devanagari, dan Dravida, termasuk Hindi, Tamil, Marathi, dan lainnya.

Fitur dan kemampuan

C# OCR secara otomatis mengekstrak teks dari foto atau pemindaian, menghilangkan kebutuhan untuk memperbaiki dokumen manual.

Feature icon

Foto OCR

Ekstrak teks dari foto smartphone dengan akurasi level pemindaian.

Feature icon

PDF yang dapat dicari

Konversi pemindaian apa pun menjadi dokumen yang dapat dicari dan dapat diindeks.

Feature icon

Pengakuan url

Kenali gambar dari URL tanpa mengunduhnya secara lokal.

Feature icon

Pengakuan curah

Baca semua gambar dari dokumen, folder, dan arsip multi-halaman.

Feature icon

Semua font dan gaya

Identifikasi dan kenali teks di semua jenis huruf dan gaya populer.

Feature icon

Pengenalan fine-tune

Sesuaikan setiap parameter OCR untuk hasil pengenalan terbaik.

Feature icon

Pemeriksa ejaan

Meningkatkan hasil dengan secara otomatis mengoreksi kata -kata yang salah eja.

Feature icon

Temukan teks dalam gambar

Cari teks atau ekspresi reguler dalam satu set gambar.

Feature icon

Bandingkan teks gambar

Bandingkan teks pada dua gambar, terlepas dari kasing dan tata letak.

Feature icon

Koreksi bertenaga AI

Perbaiki kata-kata dan tata bahasa yang salah diakui menggunakan LLM berbasis transformator-tidak diperlukan pelatihan khusus.

Feature icon

Pasca pemrosesan semantik

Pergi melampaui karakter: Perbaiki output OCR yang berisik dengan LLMS untuk peningkatan kualitas konten dan normalisasi bahasa.

Feature icon

Saluran pipa llm plug-in

Hubungkan model bahasa eksternal untuk memperbaiki kesalahan pengenalan OCR dan mengembalikan teks yang tidak lengkap atau terfragmentasi.

Mudah digunakan OCR

Dengan C# OCR API kami, Anda hanya perlu beberapa baris kode C# untuk mengonversi gambar ke teks, membuat PDF yang dapat dicari, menyimpan hasil pengakuan untuk didokumentasikan, dan banyak lagi. Jelajahi sampel kode untuk memahami cara mengintegrasikan API OCR kami ke dalam solusi .NET Anda.

Instalasi

.NET OCR didistribusikan sebagai Paket Nuget atau sebagai file yang dapat diunduh dengan dependensi minimal. Paket dapat ditambahkan ke proyek Anda langsung dari Microsoft Visual Studio. Cukup instal ke proyek Anda dan Anda siap mengekstrak teks dari gambar dan menyimpan hasil pengenalan dalam salah satu format yang didukung. Jika sistem Anda memiliki GPU CUDA yang mampu, Anda dapat menggunakan mesin OCR GPU-Accelerated untuk secara signifikan meningkatkan kinerja pengakuan.

Anda dapat mulai menggunakan Aspose.OCR for .NET tepat setelah instalasi dengan beberapa pembatasan . Lisensi sementara menghilangkan semua batasan versi percobaan selama 30 hari. Gunakan untuk mulai membangun aplikasi OCR yang berfungsi penuh dan buat keputusan akhir untuk membeli OCR untuk .NET nanti.

Ekstrak teks dari foto

Ketika orang biasanya berpikir tentang OCR (pengenalan karakter optik), hubungan pertama sering dengan pemindai sebagai perangkat penangkapan utama. Asosiasi ini memiliki alasan historis dan masih lazim dalam banyak konteks, menyediakan lingkungan yang konsisten dan terkontrol untuk menangkap teks cetak dari dokumen fisik dengan kualitas yang tak tertandingi. Namun, pemindai adalah peralatan khusus yang tidak selalu ada dan membutuhkan stasioner workstation untuk beroperasi. Untungnya, dunia modern memberikan alternatif yang nyaman untuk pemindai tradisional - kamera smartphone. Kemajuan dalam teknologi kamera smartphone memastikan bahwa bahkan smartphone entry-level memberikan kualitas yang cukup untuk menangkap dokumen yang siap OCR. Dan memori bawaan membuatnya lebih mudah dari sebelumnya untuk mendigitalkan sejumlah besar dokumen, surat kabar, buku, tanda jalan, dan teks lainnya saat bepergian. Yang Anda butuhkan adalah teknologi yang tepat untuk mengubah foto-foto itu menjadi teks yang dapat dibaca mesin.

Perpustakaan C# OCR kami secara khusus dirancang untuk mengenali semua jenis gambar di luar kotak dan dapat disesuaikan lebih lanjut untuk menangani bahkan foto berkualitas rendah. Dikombinasikan dengan smartphone modern, memungkinkan Anda untuk membuat aplikasi OCR yang kuat untuk sebagian besar tugas pemindaian dan pengenalan teks sehari -hari. Analisis pemrosesan gambar dan struktur dokumen yang paling canggih dilakukan dalam beberapa baris kode, memungkinkan Anda untuk fokus pada bisnis daripada algoritma matematika yang kompleks, jaringan saraf dan seluk -beluk teknis lainnya.

Foto OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Buat PDF yang dapat dicari dari pemindaian

PDF adalah salah satu format paling populer untuk memindai dokumen kertas, terutama karena kemampuannya untuk menggabungkan beberapa halaman menjadi satu file. Format ini banyak digunakan untuk pertukaran kontrak, faktur, dokumen hukum, paspor dan kartu ID, dan banyak dokumen lain antara individu, bisnis, bank dan lembaga pemerintah. Namun, setiap PDF yang dipindai pada dasarnya adalah kumpulan gambar. Itu tidak berisi teks yang dapat dibaca mesin, sehingga pengguna tidak dapat mencari, menyalin, atau memanipulasi konten dokumen.

Aspose .NET OCR menawarkan kepada Anda cara yang cepat, mudah dan sangat andal untuk mengubah PDF yang dipindai menjadi dokumen yang dapat dicari dan diindeks. Ini secara akurat mengenali konten halaman, mengubahnya menjadi lapisan teks yang dapat dibaca mesin di atas gambar asli yang dapat dipilih, disalin, dibaca dengan perangkat lunak teks-ke-pidato, dan bahkan secara otomatis diproses oleh penerjemah, peringkasan, dan alat analitik bertenaga AI lainnya.

Tambahkan overlay teks ke PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Cari teks dalam gambar

Arsip digital, terutama dalam organisasi besar, sering terdiri dari koleksi pemindaian dan foto yang luas, banyak di antaranya mungkin berisi dokumen multi-halaman. Manajemen yang efisien dan organisasi arsip tersebut secara efektif sangat penting untuk pengambilan informasi dan navigasi yang mudah. Namun, gambar tidak berisi teks yang dapat dibaca mesin, sehingga tidak mungkin mencari dan menganalisis konten dokumen.

Perpustakaan C# OCR memungkinkan Anda untuk dengan mudah mencari teks dalam gambar, terlepas dari font, ukuran teks, gaya, dan parameter lainnya. Perpustakaan juga mendukung pencarian yang tidak sensitif pada kasus dan ekspresi reguler, yang sangat berguna dalam berbagai aplikasi dan industri. Fungsionalitas ini dapat digunakan untuk mengkategorikan dokumen berdasarkan konten, kata kunci, atau pola yang ditemukan dalam teks; mencari persyaratan atau klausa tertentu dalam perjanjian dan kontrak; mengatur ulang file berdasarkan kata kunci atau konten yang ditemukan di dalamnya; Temukan dan identifikasi data pribadi dalam dokumen, membuatnya lebih mudah untuk memastikan kepatuhan GDPR dan mengelola informasi sensitif secara lebih efektif. Mencari dengan gambar dengan juga memungkinkan untuk membuat alur kerja otomatis dan merampingkan berbagai proses bisnis setelah menerima kontrak dan faktur yang ditandatangani.

Cari teks dalam gambar - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}

AI postprocessing dengan LLM

Anda sekarang dapat melampaui pengakuan mentah dan menerapkan logika yang digerakkan AI untuk meningkatkan kualitas tekstual hasil OCR. Model bahasa besar (LLM) dapat dengan cerdas memperbaiki kesalahan ejaan, mengembalikan batas kata, menerapkan aturan tata bahasa, dan menyesuaikan teks berdasarkan konteks-sesuatu yang tidak dapat dilakukan oleh ejaan berbasis sintaks.

Langkah postprocessing ini sangat ideal untuk pemindaian berkualitas rendah, foto dengan kebisingan latar belakang, atau dokumen multibahasa. Anda dapat mencolokkan pipa LLM apa pun yang mendukung input/output teks dasar, atau menggunakan alat koreksi pintar bawaan Aspose untuk mendapatkan hasil yang siap produksi.

🧠AI postprocessing dengan LLM - C#

// Optional logger for progress and error reporting (can be set to null)
ILogger logger = new ConsoleLogger();

// Configure AI model for postprocessing
AsposeAIModelConfig modelConfig = new AsposeAIModelConfig
{
    AllowAutoDownload = true,
    DirectoryModelPath = "D://Models", // Path to local or downloaded model files
};

// Initialize AI postprocessing engine
AsposeAI aiEngine = new AsposeAI(modelConfig, logger);

// Register a spell-checking processor
aiEngine.AddPostProcessor(new SpellCheckAIProcessor());

// Execute AI-based postprocessing on OCR results
aiEngine.RunPostprocessor(ocrResults);

// Output the refined recognition result
Console.WriteLine("Corrected OCR Output:\n");
Console.WriteLine(ocrResults[0].RecognitionText);

// Release resources
aiEngine.Dispose();