HTML JPG OCR XML BMP
Aspose.OCR  untuk .NET
TXT

Konversi PDF ke TXT di C#

Lakukan pengenalan karakter optik pada dokumen PDF dan simpan teks sebagai dokumen PDF menggunakan Aspose.OCR dari pustaka .NET.

Cara mengonversi PDF ke TXT menggunakan C#

Aspose.OCR untuk .NET adalah pustaka yang kuat namun mudah digunakan dan hemat biaya untuk mengonversi gambar PDF ke dokumen TXT. Mendukung 26 bahasa berdasarkan bahasa Latin, Sirilik, dan Cina, mesin pengenalan karakter optik canggihnya memberikan kecepatan dan akurasi pengenalan yang unggul, sekaligus mengisolasi Anda dari rumus, jaringan saraf, dan detail teknis kompleks lainnya. Ini memungkinkan Anda untuk menambahkan fungsionalitas OCR ke aplikasi .NET Anda dalam waktu kurang dari 10 baris kode.

Aspose.OCR untuk .NET

memproses gambar pindaian atau bahkan foto ponsel cerdas dalam format PDF dan membuat dokumen PDF yang berisi teks yang dikenali. Untuk menambahkannya ke proyek Anda, Anda hanya perlu menginstal Aspose.OCR

NuGet

paket dalam proyek Anda dengan perintah berikut:

Package Manager Console Command


  PM> Install-Package Aspose.OCR

Langkah-langkah untuk Mengonversi PDF ke TXT

Dengan .NET OCR dan hanya beberapa baris kode, Anda dapat membuat aplikasi berfitur lengkap yang mengubah gambar PDF menjadi dokumen TXT:

  • Buat turunan dari kelas AsposeOcr
  • Panggil metode AsposeOCR.RecognizeImage
  • Lewati jalur file PDF sebagai parameter
  • AsposeOCR.RecognizeImage mengembalikan String atau file tipe TXT

Persyaratan sistem

Sebelum menjalankan contoh, pastikan bahwa .NET API kompatibel dengan spesifikasi NET Standard 2.0 diinstal pada sistem Anda dan semua [dependensi eksternal]( https://docs.aspose.com/ocr/net/system-requirements/#external- dependensi) dari paket Aspose.OCR direferensikan dalam proyek Anda.

  • NET Standard 2.0+ solusi yang kompatibel
  • Aspose.OCR untuk .NET yang dirujuk dalam proyek Anda.

Kode contoh ini menunjukkan Konversi PDF ke TXT .NET


// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.TXT", riText);
  • PDF Apa PDF Format Berkas

    Portable Document Format (PDF) adalah jenis dokumen yang dibuat oleh Adobe pada tahun 1990-an. Tujuan dari format file ini adalah untuk memperkenalkan standar representasi dokumen dan bahan referensi lainnya dalam format yang independen dari perangkat lunak aplikasi, perangkat keras, serta Sistem Operasi. Format file PDF memiliki kemampuan penuh untuk memuat informasi seperti teks, gambar, hyperlink, form-fields, media kaya, tanda tangan digital, lampiran, metadata, fitur Geospasial dan objek 3D di dalamnya yang dapat menjadi bagian dari dokumen sumber.

    Baca selengkapnya

    TXT Apa TXT Format Berkas

    File dengan ekstensi .TXT mewakili dokumen teks yang berisi teks biasa dalam bentuk garis. Paragraf dalam dokumen teks dikenali oleh carriage return dan digunakan untuk pengaturan konten file yang lebih baik. Dokumen teks standar dapat dibuka di editor teks atau aplikasi pengolah kata apa pun pada sistem operasi yang berbeda. Semua teks yang terkandung dalam file tersebut dalam format yang dapat dibaca manusia dan diwakili oleh urutan karakter.

    Baca selengkapnya

    Konversi lain yang Didukung

    Menggunakan C#, seseorang dapat dengan mudah mengonversi berbagai format termasuk.

    TXT (File Dokumen Teks)
    Text (File Dokumen Teks)
    DOC (Dokumen yang dihasilkan oleh Microsoft Word)
    DOCX (dokumen Microsoft Word)
    XLS (Format File Biner Microsoft Excel)
    XLSX (dokumen Microsoft Excel)
    PDF (Format Dokumen Portabel (PDF))
    Searchable PDF (Grafik Jaringan Portabel yang Dapat Dicari)
    XML (Bahasa Markup yang Dapat Diperluas)
    JSON (Notasi Objek JavaScript)