Ekstrak teks dari PDF di C#

Cara Mengekstrak teks dari PDF menggunakan .NET Library

Cara mengekstrak teks dari PDF menggunakan .NET Library

Apakah Anda perlu mengekstrak teks dari PDF? Modifikasi terprogram dokumen PDF adalah bagian penting dari alur kerja digital modern. Dengan pustaka .NET seperti Aspose.PDF, pengembang dapat mengekstrak teks dari PDF. Pustaka ini adalah solusi yang berdiri sendiri yang tidak bergantung pada perangkat lunak lain dan siap untuk penggunaan komersial. Mereka mencakup semua kemungkinan kebutuhan pengembang C# profesional.

  • Ekstrak teks dari PDF
  • Ekstrak Gambar dari PDF
  • Ekstrak Font dari PDF
  • Ekstrak Data dari Formulir
  • Ekstrak Teks Dari Perangko
  • Ekstrak Data dari Tabel

Untuk mengekstrak teks dari file PDF, kita akan menggunakan Aspose.PDF for .NET API yang kaya fitur, kuat dan mudah digunakan manipulasi dokumen untuk platform net. Buka manajer paket NuGet, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Package Manager Console.

Package Manager Console

PM > Install-Package Aspose.PDF

Ekstrak teks dari PDF di C#


Untuk mencoba kode di lingkungan Anda, Anda memerlukan Aspose.PDF untuk.NET.

  1. Muat PDF dengan instance Dokumen.
  2. Buat objek TextBsorber untuk mengekstrak teks.
  3. Terima absorber untuk semua halaman.
  4. Dapatkan teks yang diekstraksi
  5. Buat penulis dan buka file, tulis baris teks ke file

Ekstrak teks dari PDF - C#

Kode contoh ini menunjukkan cara mengekstrak teks dari dokumen PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

Tentang Aspose.PDF untuk .NET API

Aspose.PDF untuk .NET API menyediakan berbagai fitur untuk bekerja dengan file PDF. Beberapa fitur meliputi:

  • Buat dokumen PDF dari awal atau dari HTML, XML, atau gambar.
  • Edit dokumen PDF yang ada dengan menambahkan atau menghapus halaman, teks, gambar, dan konten lainnya.
  • Konversi dokumen PDF ke format lain seperti HTML, XML, dan gambar.
  • Render dokumen PDF ke gambar atau format XPS.
  • Cetak dokumen PDF langsung dari aplikasi Anda.
  • Tanda tangani dokumen PDF secara digital.

Anda dapat menemukan informasi lebih lanjut tentang Aspose.PDF untuk C# API di [Dokumentasi Aspose] ini (https://docs.aspose.com/pdf/net/)