Ekstrak PDF di C#

Cara Mengekstrak teks dan gambar dari PDF Menggunakan .NET Library

Aksi paling populer dengan Parser

Cara Mengekstrak PDF dengan .NET Library

Apakah Anda perlu mengekstrak PDF? Modifikasi terprogram dokumen PDF merupakan bagian penting dari alur kerja digital modern. Dengan pustaka .NET seperti Aspose.PDF, pengembang dapat mengekstrak teks dari PDF atau mengekstrak gambar dari PDF. Pustaka ini adalah solusi yang berdiri sendiri yang tidak bergantung pada perangkat lunak lain dan siap untuk penggunaan komersial. Mereka mencakup semua kemungkinan kebutuhan pengembang C# profesional.

  • Ekstrak data PDF: teks, gambar, formulir, bidang, dll.
  • Ekstrak teks dari PDF
  • Ekstrak Gambar dari PDF
  • Ekstrak Font dari PDF
  • Ekstrak Data dari Formulir
  • Ekstrak Teks Dari Perangko
  • Ekstrak Data dari Tabel

Untuk mengekstrak file PDF, kita akan menggunakan Aspose.PDF for .NET API yang merupakan API manipulasi dokumen yang kaya fitur, kuat, dan mudah digunakan untuk platform net. Buka manajer paket NuGet, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Package Manager Console.

Package Manager Console

PM > Install-Package Aspose.PDF

Mengurai PDF melalui C#


Untuk mencoba kode di lingkungan Anda, Anda perlu Aspose.PDF for .NET.

  1. Muat PDF dengan instance Document.
  2. Buat objek TexTabSorber untuk mengekstrak teks.
  3. Terima absorber untuk semua halaman.
  4. Dapatkan teks yang diekstraksi
  5. Buat penulis dan buka file, tulis baris teks ke file

Ekstrak File PDF - C#

Kode contoh ini menunjukkan cara mengekstrak dokumen PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

Tentang Aspose.PDF untuk .NET API

Aspose.PDF untuk C# API menyediakan berbagai fitur untuk bekerja dengan file PDF. Beberapa fitur meliputi:

  • Buat dokumen PDF dari awal atau dari HTML, XHTML, atau gambar.
  • Edit dokumen PDF yang ada dengan menambahkan atau menghapus halaman, teks, gambar, dan konten lainnya.
  • Konversi dokumen PDF ke format lain seperti HTML, XHTML, dan gambar.
  • Render dokumen PDF ke gambar atau format XPS.
  • Cetak dokumen PDF langsung dari aplikasi Anda.
  • Tanda tangani dokumen PDF secara digital.

Anda dapat menemukan informasi lebih lanjut tentang Aspose.PDF untuk C# API di [dokumentasi Aspose] ini (https://docs.aspose.com/pdf/net/)