สารสกัดจาก PDF ใน C#

วิธีการดึงข้อความและภาพจาก PDF โดยใช้ห้องสมุด .NET

การดำเนินการยอดนิยมกับ Parser

วิธีการแยกไฟล์ PDF ที่มี .NET ไลบรารี

คุณจำเป็นต้องแยกไฟล์ PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยด้วยห้องสมุด .NET เช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDF หรือดึงภาพจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องใช้ซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนา C# มืออาชีพ

  • ดึงข้อมูล PDF: ข้อความ, ภาพ, รูปแบบ, ฟิลด์, ฯลฯ
  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API การจัดการเอกสาร {{}} แพลตฟอร์มเปิดตัวจัดการแพคเกจ NuGet ค้นหาaspose.pdf และติดตั้งนอกจากนี้คุณยังอาจใช้คำสั่งต่อไปนี้จากคอนโซลการจัดการแพคเกจ

Package Manager Console

PM > Install-Package Aspose.PDF

แยกวิเคราะห์ไฟล์ PDF ผ่าน C#


ที่จะลองรหัสในสภาพแวดล้อมของคุณคุณต้อง Aspose.PDF for .NET

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextTabSorber เพื่อดึงข้อความ 1.ยอมรับโช้คสำหรับทุกหน้า 1.ได้รับข้อความที่สกัด 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดของข้อความไปยังแฟ้ม

สารสกัดจากไฟล์ PDF - C#

ตัวอย่างโค้ดนี้จะแสดงวิธีการแยกเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

เกี่ยวกับ Aspose.PDF สำหรับ .NET API

Aspose.PDF สำหรับ C# API ให้ความหลากหลายของคุณสมบัติสำหรับการทำงานกับไฟล์ PDFคุณสมบัติบางอย่างรวมถึง:

  • สร้างเอกสาร PDF ตั้งแต่เริ่มต้นหรือจาก HTML, XML หรือรูปภาพ
  • แก้ไขเอกสาร PDF ที่มีอยู่โดยการเพิ่มหรือลบหน้า ข้อความ รูปภาพ และเนื้อหาอื่น ๆ
  • แปลงเอกสาร PDF เป็นรูปแบบอื่น ๆ เช่น HTML, XML, และภาพ
  • แสดงเอกสาร PDF เป็นรูปภาพหรือรูปแบบ XPS
  • พิมพ์เอกสาร PDF ได้โดยตรงจากใบสมัครของคุณ
  • ลงนามแบบดิจิทัลในเอกสาร PDF

คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ C# API ในนี้ กำหนดเอกสาร