สารสกัดจาก PDF ใน Python

วิธีการดึงข้อความและภาพจาก PDF โดยใช้ห้องสมุด Python for .NET

การดำเนินการยอดนิยมกับ Parser

วิธีการแยกไฟล์ PDF ที่มี Python for .NET ไลบรารี

คุณจำเป็นต้องแยกไฟล์ PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยกับห้องสมุดหลามเช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDF หรือดึงภาพจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องใช้ซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนามืออาชีพหลาม.

  • ดึงข้อมูล PDF: ข้อความ, ภาพ, รูปแบบ, ฟิลด์, ฯลฯ
  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API การจัดการเอกสาร {{}} แพลตฟอร์มเปิดตัวจัดการแพคเกจ NuGet ค้นหาaspose.pdf และติดตั้งนอกจากนี้คุณยังอาจใช้คำสั่งต่อไปนี้จากคอนโซลการจัดการแพคเกจ

Python Package Manager Console

pip install aspose-pdf

แยกวิเคราะห์ไฟล์ PDF ผ่าน Python


ที่จะลองรหัสในสภาพแวดล้อมของคุณคุณต้อง Aspose.PDF forหลาม

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextTabSorber เพื่อดึงข้อความ 1.ยอมรับโช้คสำหรับทุกหน้า 1.ได้รับข้อความที่สกัด 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดของข้อความไปยังแฟ้ม

สารสกัดจากไฟล์ PDF - Python

ตัวอย่างโค้ดนี้จะแสดงวิธีการแยกเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

เกี่ยวกับ Aspose.PDF สำหรับ Python for .NET API

Aspose.PDF สำหรับหลามผ่าน .NET API สนับสนุนมาตรฐานรูปแบบไฟล์ PDF ที่จัดตั้งขึ้นมากที่สุดและข้อมูลจำเพาะ PDFช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพเชื่อมโยงหลายมิติแบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังสามารถบีบอัดเอกสาร PDFAspose.PDF สำหรับงูหลามผ่าน .NET มีคุณสมบัติด้านความปลอดภัยที่ดีเยี่ยมในการพัฒนาเอกสาร PDF ที่ปลอดภัยบางส่วนของคุณสมบัติที่สำคัญของ Aspose.PDF สำหรับหลามผ่าน .NET API รวมถึง:

  • ความสามารถในการอ่านและส่งออก PDF ในรูปแบบภาพหลายรูปแบบ ได้แก่ BMP, GIF, JPEG & PNG
  • ตั้งค่าข้อมูลพื้นฐาน (เช่นผู้เขียน, ผู้สร้าง) ของเอกสาร PDF
  • คุณสมบัติการแปลง: แปลงไฟล์ PDF เป็น Word, Excel และ PowerPointแปลงไฟล์ PDF เป็นรูปแบบรูปภาพแปลงไฟล์ PDF เป็นรูปแบบ HTML และในทางกลับกันแปลงไฟล์ PDF เป็น EPUB, ข้อความ, XPS, ฯลฯ

คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับหลามผ่าน .NET API ของเรา เอกสาร เกี่ยวกับวิธีการใช้ API