แยกไฟล์ PDF ผ่าน Python

วิธีการดึงข้อความและภาพจาก PDF โดยใช้ห้องสมุด Python for .NET

การดำเนินการยอดนิยมกับ Parser

วิธีแยกวิเคราะห์ PDF ด้วยไลบรารี Python for .NET

คุณจำเป็นต้องแยกไฟล์ PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยกับห้องสมุดหลามเช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDF หรือดึงภาพจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องใช้ซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนามืออาชีพหลาม.

  • ดึงข้อมูล PDF: ข้อความ, ภาพ, รูปแบบ, ฟิลด์, ฯลฯ
  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API การจัดการเอกสาร {{}} แพลตฟอร์มเปิดตัวจัดการแพคเกจ NuGet ค้นหาaspose.pdf และติดตั้งนอกจากนี้คุณยังอาจใช้คำสั่งต่อไปนี้จากคอนโซลการจัดการแพคเกจ

Python Package Manager Console

pip install aspose-pdf

แยกวิเคราะห์ไฟล์ PDF ผ่าน Python


ที่จะลองรหัสในสภาพแวดล้อมของคุณคุณต้อง Aspose.PDF forหลาม

1.โหลด PDF ด้วยอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextAbsorber เพื่อแยกข้อความ 1.ยอมรับตัวดูดซับสำหรับทุกหน้า 1.รับข้อความที่แยกออกมา 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดข้อความลงในไฟล์

สารสกัดจากไฟล์ PDF - Python

ตัวอย่างโค้ดนี้จะแสดงวิธีการแยกเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:

import aspose.pdf as ap 
# Open document
dataDir = "..."
document = ap.Document(dataDir + "sample.pdf")

# Create TextAbsorber object to extract text
textAbsorber = ap.text.TextAbsorber()
# Accept the absorber for all the pages
document.pages.accept(textAbsorber)
# Get the extracted text
extractedText = textAbsorber.text

with open('sample.txt', 'w') as f:
    f.write(extractedText)

เกี่ยวกับ Aspose.PDF สำหรับ Python for .NET API

Aspose.PDF สำหรับ Python ผ่าน.NET API รองรับมาตรฐาน PDF และข้อมูลจำเพาะ PDF ที่กำหนดไว้มากที่สุดช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพไฮเปอร์ลิงก์แบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัดเอกสาร PDFAspose.PDF สำหรับ Python ผ่าน .NET มีคุณสมบัติความปลอดภัยที่ยอดเยี่ยมในการพัฒนาเอกสาร PDF ที่ปลอดภัยคุณสมบัติที่สำคัญบางอย่างของ Aspose.PDF สำหรับ Python ผ่าน.NET API ได้แก่:

  • ความสามารถในการอ่านและส่งออก PDF ในรูปแบบภาพหลายรูปแบบ รวมถึง BMP, GIF, JPEG และ PNG
  • ตั้งค่าข้อมูลพื้นฐาน (เช่นผู้เขียนผู้สร้าง) ของเอกสาร PDF
  • คุณสมบัติการแปลง: แปลง PDF เป็น Word, Excel และ PowerPointแปลง PDF เป็นรูปแบบภาพแปลงไฟล์ PDF เป็นรูปแบบ HTML และในทางกลับกันแปลง PDF เป็น EPUB, ข้อความ, XPS ฯลฯ

ในการใช้ API คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Python ผ่าน.NET API ใน [เอกสาร] ของเรา (https://docs.aspose.com/pdf/python-net/overview/)