ดึงข้อความจาก PDF ใน Python

วิธีการดึงข้อความจาก PDF โดยใช้ห้องสมุด Python for .NET

วิธีการดึงข้อความจาก PDF โดยใช้ห้องสมุด Python for .NET

คุณจำเป็นต้องดึงข้อความจาก PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยกับห้องสมุดหลามเช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องพึ่งพาซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนามืออาชีพหลาม.

  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงข้อความจากไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API การจัดการเอกสาร {{}} แพลตฟอร์มเปิดตัวจัดการแพคเกจ NuGet ค้นหาaspose.pdf และติดตั้งนอกจากนี้คุณยังอาจใช้คำสั่งต่อไปนี้จากคอนโซลการจัดการแพคเกจ

Python Package Manager Console

pip install aspose-pdf

ดึงข้อความจาก PDF ใน Python


ที่จะลองรหัสในสภาพแวดล้อมของคุณคุณต้อง Aspose.PDF forหลาม

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextTabSorber เพื่อดึงข้อความ 1.ยอมรับโช้คสำหรับทุกหน้า 1.ได้รับข้อความที่สกัด 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดของข้อความไปยังแฟ้ม

ดึงข้อความจาก PDF - Python

ตัวอย่างโค้ดนี้จะแสดงวิธีการดึงข้อความจากเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:

import aspose.pdf as ap 
# Open document
dataDir = "..."
document = ap.Document(dataDir + "sample.pdf")

# Create TextAbsorber object to extract text
textAbsorber = ap.text.TextAbsorber()
# Accept the absorber for all the pages
document.pages.accept(textAbsorber)
# Get the extracted text
extractedText = textAbsorber.text

with open('sample.txt', 'w') as f:
    f.write(extractedText)

เกี่ยวกับ Aspose.PDF สำหรับ Python for .NET API

Aspose.PDF สำหรับ Python ผ่าน.NET API รองรับมาตรฐาน PDF และข้อมูลจำเพาะ PDF ที่กำหนดไว้มากที่สุดช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพไฮเปอร์ลิงก์แบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัดเอกสาร PDFAspose.PDF สำหรับ Python ผ่าน .NET มีคุณสมบัติความปลอดภัยที่ยอดเยี่ยมในการพัฒนาเอกสาร PDF ที่ปลอดภัยคุณสมบัติที่สำคัญบางอย่างของ Aspose.PDF สำหรับ Python ผ่าน.NET API ได้แก่:

  • ความสามารถในการอ่านและส่งออก PDF ในรูปแบบภาพหลายรูปแบบ รวมถึง BMP, GIF, JPEG และ PNG
  • ตั้งค่าข้อมูลพื้นฐาน (เช่นผู้เขียนผู้สร้าง) ของเอกสาร PDF
  • คุณสมบัติการแปลง: แปลง PDF เป็น Word, Excel และ PowerPointแปลง PDF เป็นรูปแบบภาพแปลงไฟล์ PDF เป็นรูปแบบ HTML และในทางกลับกันแปลง PDF เป็น EPUB, ข้อความ, XPS ฯลฯ

ในการใช้ API คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Python ผ่าน.NET API ใน [เอกสาร] ของเรา (https://docs.aspose.com/pdf/python-net/overview/)