ดึงข้อมูลจากรูปแบบ PDF ผ่าน Python

แยกฟิลด์ข้อมูลผู้ใช้จากเอกสาร PDF ที่กรอกได้ใช้ Aspose.PDF สำหรับ Python for .NET เพื่อแก้ไขไฟล์ PDF แบบโปรแกรม

วิธีการดึงข้อมูลจากรูปแบบ PDF โดยใช้ห้องสมุด Python for .NET

เพื่อที่จะดึงข้อมูลจากรูปแบบ PDF (Acroforms) ในไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้งานการจัดการเอกสาร API สำหรับแพลตฟอร์ม python-netคุณสามารถดาวน์โหลดรุ่นล่าสุดได้โดยตรงจาก NuGet ผู้จัดการแพคเกจ, ค้นหาaspose.pdf และติดตั้ง.นอกจากนี้คุณยังอาจใช้คำสั่งต่อไปนี้จากคอนโซลการจัดการแพคเกจ

วิธีการสกัด AcroForm ในรูปแบบ PDF โดยใช้ Python


คุณต้องใช้ Aspose.PDF for .NET เพื่อลองใช้โค้ดในสภาพแวดล้อมของคุณ

  1. โหลด PDF ในอินสแตนซ์ของคลาสเอกสาร
  2. รับค่าจากทุกช่องโดยใช้คลาส ‘Document.Form’
  3. วิเคราะห์ชื่อและค่าหากจําเป็น
  4. โหลด PDF ในอินสแตนซ์ของคลาสเอกสาร
  5. รับค่าจากทุกช่องโดยใช้คลาส ‘Document.Form’

ดึงข้อมูลจากรูปแบบ PDF - Python

ตัวอย่างโค้ดนี้จะแสดงวิธีการดึงข้อมูลจากรูปแบบ PDF ในรูปแบบ PDF โดยใช้ Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
form = apdf.facades.Form(path_infile)

form_values = {}

for formField in form.field_names:
    form_values[formField] = form.get_field(formField)

print(form_values)