สารสกัดจากข้อมูลเมตาของ PDF ผ่าน Python

แยกข้อมูลเมตาจากเอกสาร PDFใช้ Aspose.PDF สำหรับ Python for .NET เพื่อแก้ไขไฟล์ PDF แบบโปรแกรม

C# Java C++ Python

วิธีการแยกข้อมูลเมตาดาต้า PDF โดยใช้ Python ห้องสมุด

แยกข้อมูลเมตาจาก PDF โดยใช้ Aspose.PDF สำหรับ Pythonการเข้าถึงข้อมูลเมตาของเอกสารหมายถึงการรับข้อมูลเกี่ยวกับไฟล์นั้น เช่น ชื่อเรื่อง ผู้เขียน เมื่อสร้างขึ้น และคำหลักที่เฉพาะเจาะจงแยกข้อมูลเมตาช่วยจัดระเบียบคอลเลกชัน PDF ขนาดใหญ่ได้อย่างมีประสิทธิภาพมากขึ้นข้อมูลที่ดึงออกมาจากข้อมูลเมตาจะช่วยปรับปรุงวิธีค้นหาไฟล์ได้ผู้ใช้สามารถค้นหาเอกสารเฉพาะได้อย่างรวดเร็วโดยใช้คำหลักหรือรายละเอียดที่พบในข้อมูลเมตาที่แยกออกมาการแยกข้อมูลเมตาให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับสิ่งที่ไฟล์มีอยู่อาจให้สรุปโดยย่อของรายละเอียดที่สำคัญเกี่ยวกับไฟล์ ทำให้เข้าใจว่าเอกสารเกี่ยวกับอะไรได้ง่ายขึ้นโดยไม่ต้องเปิดการแยกข้อมูลเมตาจะช่วยให้แน่ใจว่าเอกสารนั้นเป็นของแท้คุณสามารถตรวจสอบรายละเอียด เช่น ชื่อของผู้เขียนเมื่อสร้างขึ้นหรือประวัติการดัดแปลงการตรวจสอบนี้มีความสำคัญต่อการยืนยันความน่าเชื่อถือ PDFด้วยการนำเสนอรายละเอียดที่กระชับเกี่ยวกับเนื้อหาของ PDF ข้อมูลเมตาที่แยกออกมาจะทำให้ประสบการณ์ของผู้ใช้ดีขึ้นมากช่วยให้ผู้ใช้ระบุและทำงานกับเอกสารได้อย่างง่ายดายโดยรวมแล้ว การแยกข้อมูลเมตาของ PDF ให้ข้อดีหลายประการ เช่น การจัดการเอกสารที่มีประสิทธิภาพมากขึ้น ตัวเลือกการค้นหาที่ดีขึ้น การปฏิบัติตามมาตรฐาน และประสบการณ์ผู้ใช้ที่ได้รับการปรับปรุงโดยรวมแยกข้อมูลเมตาจาก PDF ผ่าน Aspose และแก้ไขงานที่จำเป็นทั้งหมดในการทำงานกับข้อมูลในการแยกข้อมูลเมตาจากไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็น API จัดการเอกสารที่อุดมไปด้วยคุณสมบัติ ทรงพลัง และใช้งานง่ายสำหรับ .NETเปิดตัวจัดการแพคเกจ NuGet ค้นหาAspose.PDF และติดตั้งคุณอาจใช้คำสั่งต่อไปนี้จากคอนโซลตัวจัดการแพคเกจ

Console

pip install aspose-pdf

สารสกัดจากข้อมูลเมตาของ PDF ผ่าน Python

ที่จะลองรหัสในสภาพแวดล้อมของคุณคุณต้อง Aspose.PDF for .NET

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.รับ DocumentInfo ใช้คุณสมบัติ Document.Info 1.การเข้าถึงและแสดงคุณสมบัติ Document.Info ที่แตกต่างกัน

ส่วนประกอบรหัส Python ที่ให้มาแสดงวิธีการแยกข้อมูลเมตาจาก PDF โดยไลบรารี Aspose.PDFมันเปิดไฟล์ PDF ชื่อ ‘GetFileInfo.pdf’ ซึ่งอยู่ในไดเรกทอรีที่ระบุโดยตัวแปร ‘DIR_INPUT_METADATA’รหัสจะดึงรายละเอียดต่างๆจากเอกสารโดยใช้ฟังก์ชัน ‘ข้อมูล’จะแสดงข้อมูลเมตาที่เฉพาะเจาะจงจาก PDF เช่นชื่อผู้เขียนวันที่สร้างคำหลักวันที่แก้ไขหัวเรื่องและชื่อเรื่องรหัสใช้ฟังก์ชัน ‘พิมพ์’ เพื่อแสดงข้อมูลนี้ส่วนประกอบโค้ดนี้เป็นตัวอย่างที่เรียบง่ายของวิธีที่คุณอาจใช้ไลบรารีหรือเฟรมเวิร์ก Aspose.PDF เพื่อแยกข้อมูลเมตาจากไฟล์ PDF

แยกข้อมูลเมตาของ PDF - Python

รหัสตัวอย่างนี้แสดงวิธีแยกข้อมูลเมตาดาต้าของไฟล์ PDF

Input file:

Upload a file

File not added

Output format:

Output file:

import aspose.pdf as apdf

from os import path

input_file = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(input_file)

# Get document information
doc_info = document.info
# Show document information
print("Author :", doc_info.author)
print("Creation Date :", doc_info.creation_date)
print("Keywords :", doc_info.keywords)
print("Modify Date :", doc_info.mod_date)
print("Subject :", doc_info.subject)
print("Title :", doc_info.title)