สารสกัดจากข้อมูลเมตาของ PDF ผ่าน Python

แยกข้อมูลเมตาจากเอกสาร PDFใช้ Aspose.PDF สำหรับ Python for .NET เพื่อแก้ไขไฟล์ PDF แบบโปรแกรม

วิธีการแยกข้อมูลเมตาดาต้า PDF โดยใช้ Python for .NET ห้องสมุด

แยกข้อมูลเมตาจาก PDF โดยใช้ Aspose.PDF สำหรับ Pythonการเข้าถึงข้อมูลเมตาของเอกสารหมายถึงการรับข้อมูลเกี่ยวกับไฟล์นั้น เช่น ชื่อเรื่อง ผู้เขียน เมื่อสร้างขึ้น และคำหลักที่เฉพาะเจาะจงแยกข้อมูลเมตาช่วยจัดระเบียบคอลเลกชัน PDF ขนาดใหญ่ได้อย่างมีประสิทธิภาพมากขึ้นข้อมูลที่ดึงออกมาจากข้อมูลเมตาจะช่วยปรับปรุงวิธีค้นหาไฟล์ได้ผู้ใช้สามารถค้นหาเอกสารเฉพาะได้อย่างรวดเร็วโดยใช้คำหลักหรือรายละเอียดที่พบในข้อมูลเมตาที่แยกออกมาการแยกข้อมูลเมตาให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับสิ่งที่ไฟล์มีอยู่อาจให้สรุปโดยย่อของรายละเอียดที่สำคัญเกี่ยวกับไฟล์ ทำให้เข้าใจว่าเอกสารเกี่ยวกับอะไรได้ง่ายขึ้นโดยไม่ต้องเปิดการแยกข้อมูลเมตาจะช่วยให้แน่ใจว่าเอกสารนั้นเป็นของแท้คุณสามารถตรวจสอบรายละเอียด เช่น ชื่อของผู้เขียนเมื่อสร้างขึ้นหรือประวัติการดัดแปลงการตรวจสอบนี้มีความสำคัญต่อการยืนยันความน่าเชื่อถือ PDFด้วยการนำเสนอรายละเอียดที่กระชับเกี่ยวกับเนื้อหาของ PDF ข้อมูลเมตาที่แยกออกมาจะทำให้ประสบการณ์ของผู้ใช้ดีขึ้นมากช่วยให้ผู้ใช้ระบุและทำงานกับเอกสารได้อย่างง่ายดายโดยรวมแล้ว การแยกข้อมูลเมตาของ PDF ให้ข้อดีหลายประการ เช่น การจัดการเอกสารที่มีประสิทธิภาพมากขึ้น ตัวเลือกการค้นหาที่ดีขึ้น การปฏิบัติตามมาตรฐาน และประสบการณ์ผู้ใช้ที่ได้รับการปรับปรุงโดยรวมแยกข้อมูลเมตาจาก PDF ผ่าน Aspose และแก้ไขงานที่จำเป็นทั้งหมดในการทำงานกับข้อมูลในการแยกข้อมูลเมตาจากไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็น API จัดการเอกสารที่อุดมไปด้วยคุณสมบัติ ทรงพลัง และใช้งานง่ายสำหรับ .NETเปิดตัวจัดการแพคเกจ NuGet ค้นหาAspose.pdf และติดตั้งคุณอาจใช้คำสั่งต่อไปนี้จากคอนโซลตัวจัดการแพคเกจ

Python Package Manager Console

pip install aspose-pdf

สารสกัดจากข้อมูลเมตาของ PDF ผ่าน Python


ที่จะลองรหัสในสภาพแวดล้อมของคุณคุณต้อง Aspose.PDF for .NET

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.รับ DocumentInfo ใช้คุณสมบัติ Document.Info 1.การเข้าถึงและแสดงคุณสมบัติ Document.Info ที่แตกต่างกัน

ส่วนประกอบรหัส Python ที่ให้มาแสดงวิธีการแยกข้อมูลเมตาจาก PDF โดยไลบรารี Aspose.PDFมันเปิดไฟล์ PDF ชื่อ ‘GetFileInfo.pdf’ ซึ่งอยู่ในไดเรกทอรีที่ระบุโดยตัวแปร ‘DIR_INPUT_METADATA’รหัสจะดึงรายละเอียดต่างๆจากเอกสารโดยใช้ฟังก์ชัน ‘ข้อมูล’จะแสดงข้อมูลเมตาที่เฉพาะเจาะจงจาก PDF เช่นชื่อผู้เขียนวันที่สร้างคำหลักวันที่แก้ไขหัวเรื่องและชื่อเรื่องรหัสใช้ฟังก์ชัน ‘พิมพ์’ เพื่อแสดงข้อมูลนี้ส่วนประกอบโค้ดนี้เป็นตัวอย่างที่เรียบง่ายของวิธีที่คุณอาจใช้ไลบรารีหรือเฟรมเวิร์ก Aspose.PDF เพื่อแยกข้อมูลเมตาจากไฟล์ PDF

แยกข้อมูลเมตาของ PDF - Python

รหัสตัวอย่างนี้แสดงวิธีแยกข้อมูลเมตาดาต้าของไฟล์ PDF

Input file:

File not added

Output format:

Output file:

    import aspose.pdf as ap 

    # Open document
    pdf_document = ap.Document(DIR_INPUT_METADATA + "GetFileInfo.pdf")
    # Get document information
    doc_info = pdf_document.info
    # Show document information
    print("Author :", doc_info.author)
    print("Creation Date :", doc_info.creation_date)
    print("Keywords :", doc_info.keywords)
    print("Modify Date :", doc_info.mod_date)
    print("Subject :", doc_info.subject)
    print("Title :", doc_info.title)