ผสาน PDF ไปยัง TEXT ผ่านทาง Python

ผสาน PDF เอกสารในรูปแบบเดียว TEXT บน .NET โดยใช้งูหลามโปรแกรมเมอร์สามารถใช้รหัสตัวอย่างนี้จะรวม PDF บนกรอบ .NET, .NET หลักและ PHP, VBScript, Delphi, C++ ผ่าน COM Interop

ผสาน PDF ไปยัง TEXT โดยใช้ Python

ด้วยไลบรารี Aspose.PDF for .NET คุณสามารถผสาน PDF ไปยัง TEXT โดยทางโปรแกรมซอฟต์แวร์ PDF จาก Aspose เหมาะสำหรับบุคคลธุรกิจขนาดเล็กหรือขนาดใหญ่เนื่องจากสามารถประมวลผลข้อมูลจำนวนมากได้ จึงทำการเรียงต่อกันอย่างรวดเร็วและมีประสิทธิภาพและปกป้องข้อมูลของคุณคุณลักษณะเฉพาะจาก Aspose.PDF เป็น API สำหรับการผสาน PDF เพื่อ TEXTลักษณะเฉพาะของวิธีนี้คือคุณจะต้องเปิดตัวจัดการแพคเกจ NuGet ค้นหา ‘aspose.pdf for .NET’ และติดตั้งโดยไม่มีการตั้งค่าที่ซับซ้อนเป็นพิเศษ(ใช้คำสั่งจากคอนโซลการจัดการแพคเกจสำหรับการติดตั้ง)เมื่อต้องการตรวจสอบประโยชน์ของไลบรารี ให้ลองใช้ข้อมูลโค้ดเรียงต่อกัน PDF ไปยัง TEXT

Python Package Manager Console

pip install aspose-pdf

วิธีการผสาน PDF ไปยัง TEXT ผ่านทาง Python


Python for .NET นักพัฒนาสามารถโหลดและผสานไฟล์ PDF ไปยัง TEXT ในเพียงไม่กี่บรรทัดของโค้ด

  1. อ่านไฟล์ PDF สองไฟล์
  2. การสร้างตัวดูดซับข้อความ
  3. การแยกข้อความจาก PDF โดยใช้ TextAbsorber กับไฟล์ PDF ทั้งสอง
  4. การจัดเก็บข้อความที่แยกออกมา
  5. การเขียนข้อความที่แยกออกไปยังไฟล์

นี่คือตัวอย่างที่แสดงให้เห็นถึงวิธีการผสาน PDF กับ TEXT ใน Pythonรวมเอกสารหลายฉบับเป็นไฟล์เดียวได้อย่างง่ายดายหากคุณกำลังพัฒนาโค้ดใน Python งานนี้อาจง่ายกว่าที่ฟังคุณสามารถใช้ชื่อไฟล์ที่มีคุณสมบัติครบถ้วนสำหรับการอ่าน PDF และการเขียน TEXTดูตัวอย่าง Python นี้ที่แสดงวิธีรวมเอกสารหลายประเภทของไฟล์เดียวกันหรือไฟล์ที่แตกต่างกันเป็นไฟล์เดียวกันโดยใช้ Python

ผสานไฟล์ PDF โดยใช้ Python for .NET และบันทึกเป็น TEXT

ตัวอย่าง Python: ตัวอย่างรหัสนี้แสดง PDF ถึง TEXT เรียงต่อกัน

Input file:

File not added

File not added

Output format:

TEXT

Output file:


# read PDF files to Aspose Document
first_doc = aspose.pdf.Document("1.pdf")
second_doc = aspose.pdf.Document("2.pdf")

# create text absorber for extract text
text_absorber = aspose.pdf.text.TextAbsorber()
first_doc.Accept(text_absorber)
second_doc.Accept(text_absorber)
extracted_text = text_absorber.Text
with open("Merger_pdf_text.txt", "w") as f:
    f.write(extracted_text)

Python for .NET ห้องสมุดที่จะรวม PDF เข้ากับ TEXT

Aspose.PDF สำหรับ Python ผ่าน.NET API รองรับมาตรฐาน PDF และข้อมูลจำเพาะ PDF ที่กำหนดไว้มากที่สุดช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพไฮเปอร์ลิงก์แบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัดเอกสาร PDFAspose.PDF สำหรับ Python ผ่าน .NET มีคุณสมบัติความปลอดภัยที่ยอดเยี่ยมในการพัฒนาเอกสาร PDF ที่ปลอดภัยคุณสมบัติที่สำคัญบางอย่างของ Aspose.PDF สำหรับ Python ผ่าน.NET API ได้แก่:

  • ความสามารถในการอ่านและส่งออก PDF ในรูปแบบภาพหลายรูปแบบ รวมถึง BMP, GIF, JPEG และ PNG
  • ตั้งค่าข้อมูลพื้นฐาน (เช่นผู้เขียนผู้สร้าง) ของเอกสาร PDF
  • คุณสมบัติการแปลง: แปลง PDF เป็น Word, Excel และ PowerPointแปลง PDF เป็นรูปแบบภาพแปลงไฟล์ PDF เป็นรูปแบบ HTML และในทางกลับกันแปลง PDF เป็น EPUB, ข้อความ, XPS ฯลฯ

คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Python ผ่าน.NET API ใน [เอกสาร] ของเรา (https://docs.aspose.com/pdf/python-net/overview/) เกี่ยวกับวิธีใช้ API