ดึงข้อความจาก PDF ใน Python

วิธีแยกข้อความจาก PDF โดยใช้ Python

C# Java C++ Python

วิธีแยกข้อความจาก PDF โดยใช้ Aspose.PDF สำหรับ Python for .NET

คุณจำเป็นต้องดึงข้อความจาก PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยกับห้องสมุดหลามเช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องพึ่งพาซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนามืออาชีพหลาม.

ดึงข้อความจาก PDF
ดึงภาพจาก PDF
สารสกัดจากแบบอักษรจาก PDF
ดึงข้อมูลจากแบบฟอร์ม
ดึงข้อความจากแสตมป์
ดึงข้อมูลจากตาราง

เพื่อที่จะดึงข้อความจากไฟล์ PDF เราจะใช้ Aspose.PDF for .NET API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API การจัดการเอกสาร python-net แพลตฟอร์มเปิดตัวจัดการแพคเกจ NuGet ค้นหาaspose.pdf และติดตั้งนอกจากนี้คุณยังอาจใช้คำสั่งต่อไปนี้จากคอนโซลการจัดการแพคเกจ

Console

pip install aspose-pdf

ดึงข้อความจาก PDF ใน Python

ที่จะลองรหัสในสภาพแวดล้อมของคุณคุณต้อง Aspose.PDF forหลาม

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextTabSorber เพื่อดึงข้อความ 1.ยอมรับโช้คสำหรับทุกหน้า 1.ได้รับข้อความที่สกัด 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดของข้อความไปยังแฟ้ม

แยกข้อความจาก PDF ด้วย Python

ตัวอย่างโค้ดนี้จะแสดงวิธีการดึงข้อความจากเอกสาร PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf
from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

เกี่ยวกับ Aspose.PDF for Python for .NET API

Aspose.PDF สำหรับ Python ผ่าน.NET API รองรับมาตรฐาน PDF และข้อมูลจำเพาะ PDF ที่กำหนดไว้มากที่สุดช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพไฮเปอร์ลิงก์แบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัดเอกสาร PDFAspose.PDF สำหรับ Python ผ่าน .NET มีคุณสมบัติความปลอดภัยที่ยอดเยี่ยมในการพัฒนาเอกสาร PDF ที่ปลอดภัยคุณสมบัติที่สำคัญบางอย่างของ Aspose.PDF สำหรับ Python ผ่าน.NET API ได้แก่:

ความสามารถในการอ่านและส่งออก PDF ในรูปแบบภาพหลายรูปแบบ รวมถึง BMP, GIF, JPEG และ PNG
ตั้งค่าข้อมูลพื้นฐาน (เช่นผู้เขียนผู้สร้าง) ของเอกสาร PDF
คุณสมบัติการแปลง: แปลง PDF เป็น Word, Excel และ PowerPointแปลง PDF เป็นรูปแบบภาพแปลงไฟล์ PDF เป็นรูปแบบ HTML และในทางกลับกันแปลง PDF เป็น EPUB, ข้อความ, XPS ฯลฯ

ในการใช้ API คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Python ผ่าน.NET API ใน ของเรา เอกสาร