แยกไฟล์ PDF ออนไลน์ รวมถึงแยกข้อความหรือรูปภาพผ่าน Python
พัฒนาแอพพลิเคชั่นยูทิลิตี้แยกวิเคราะห์เอกสาร PDF ที่ใช้ Python ที่ทรงพลังรหัสที่แสดงสำหรับรูปภาพเอกสาร PDF และการแยกข้อความผ่าน Python
แยกวิเคราะห์เอกสาร PDF ผ่านแอปออนไลน์
- นำเข้าไฟล์ PDF เพื่อแยกวิเคราะห์โดยการอัปโหลด
- ทำได้โดยการคลิกภายในพื้นที่วางผ่านการลากและวางของแอปแยกวิเคราะห์
- ขึ้นอยู่กับขนาดของไฟล์ PDF และความเร็วอินเตอร์เน็ต ให้รอสักครู่
- คลิกปุ่ม ‘แยกวิเคราะห์ตอนนี้’ เพื่อแยกวิเคราะห์เอกสาร
- ดาวน์โหลดไฟล์แยกวิเคราะห์เพื่อดูได้ทันที
แยกข้อความจากไฟล์ PDF ผ่าน Python
- API อ้างอิงภายในโครงการโดยตรงจาก PyPI ( Aspose.Words )
- โหลดไฟล์ PDF โดยใช้คลาส Document
- ใช้วิธีการบันทึกเพื่อบันทึกเป็นไฟล์ .txt
- เนื้อหา PDF ทั้งหมดถูกเรนเดอร์เป็นข้อความ
ตัวอย่างโค้ดใน Python เพื่อแยกข้อความเอกสาร PDF
import aspose.words as aw | |
pdfDoc = aw.Document("file.pdf") | |
pdfDoc.save("PDFtoTextFile.txt") |
แยกรูปภาพจากไฟล์ PDF ผ่าน Python
- API อ้างอิงภายในโครงการโดยตรงจาก PyPI ( Aspose.Words )
- โหลด PDF โดยใช้อ็อบเจ็กต์คลาส Document
- บันทึกไฟล์เป็นไฟล์ Word
- โหลดไฟล์ Word โดยใช้วัตถุคลาสเอกสาร
- รูปภาพที่จัดเก็บไว้ในโหนดรูปร่างในวัตถุเอกสาร
- หากต้องการเลือกโหนดรูปร่างทั้งหมด ให้ใช้เมธอด Document.get_child_nodes
- วนซ้ำคอลเลกชันโหนดผลลัพธ์
- หาก Shape.has_image ส่งกลับค่าจริง
- ใช้คุณสมบัติ Shape.image_data เพื่อแยกข้อมูลรูปภาพ
- บันทึกข้อมูลภาพลงในไฟล์
ตัวอย่างโค้ดใน Python เพื่อแยกรูปภาพเอกสาร PDF
import aspose.words as aw | |
pdfDoc = aw.Document("sourcefile.pdf") | |
pdfDoc.save("pdftoword.docx") | |
docWithImages = aw.Document("pdftoword.docx") | |
shapes = docWithImages.get_child_nodes(aw.NodeType.SHAPE, True) | |
imageIndex = 0 | |
for shape in shapes : | |
shape = shape.as_shape() | |
if (shape.has_image) : | |
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}" | |
shape.image_data.save(imageFileName) | |
imageIndex += 1 |
Develop PDF File Parser Application via Python
ต้องการพัฒนาแอปหรือยูทิลิตี้แยกวิเคราะห์ PDF หรือไม่ด้วย
Aspose.Words for Python via .NET
ซึ่งเป็น API ลูกของ
Aspose.Total for Python via .NET
นักพัฒนาหลามทุกคนสามารถรวมโค้ด API ข้างต้นภายในแอปพลิเคชันตัวแยกวิเคราะห์เอกสารได้ไลบรารี Python อันทรงพลังช่วยให้สามารถตั้งโปรแกรมโซลูชันการแยกวิเคราะห์เอกสารเพื่อแยกรูปภาพและข้อความได้นอกจากนี้ยังสามารถรองรับรูปแบบยอดนิยมมากมายรวมถึงรูปแบบ PDF
ยูทิลิตี้ Python เพื่อประมวลผลไฟล์ PDF สำหรับแอป parser
มีตัวเลือกอื่นในการติดตั้ง “
Aspose.Words for Python via .NET
” หรือ “
Aspose.Total for Python via .NET
” ลงในระบบของคุณโปรดเลือกรายการที่ตรงกับความต้องการของคุณและปฏิบัติตามคำแนะนำทีละขั้นตอน:
- ติดตั้ง Aspose.Words for Python via .NET จาก PyPI
- หรือใช้คำสั่ง pip ต่อไปนี้
pip install aspose-pdf
ความต้องการของระบบ
- ติดตั้ง Python 3.5 หรือใหม่กว่าแล้ว
- ไลบรารีรันไทม์ GCC-6 (หรือใหม่กว่า)
- สำหรับ Python 3.5-3.7: จำเป็นต้องมี pymalloc build ของ Python
สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ Product Documentation
คำถามที่พบบ่อย
- ฉันสามารถใช้โค้ด Python ข้างต้นในแอปพลิเคชันของฉันได้หรือไม่ใช่ คุณสามารถดาวน์โหลดโค้ดนี้และใช้เพื่อวัตถุประสงค์ในการพัฒนาแอปพลิเคชันตัวแยกวิเคราะห์เอกสารที่ใช้ Pythonโค้ดนี้ทำหน้าที่เป็นทรัพยากรอันมีค่าในการปรับปรุงฟังก์ชันการทำงานและความสามารถของโปรเจ็กต์ของคุณในโดเมนของการประมวลผลเอกสารแบ็กเอนด์ เช่น การอ่านโหนด และการโหลดเอกสารเพื่อแยกข้อความและรูปภาพ
- แอพแยกวิเคราะห์เอกสารออนไลน์นี้ใช้งานได้บน Windows เท่านั้นหรือไม่คุณมีความยืดหยุ่นในการเริ่มแยกวิเคราะห์เอกสารบนอุปกรณ์ใดก็ได้ โดยไม่คำนึงถึงระบบปฏิบัติการที่อุปกรณ์ทำงาน ไม่ว่าจะเป็น Windows, Linux, Mac OS หรือ Androidสิ่งที่คุณต้องมีคือเว็บเบราว์เซอร์ร่วมสมัยและการเชื่อมต่ออินเทอร์เน็ตที่ใช้งานได้
- การใช้แอปออนไลน์เพื่อแยกวิเคราะห์เอกสาร PDF ปลอดภัยหรือไม่แน่นอน! ไฟล์เอาต์พุตที่สร้างผ่านบริการของเราจะถูกลบออกจากเซิร์ฟเวอร์ของเราโดยอัตโนมัติอย่างปลอดภัยภายในกรอบเวลา 24 ชั่วโมงด้วยเหตุนี้ ลิงก์ที่แสดงที่เกี่ยวข้องกับไฟล์เหล่านี้จะหยุดทำงานหลังจากช่วงเวลานี้
- เบราว์เซอร์ใดที่ควรใช้แอพ?คุณสามารถใช้เว็บเบราว์เซอร์สมัยใหม่เช่น Google Chrome, Firefox, Opera หรือ Safari สำหรับโปรแกรมแยกวิเคราะห์เอกสาร PDF ออนไลน์ อย่างไรก็ตาม หากคุณกำลังพัฒนาแอปพลิเคชันบนเดสก์ท็อป เราขอแนะนำให้ใช้ API การประมวลผลเอกสาร Aspose.Total เพื่อการจัดการที่มีประสิทธิภาพ