แยกไฟล์ ODT ออนไลน์ รวมถึงแยกข้อความหรือรูปภาพผ่าน Python
พัฒนาแอพพลิเคชั่นยูทิลิตี้แยกวิเคราะห์เอกสาร ODT ที่ใช้ Python ที่ทรงพลังรหัสที่แสดงสำหรับรูปภาพเอกสาร ODT และการแยกข้อความผ่าน Python
แยกวิเคราะห์เอกสาร ODT ผ่านแอปออนไลน์
- นำเข้าไฟล์ ODT เพื่อแยกวิเคราะห์โดยการอัปโหลด
- ทำได้โดยการคลิกภายในพื้นที่วางผ่านการลากและวางของแอปแยกวิเคราะห์
- ขึ้นอยู่กับขนาดของไฟล์ ODT และความเร็วอินเตอร์เน็ต ให้รอสักครู่
- คลิกปุ่ม ‘แยกวิเคราะห์ตอนนี้’ เพื่อแยกวิเคราะห์เอกสาร
- ดาวน์โหลดไฟล์แยกวิเคราะห์เพื่อดูได้ทันที
แยกข้อความจากไฟล์ ODT ผ่าน Python
- API อ้างอิงภายในโครงการโดยตรงจาก PyPI ( Aspose.Words )
- กำหนดโหนดที่จะรวมไว้ในกระบวนการแยกข้อความ
- รวมหรือไม่รวมโหนดแรกและโหนดสุดท้าย
- แยกเนื้อหาในโหนดที่ระบุ
- สร้างเอกสาร ODT แยกต่างหากสำหรับข้อความที่แยกออกมา
- รหัสที่แสดงอยู่ในฟังก์ชัน extract_content.
ตัวอย่างโค้ดใน Python เพื่อแยกข้อความเอกสาร ODT
def extract_content(startNode : aw.Node, endNode : aw.Node, isInclusive : bool): | |
verify_parameter_nodes(startNode, endNode) | |
nodes = [] | |
if (endNode.node_type == aw.NodeType.COMMENT_RANGE_END and isInclusive) : | |
node = find_next_node(aw.NodeType.COMMENT, endNode.next_sibling) | |
if (node != None) : | |
endNode = node | |
originalStartNode = startNode | |
originalEndNode = endNode | |
startNode = get_ancestor_in_body(startNode) | |
endNode = get_ancestor_in_body(endNode) | |
isExtracting = True | |
isStartingNode = True | |
currNode = startNode | |
while (isExtracting) : | |
cloneNode = currNode.clone(True) | |
isEndingNode = currNode == endNode | |
if (isStartingNode or isEndingNode) : | |
if (isEndingNode) : | |
process_marker(cloneNode, nodes, originalEndNode, currNode, isInclusive, False, not isStartingNode, False) | |
isExtracting = False | |
if (isStartingNode) : | |
process_marker(cloneNode, nodes, originalStartNode, currNode, isInclusive, True, True, False) | |
isStartingNode = False | |
else : | |
nodes.append(cloneNode) | |
if (currNode.next_sibling == None and isExtracting) : | |
nextSection = currNode.get_ancestor(aw.NodeType.SECTION).next_sibling.as_section() | |
currNode = nextSection.body.first_child | |
else : | |
currNode = currNode.next_sibling | |
if (isInclusive and originalEndNode == endNode and not originalEndNode.is_composite) : | |
include_next_paragraph(endNode, nodes) | |
return nodes |
แยกรูปภาพจากไฟล์ ODT ผ่าน Python
- API อ้างอิงภายในโครงการโดยตรงจาก PyPI ( Aspose.Words )
- รูปภาพที่จัดเก็บไว้ในโหนดรูปร่างของวัตถุเอกสาร
- หากต้องการเลือกโหนดรูปร่างทั้งหมด ให้ใช้เมธอด Document.get_child_nodes
- วนซ้ำคอลเลกชันโหนดผลลัพธ์
- หาก Shape.has_image ส่งกลับค่าจริง
- ใช้คุณสมบัติ Shape.image_data เพื่อแยกข้อมูลรูปภาพ
- บันทึกข้อมูลภาพลงในไฟล์
ตัวอย่างโค้ดใน Python เพื่อแยกรูปภาพเอกสาร ODT
doc = aw.Document(docs_base.my_dir + "sourcefile.docx") | |
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True) | |
imageIndex = 0 | |
for shape in shapes : | |
shape = shape.as_shape() | |
if (shape.has_image) : | |
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}" | |
shape.image_data.save(docs_base.artifacts_dir + imageFileName) | |
imageIndex += 1 |
พัฒนาแอปพลิเคชัน Parser ไฟล์ ODT ผ่าน Python
ต้องการพัฒนาแอปหรือยูทิลิตี้แยกวิเคราะห์ ODT หรือไม่ด้วย
Aspose.Words for Python via .NET
ซึ่งเป็น API ลูกของ
Aspose.Total for Python via .NET
นักพัฒนาหลามทุกคนสามารถรวมโค้ด API ข้างต้นภายในแอปพลิเคชันตัวแยกวิเคราะห์เอกสารได้ไลบรารี Python อันทรงพลังช่วยให้สามารถตั้งโปรแกรมโซลูชันการแยกวิเคราะห์เอกสารเพื่อแยกรูปภาพและข้อความได้นอกจากนี้ยังสามารถรองรับรูปแบบยอดนิยมมากมายรวมถึงรูปแบบ ODT
ยูทิลิตี้ Python เพื่อประมวลผลไฟล์ ODT สำหรับแอป parser
มีตัวเลือกอื่นในการติดตั้ง “
Aspose.Words for Python via .NET
” หรือ “
Aspose.Total for Python via .NET
” ลงในระบบของคุณโปรดเลือกรายการที่ตรงกับความต้องการของคุณและปฏิบัติตามคำแนะนำทีละขั้นตอน:
- ติดตั้ง Aspose.Words for Python via .NET จาก PyPI
- หรือใช้คำสั่ง pip ต่อไปนี้
pip install aspose.words
ความต้องการของระบบ
- ติดตั้ง Python 3.5 หรือใหม่กว่าแล้ว
- ไลบรารีรันไทม์ GCC-6 (หรือใหม่กว่า)
- การขึ้นต่อกันของ .NET Core Runtime ไม่จำเป็นต้องติดตั้ง .NET Core Runtime เอง
- สำหรับ Python 3.5-3.7: จำเป็นต้องมี pymalloc build ของ Python
สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ เอกสารประกอบผลิตภัณฑ์
คำถามที่พบบ่อย
- ฉันสามารถใช้โค้ด Python ข้างต้นในแอปพลิเคชันของฉันได้หรือไม่ใช่ คุณสามารถดาวน์โหลดโค้ดนี้และใช้เพื่อวัตถุประสงค์ในการพัฒนาแอปพลิเคชันตัวแยกวิเคราะห์เอกสารที่ใช้ Pythonโค้ดนี้ทำหน้าที่เป็นทรัพยากรอันมีค่าในการปรับปรุงฟังก์ชันการทำงานและความสามารถของโปรเจ็กต์ของคุณในโดเมนของการประมวลผลเอกสารแบ็กเอนด์ เช่น การอ่านโหนด และการโหลดเอกสารเพื่อแยกข้อความและรูปภาพ
- แอพแยกวิเคราะห์เอกสารออนไลน์นี้ใช้งานได้บน Windows เท่านั้นหรือไม่คุณมีความยืดหยุ่นในการเริ่มแยกวิเคราะห์เอกสารบนอุปกรณ์ใดก็ได้ โดยไม่คำนึงถึงระบบปฏิบัติการที่อุปกรณ์ทำงาน ไม่ว่าจะเป็น Windows, Linux, Mac OS หรือ Androidสิ่งที่คุณต้องมีคือเว็บเบราว์เซอร์ร่วมสมัยและการเชื่อมต่ออินเทอร์เน็ตที่ใช้งานได้
- การใช้แอปออนไลน์เพื่อแยกวิเคราะห์เอกสาร ODT ปลอดภัยหรือไม่แน่นอน! ไฟล์เอาท์พุตที่สร้างผ่านบริการของเราจะถูกลบออกจากเซิร์ฟเวอร์ของเราโดยอัตโนมัติอย่างปลอดภัยภายในกรอบเวลา 24 ชั่วโมงด้วยเหตุนี้ ลิงก์ที่แสดงที่เกี่ยวข้องกับไฟล์เหล่านี้จะหยุดทำงานหลังจากช่วงเวลานี้
- เบราว์เซอร์ใดที่ควรใช้แอพ?คุณสามารถใช้เว็บเบราว์เซอร์สมัยใหม่เช่น Google Chrome, Firefox, Opera หรือ Safari สำหรับโปรแกรมแยกวิเคราะห์เอกสาร ODT ออนไลน์อย่างไรก็ตาม หากคุณกำลังพัฒนาแอปพลิเคชันบนเดสก์ท็อป เราขอแนะนำให้ใช้ API การประมวลผลเอกสาร Aspose.Total เพื่อการจัดการที่มีประสิทธิภาพ