ODT 파일을 온라인으로 구문 분석하고 Python을 통해 텍스트 또는 이미지를 추출합니다.
강력한 Python 기반 ODT 문서 파서 유틸리티 애플리케이션을 개발합니다.Python을 통한 ODT 문서 이미지 및 텍스트 추출을 위해 나열된 코드입니다.
온라인 앱을 통해 ODT 문서 구문 분석
- ODT 파일을 업로드하여 구문 분석할 수 있습니다.
- 파서 앱의 드래그 앤 드롭을 통해 드롭 영역 내부를 클릭하여 수행합니다.
- ODT 파일의 크기와 인터넷 속도에 따라 몇 초 정도 기다립니다.
- 문서를 구문 분석하려면 ‘지금 구문 분석’ 버튼을 클릭하세요.
- 즉시 보려면 구문 분석된 파일을 다운로드하세요.
Python을 통해 ODT 파일에서 텍스트 추출
- PyPI ( Aspose.Words )에서 직접 프로젝트 내 API 참조
- 텍스트 추출 프로세스에 포함할 노드 정의
- 첫 번째 및 마지막 노드 포함 또는 제외
- 지정된 노드에서 콘텐츠 추출
- 추출된 텍스트에 대해 별도의 ODT 문서 만들기
- extract_content 함수에 나열된 코드.
ODT 문서 텍스트를 추출하는 Python의 코드 예제
def extract_content(startNode : aw.Node, endNode : aw.Node, isInclusive : bool): | |
verify_parameter_nodes(startNode, endNode) | |
nodes = [] | |
if (endNode.node_type == aw.NodeType.COMMENT_RANGE_END and isInclusive) : | |
node = find_next_node(aw.NodeType.COMMENT, endNode.next_sibling) | |
if (node != None) : | |
endNode = node | |
originalStartNode = startNode | |
originalEndNode = endNode | |
startNode = get_ancestor_in_body(startNode) | |
endNode = get_ancestor_in_body(endNode) | |
isExtracting = True | |
isStartingNode = True | |
currNode = startNode | |
while (isExtracting) : | |
cloneNode = currNode.clone(True) | |
isEndingNode = currNode == endNode | |
if (isStartingNode or isEndingNode) : | |
if (isEndingNode) : | |
process_marker(cloneNode, nodes, originalEndNode, currNode, isInclusive, False, not isStartingNode, False) | |
isExtracting = False | |
if (isStartingNode) : | |
process_marker(cloneNode, nodes, originalStartNode, currNode, isInclusive, True, True, False) | |
isStartingNode = False | |
else : | |
nodes.append(cloneNode) | |
if (currNode.next_sibling == None and isExtracting) : | |
nextSection = currNode.get_ancestor(aw.NodeType.SECTION).next_sibling.as_section() | |
currNode = nextSection.body.first_child | |
else : | |
currNode = currNode.next_sibling | |
if (isInclusive and originalEndNode == endNode and not originalEndNode.is_composite) : | |
include_next_paragraph(endNode, nodes) | |
return nodes |
Python을 통해 ODT 파일에서 이미지 추출
- PyPI ( Aspose.Words )에서 직접 프로젝트 내 API 참조
- Document 객체의 Shape 노드에 저장된 이미지
- 모든 Shape 노드를 선택하려면 Document.get_child_nodes 메소드를 사용하십시오.
- 결과 노드 컬렉션을 반복합니다.
- Shape.has_image가 true를 반환하는 경우.
- Shape.image_data 속성을 사용하여 이미지 데이터를 추출합니다.
- 이미지 데이터를 파일로 저장
ODT 문서 이미지를 추출하는 Python의 코드 예제
doc = aw.Document(docs_base.my_dir + "sourcefile.docx") | |
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True) | |
imageIndex = 0 | |
for shape in shapes : | |
shape = shape.as_shape() | |
if (shape.has_image) : | |
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}" | |
shape.image_data.save(docs_base.artifacts_dir + imageFileName) | |
imageIndex += 1 |
Python을 통해 ODT 파일 파서 애플리케이션 개발
ODT 파서 앱이나 유틸리티를 개발해야 합니까?
Aspose.Total for Python via .NET
의 하위 API인
Aspose.Words for Python via .NET
을 사용하면 모든 Python 개발자가 문서 파서 애플리케이션 내에 위의 API 코드를 통합할 수 있습니다.강력한 Python 라이브러리를 사용하면 모든 문서 구문 분석 솔루션을 프로그래밍하여 텍스트는 물론 이미지도 추출할 수 있습니다.또한 ODT 형식을 포함하여 널리 사용되는 다양한 형식을 지원할 수 있습니다.
파서 앱용 ODT 파일을 처리하는 Python 유틸리티
시스템에 “
Aspose.Words for Python via .NET
” 또는 “
Aspose.Total for Python via .NET
“를 설치하는 대체 옵션이 있습니다.귀하의 요구 사항과 유사한 것을 선택하고 단계별 지침을 따르십시오.
- PyPI 에서 Aspose.Words for Python via .NET 설치
- 또는 다음 pip 명령
pip install aspose.words
를 사용하세요.
시스템 요구 사항
- Python 3.5 이상이 설치되어 있습니다.
- GCC-6 런타임 라이브러리(또는 그 이상).
- .NET Core 런타임의 종속성. .NET Core Runtime 자체를 설치할 필요는 없습니다.
- Python 3.5-3.7의 경우: Python의 pymalloc 빌드가 필요합니다.
자세한 내용은 제품 문서 를 참고하세요.
자주 묻는 질문
- 내 애플리케이션에서 위의 Python 코드를 사용할 수 있나요?예, 이 코드를 다운로드하여 Python 기반 문서 파서 애플리케이션 개발 목적으로 활용하실 수 있습니다.이 코드는 노드 읽기, 텍스트 및 이미지 추출을 위한 문서 로드 등 백엔드 문서 처리 영역에서 프로젝트의 기능과 성능을 향상시키는 귀중한 리소스 역할을 할 수 있습니다.
- 이 온라인 문서 파서 앱은 Windows에서만 작동합니까?Windows, Linux, Mac OS, Android 등 실행되는 운영 체제에 관계없이 모든 장치에서 문서 구문 분석을 시작할 수 있는 유연성이 있습니다.필요한 것은 최신 웹 브라우저와 활성 인터넷 연결뿐입니다.
- ODT 문서를 구문 분석하기 위해 온라인 앱을 사용하는 것이 안전한가요?물론! 당사 서비스를 통해 생성된 출력 파일은 24시간 이내에 당사 서버에서 안전하고 자동으로 제거됩니다.결과적으로 해당 파일과 관련된 표시 링크는 이 기간 이후에는 더 이상 작동하지 않습니다.
- 앱을 사용하려면 어떤 브라우저를 사용해야 하나요?온라인 ODT 문서 파서에는 Google Chrome, Firefox, Opera 또는 Safari와 같은 최신 웹 브라우저를 사용할 수 있습니다.하지만 데스크톱 애플리케이션을 개발하는 경우 효율적인 관리를 위해 Aspose.Total 문서 처리 API를 사용하는 것이 좋습니다.