Analise arquivo ODT online e extraia texto ou imagens via Python
Desenvolva um poderoso aplicativo utilitário de análise de documentos ODT baseado em Python.Código listado para imagens de documentos ODT e extração de texto por meio de Python.
Analisar documento ODT via aplicativo online
- Importe o arquivo ODT para análise fazendo upload dele.
- Faça isso clicando dentro da área de soltar arrastando e soltando o aplicativo analisador.
- Dependendo do tamanho do arquivo ODT e da velocidade da internet, aguarde alguns segundos.
- Clique no botão ‘Analisar agora’ para analisar o documento.
- Baixe os arquivos analisados para visualizar instantaneamente.
Extraia texto do arquivo ODT via Python
- Faça referência a APIs dentro do projeto diretamente do PyPI ( Aspose.Words )
- Definir nós para incluir no processo de extração de texto
- Incluir ou excluir o primeiro e o último nó
- Extraia conteúdo em nós especificados
- Crie um documento ODT separado para o texto extraído
- Código listado na função extract_content.
Exemplo de código em Python para extrair texto de documento ODT
def extract_content(startNode : aw.Node, endNode : aw.Node, isInclusive : bool): | |
verify_parameter_nodes(startNode, endNode) | |
nodes = [] | |
if (endNode.node_type == aw.NodeType.COMMENT_RANGE_END and isInclusive) : | |
node = find_next_node(aw.NodeType.COMMENT, endNode.next_sibling) | |
if (node != None) : | |
endNode = node | |
originalStartNode = startNode | |
originalEndNode = endNode | |
startNode = get_ancestor_in_body(startNode) | |
endNode = get_ancestor_in_body(endNode) | |
isExtracting = True | |
isStartingNode = True | |
currNode = startNode | |
while (isExtracting) : | |
cloneNode = currNode.clone(True) | |
isEndingNode = currNode == endNode | |
if (isStartingNode or isEndingNode) : | |
if (isEndingNode) : | |
process_marker(cloneNode, nodes, originalEndNode, currNode, isInclusive, False, not isStartingNode, False) | |
isExtracting = False | |
if (isStartingNode) : | |
process_marker(cloneNode, nodes, originalStartNode, currNode, isInclusive, True, True, False) | |
isStartingNode = False | |
else : | |
nodes.append(cloneNode) | |
if (currNode.next_sibling == None and isExtracting) : | |
nextSection = currNode.get_ancestor(aw.NodeType.SECTION).next_sibling.as_section() | |
currNode = nextSection.body.first_child | |
else : | |
currNode = currNode.next_sibling | |
if (isInclusive and originalEndNode == endNode and not originalEndNode.is_composite) : | |
include_next_paragraph(endNode, nodes) | |
return nodes |
Extraia imagens do arquivo ODT via Python
- Faça referência a APIs dentro do projeto diretamente do PyPI ( Aspose.Words )
- Imagens armazenadas em nós Shape do objeto Document
- Para selecionar todos os nós Shape, use o método Document.get_child_nodes
- Loop pelas coleções de nós resultantes
- Se Shape.has_image retornar verdadeiro.
- Use a propriedade Shape.image_data para extrair dados da imagem.
- Salvar dados de imagem em um arquivo
Exemplo de código em Python para extrair imagens de documentos ODT
doc = aw.Document(docs_base.my_dir + "sourcefile.docx") | |
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True) | |
imageIndex = 0 | |
for shape in shapes : | |
shape = shape.as_shape() | |
if (shape.has_image) : | |
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}" | |
shape.image_data.save(docs_base.artifacts_dir + imageFileName) | |
imageIndex += 1 |
Desenvolva um aplicativo analisador de arquivo ODT via Python
Precisa desenvolver um aplicativo ou utilitário analisador ODT?Com o
Aspose.Words for Python via .NET
, uma API filha do
Aspose.Total for Python via .NET
, qualquer desenvolvedor python pode integrar o código da API acima em seu aplicativo analisador de documentos.A poderosa biblioteca Python permite programar qualquer solução de análise de documentos para extrair imagens e também texto.Além disso, pode suportar muitos formatos populares, incluindo o formato ODT.
Utilitário Python para processar arquivo ODT para aplicativo analisador
Existem opções alternativas para instalar “
Aspose.Words for Python via .NET
” ou “
Aspose.Total for Python via .NET
” em seu sistema.Escolha um que se adeque às suas necessidades e siga as instruções passo a passo:
- Instale Aspose.Words for Python via .NET do PyPI
- Ou use os seguintes comandos pip
pip install aspose.words
.
Requisitos de sistema
- Python 3.5 ou posterior está instalado
- Bibliotecas de tempo de execução GCC-6 (ou posteriores).
- Dependências do .NET Core Runtime. A instalação do próprio .NET Core Runtime NÃO é necessária.
- Para Python 3.5-3.7: A compilação pymalloc do Python é necessária.
Para obter mais detalhes, consulte Documentação do produto .
Perguntas frequentes
- Posso usar o código Python acima em meu aplicativo?Sim, você pode baixar este código e utilizá-lo para desenvolver um aplicativo analisador de documentos baseado em Python.Este código pode servir como um recurso valioso para aprimorar a funcionalidade e os recursos de seus projetos no domínio do processamento backend de documentos, como leitura de nós e carregamento do documento para extração de texto e imagens.
- Este aplicativo analisador de documentos online funciona apenas no Windows?Você tem a flexibilidade de iniciar a análise de documentos em qualquer dispositivo, independentemente do sistema operacional em que ele é executado, seja Windows, Linux, Mac OS ou Android.Tudo o que é necessário é um navegador contemporâneo e uma conexão ativa com a Internet.
- É seguro usar o aplicativo online para analisar documentos ODT?Claro! Os arquivos de saída gerados por meio de nosso serviço serão removidos de forma segura e automática de nossos servidores dentro de um prazo de 24 horas.Como resultado, os links de exibição associados a esses arquivos deixarão de funcionar após esse período.
- Qual navegador deve usar o aplicativo?Você pode usar qualquer navegador moderno como Google Chrome, Firefox, Opera ou Safari para analisador de documentos ODT online.No entanto, se você estiver desenvolvendo um aplicativo de desktop, recomendamos usar a API de processamento de documentos Aspose.Total para um gerenciamento eficiente.