Extraia o PDF em Python

Como extrair texto e imagens de PDF usando a biblioteca Python for .NET

Ação mais popular com Parser

Como extrair PDF com a biblioteca Python for .NET

Você precisa extrair o PDF? A modificação programática de documentos PDF é uma parte essencial dos fluxos de trabalho digitais modernos. Com bibliotecas Python como a Aspose.PDF, os desenvolvedores podem extrair texto de PDF ou extrair imagens de PDF. Essas bibliotecas são soluções autônomas que não dependem de outros softwares e estão prontas para uso comercial. Eles cobrem todas as necessidades possíveis dos desenvolvedores profissionais de Python.

  • Extraia dados em PDF: textos, imagens, formulários, campos, etc.
  • Extraia texto do PDF
  • Extraia imagens de PDF
  • Extrair fontes do PDF
  • Extrair dados do formulário
  • Extrair texto de carimbos
  • Extrair dados da tabela

Para extrair o arquivo PDF, usaremos a API Aspose.PDF for .NET, que é uma API de manipulação de documentos rica em recursos, poderosa e fácil de usar para a plataforma python-net. Abra o gerenciador de pacotes NuGet, pesquise Aspose.pdf e instale. Você também pode usar o seguinte comando no console do Gerenciador de Pacotes.

Python Package Manager Console

pip install aspose-pdf

Analise o PDF via Python


Para testar o código em seu ambiente, você precisa Aspose.PDF for .NET.

  1. Carregue o PDF com uma instância de Document.
  2. Crie um objeto TextAbsorber para extrair texto.
  3. Aceite o absorvedor para todas as páginas.
  4. Obter o texto extraído
  5. Crie um escritor e abra o arquivo, escreva uma linha de texto no arquivo

Extrair arquivos PDF - Python

Este código de exemplo mostra como extrair documentos PDF

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

Sobre o Aspose.PDF para a API Python for .NET

O Aspose.PDF para Python via API.NET oferece suporte aos padrões e especificações de PDF mais estabelecidos. Ele permite que os desenvolvedores insiram tabelas, gráficos, imagens, hiperlinks, fontes personalizadas e muito mais em documentos PDF. Além disso, também é possível compactar documentos PDF. O Aspose.PDF para Python via .NET fornece excelentes recursos de segurança para desenvolver documentos PDF seguros. Alguns dos principais recursos do Aspose.PDF para Python por meio da API.NET incluem:

  • Capacidade de ler e exportar PDF em vários formatos de imagem, incluindo BMP, GIF, JPEG e PNG.
  • Defina informações básicas (por exemplo, autor, criador) do documento PDF.
  • Recursos de conversão: converta PDF em Word, Excel e PowerPoint. Converta PDF em formatos de imagens. Converta o arquivo PDF para o formato HTML e vice-versa. Converta PDF em EPUB, texto, XPS, etc.

Você pode encontrar mais informações sobre o Aspose.PDF para Python por meio da API.NET em nossa documentação sobre como usar a API.