Extraia o PDF via C#

Como extrair texto e imagens de PDF usando a biblioteca .NET

C# Java C++ Python

Ação mais popular com Parser

Extrair texto

Extrair imagens

Extrair fontes

Como analisar PDF com a biblioteca .NET

Você precisa extrair um PDF? A modificação programática de documentos PDF é uma parte essencial dos fluxos de trabalho digitais modernos. Com bibliotecas.NET como o Aspose.PDF, os desenvolvedores podem extrair texto do PDF ou extrair imagens do PDF. Essas bibliotecas são soluções independentes que não dependem de outros softwares e estão prontas para uso comercial. Eles cobrem todas as necessidades possíveis dos desenvolvedores profissionais de C#.

Extraia dados em PDF: textos, imagens, formulários, campos, etc.
Extrair texto do PDF
Extrair imagens do PDF
Extrair fontes do PDF
Extrair dados do formulário
Extrair texto de carimbos
Extrair dados da tabela

Para extrair o arquivo PDF, usaremos a API Aspose.PDF for.NET, que é uma API de manipulação de documentos rica em recursos, poderosa e fácil de usar para a plataforma net. Abra o gerenciador de pacotes NuGet, pesquise Aspose.PDF e instale. Você também pode usar o seguinte comando no console do gerenciador de pacotes.

Package Manager Console

PM > Install-Package Aspose.PDF

Analise o PDF via C#

Para testar o código em seu ambiente, você precisa Aspose.PDF for .NET.

Carregue o PDF com uma instância do Document.
Crie um objeto TextAbsorber para extrair texto.
Aceite o absorvedor para todas as páginas.
Obtenha o texto extraído
Crie um gravador e abra o arquivo, escreva uma linha de texto no arquivo

Extrair arquivos PDF - C#

Este código de exemplo mostra como extrair documentos PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

Sobre o Aspose.PDF for a API C#

A API Aspose.PDF for .NET fornece uma ampla variedade de recursos para trabalhar com arquivos PDF. Alguns dos recursos incluem:

Crie documentos PDF do zero ou a partir de HTML, XML ou imagens.
Edite documentos PDF existentes adicionando ou removendo páginas, textos, imagens e outros conteúdos.
Converta documentos PDF em outros formatos, como HTML, XML e imagens.
Renderize documentos PDF em imagens ou no formato XPS.
Imprima documentos PDF diretamente do seu aplicativo.
Assine digitalmente documentos PDF.

Você pode encontrar mais informações sobre Aspose.PDF for API C# nesta documentação do Aspose