Extrator de PDF

Extraia imagens e texto de documentos PDF com aplicativos e APIs multiplataforma gratuitos

Como analisar arquivos PDF usando a biblioteca Aspose

Por que usar a análise de documentos PDF? Para analisar arquivos PDF, usaremos a API Aspose.PDF, que é uma API de manipulação de documentos rica em recursos, poderosa e fácil de usar. Abra o gerenciador de pacotes NuGet, procure por Aspose.PDF e instale. Você também pode usar o seguinte comando no Console do Gerenciador de Pacotes. Analisar documentos PDF é um termo relacionado à extração de vários tipos de informações de arquivos PDF. Analise o documento PDF para extrair texto e imagens. Além disso, para separar PDF como texto e imagens. A Biblioteca Aspose.PDF permite extrair texto de PDF e de carimbos, extrair imagens e fontes de PDF, extrair dados de tabelas e formulários.

APIs de alto código para analisar documentos APIs nativas para arquivos PDF usando .NET, .NET Core, Java, C++ e Android

Analisar arquivos PDF

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();