Экстрактор PDF

Извлекайте изображения и текст из PDF-документов с помощью бесплатных кроссплатформенных приложений и API

Как разобрать PDF-файл с помощью библиотеки Aspose

Зачем использовать синтаксический анализ PDF-документов? Для анализа PDF-файла мы будем использовать API Aspose.PDF, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами. Откройте диспетчер пакетов NuGet, найдите файл Aspose.PDF и установите. Вы также можете использовать следующую команду из консоли Package Manager. Разбор PDF-документов — это термин, связанный с извлечением различного рода информации из PDF-файла. Разбор PDF-документа для извлечения текста и изображений. Кроме того, для разделения PDF на текст и изображения. Библиотека Aspose.PDF позволяет извлекать текст из PDF и штампов, извлекать изображения и шрифты из PDF, извлекать данные из таблиц и форм.

API-интерфейсы высокого кода для синтаксического анализа документа Нативные API-интерфейсы для PDF-файлов с использованием файлов.NET, .NET Core, Java, C++ и Android

Разбор PDF-файлов

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();