Извлеките PDF-файл с помощью C#

Как извлечь текст и изображения из PDF с помощью библиотеки .NET

Самый популярный экшен с Parser

Как анализировать PDF-файлы с помощью библиотеки .NET

Вам нужно извлечь PDF-файл? Программная модификация PDF-документов является неотъемлемой частью современных цифровых рабочих процессов. С помощью библиотек.NET, таких как Aspose.PDF, разработчики могут извлекать текст из PDF или извлекать изображения из PDF. Эти библиотеки представляют собой автономные решения, которые не зависят от другого программного обеспечения и готовы к коммерческому использованию. Они охватывают все возможные потребности профессиональных разработчиков на C#.

  • Извлекайте данные PDF: тексты, изображения, формы, поля и т. д.
  • Извлечение текста из PDF
  • Извлечение изображений из PDF
  • Извлечение шрифтов из PDF
  • Извлечение данных из формы
  • Извлечение текста из штампов
  • Извлечение данных из таблицы

Для извлечения PDF-файла мы будем использовать API Aspose.PDF for .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы net. Откройте диспетчер пакетов NuGet, найдите aSpose.pdf и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Package Manager Console

PM > Install-Package Aspose.PDF

Анализ PDF с помощью C#


Чтобы попробовать код в своей среде, вам нужно Aspose.PDF for .NET.

  1. Загрузите PDF-файл вместе с экземпляром документа.
  2. Создайте объект TextAbsorber для извлечения текста.
  3. Примите абсорбер для всех страниц.
  4. Получите извлеченный текст
  5. Создайте устройство записи и откройте файл, запишите в файл строку текста

Извлечение PDF-файлов - C#

В этом примере кода показано, как извлекать PDF-документы

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

О Aspose.PDF для API .NET

Aspose.PDF для .NET API предоставляет широкий набор функций для работы с PDF-файлами. Некоторые из этих функций включают в себя:

  • Создавайте PDF-документы с нуля или из HTML, XML или изображений.
  • Редактируйте существующие PDF-документы, добавляя или удаляя страницы, текст, изображения и другое содержимое.
  • Конвертируйте PDF-документы в другие форматы, такие как HTML, XML и изображения.
  • Рендеринг PDF-документов в изображения или формат XPS.
  • Печатайте PDF-документы прямо из приложения.
  • Цифровая подпись PDF-документов.

Дополнительную информацию о Aspose.PDF для C# API можно найти в этой документации Aspose