Извлечение метаданных PDF с помощью Python

Извлеките метаданные из PDF-документа. Используйте Aspose.PDF для Python for .NET для программного изменения PDF-файлов

Как извлечь метаданные PDF с помощью библиотеки Python for .NET

Извлеките метаданные из PDF с помощью Aspose.PDF для Python. Доступ к метаданным документа означает получение информации об этом файле, такой как его название, автор, время создания и конкретные ключевые слова. Извлечение метаданных помогает более эффективно организовать большую коллекцию PDF-файлов. Данные, извлеченные из метаданных, улучшают поиск файлов. Пользователи могут быстро находить определенные документы, используя ключевые слова или сведения, содержащиеся в извлеченных метаданных. Извлечение метаданных дает ценную информацию о том, что содержится в файле. В нем может содержаться краткое описание основных сведений о файле, что упростит понимание сути документа без необходимости его открывать. Извлечение метаданных помогает обеспечить подлинность документа. Можно проверить такие сведения, как имя автора на момент его создания или историю изменений. Эта проверка крайне важна для подтверждения надежности PDF-файла. Предоставляя краткие сведения о содержимом PDF-файла, извлеченные метаданные значительно улучшают пользовательский интерфейс. Это помогает пользователям легко идентифицировать документы и работать с ними. В целом извлечение метаданных PDF дает множество преимуществ, таких как более эффективное управление документами, улучшенные возможности поиска, соответствие стандартам и общее улучшение пользовательского интерфейса. Извлекайте метаданные из PDF с помощью Aspose и решайте все необходимые задачи при работе с данными. Для извлечения метаданных из PDF-файлов мы будем использовать API Aspose.PDF for .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для.NET. Откройте диспетчер пакетов NuGet, найдите aSpose.pdf и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Python Package Manager Console

pip install aspose-pdf

Извлечение метаданных PDF с помощью Python


Чтобы попробовать код в своей среде, вам нужно Aspose.PDF for .NET.

  1. Загрузите PDF-файл с экземпляром документа.
  2. Получить DocumentInfo с помощью свойства Document.
  3. Доступ и отображение различных свойств Document.Info.

Приведенный фрагмент кода Python показывает, как извлекать метаданные из PDF с помощью библиотеки Aspose.PDF. Он открывает PDF-файл с именем «GetFileInfo.pdf», расположенный в каталоге, указанном переменной DIR_INPUT_METADATAA. Код извлекает различные сведения из документа с помощью функции «info». Он отображает определенную метаинформацию из PDF-файла, такую как имя автора, дата создания, ключевые слова, дата изменения, тема и заголовок. Для отображения этой информации в коде используется функция «печать». Этот фрагмент кода представляет собой упрощенный пример использования библиотеки или фреймворка Aspose.PDF для извлечения метаданных из PDF-файла.

Извлечь метаданные из PDF — Python

В этом примере кода показано, как извлечь метаданные из PDF-файла

Input file:

File not added

Output format:

Output file:

    import aspose.pdf as ap 

    # Open document
    pdf_document = ap.Document(DIR_INPUT_METADATA + "GetFileInfo.pdf")
    # Get document information
    doc_info = pdf_document.info
    # Show document information
    print("Author :", doc_info.author)
    print("Creation Date :", doc_info.creation_date)
    print("Keywords :", doc_info.keywords)
    print("Modify Date :", doc_info.mod_date)
    print("Subject :", doc_info.subject)
    print("Title :", doc_info.title)