Extraer metadatos de PDF a través de Python

Extraiga los metadatos del documento PDF. Utilice Aspose.PDF for que Python for .NET modifique los archivos PDF mediante programación

Cómo extraer metadatos de PDF mediante la biblioteca de Python

Extraiga los metadatos de un PDF con Aspose.PDF for Python. Acceder a los metadatos de un documento significa obtener información sobre ese archivo, como su título, autor, cuándo se creó y palabras clave específicas. Extrae metadatos: ayuda a organizar una gran colección de PDF de forma más eficaz. Los datos extraídos de los metadatos mejoran la forma de buscar archivos. Los usuarios pueden localizar rápidamente documentos específicos mediante palabras clave o detalles que se encuentran en los metadatos extraídos. La extracción de metadatos proporciona información valiosa sobre lo que contiene un archivo. Puede ofrecer un breve resumen de los detalles clave del archivo, lo que facilita la comprensión de qué trata el documento sin tener que abrirlo. La extracción de metadatos ayuda a garantizar la autenticidad de un documento. Puedes comprobar detalles como el nombre del autor cuando se creó o su historial de modificaciones. Esta verificación es crucial para confirmar la fiabilidad de un PDF. Al ofrecer detalles concisos sobre el contenido de un PDF, los metadatos extraídos mejoran mucho la experiencia del usuario. Ayuda a los usuarios a identificar fácilmente los documentos y a trabajar con ellos. En general, la extracción de metadatos de un PDF ofrece muchas ventajas, como una gestión de documentos más eficiente, mejores opciones de búsqueda, el cumplimiento de los estándares y una experiencia de usuario mejorada en general. Extraiga los metadatos de un PDF a través de Aspose y resuelva todas las tareas necesarias para trabajar con datos. Para extraer los metadatos de los archivos PDF, utilizaremos la API Aspose.PDF for.NET, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar para .NET. Abre el administrador de paquetes NuGet, busca Aspose.PDF e instálalo. También puede usar el siguiente comando desde la consola del administrador de paquetes.

Console

pip install aspose-pdf

Extraer metadatos de PDF a través de Python

Para probar el código en su entorno, necesita Aspose.PDF for .NET.

Cargue el PDF con una instancia de Document.
Obtenga DocumentInfo mediante la propiedad Document.Info.
Acceda y muestre diferentes propiedades de Document.Info.

El fragmento de código Python proporcionado muestra cómo extraer metadatos de un PDF mediante la biblioteca Aspose.PDF. Abre un archivo PDF llamado ‘GetFileInfo.pdf’ ubicado en el directorio especificado por la variable ‘DIR_INPUT_METADATA’. El código recupera varios detalles del documento mediante la función «información». Muestra información de metadatos específica del PDF, como el nombre del autor, la fecha de creación, las palabras clave, la fecha de modificación, el asunto y el título. El código usa la función «imprimir» para mostrar esta información. Este fragmento de código es un ejemplo simplificado de cómo se puede usar una biblioteca o marco de Aspose.PDF for extraer metadatos de un archivo PDF.

Extraer metadatos de PDF: Python

Este código de ejemplo muestra cómo extraer la información de metadatos del archivo PDF

Input file:

Upload a file

File not added

Output format:

Output file:

import aspose.pdf as apdf

from os import path

input_file = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(input_file)

# Get document information
doc_info = document.info
# Show document information
print("Author :", doc_info.author)
print("Creation Date :", doc_info.creation_date)
print("Keywords :", doc_info.keywords)
print("Modify Date :", doc_info.mod_date)
print("Subject :", doc_info.subject)
print("Title :", doc_info.title)