Extraer texto de un PDF en Python

Cómo extraer texto de un PDF con Python

C# Java C++ Python

Cómo extraer texto de un PDF con Aspose.PDF para Python for .NET

¿Necesita extraer texto de un PDF? La modificación programática de los documentos PDF es una parte esencial de los flujos de trabajo digitales modernos. Con las bibliotecas de Python como Aspose.PDF, los desarrolladores pueden extraer texto de un PDF. Estas bibliotecas son soluciones independientes que no dependen de otro software y están listas para su uso comercial. Cubren todas las necesidades posibles de los desarrolladores profesionales de Python.

Extraer texto de un PDF
Extraer imágenes de un PDF
Extraer fuentes de un PDF
Extraer datos del formulario
Extraer texto de sellos
Extraer datos de la tabla

Para extraer texto de un archivo PDF, utilizaremos la API Aspose.PDF for.NET, que es una API de manipulación de documentos potente, fácil de usar y rica en funciones para la plataforma python-net. Abre el administrador de paquetes NuGet, busca Aspose.PDF e instálalo. También puede usar el siguiente comando desde la consola del administrador de paquetes.

Console

pip install aspose-pdf

Extraer texto de un PDF en Python

Para probar el código en su entorno, necesita Aspose.PDF for Python.

Cargue el PDF con una instancia de Document.
Crea un objeto TextAbsorber para extraer texto.
Acepta el absorbente para todas las páginas.
Obtenga el texto extraído
Crea un escritor y abre el archivo, escribe una línea de texto en el archivo

Extrae texto de un PDF con Python

Este código de ejemplo muestra cómo extraer texto de documentos PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf
from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Acerca de Aspose.PDF for la API de Python

Aspose.PDF for Python a través de la API de.NET es compatible con los estándares y especificaciones de PDF más establecidos. Permite a los desarrolladores insertar tablas, gráficos, imágenes, hipervínculos, fuentes personalizadas (y mucho más) en documentos PDF. Además, también es posible comprimir documentos PDF. Aspose.PDF for Python a través de.NET proporciona excelentes funciones de seguridad para desarrollar documentos PDF seguros. Algunas de las funciones fundamentales de Aspose.PDF for Python a través de la API.NET incluyen:

Posibilidad de leer y exportar PDF en múltiples formatos de imagen, incluidos BMP, GIF, JPEG y PNG.
Establezca la información básica (por ejemplo, autor, creador) del documento PDF.
Funciones de conversión: convierte PDF a Word, Excel y PowerPoint. Convierte PDF a formatos de imagen. Convierte archivos PDF a formato HTML y viceversa. Convierte PDF a EPUB, texto, XPS, etc.

Sobre el uso de la API, puedes encontrar más información sobre Aspose.PDF for Python a través de la API.NET en nuestra documentación.