Español
  1. Productos
  2.   Aspose.Total
  3.   Python via .NET
  4.   Parse
  5.   Extraiga texto e imágenes de un archivo DOC en línea y usando Python

Analizar archivos DOC en línea y extraer texto o imágenes a través de Python

Desarrolle una poderosa aplicación de utilidad de análisis de documentos DOC basada en Python.Código listado para imágenes de documentos DOC y extracción de texto a través de Python.

Analizar documento DOC a través de la aplicación en línea

  1. Importe el archivo DOC para analizarlo cargándolo.
  2. Hágalo haciendo clic dentro del área de colocación arrastrando y soltando la aplicación del analizador.
  3. Dependiendo del tamaño del archivo DOC y la velocidad de Internet, espere unos segundos.
  4. Haga clic en el botón ‘Analizar ahora’ para analizar el documento.
  5. Descargue los archivos analizados para verlos al instante.

Extraiga texto del archivo DOC a través de Python

  1. API de referencia dentro del proyecto directamente desde PyPI ( Aspose.Words )
  2. Definir nodos para incluir en el proceso de extracción de texto
  3. Incluir o excluir el primer y último nodo
  4. Extraer contenido en nodos específicos
  5. Cree un documento DOC separado para el texto extraído
  6. Código listado en la función extract_content.
 

Ejemplo de código en Python para extraer texto de documento DOC

 

Extraiga imágenes de un archivo DOC a través de Python

  1. API de referencia dentro del proyecto directamente desde PyPI ( Aspose.Words )
  2. Imágenes almacenadas en nodos de forma del objeto Documento
  3. Para seleccionar todos los nodos de forma, utilice el método Document.get_child_nodes
  4. Recorrer las colecciones de nodos resultantes
  5. Si Shape.has_image devuelve verdadero.
  6. Utilice la propiedad Shape.image_data para extraer datos de la imagen.
  7. Guardar datos de imagen en un archivo
 

Ejemplo de código en Python para extraer imágenes de documentos DOC

 
 

Desarrollar una aplicación de análisis de archivos DOC a través de Python

¿Necesita desarrollar una aplicación o utilidad de análisis DOC?Dado que Aspose.Words for Python via .NET es una API secundaria de Aspose.Total for Python via .NET , cualquier desarrollador de Python puede integrar el código API anterior en su aplicación de análisis de documentos.La potente biblioteca Python permite programar cualquier solución de análisis de documentos para extraer imágenes y texto.Además, puede admitir muchos formatos populares, incluido el formato DOC.

Utilidad Python para procesar archivos DOC para la aplicación de análisis

Existen opciones alternativas para instalar “ Aspose.Words for Python via .NET ” o “ Aspose.Total for Python via .NET ” en su sistema.Elija uno que se adapte a sus necesidades y siga las instrucciones paso a paso:

Requisitos del sistema

  • Python 3.5 o posterior está instalado
  • Bibliotecas de tiempo de ejecución GCC-6 (o posteriores).
  • Dependencias de .NET Core Runtime. NO es necesario instalar .NET Core Runtime.
  • Para Python 3.5-3.7: se necesita la compilación pymalloc de Python.

    Para obtener más detalles, consulte Documentación del producto .

Preguntas frecuentes

  • ¿Puedo usar el código Python anterior en mi aplicación?
    Sí, puede descargar este código y utilizarlo con el fin de desarrollar una aplicación de análisis de documentos basada en Python.Este código puede servir como un recurso valioso para mejorar la funcionalidad y las capacidades de sus proyectos en el dominio del procesamiento de documentos backend, como leer nodos y cargar el documento para la extracción de texto e imágenes.
  • ¿Esta aplicación de análisis de documentos en línea funciona solo en Windows?
    Tiene la flexibilidad de iniciar el análisis de documentos en cualquier dispositivo, independientemente del sistema operativo en el que se ejecute, ya sea Windows, Linux, Mac OS o Android.Todo lo que se requiere es un navegador web moderno y una conexión a Internet activa.
  • ¿Es seguro utilizar la aplicación en línea para analizar documentos DOC?
    ¡Por supuesto! Los archivos de salida generados a través de nuestro servicio se eliminarán de forma segura y automática de nuestros servidores en un plazo de 24 horas.Como resultado, los enlaces de visualización asociados con estos archivos dejarán de funcionar después de este período.
  • ¿Qué navegador debería utilizar la aplicación?
    Puede utilizar cualquier navegador web moderno como Google Chrome, Firefox, Opera o Safari para el analizador de documentos DOC en línea.Sin embargo, si está desarrollando una aplicación de escritorio, le recomendamos utilizar la API de procesamiento de documentos Aspose.Total para una gestión eficiente.

Explorar Analizador de archivos Opciones con Python

Analizar gramaticalmente DOC Archivos (Formato binario de Microsoft Word)
Analizar gramaticalmente DOCX Archivos (Documento de Word de Office 2007+)
Analizar gramaticalmente DOT Archivos (Archivos de plantilla de Microsoft Word)
Analizar gramaticalmente DOTX Archivos (Archivo de plantilla de Microsoft Word)
Analizar gramaticalmente ODP Archivos (Formato de presentación de OpenDocument)
Analizar gramaticalmente ODT Archivos (Formato de archivo de texto de OpenDocument)
Analizar gramaticalmente OTT Archivos (Plantilla de documento abierto)
Analizar gramaticalmente PDF Archivos (Formato de Documento Portable)
Analizar gramaticalmente PPT Archivos (Presentación de Powerpoint)
Analizar gramaticalmente PPTX Archivos (Formato de presentación XML abierto)
Analizar gramaticalmente RTF Archivos (Formato de texto enriquecido)
Analizar gramaticalmente WORD Archivos (Formatos de archivo de procesamiento de textos)