Анализ файла ODT онлайн, а также извлечение текста или изображений с помощью Python
Разработайте мощное приложение для анализа документов ODT на основе Python.Перечислен код для изображений документов ODT и извлечения текста с помощью Python.
Анализ документа ODT через онлайн-приложение
- Импортируйте файл ODT для анализа, загрузив его.
- Сделайте это, щелкнув внутри области перетаскивания с помощью приложения синтаксического анализатора.
- В зависимости от размера файла ODT и скорости Интернета подождите несколько секунд.
- Нажмите кнопку «Разобрать сейчас», чтобы проанализировать документ.
- Загрузите проанализированные файлы для мгновенного просмотра.
Извлечь текст из файла ODT с помощью Python
- Ссылочные API внутри проекта непосредственно из PyPI ( Aspose.Words ).
- Определите узлы для включения в процесс извлечения текста
- Включить или исключить первый и последний узлы
- Извлечь содержимое в указанных узлах
- Создайте отдельный документ ODT для извлеченного текста.
- Код, указанный в функции extract_content.
Пример кода на Python для извлечения текста документа ODT
def extract_content(startNode : aw.Node, endNode : aw.Node, isInclusive : bool): | |
verify_parameter_nodes(startNode, endNode) | |
nodes = [] | |
if (endNode.node_type == aw.NodeType.COMMENT_RANGE_END and isInclusive) : | |
node = find_next_node(aw.NodeType.COMMENT, endNode.next_sibling) | |
if (node != None) : | |
endNode = node | |
originalStartNode = startNode | |
originalEndNode = endNode | |
startNode = get_ancestor_in_body(startNode) | |
endNode = get_ancestor_in_body(endNode) | |
isExtracting = True | |
isStartingNode = True | |
currNode = startNode | |
while (isExtracting) : | |
cloneNode = currNode.clone(True) | |
isEndingNode = currNode == endNode | |
if (isStartingNode or isEndingNode) : | |
if (isEndingNode) : | |
process_marker(cloneNode, nodes, originalEndNode, currNode, isInclusive, False, not isStartingNode, False) | |
isExtracting = False | |
if (isStartingNode) : | |
process_marker(cloneNode, nodes, originalStartNode, currNode, isInclusive, True, True, False) | |
isStartingNode = False | |
else : | |
nodes.append(cloneNode) | |
if (currNode.next_sibling == None and isExtracting) : | |
nextSection = currNode.get_ancestor(aw.NodeType.SECTION).next_sibling.as_section() | |
currNode = nextSection.body.first_child | |
else : | |
currNode = currNode.next_sibling | |
if (isInclusive and originalEndNode == endNode and not originalEndNode.is_composite) : | |
include_next_paragraph(endNode, nodes) | |
return nodes |
Извлечение изображений из файла ODT с помощью Python
- Ссылочные API внутри проекта непосредственно из PyPI ( Aspose.Words ).
- Изображения, хранящиеся в узлах Shape объекта Document.
- Чтобы выбрать все узлы фигуры, используйте метод Document.get_child_nodes.
- Перебирать полученные коллекции узлов.
- Если Shape.has_image возвращает true.
- Используйте свойство Shape.image_data для извлечения данных изображения.
- Сохранение данных изображения в файл
Пример кода на Python для извлечения изображений документа ODT
doc = aw.Document(docs_base.my_dir + "sourcefile.docx") | |
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True) | |
imageIndex = 0 | |
for shape in shapes : | |
shape = shape.as_shape() | |
if (shape.has_image) : | |
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}" | |
shape.image_data.save(docs_base.artifacts_dir + imageFileName) | |
imageIndex += 1 |
Разработка приложения для анализа файлов ODT с помощью Python
Вам нужно разработать приложение или утилиту для анализатора ODT?Благодаря тому, что
Aspose.Words for Python via .NET
является дочерним API
Aspose.Total for Python via .NET
, любой разработчик Python может интегрировать приведенный выше код API в свое приложение для анализа документов.Мощная библиотека Python позволяет программировать любое решение для анализа документов для извлечения изображений, а также текста.Более того, он может поддерживать многие популярные форматы, включая формат ODT.
Утилита Python для обработки файла ODT для приложения синтаксического анализатора
Существуют альтернативные варианты установки «
Aspose.Words for Python via .NET
» или «
Aspose.Total for Python via .NET
» в вашу систему.Пожалуйста, выберите тот, который соответствует вашим потребностям, и следуйте пошаговым инструкциям:
- Установить Aspose.Words for Python via .NET из PyPI
- Или используйте следующие команды pip
pip install aspose.words
.
Системные Требования
- Установлен Python 3.5 или новее.
- Библиотеки времени выполнения GCC-6 (или более поздних версий).
- Зависимости среды выполнения .NET Core. Установка самой среды выполнения .NET Core НЕ требуется.
- Для Python 3.5–3.7: необходима сборка Python pymalloc.
Для получения более подробной информации обратитесь к Документация продукта .
Часто задаваемые вопросы
- Могу ли я использовать приведенный выше код Python в своем приложении?Да, вы можете скачать этот код и использовать его для разработки приложения для анализа документов на основе Python.Этот код может служить ценным ресурсом для улучшения функциональности и возможностей ваших проектов в области внутренней обработки документов, такой как чтение узлов и загрузка документа для извлечения текста и изображений.
- Это приложение для онлайн-анализа документов работает только в Windows?У вас есть возможность инициировать анализ документов на любом устройстве, независимо от того, в какой операционной системе оно работает, будь то Windows, Linux, Mac OS или Android.Все, что требуется, — это современный веб-браузер и активное подключение к Интернету.
- Безопасно ли использовать онлайн-приложение для анализа документа ODT?Конечно! Выходные файлы, созданные с помощью нашей службы, будут безопасно и автоматически удалены с наших серверов в течение 24 часов.В результате по истечении этого периода отображаемые ссылки, связанные с этими файлами, перестанут работать.
- В каком браузере следует использовать приложение?Вы можете использовать любой современный веб-браузер, например Google Chrome, Firefox, Opera или Safari, для онлайн-анализатора документов ODT.Однако, если вы разрабатываете настольное приложение, мы рекомендуем использовать API обработки документов Aspose.Total для эффективного управления.