Converter PDF em DOCX em C#
Execute o reconhecimento óptico de caracteres no documento PDF e salve o texto como documento PDF usando a biblioteca Aspose.OCR fro .NET.
Como converter PDF para DOCX usando C#
Aspose.OCR para .NET é uma biblioteca poderosa, mas fácil de usar e econômica para converter imagens PDF em documentos DOCX. Suportando 26 idiomas baseados em latim, cirílico e chinês, seu mecanismo de reconhecimento óptico de caracteres de última geração fornece velocidade e precisão de reconhecimento superiores, enquanto isola você de fórmulas, redes neurais e outros detalhes técnicos complexos. Ele permite que você adicione a funcionalidade OCR aos seus aplicativos .NET em menos de 10 linhas de código.
processa imagens digitalizadas ou até mesmo fotos de smartphones no formato PDF e cria documentos PDF contendo texto reconhecido. Para adicioná-lo ao seu projeto, você só precisa instalar o Aspose.OCR
package em seu projeto com o seguinte comando:
Package Manager Console Command
PM> Install-Package Aspose.OCR
Etapas para converter PDF em DOCX
Com o OCR .NET e apenas algumas linhas de código, você pode criar um aplicativo completo que converte uma imagem PDF em um documento DOCX:
- Crie uma instância da classe AsposeOcr
- Chamar o método AsposeOCR.RecognizeImage
- Passe o caminho do arquivo PDF como parâmetro
- AsposeOCR.RecognizeImage retorna uma String ou arquivo do tipo DOCX
Requisitos de sistema
Antes de executar o exemplo, certifique-se de que a API .NET compatível com a especificação NET Standard 2.0 esteja instalada em seu sistema e todas as [dependências externas]( https://docs.aspose.com/ocr/net/system-requirements/#external- dependencies) do pacote Aspose.OCR são referenciados em seu projeto.
- Solução compatível com NET Standard 2.0+
- Aspose.OCR para .NET referenciado em seu projeto.
Este código de amostra mostra a conversão de PDF para DOCX .NET
// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.DOCX", riText);
PDF O que é PDF Formato de arquivo
Portable Document Format (PDF) é um tipo de documento criado pela Adobe na década de 1990. O objetivo deste formato de arquivo foi introduzir um padrão para representação de documentos e outros materiais de referência em um formato independente do software aplicativo, hardware e sistema operacional. O formato de arquivo PDF tem capacidade total para conter informações como texto, imagens, hiperlinks, campos de formulário, rich media, assinaturas digitais, anexos, metadados, recursos geoespaciais e objetos 3D que podem se tornar parte do documento de origem.
consulte Mais informaçãoDOCX O que é DOCX Formato de arquivo
DOCX é um formato bem conhecido para documentos do Microsoft Word. Introduzido a partir de 2007 com o lançamento do Microsoft Office 2007, a estrutura desse novo formato de documento foi alterada de binário simples para uma combinação de arquivos XML e binários. Os arquivos Docx podem ser abertos com o Word 2007 e versões laterais, mas não com as versões anteriores do MS Word que suportam extensões de arquivo DOC.
consulte Mais informaçãoOutras conversões compatíveis
Usando C#, pode-se converter facilmente diferentes formatos, incluindo.