HTML JPG OCR XML BMP
Aspose.OCR  para .NET
TXT

Converter PDF em TXT em C#

Execute o reconhecimento óptico de caracteres no documento PDF e salve o texto como documento PDF usando a biblioteca Aspose.OCR fro .NET.

Como converter PDF para TXT usando C#

Aspose.OCR para .NET é uma biblioteca poderosa, mas fácil de usar e econômica para converter imagens PDF em documentos TXT. Suportando 26 idiomas baseados em latim, cirílico e chinês, seu mecanismo de reconhecimento óptico de caracteres de última geração fornece velocidade e precisão de reconhecimento superiores, enquanto isola você de fórmulas, redes neurais e outros detalhes técnicos complexos. Ele permite que você adicione a funcionalidade OCR aos seus aplicativos .NET em menos de 10 linhas de código.

Aspose.OCR para .NET

processa imagens digitalizadas ou até mesmo fotos de smartphones no formato PDF e cria documentos PDF contendo texto reconhecido. Para adicioná-lo ao seu projeto, você só precisa instalar o Aspose.OCR

NuGet

package em seu projeto com o seguinte comando:

Package Manager Console Command


  PM> Install-Package Aspose.OCR

Etapas para converter PDF em TXT

Com o OCR .NET e apenas algumas linhas de código, você pode criar um aplicativo completo que converte uma imagem PDF em um documento TXT:

  • Crie uma instância da classe AsposeOcr
  • Chamar o método AsposeOCR.RecognizeImage
  • Passe o caminho do arquivo PDF como parâmetro
  • AsposeOCR.RecognizeImage retorna uma String ou arquivo do tipo TXT

Requisitos de sistema

Antes de executar o exemplo, certifique-se de que a API .NET compatível com a especificação NET Standard 2.0 esteja instalada em seu sistema e todas as [dependências externas]( https://docs.aspose.com/ocr/net/system-requirements/#external- dependencies) do pacote Aspose.OCR são referenciados em seu projeto.

  • Solução compatível com NET Standard 2.0+
  • Aspose.OCR para .NET referenciado em seu projeto.

Este código de amostra mostra a conversão de PDF para TXT .NET


// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.TXT", riText);
  • PDF O que é PDF Formato de arquivo

    Portable Document Format (PDF) é um tipo de documento criado pela Adobe na década de 1990. O objetivo deste formato de arquivo foi introduzir um padrão para representação de documentos e outros materiais de referência em um formato independente do software aplicativo, hardware e sistema operacional. O formato de arquivo PDF tem capacidade total para conter informações como texto, imagens, hiperlinks, campos de formulário, rich media, assinaturas digitais, anexos, metadados, recursos geoespaciais e objetos 3D que podem se tornar parte do documento de origem.

    consulte Mais informação

    TXT O que é TXT Formato de arquivo

    Um arquivo com extensão .TXT representa um documento de texto que contém texto simples na forma de linhas. Os parágrafos em um documento de texto são reconhecidos por retornos de carro e são usados ​​para melhor organização do conteúdo do arquivo. Um documento de texto padrão pode ser aberto em qualquer editor de texto ou aplicativo de processamento de texto em diferentes sistemas operacionais. Todo o texto contido em tal arquivo está em formato legível e representado por uma sequência de caracteres.

    consulte Mais informação

    Outras conversões compatíveis

    Usando C#, pode-se converter facilmente diferentes formatos, incluindo.

    TXT (Arquivo de documento de texto)
    Text (Arquivo de documento de texto)
    DOC (Documentos gerados pelo Microsoft Word)
    DOCX (Documentos do Microsoft Word)
    XLS (Formato de arquivo binário do Microsoft Excel)
    XLSX (Documentos do Microsoft Excel)
    PDF (Formato de Documento Portátil (PDF))
    Searchable PDF (Gráficos de rede portáteis pesquisáveis)
    XML (Extensible Markup Language)
    JSON (Notação de Objeto JavaScript)