C# 에서 PDF에서 텍스트 추출

.NET 라이브러리를 사용하여 PDF에서 텍스트를 추출하는 방법

.NET 라이브러리를 사용하여 PDF에서 텍스트를 추출하는 방법

PDF에서 텍스트를 추출해야 합니까?PDF 문서를 프로그래밍 방식으로 수정하는 것은 현대 디지털 워크플로우의 필수적인 부분입니다.Aspose.PDF 같은.NET 라이브러리를 사용하면 개발자가 PDF에서 텍스트를 추출할 수 있습니다.이러한 라이브러리는 다른 소프트웨어를 사용하지 않고 상업적으로 사용할 수 있는 독립 실행형 솔루션입니다.전문 C# 개발자의 가능한 모든 요구 사항을 충족합니다.

  • PDF에서 텍스트 추출
  • PDF에서 이미지 추출
  • PDF에서 글꼴 추출
  • 양식에서 데이터 추출
  • 스탬프에서 텍스트 추출
  • 테이블에서 데이터 추출

PDF 파일에서 텍스트를 추출하기 위해 net 플랫폼용 기능이 풍부하고 강력하며 사용하기 쉬운 Aspose.PDF for .NET API를 사용합니다.NuGet 패키지 관리자를 열고 Aspose.pdf를 검색하여 설치합니다.패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.

Package Manager Console

PM > Install-Package Aspose.PDF

C# 에서 PDF에서 텍스트 추출


사용자 환경에서 코드를 사용해 보려면 Aspose.PDF for .NET 이 필요합니다.

1.문서 인스턴스와 함께 PDF를 로드합니다. 1.텍스트를 추출하는 TextAbsorber 객체를 생성합니다. 1.모든 페이지에 흡수 장치를 사용하십시오. 1.추출된 텍스트 가져오기 1.라이터 생성 및 파일 열기, 파일에 텍스트 한 줄 쓰기

PDF에서 텍스트 추출 - C#

이 샘플 코드는 PDF 문서에서 텍스트를 추출하는 방법을 보여줍니다.

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

.NET API용 Aspose.PDF 정보

.NET API용 Aspose.PDF 는 PDF 파일 작업을 위한 다양한 기능을 제공합니다.일부 기능은 다음과 같습니다.

  • 처음부터 또는 HTML, XML 또는 이미지로 PDF 문서를 만들 수 있습니다.
  • 페이지, 텍스트, 이미지 및 기타 콘텐츠를 추가하거나 제거하여 기존 PDF 문서를 편집합니다.
  • PDF 문서를 HTML, XML 및 이미지와 같은 다른 형식으로 변환합니다.
  • PDF 문서를 이미지 또는 XPS 형식으로 렌더링합니다.
  • 애플리케이션에서 직접 PDF 문서를 인쇄합니다.
  • PDF 문서에 디지털 서명.

C# API용 Aspose.PDF 에 대한 자세한 내용은 이 Aspose 설명서 에서 확인할 수 있습니다.