PDF 문서 추출 솔루션

무료 크로스 플랫폼 앱 및 API를 사용하여 PDF 문서에서 이미지 및 텍스트 추출

Aspose 라이브러리를 사용하여 PDF 파일을 파싱하는 방법

PDF 문서 파싱을 사용하는 이유는 무엇입니까? PDF 파일을 분석하려면 기능이 풍부하고 강력하며 사용하기 쉬운 문서 조작 API인 Aspose.PDF API를 사용합니다.NuGet 패키지 관리자를 열고 Aspose.PDF 를 검색하여 설치합니다.패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.PDF 문서 구문 분석은 PDF 파일에서 다양한 종류의 정보를 추출하는 것과 관련된 용어입니다.PDF 문서를 구문 분석하여 텍스트와 이미지를 추출합니다.또한 PDF를 텍스트와 이미지로 분리하는 데 사용됩니다.Aspose.PDF 라이브러리를 사용하면 PDF 및 스탬프에서 텍스트를 추출하고, PDF에서 이미지와 글꼴을 추출하고, 테이블과 양식에서 데이터를 추출할 수 있습니다.

문서 분석을 위한 하이코드 API .NET, .NET 코어, 자마린, 자바, C++ 및 안드로이드를 사용하는 PDF 파일에 대한 네이티브 API

PDF 파일 구문 분석하기

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();