PDF 文書抽出ソリューション

無料のクロスプラットフォームアプリとAPIでPDFドキュメントから画像やテキストを抽出

Asposeライブラリを使用してPDFファイルを解析する方法

なぜ PDF 文書の構文解析を使うのですか? PDF ファイルを解析するには、Aspose.PDF API を使用します。これは、機能が豊富で、強力で、使いやすいドキュメント操作 API です。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。Package Manager コンソールから次のコマンドを使用することもできます。PDF文書の解析は、PDFファイルからさまざまな種類の情報を抽出することに関連する用語です。PDF文書を解析してテキストと画像を抽出します。また、PDFをテキストと画像として分離するためにも。Aspose.PDF ライブラリを使用すると、PDF やスタンプからテキストを抽出したり、PDF から画像やフォントを抽出したり、テーブルやフォームからデータを抽出したりできます。

ドキュメントを解析するハイコード API .NET、.NET コア、Java、C++、アンドロイドを使用して PDF ファイルにネイティブ API

PDF ファイルを解析する

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();