Java 経由で PDF を抽出

Java ライブラリを使用して PDF からテキストと画像を抽出する方法

Parser で最もよく使われるアクション

Java ライブラリで PDF を解析する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような Java ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を抽出したりできます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの Java 開発者のあらゆるニーズに応えます。

  • PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出
  • PDF からテキストを抽出
  • PDF から画像を抽出
  • PDF からフォントを抽出
  • フォームからデータを抽出
  • スタンプからテキストを抽出
  • テーブルからデータを抽出

PDF ファイルを抽出するには、Aspose.PDF for Java API を使用します。これは Java プラットフォーム向けの機能豊富で強力で使いやすい変換 API です。最新バージョンを Maven から直接ダウンロードし、pom.xml に以下の設定を追加することで Maven ベースのプロジェクトにインストールできます。

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Java 経由で PDF を解析


ご使用の環境でコードを試すには、Aspose.PDF for Java が必要です。

1。PDF に Document のインスタンスをロードします。 1.TextAbsorber オブジェクトを作成してテキストを抽出します。 1.すべてのページのアブソーバーを受け入れます。 1.抽出したテキストを取得 1.ライターを作成してファイルを開き、ファイルに 1 行のテキストを書き込む

PDF ファイルの抽出-Java

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

Java API の Aspose.PDF について

Aspose.PDF for Java API は、開発者が PDF 処理機能をアプリケーションに追加できるようにするライブラリです。Adobe Acrobat を使用せずに、PDF ファイルの生成、読み取り、変換、操作を行うための 32 ビットおよび 64 ビットのあらゆるタイプのアプリケーションの構築に使用できます。Aspose.PDF for Java を使用すると、開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF 文書に挿入できます。さらに、PDF を圧縮することもできます。Aspose.PDF for Java は、安全な PDF ファイルを開発するための優れたセキュリティ機能を提供します。

Aspose.PDF for Java API の詳細については、API の使用方法に関する ドキュメント を参照してください。Aspose.PDF for Java API の重要な機能には、HTML、XFA、TXT、PCL、XML、XPS、画像ファイル形式など、さまざまなファイル形式のサポート、さまざまな PDF バージョンのサポート、広範なハイパーリンク機能などがあります。