Java で PDF を抽出

Java ライブラリを使用して PDF からテキストと画像を抽出する方法

Parser で最もよく使われるアクション

Java ライブラリを使用して PDF を抽出する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような Java ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を抽出したりできます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの Java 開発者のあらゆるニーズに応えます。

  • PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出
  • PDF からテキストを抽出
  • PDF から画像を抽出
  • PDF からフォントを抽出
  • フォームからデータを抽出
  • スタンプからテキストを抽出
  • テーブルからデータを抽出

PDF ファイルを抽出するには、Aspose.PDF for Java API を使用します。これは Java プラットフォーム向けの機能豊富で強力で使いやすい変換 API です。最新バージョンを Maven から直接ダウンロードし、pom.xml に以下の設定を追加することで Maven ベースのプロジェクトにインストールできます。

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Java 経由で PDF を解析


ご使用の環境でコードを試すには、Aspose.PDF for Java が必要です。

1。Document のインスタンスを持つ PDF を読み込みます。 1。テキストを抽出する TextAbsorber オブジェクトを作成します。 1。すべてのページの吸収材を受け入れます。 1。抽出したテキストを取得する 1。ライターを作成してファイルを開き、ファイルにテキスト行を書き込みます

PDF ファイルの抽出-Java

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

Java API の Aspose.PDF について

Aspose.PDF for Java API は、開発者がアプリケーションに PDF 処理機能を追加できるようにするライブラリです。これを使用すると、Adobe Acrobat を使用せずに PDF ファイルを生成、読み取り、変換、操作するためのあらゆるタイプの 32 ビットおよび 64 ビットアプリケーションを構築できます。Aspose.PDF for Java を使用すると、開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF 文書に挿入できます。さらに、PDF を圧縮することもできます。Aspose.PDF for Java は、安全な PDF ファイルを開発するための優れたセキュリティ機能を備えています。

Aspose.PDF for Java API の詳細については、API の使用方法に関する ドキュメントサンプル を参照してください。Aspose.PDF for Java API の主な機能には、HTML、XFA、TXT、PCL、XML、XPS、および画像ファイル形式を含むさまざまなファイル形式のサポート、さまざまな PDF バージョンのサポート、および広範なハイパーリンク機能などがあります。