สารสกัดจาก PDF ใน Java

วิธีการดึงข้อความและภาพจาก PDF โดยใช้ห้องสมุด Java

การดำเนินการยอดนิยมกับ Parser

วิธีการแยกไฟล์ PDF ที่มี Java ไลบรารี

คุณจำเป็นต้องแยกไฟล์ PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยด้วยห้องสมุด Java เช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDF หรือดึงภาพจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องใช้ซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนา Java มืออาชีพ

  • ดึงข้อมูล PDF: ข้อความ, ภาพ, รูปแบบ, ฟิลด์, ฯลฯ
  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงไฟล์ PDF เราจะใช้ Aspose.PDF for Java API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API แปลงสำหรับแพลตฟอร์ม Javaคุณสามารถดาวน์โหลดรุ่นล่าสุดได้โดยตรงจาก Maven และติดตั้งภายในโครงการ Maven ตามของคุณโดยการเพิ่มการกำหนดค่าต่อไปนี้เพื่อpom.xml

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

แยกวิเคราะห์ไฟล์ PDF ผ่าน Java


คุณจำเป็นต้อง Aspose.PDF forห้องสมุด Java เพื่อลองรหัสในสภาพแวดล้อมของคุณ

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextTabSorber เพื่อดึงข้อความ 1.ยอมรับโช้คสำหรับทุกหน้า 1.ได้รับข้อความที่สกัด 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดของข้อความไปยังแฟ้ม

สารสกัดจากไฟล์ PDF - Java

ตัวอย่างโค้ดนี้จะแสดงวิธีการแยกเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

เกี่ยวกับ Aspose.PDF สำหรับ Java API

Aspose.PDF สำหรับ Java API เป็นห้องสมุดที่ช่วยให้นักพัฒนาเพื่อเพิ่มความสามารถในการประมวลผล PDF เพื่อการใช้งานของพวกเขามันสามารถใช้ในการสร้างชนิดของโปรแกรม 32 บิตและ 64 บิตใด ๆ เพื่อสร้างหรืออ่าน, แปลงและจัดการไฟล์ PDF โดยไม่ต้องใช้ Adobe AcrobatAspose.PDF สำหรับ Java ช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพเชื่อมโยงหลายมิติแบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัด PDFAspose.PDF สำหรับ Java มีคุณลักษณะด้านความปลอดภัยที่ยอดเยี่ยมในการพัฒนาไฟล์ PDF ที่ปลอดภัย

คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Java API บน เอกสาร และ ตัวอย่าง เกี่ยวกับวิธีการใช้ APIบางส่วนของคุณสมบัติที่สำคัญของ Aspose.PDF สำหรับ Java API รวมถึงการสนับสนุนสำหรับรูปแบบไฟล์ต่าง ๆ รวมทั้ง HTML, XFA, TXT, PCL, XML, XPS และรูปแบบไฟล์ภาพการสนับสนุนสำหรับรุ่น PDF ต่างๆและการทำงานเชื่อมโยงหลายมิติที่กว้างขวาง