แยกไฟล์ PDF ผ่าน Java

วิธีการดึงข้อความและภาพจาก PDF โดยใช้ห้องสมุด Java

การดำเนินการยอดนิยมกับ Parser

วิธีแยกวิเคราะห์ PDF ด้วยไลบรารี Java

คุณจำเป็นต้องแยกไฟล์ PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยด้วยห้องสมุด Java เช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDF หรือดึงภาพจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องใช้ซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนา Java มืออาชีพ

  • ดึงข้อมูล PDF: ข้อความ, ภาพ, รูปแบบ, ฟิลด์, ฯลฯ
  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงไฟล์ PDF เราจะใช้ Aspose.PDF for Java API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API แปลงสำหรับแพลตฟอร์ม Javaคุณสามารถดาวน์โหลดรุ่นล่าสุดได้โดยตรงจาก Maven และติดตั้งภายในโครงการ Maven ตามของคุณโดยการเพิ่มการกำหนดค่าต่อไปนี้เพื่อpom.xml

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

แยกวิเคราะห์ไฟล์ PDF ผ่าน Java


คุณจำเป็นต้อง Aspose.PDF forห้องสมุด Java เพื่อลองรหัสในสภาพแวดล้อมของคุณ

1.โหลด PDF ด้วยอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextAbsorber เพื่อแยกข้อความ 1.ยอมรับตัวดูดซับสำหรับทุกหน้า 1.รับข้อความที่แยกออกมา 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดข้อความลงในไฟล์

สารสกัดจากไฟล์ PDF - Java

ตัวอย่างโค้ดนี้จะแสดงวิธีการแยกเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

เกี่ยวกับ Aspose.PDF สำหรับ Java API

Aspose.PDF สำหรับ Java API เป็นไลบรารีที่ช่วยให้นักพัฒนาสามารถเพิ่มความสามารถในการประมวลผล PDF ให้กับแอปพลิเคชันของพวกเขาสามารถใช้เพื่อสร้างแอปพลิเคชัน 32 บิตและ 64 บิตทุกประเภทเพื่อสร้างหรืออ่านแปลงและจัดการไฟล์ PDF โดยไม่ต้องใช้ Adobe AcrobatAspose.PDF สำหรับ Java ช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพไฮเปอร์ลิงก์แบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัด PDFAspose.PDF สำหรับ Java มีคุณสมบัติความปลอดภัยที่ยอดเยี่ยมในการพัฒนาไฟล์ PDF ที่ปลอดภัย

คุณสามารถดูข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Java API ได้ที่ เอกสาร และ ตัวอย่าง เกี่ยวกับวิธีใช้ APIคุณสมบัติที่สำคัญบางอย่างของ Aspose.PDF สำหรับ Java API รวมถึงการสนับสนุนรูปแบบไฟล์ต่างๆ รวมถึง HTML, XFA, TXT, PCL, XML, XPS และรูปแบบไฟล์ภาพ รองรับ PDF เวอร์ชันต่างๆ และฟังก์ชันการเชื่อมโยงไฮเปอร์ลิงก์ที่กว้างขวาง