แยกไฟล์ PDF ผ่าน Java

วิธีการดึงข้อความและภาพจาก PDF โดยใช้ห้องสมุด Java

การดำเนินการยอดนิยมกับ Parser

วิธีแยกวิเคราะห์ PDF ด้วยไลบรารี Java

คุณจำเป็นต้องแยกไฟล์ PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยด้วยห้องสมุด Java เช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDF หรือดึงภาพจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องใช้ซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนา Java มืออาชีพ

  • ดึงข้อมูล PDF: ข้อความ, ภาพ, รูปแบบ, ฟิลด์, ฯลฯ
  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงไฟล์ PDF เราจะใช้ Aspose.PDF for Java API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API แปลงสำหรับแพลตฟอร์ม Javaคุณสามารถดาวน์โหลดรุ่นล่าสุดได้โดยตรงจาก Maven และติดตั้งภายในโครงการ Maven ตามของคุณโดยการเพิ่มการกำหนดค่าต่อไปนี้เพื่อpom.xml

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

แยกวิเคราะห์ไฟล์ PDF ผ่าน Java


คุณจำเป็นต้อง Aspose.PDF forห้องสมุด Java เพื่อลองรหัสในสภาพแวดล้อมของคุณ

1.โหลด PDF ด้วยอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextAbsorber เพื่อแยกข้อความ 1.ยอมรับตัวดูดซับสำหรับทุกหน้า 1.รับข้อความที่แยกออกมา 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดข้อความลงในไฟล์

สารสกัดจากไฟล์ PDF - Java

ตัวอย่างโค้ดนี้จะแสดงวิธีการแยกเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:

document
com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document("sample.pdf");

e TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();

t the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);

he extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter("extracted-text.txt", true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

เกี่ยวกับ Aspose.PDF for Java API

Aspose.PDF สำหรับ Java API เป็นไลบรารีที่ช่วยให้นักพัฒนาสามารถเพิ่มความสามารถในการประมวลผล PDF ให้กับแอปพลิเคชันของพวกเขาสามารถใช้เพื่อสร้างแอปพลิเคชัน 32 บิตและ 64 บิตทุกประเภทเพื่อสร้างหรืออ่านแปลงและจัดการไฟล์ PDF โดยไม่ต้องใช้ Adobe AcrobatAspose.PDF สำหรับ Java ช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพไฮเปอร์ลิงก์แบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัด PDFAspose.PDF สำหรับ Java มีคุณสมบัติความปลอดภัยที่ยอดเยี่ยมในการพัฒนาไฟล์ PDF ที่ปลอดภัย

คุณสามารถดูข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Java API ได้ที่ เอกสาร และ ตัวอย่าง เกี่ยวกับวิธีใช้ APIคุณสมบัติที่สำคัญบางอย่างของ Aspose.PDF สำหรับ Java API รวมถึงการสนับสนุนรูปแบบไฟล์ต่างๆ รวมถึง HTML, XFA, TXT, PCL, XML, XPS และรูปแบบไฟล์ภาพ รองรับ PDF เวอร์ชันต่างๆ และฟังก์ชันการเชื่อมโยงไฮเปอร์ลิงก์ที่กว้างขวาง