ดึงข้อความจาก PDF ใน Java

วิธีแยกข้อความจาก PDF โดยใช้ Java

วิธีแยกข้อความจาก PDF โดยใช้เครื่องมือ Java

คุณจำเป็นต้องดึงข้อความจาก PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยกับห้องสมุด Java เช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องใช้ซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมทุกความต้องการที่เป็นไปได้ของนักพัฒนา Java มืออาชีพ

  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงข้อความจากไฟล์ PDF เราจะใช้ Aspose.PDF for Java API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API แปลงสำหรับแพลตฟอร์ม Javaคุณสามารถดาวน์โหลดรุ่นล่าสุดได้โดยตรงจาก Maven และติดตั้งภายในโครงการ Maven ตามของคุณโดยการเพิ่มการกำหนดค่าต่อไปนี้เพื่อpom.xml

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

ดึงข้อความจาก PDF ใน Java


คุณจำเป็นต้อง Aspose.PDF for Java เพื่อลองรหัสในสภาพแวดล้อมของคุณ

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextTabSorber เพื่อดึงข้อความ 1.ยอมรับโช้คสำหรับทุกหน้า 1.ได้รับข้อความที่สกัด 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดของข้อความไปยังแฟ้ม

ดึงข้อความจาก PDF - Java

ตัวอย่างโค้ดนี้จะแสดงวิธีการดึงข้อความจากเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:

    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

เกี่ยวกับ Aspose.PDF สำหรับ Java API

Aspose.PDF สำหรับ Java API เป็นไลบรารีที่ช่วยให้นักพัฒนาสามารถเพิ่มความสามารถในการประมวลผล PDF ให้กับแอปพลิเคชันของพวกเขาสามารถใช้เพื่อสร้างแอปพลิเคชัน 32 บิตและ 64 บิตทุกประเภทเพื่อสร้างหรืออ่านแปลงและจัดการไฟล์ PDF โดยไม่ต้องใช้ Adobe AcrobatAspose.PDF สำหรับ Java ช่วยให้นักพัฒนาสามารถแทรกตารางกราฟรูปภาพไฮเปอร์ลิงก์แบบอักษรที่กำหนดเองและอื่น ๆ ลงในเอกสาร PDFนอกจากนี้ยังเป็นไปได้ที่จะบีบอัด PDFAspose.PDF สำหรับ Java มีคุณสมบัติความปลอดภัยที่ยอดเยี่ยมในการพัฒนาไฟล์ PDF ที่ปลอดภัย

คุณสามารถดูข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.PDF สำหรับ Java API ได้ที่ เอกสาร และ ตัวอย่าง เกี่ยวกับวิธีใช้ APIคุณสมบัติที่สำคัญบางอย่างของ Aspose.PDF สำหรับ Java API รวมถึงการสนับสนุนรูปแบบไฟล์ต่างๆ รวมถึง HTML, XFA, TXT, PCL, XML, XPS และรูปแบบไฟล์ภาพ รองรับ PDF เวอร์ชันต่างๆ และฟังก์ชันการเชื่อมโยงไฮเปอร์ลิงก์ที่กว้างขวาง