PDF’yi Java içinde ayıklayın

Java Kütüphane Kullanarak PDF’den metin ve görüntü ayıklama

Parser ile en popüler eylem

Java Kütüphanesi ile PDF Nasıl Çıkarılır

PDF’yi çıkarmanız mı gerekiyor? PDF belgelerinin programatik olarak değiştirilmesi, modern dijital iş akışlarının önemli bir parçasıdır. Aspose.PDF gibi Java kütüphaneleri ile geliştiriciler PDF’den metin çıkarabilir veya PDF’den resim çıkarabilir. Bu kütüphaneler, diğer yazılımlara dayanmayan ve ticari kullanıma hazır bağımsız çözümlerdir. Profesyonel Java geliştiricilerinin tüm olası ihtiyaçlarını karşılar.

  • PDF verilerini ayıklayın: metinler, resimler, formlar, alanlar vb.
  • PDF’den metin ayıklayın
  • PDF’den Görüntüleri Ayıkla
  • PDF’den Yazı Tiplerini Çıkarın
  • Formdan Veri Ayıklayın
  • Pullardan Metin Ayıkla
  • Tablodan Veri Ayıkla

PDF dosyasını ayıklamak için, Java platformu için zengin özelliklere sahip, güçlü ve kullanımı kolay bir dönüştürme API’si olan Aspose.PDF for Java API’sini kullanacağız. En son sürümünü doğrudan Maven adresinden indirebilir ve aşağıdaki yapılandırmaları pom.xml dosyasına ekleyerek Maven tabanlı projenize yükleyebilirsiniz.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

PDF’yi Java aracılığıyla ayrıştırın


Ortamınızdaki kodu denemek için Java için Aspose.PDF gerekir.

  1. PDF’yi bir Belge örneğiyle yükleyin.
  2. Metin ayıklamak için TexTabsorber nesnesi oluşturun.
  3. Tüm sayfalar için emiciyi kabul edin.
  4. Çıkarılan metni alın
  5. Bir yazar oluşturun ve dosyayı açın, dosyaya bir metin satırı yazın

PDF Dosyalarını Ayıkla - Java

Bu örnek kod, PDF belgelerinin nasıl çıkarılacağını gösterir

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

Java API için Aspose.PDF Hakkında

Aspose.PDF for Java API, geliştiricilerin uygulamalarına PDF işleme yetenekleri eklemelerini sağlayan bir kütüphanedir. Adobe Acrobat kullanmadan PDF dosyalarını oluşturmak veya okumak, dönüştürmek ve işlemek için her türlü 32 bit ve 64 bit uygulama oluşturmak için kullanılabilir. Java için Aspose.PDF, geliştiricilerin PDF belgelerine tablolar, grafikler, resimler, köprüler, özel yazı tipleri ve daha fazlasını eklemesine olanak tanır. Ayrıca, PDF’yi sıkıştırmak da mümkündür. Aspose.PDF for Java, güvenli PDF dosyaları geliştirmek için mükemmel güvenlik özellikleri sağlar.

Java API için Aspose.PDF hakkında daha fazla bilgiyi dokümantasyon ve örnekler adreslerinde API’nin nasıl kullanılacağı hakkında bulabilirsiniz. Java API için Aspose.PDF temel özelliklerinden bazıları HTML, XFA, TXT, PCL, XML, XPS ve görüntü dosyası formatları, çeşitli PDF sürümleri için destek ve kapsamlı köprü işlevselliği dahil olmak üzere çeşitli dosya formatları için destek içerir.