PDF’den metni Java içinde ayıklayın

Java kullanarak PDF’den metin nasıl çıkarılır

C# Java C++ Python

Java için Aspose.PDF kullanarak PDF'den metin nasıl çıkarılır

PDF’den metin çıkarmanız mı gerekiyor? PDF belgelerinin programlı olarak değiştirilmesi, modern dijital iş akışlarının önemli bir parçasıdır. Aspose.PDF gibi Java kütüphaneleri ile geliştiriciler PDF’den metin ayıklayabilir. Bu kütüphaneler, diğer yazılımlara dayanmayan ve ticari kullanıma hazır bağımsız çözümlerdir. Profesyonel Java geliştiricilerinin tüm olası ihtiyaçlarını karşılar.

PDF’den metin ayıklayın
PDF’den Görüntüleri Ayıkla
PDF’den Yazı Tiplerini Çıkarın
Formdan Veri Ayıklayın
Pullardan Metin Ayıkla
Tablodan Veri Ayıkla

PDF dosyasından metin ayıklamak için, Java platformu için zengin özelliklere sahip, güçlü ve kullanımı kolay bir dönüştürme API’si olan Aspose.PDF for Java API’sini kullanacağız. En son sürümünü doğrudan Maven adresinden indirebilir ve aşağıdaki yapılandırmaları pom.xml ’e ekleyerek Maven tabanlı projenize yükleyebilirsiniz.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

PDF’den metni Java içinde ayıklayın

Ortamınızdaki kodu denemek için Java için Aspose.PDF gerekir.

PDF’yi bir Belge örneğiyle yükleyin.
Metni ayıklamak için TextAbSorber nesnesi oluşturun.
Tüm sayfalar için emiciyi kabul edin.
Çıkarılan metni alın
Bir yazar oluşturun ve dosyayı açın, dosyaya bir metin satırı yazın

Java ile PDF'den metin ayıklayın

Bu örnek kod, PDF belgelerinden nasıl metin çıkarılacağını gösterir

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

// Open document
com.aspose.pdf.Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
// Create TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);
// Get the extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter(DATA_DIR.resolve("extracted-text.txt").toString(), true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

Aspose.PDF for Java API'si Hakkında

Java API için Aspose.PDF, geliştiricilerin uygulamalarına PDF işleme yetenekleri eklemelerini sağlayan bir kitaplıktır. Adobe Acrobat kullanmadan PDF dosyalarını oluşturmak veya okumak, dönüştürmek ve işlemek için her tür 32 bit ve 64 bit uygulama oluşturmak için kullanılabilir. Java için Aspose.PDF, geliştiricilerin PDF belgelerine tablolar, grafikler, resimler, köprüler, özel yazı tipleri ve daha fazlasını eklemelerine olanak tanır. Ayrıca, PDF’leri sıkıştırmak da mümkündür. Java için Aspose.PDF, güvenli PDF dosyaları geliştirmek için mükemmel güvenlik özellikleri sağlar.

Java API’si için Aspose.PDF hakkında daha fazla bilgiyi dokümantasyon ve API’nin nasıl kullanılacağı hakkında örnekler adresinde bulabilirsiniz. Aspose.PDF for Java API’sinin kritik özelliklerinden bazıları HTML, XFA, TXT, PCL, XML, XPS ve görüntü dosyası formatları dahil olmak üzere çeşitli dosya formatları için destek, farklı PDF sürümleri desteği ve kapsamlı köprü işlevselliği içerir.