PDF’den metni Python içinde ayıklayın

Python for .NET Kitaplığı kullanarak PDF’den metin çıkarma

Python for .NET Kitaplığı kullanarak PDF'den metin nasıl çıkarılır

PDF’den metin çıkarmanız mı gerekiyor? PDF belgelerinin programlı olarak değiştirilmesi, modern dijital iş akışlarının önemli bir parçasıdır. Aspose.PDF gibi Python kütüphaneleri ile geliştiriciler PDF’den metin ayıklayabilir. Bu kütüphaneler, diğer yazılımlara dayanmayan ve ticari kullanıma hazır olan bağımsız çözümlerdir. Profesyonel Python geliştiricilerinin olası tüm ihtiyaçlarını karşılar.

  • PDF’den metin ayıklayın
  • PDF’den Görüntüleri Ayıkla
  • PDF’den Yazı Tiplerini Çıkarın
  • Formdan Veri Ayıklayın
  • Pullardan Metin Ayıkla
  • Tablodan Veri Ayıkla

PDF dosyasından metin ayıklamak için, python-net platformu için zengin özelliklere sahip, güçlü ve kullanımı kolay bir belge işleme API’si olan .NET için Aspose.PDF API’sini kullanacağız. NuGet paket yöneticisini açın, Aspose.pdf dosyasını arayın ve yükleyin. Package Manager Console’dan aşağıdaki komutu da kullanabilirsiniz.

Python Package Manager Console

pip install aspose-pdf

PDF’den metni Python içinde ayıklayın


Ortamınızdaki kodu denemek için Python için Aspose.PDF gerekir.

  1. PDF’yi bir Belge örneğiyle yükleyin.
  2. Metni ayıklamak için TextAbSorber nesnesi oluşturun.
  3. Tüm sayfalar için emiciyi kabul edin.
  4. Çıkarılan metni alın
  5. Bir yazar oluşturun ve dosyayı açın, dosyaya bir metin satırı yazın

PDF'den metin ayıklayın - Python

Bu örnek kod, PDF belgelerinden nasıl metin çıkarılacağını gösterir

Input file:

File not added

Output format:

PDF

Output file:

import aspose.pdf as ap 
# Open document
dataDir = "..."
document = ap.Document(dataDir + "sample.pdf")

# Create TextAbsorber object to extract text
textAbsorber = ap.text.TextAbsorber()
# Accept the absorber for all the pages
document.pages.accept(textAbsorber)
# Get the extracted text
extractedText = textAbsorber.text

with open('sample.txt', 'w') as f:
    f.write(extractedText)

Python for .NET API için Aspose.PDF Hakkında

.NET API aracılığıyla Python için Aspose.PDF, en yerleşik PDF standartlarını ve PDF özelliklerini destekler. Geliştiricilerin PDF belgelerine tablolar, grafikler, resimler, köprüler, özel yazı tipleri ve daha fazlasını eklemelerine olanak tanır. Ayrıca, PDF belgelerini sıkıştırmak da mümkündür. .NET üzerinden Python için Aspose.PDF, güvenli PDF belgeleri geliştirmek için mükemmel güvenlik özellikleri sağlar. .NET API aracılığıyla Python için Aspose.PDF uygulamasının kritik özelliklerinden bazıları şunlardır:

  • PDF’yi BMP, GIF, JPEG ve PNG dahil olmak üzere birden fazla görüntü formatında okuma ve dışa aktarma yeteneği.
  • PDF belgesinin temel bilgilerini (örn. yazar, yaratıcı) ayarlayın.
  • Dönüştürme Özellikleri: PDF’yi Word, Excel ve PowerPoint’e Dönüştürün. PDF’yi Resim formatlarına dönüştürün. PDF dosyalarını HTML biçimine dönüştürün ve bunun tersi de geçerlidir. PDF’yi EPUB, Metin, XPS vb. dosyalara dönüştürün

API kullanımı hakkında, Python için Aspose.PDF hakkında .NET API aracılığıyla daha fazla bilgiyi dokümantasyon adresinde bulabilirsiniz.