PDF’yi Python içinde ayıklayın

Python for .NET Kütüphane Kullanarak PDF’den metin ve görüntü ayıklama

Parser ile en popüler eylem

Python for .NET Kütüphanesi ile PDF Nasıl Çıkarılır

PDF’yi çıkarmanız mı gerekiyor? PDF belgelerinin programatik olarak değiştirilmesi, modern dijital iş akışlarının önemli bir parçasıdır. Aspose.PDF gibi Python kütüphaneleri ile geliştiriciler PDF’den metin çıkarabilir veya PDF’den görüntü çıkarabilir. Bu kütüphaneler, diğer yazılımlara dayanmayan ve ticari kullanıma hazır bağımsız çözümlerdir. Profesyonel Python geliştiricilerinin olası tüm ihtiyaçlarını karşılar.

  • PDF verilerini ayıklayın: metinler, resimler, formlar, alanlar vb.
  • PDF’den metin ayıklayın
  • PDF’den Görüntüleri Ayıkla
  • PDF’den Yazı Tiplerini Çıkarın
  • Formdan Veri Ayıklayın
  • Pullardan Metin Ayıkla
  • Tablodan Veri Ayıkla

PDF dosyasını ayıklamak için, python-net platformu için zengin özelliklere sahip, güçlü ve kullanımı kolay bir belge işleme API’si olan .NET için Aspose.PDF API’sini kullanacağız. NuGet paket yöneticisini açın, Aspose.pdf dosyasını arayın ve yükleyin. Package Manager Console’dan aşağıdaki komutu da kullanabilirsiniz.

Python Package Manager Console

pip install aspose-pdf

PDF’yi Python aracılığıyla ayrıştırın


Kodu ortamınızda denemek için ihtiyacınız var Aspose.PDF for .NET.

  1. PDF’yi bir Belge örneğiyle yükleyin.
  2. Metin ayıklamak için TexTabsorber nesnesi oluşturun.
  3. Tüm sayfalar için emiciyi kabul edin.
  4. Çıkarılan metni alın
  5. Bir yazar oluşturun ve dosyayı açın, dosyaya bir metin satırı yazın

PDF Dosyalarını Ayıkla - Python

Bu örnek kod, PDF belgelerinin nasıl çıkarılacağını gösterir

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

Python for .NET API için Aspose.PDF Hakkında

.NET API aracılığıyla Python için Aspose.PDF, en köklü PDF standartlarını ve PDF özelliklerini destekler. Geliştiricilerin PDF belgelerine tablolar, grafikler, resimler, köprüler, özel yazı tipleri ve daha fazlasını eklemesine olanak tanır. Ayrıca, PDF belgelerini sıkıştırmak da mümkündür. .NET üzerinden Python için Aspose.PDF, güvenli PDF belgeleri geliştirmek için mükemmel güvenlik özellikleri sağlar. .NET API aracılığıyla Python için Aspose.PDF temel özelliklerinden bazıları şunlardır:

  • BMP, GIF, JPEG ve PNG dahil olmak üzere birden fazla görüntü formatında PDF’leri okuma ve dışa aktarma yeteneği.
  • PDF belgesinin temel bilgilerini (örn. yazar, yaratıcı) ayarlayın.
  • Dönüştürme Özellikleri: PDF’yi Word, Excel ve PowerPoint’e dönüştürün. PDF’yi Görüntü formatlarına dönüştürün. PDF dosyasını HTML formatına dönüştürün ve bunun tersi de geçerlidir. PDF’yi EPUB, Metin, XPS vb. Dönüştür.

Python için Aspose.PDF hakkında daha fazla bilgiyi API’nin nasıl kullanılacağına ilişkin dokümantasyon sayfamızda .NET API aracılığıyla bulabilirsiniz.