PDF’yi Python aracılığıyla ayıklayın

Python for .NET Kütüphane Kullanarak PDF’den metin ve görüntü ayıklama

C# Java C++ Python

Parser ile en popüler eylem

Metni Ayıkla

Görüntüleri Ayıkla

Yazı Tiplerini Ayıkla

PDF Python for .NET Kitaplığı ile nasıl ayrıştırılır

PDF’yi çıkarmanız mı gerekiyor? PDF belgelerinin programatik olarak değiştirilmesi, modern dijital iş akışlarının önemli bir parçasıdır. Aspose.PDF gibi Python kütüphaneleri ile geliştiriciler PDF’den metin çıkarabilir veya PDF’den görüntü çıkarabilir. Bu kütüphaneler, diğer yazılımlara dayanmayan ve ticari kullanıma hazır bağımsız çözümlerdir. Profesyonel Python geliştiricilerinin olası tüm ihtiyaçlarını karşılar.

PDF verilerini ayıklayın: metinler, resimler, formlar, alanlar vb.
PDF’den metin ayıklayın
PDF’den Görüntüleri Ayıkla
PDF’den Yazı Tiplerini Çıkarın
Formdan Veri Ayıklayın
Pullardan Metin Ayıkla
Tablodan Veri Ayıkla

PDF dosyasını ayıklamak için, python-net platformu için zengin özelliklere sahip, güçlü ve kullanımı kolay bir belge işleme API’si olan .NET için Aspose.PDF API’sini kullanacağız. NuGet paket yöneticisini açın, Aspose.PDF dosyasını arayın ve yükleyin. Package Manager Console’dan aşağıdaki komutu da kullanabilirsiniz.

Console

pip install aspose-pdf

PDF’yi Python aracılığıyla ayrıştırın

Kodu ortamınızda denemek için ihtiyacınız var Aspose.PDF for .NET.

PDF’yi bir Document örneğiyle yükleyin.
Metin ayıklamak için bir TextAbSorber nesnesi oluşturun.
Tüm sayfalar için emiciyi kabul edin.
Çıkarılan metni alın
Bir yazar oluşturun ve dosyayı açın, dosyaya bir satır metin yazın

PDF Dosyalarını Ayıkla - Python

Bu örnek kod, PDF belgelerinin nasıl çıkarılacağını gösterir

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
textAbsorber = apdf.text.TextAbsorber()

document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Aspose.PDF for Python for .NET API'si Hakkında

.NET API aracılığıyla Python için Aspose.PDF, en yerleşik PDF standartlarını ve PDF özelliklerini destekler. Geliştiricilerin PDF belgelerine tablolar, grafikler, resimler, köprüler, özel yazı tipleri ve daha fazlasını eklemelerine olanak tanır. Ayrıca, PDF belgelerini sıkıştırmak da mümkündür. .NET üzerinden Python için Aspose.PDF, güvenli PDF belgeleri geliştirmek için mükemmel güvenlik özellikleri sağlar. .NET API aracılığıyla Python için Aspose.PDF uygulamasının kritik özelliklerinden bazıları şunlardır:

PDF’yi BMP, GIF, JPEG ve PNG dahil olmak üzere birden fazla görüntü formatında okuma ve dışa aktarma yeteneği.
PDF belgesinin temel bilgilerini (örn. yazar, yaratıcı) ayarlayın.
Dönüştürme Özellikleri: PDF’yi Word, Excel ve PowerPoint’e Dönüştürün. PDF’yi Resim formatlarına dönüştürün. PDF dosyalarını HTML biçimine dönüştürün ve bunun tersi de geçerlidir. PDF’yi EPUB, Metin, XPS vb. dosyalara dönüştürün

API kullanımı hakkında, Python için Aspose.PDF hakkında .NET API aracılığıyla daha fazla bilgiyi dokümantasyon adresinde bulabilirsiniz.