PDF’yi C# aracılığıyla ayıklayın

.NET Kütüphane Kullanarak PDF’den metin ve görüntü ayıklama

Parser ile en popüler eylem

PDF .NET Kitaplığı ile nasıl ayrıştırılır

Bir PDF çıkarmanız gerekiyor mu? PDF belgelerinin programlı olarak değiştirilmesi, modern dijital iş akışlarının önemli bir parçasıdır. Aspose.PDF gibi.NET kütüphaneleri ile geliştiriciler PDF’den metin ayıklayabilir veya PDF’den resim çekebilir. Bu kütüphaneler, diğer yazılımlara güvenmeyen ve ticari kullanıma hazır bağımsız çözümlerdir. Profesyonel C# geliştiricilerin tüm olası ihtiyaçlarını karşılamaktadır.

  • PDF verilerini ayıklayın: metinler, resimler, formlar, alanlar vb.
  • PDF’den metin ayıklayın
  • PDF’den Görüntüleri Çıkarın
  • PDF’den Yazı Tiplerini Çıkarın
  • Formdan Verileri Çıkarın
  • Pullardan Metin Çıkarın
  • Tablodan Verileri Çıkarın

PDF dosyasını ayıklamak için, net platformu için zengin özelliklere sahip, güçlü ve kullanımı kolay bir belge işleme API’si olan Aspose.PDF for .NET API’sini kullanacağız. NuGet paket yöneticisini açın, Aspose.pdf öğesini arayın ve yükleyin. Paket Yöneticisi Konsolu’ndan aşağıdaki komutu da kullanabilirsiniz.

Package Manager Console

PM > Install-Package Aspose.PDF

PDF’yi C# aracılığıyla ayrıştırın


Kodu ortamınızda denemek için ihtiyacınız var Aspose.PDF for .NET.

  1. PDF’yi bir Document örneğiyle yükleyin.
  2. Metin ayıklamak için bir TextAbSorber nesnesi oluşturun.
  3. Tüm sayfalar için emiciyi kabul edin.
  4. Çıkarılan metni alın
  5. Bir yazar oluşturun ve dosyayı açın, dosyaya bir satır metin yazın

PDF Dosyalarını Ayıkla - C#

Bu örnek kod, PDF belgelerinin nasıl çıkarılacağını gösterir

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

.NET API için Aspose.PDF Hakkında

.NET API için Aspose.PDF, PDF dosyalarıyla çalışmak için çok çeşitli özellikler sunar. Bazı özellikler şunları içerir:

  • Sıfırdan veya HTML, XML veya görüntülerden PDF belgeleri oluşturun.
  • Sayfa, metin, resim ve diğer içerikleri ekleyerek veya kaldırarak mevcut PDF belgelerini düzenleyin.
  • PDF belgelerini HTML, XML ve görüntüler gibi diğer biçimlere dönüştürün.
  • PDF belgelerini görüntülere veya XPS formatına dönüştürün.
  • PDF belgelerini doğrudan uygulamanızdan yazdırın.
  • PDF belgelerini dijital olarak imzalayın.

C# API için Aspose.PDF hakkında daha fazla bilgiyi bu [Aspose belgelerinde] bulabilirsiniz (https://docs.aspose.com/pdf/net/)