Extrahieren Sie PDF in C#

So extrahieren Sie Text und Bilder aus PDF mithilfe der .NET Bibliothek

Die beliebteste Aktion mit Parser

So extrahieren Sie PDF mit der .NET -Bibliothek

Müssen Sie PDF extrahieren? Die programmatische Änderung von PDF-Dokumenten ist ein wesentlicher Bestandteil moderner digitaler Workflows. Mit .NET-Bibliotheken wie Aspose.PDF können Entwickler Text aus PDF oder Bilder aus PDF extrahieren. Diese Bibliotheken sind eigenständige Lösungen, die nicht auf andere Software angewiesen sind und für den kommerziellen Einsatz bereit sind. Sie decken alle möglichen Bedürfnisse professioneller C#-Entwickler ab.

  • Extrahieren Sie PDF-Daten: Texte, Bilder, Formulare, Felder usw.
  • Text aus PDF extrahieren
  • Extrahieren Sie Bilder aus PDF
  • Extrahieren Sie Schriften aus PDF
  • Daten aus dem Formular extrahieren
  • Text aus Briefmarken extrahieren
  • Daten aus einer Tabelle extrahieren

Um die PDF-Datei zu extrahieren, verwenden wir die API Aspose.PDF for .NET, eine funktionsreiche, leistungsstarke und benutzerfreundliche API zur Dokumentenbearbeitung für die Plattform net. Öffnen Sie den Paketmanager von NuGet, suchen Sie nachAspose.pdf und installieren Sie ihn. Sie können auch den folgenden Befehl von der Package Manager Console aus verwenden.

Package Manager Console

PM > Install-Package Aspose.PDF

Analysieren Sie PDF über C#


Um den Code in Ihrer Umgebung auszuprobieren, benötigen Sie Aspose.PDF for .NET.

  1. Laden Sie das PDF mit einer Instanz von Document.
  2. Erstellen Sie ein TextAbsorber-Objekt, um Text zu extrahieren.
  3. Akzeptieren Sie den Absorber für alle Seiten.
  4. Erhalte den extrahierten Text
  5. Erstellen Sie einen Writer und öffnen Sie die Datei, schreiben Sie eine Textzeile in die Datei

Extrahieren Sie PDF-Dateien - C#

Dieser Beispielcode zeigt, wie PDF-Dokumente extrahiert werden

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

Informationen zu Aspose.PDF für die .NET API

Aspose.PDF für die C#-API bietet eine Vielzahl von Funktionen für die Arbeit mit PDF-Dateien. Zu den Funktionen gehören:

  • Erstellen Sie PDF-Dokumente von Grund auf neu oder aus HTML, XML oder Bildern.
  • Bearbeiten Sie vorhandene PDF-Dokumente, indem Sie Seiten, Text, Bilder und andere Inhalte hinzufügen oder entfernen.
  • Konvertieren Sie PDF-Dokumente in andere Formate wie HTML, XML und Bilder.
  • Rendern Sie PDF-Dokumente in Bilder oder das XPS-Format.
  • Drucken Sie PDF-Dokumente direkt aus Ihrer Anwendung.
  • PDF-Dokumente digital signieren.

Weitere Informationen zu Aspose.PDF für die C#-API finden Sie in dieser Aspose-Dokumentation