Extrahieren Sie PDF über C#

So extrahieren Sie Text und Bilder aus PDF mithilfe der .NET Bibliothek

C# Java C++ Python

Die beliebteste Aktion mit Parser

Text extrahieren

Bilder extrahieren

Schriften extrahieren

So analysieren Sie PDF mit der .NET Library

Müssen Sie ein PDF extrahieren? Die programmatische Änderung von PDF-Dokumenten ist ein wesentlicher Bestandteil moderner digitaler Workflows. Mit .NET-Bibliotheken wie Aspose.PDF können Entwickler Text aus PDF extrahieren oder Bilder aus PDF abrufen. Bei diesen Bibliotheken handelt es sich um eigenständige Lösungen, die nicht auf andere Software angewiesen sind und für den kommerziellen Einsatz bereit sind. Sie decken alle möglichen Bedürfnisse professioneller C#-Entwickler ab.

Extrahieren Sie PDF-Daten: Texte, Bilder, Formulare, Felder usw.
Extrahieren Sie Text aus PDF
Extrahieren Sie Bilder aus PDF
Extrahieren Sie Schriften aus PDF
Extrahieren Sie Daten aus dem Formular
Text aus Stempeln extrahieren
Extrahieren Sie Daten aus der Tabelle

Zum Extrahieren der PDF-Datei verwenden wir die API Aspose.PDF for .NET, eine funktionsreiche, leistungsstarke und benutzerfreundliche API zur Dokumentenbearbeitung für die net -Plattform. Öffnen Sie den Paketmanager NuGet, suchen Sie nach Aspose.PDF und installieren Sie es. Sie können auch den folgenden Befehl von der Package Manager Console aus verwenden.

Package Manager Console

PM > Install-Package Aspose.PDF

Analysieren Sie PDF über C#

Um den Code in Ihrer Umgebung auszuprobieren, benötigen Sie Aspose.PDF for .NET.

Laden Sie das PDF mit einer Instanz von Document.
Erstellen Sie ein TextAbsorber-Objekt, um Text zu extrahieren.
Akzeptiere den Absorber für alle Seiten.
Holen Sie sich den extrahierten Text
Erstellen Sie einen Writer und öffnen Sie die Datei, schreiben Sie eine Textzeile in die Datei

Extrahieren Sie PDF-Dateien - C#

Dieser Beispielcode zeigt, wie PDF-Dokumente extrahiert werden

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

Über Aspose.PDF for .NET API

Aspose.PDF for .NET API bietet eine Vielzahl von Funktionen für die Arbeit mit PDF-Dateien. Einige der Funktionen umfassen:

Erstellen Sie PDF-Dokumente von Grund auf oder aus HTML, XML oder Bildern.
Bearbeiten Sie vorhandene PDF-Dokumente, indem Sie Seiten, Text, Bilder und andere Inhalte hinzufügen oder entfernen.
Konvertieren Sie PDF-Dokumente in andere Formate wie HTML, XML und Bilder.
Rendern Sie PDF-Dokumente in Bilder oder das XPS-Format.
Drucken Sie PDF-Dokumente direkt aus Ihrer Anwendung aus.
Signieren Sie PDF-Dokumente digital.

Weitere Informationen zu Aspose.PDF for die C#-API finden Sie in dieser Aspose-Dokumentation