PDF-Extraktor

Extrahiere Bilder und Texte aus PDF-Dokumenten mit kostenlosen plattformübergreifenden Apps und APIs

So analysieren Sie eine PDF-Datei mit der Aspose-Bibliothek

Warum sollten Sie PDF-Dokumente analysieren? Um eine PDF-Datei zu analysieren, verwenden wir die Aspose.PDF API, eine funktionsreiche, leistungsstarke und einfach zu bedienende API zur Dokumentenbearbeitung. Öffnen Sie den NuGet -Paketmanager, suchen Sie nach Aspose.PDF und installieren Sie ihn. Sie können auch den folgenden Befehl in der Package Manager Console verwenden. PDF-Dokumente analysieren ist ein Begriff, der sich auf das Extrahieren verschiedener Arten von Informationen aus einer PDF-Datei bezieht. Parst das PDF-Dokument, um Text und Bilder zu extrahieren. Auch zum Trennen von PDF als Text und Bild. Mit der Bibliothek Aspose.PDF können Sie Text aus PDF und Briefmarken extrahieren, Bilder und Schriftarten aus PDF extrahieren und Daten aus Tabellen und Formularen extrahieren.

High-Code-APIs zum Analysieren von Dokumenten Native APIs für PDF-Dateien mit .NET, .NET Core, Java, C++ und Android

Parsen von PDF-Dateien

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();