Extrahieren Sie PDF über C++

So extrahieren Sie Text und Bilder aus PDF mithilfe der C++ Bibliothek

Die beliebteste Aktion mit Parser

So analysieren Sie PDF mit der C++ Library

Müssen Sie PDF extrahieren? Die programmatische Änderung von PDF-Dokumenten ist ein wesentlicher Bestandteil moderner digitaler Workflows. Mit C++-Bibliotheken wie Aspose.PDF können Entwickler Text aus PDF oder Bilder aus PDF extrahieren. Diese Bibliotheken sind eigenständige Lösungen, die nicht auf andere Software angewiesen sind und für den kommerziellen Einsatz bereit sind. Sie decken alle möglichen Bedürfnisse professioneller C++-Entwickler ab.

  • Extrahieren Sie PDF-Daten: Texte, Bilder, Formulare, Felder usw.
  • Text aus PDF extrahieren
  • Extrahieren Sie Bilder aus PDF
  • Extrahieren Sie Schriften aus PDF
  • Daten aus dem Formular extrahieren
  • Text aus Briefmarken extrahieren
  • Daten aus einer Tabelle extrahieren

Um die PDF-Datei zu extrahieren, verwenden wir die API Aspose.PDF for C++, eine funktionsreiche, leistungsstarke und benutzerfreundliche API zur Dokumentenbearbeitung für die Plattform cpp. Öffnen Sie den Paketmanager von NuGet, suchen Sie nachAspose.pdf und installieren Sie ihn. Sie können auch den folgenden Befehl von der Package Manager Console aus verwenden.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Analysieren Sie PDF über C++


Sie benötigen Aspose.PDF für C++, um den Code in Ihrer Umgebung auszuprobieren.

  1. Laden Sie das PDF mit einer Instanz von Document.
  2. Erstellen Sie ein TextAbsorber-Objekt, um Text zu extrahieren.
  3. Akzeptiere den Absorber für alle Seiten.
  4. Holen Sie sich den extrahierten Text
  5. Erstellen Sie einen Writer und öffnen Sie die Datei, schreiben Sie eine Textzeile in die Datei

Extrahieren Sie PDF-Dateien - C++

Dieser Beispielcode zeigt, wie PDF-Dokumente extrahiert werden

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Informationen zu Aspose.PDF für die C++ API

Aspose.PDF für C++ ist eine leistungsstarke Verarbeitungsbibliothek, mit der Entwickler PDF-Dokumente erstellen, lesen und bearbeiten können, ohne Adobe Acrobat zu verwenden. Es bietet eine Vielzahl von Funktionen, z. B. das Erstellen von Formularen, das Hinzufügen/Bearbeiten von Text, das Bearbeiten von PDF-Seiten, das Hinzufügen von Anmerkungen, den Umgang mit benutzerdefinierten Schriftarten und vieles mehr.

Aspose.PDF für C++ ist eine Bibliothek, die es Entwicklern ermöglicht, ihren Anwendungen Funktionen zur PDF-Verarbeitung hinzuzufügen. Die API kann verwendet werden, um 32-Bit- und 64-Bit-Anwendungen zum Generieren, Lesen, Konvertieren und Bearbeiten von PDF-Dateien zu erstellen, ohne Adobe Acrobat zu verwenden.

In der API-Referenz finden Sie detaillierte Erklärungen und Beispiele für jede Klasse und Methode in Aspose.PDF für C++-Bibliothek. Es wird auch empfohlen, eine Dokumentation einzusehen.