Wyodrębnij PDF w C#

Jak wyodrębnić tekst i obrazy z pliku PDF za pomocą biblioteki .NET

Najpopularniejsza akcja z Parser

Jak wyodrębnić plik PDF za pomocą biblioteki .NET

Czy potrzebujesz wyodrębnić PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom .NET, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF lub wyodrębnić obrazy z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów C#.

  • Wyodrębnij dane PDF: teksty, obrazy, formularze, pola itp.
  • Wyodrębnij tekst z pliku PDF
  • Wyodrębnij obrazy z pliku PDF
  • Wyodrębnij czcionki z PDF
  • Wyodrębnij dane z formularza
  • Wyodrębnij tekst ze znaczków
  • Wyodrębnij dane z tabeli

Aby wyodrębnić plik PDF, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.pdf i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF

Analizuj PDF przez C#


Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for .NET.

  1. Załaduj plik PDF z wystąpieniem dokumentu.
  2. Tworzenie obiektu TextabSorber, aby wyodrębnić tekst.
  3. Zaakceptuj absorber dla wszystkich stron.
  4. Pobierz wyodrębniony tekst
  5. Utwórz pisarz i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij pliki PDF - C#

Ten przykładowy kod pokazuje, jak wyodrębnić dokumenty PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

Informacje o Aspose.PDF dla .NET API

Aspose.PDF for C# API zapewnia szeroki zakres funkcji do pracy z plikami PDF. Niektóre funkcje obejmują:

  • Twórz dokumenty PDF od podstaw lub z HTML, XML lub obrazów.
  • Edytuj istniejące dokumenty PDF, dodając lub usuwając strony, tekst, obrazy i inną zawartość.
  • Konwertuj dokumenty PDF na inne formaty, takie jak HTML, XML i obrazy.
  • Renderuj dokumenty PDF do obrazów lub formatu XPS.
  • Drukuj dokumenty PDF bezpośrednio z aplikacji.
  • Cyfrowo podpisuj dokumenty PDF.

Więcej informacji na temat Aspose.PDF dla interfejsu API C# można znaleźć w tym Dokumentacja Aspos