Wyodrębnij tekst z pliku PDF w C#

Jak wyodrębnić tekst z pliku PDF przy użyciu biblioteki .NET

Jak wyodrębnić tekst z pliku PDF przy użyciu biblioteki .NET

Czy potrzebujesz wyodrębnić tekst z pliku PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom .NET, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów C#.

  • Wyodrębnij tekst z pliku PDF
  • Wyodrębnij obrazy z pliku PDF
  • Wyodrębnij czcionki z PDF
  • Wyodrębnij dane z formularza
  • Wyodrębnij tekst ze znaczków
  • Wyodrębnij dane z tabeli

Aby wyodrębnić tekst z pliku PDF, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.pdf i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF

Wyodrębnij tekst z pliku PDF w C#


Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for .NET.

  1. Załaduj plik PDF z instancją dokumentu.
  2. Utwórz obiekt TextTabSorber, aby wyodrębnić tekst.
  3. Zaakceptuj absorber dla wszystkich stron.
  4. Pobierz wyodrębniony tekst
  5. Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij tekst z PDF - C#

Ten przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentów PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

Informacje o Aspose.PDF dla .NET API

Aspose.PDF for .NET API zapewnia szeroki zakres funkcji do pracy z plikami PDF. Niektóre funkcje obejmują:

  • Twórz dokumenty PDF od podstaw lub z HTML, XML lub obrazów.
  • Edytuj istniejące dokumenty PDF, dodając lub usuwając strony, tekst, obrazy i inne treści.
  • Konwertuj dokumenty PDF na inne formaty, takie jak HTML, XML i obrazy.
  • Renderuj dokumenty PDF do obrazów lub formatu XPS.
  • Drukuj dokumenty PDF bezpośrednio z aplikacji.
  • Cyfrowe podpisywanie dokumentów PDF.

Więcej informacji na temat Aspose.PDF dla interfejsu API C# można znaleźć w Aspose Documentation