Wyodrębnij tekst z pliku PDF w C#

Jak wyodrębnić tekst z pliku PDF za pomocą .NET

Jak wyodrębnić tekst z pliku PDF za pomocą Aspose.PDF dla .NET

Czy potrzebujesz wyodrębnić tekst z pliku PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom .NET, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów C#.

  • Wyodrębnij tekst z pliku PDF
  • Wyodrębnij obrazy z pliku PDF
  • Wyodrębnij czcionki z PDF
  • Wyodrębnij dane z formularza
  • Wyodrębnij tekst ze znaczków
  • Wyodrębnij dane z tabeli

Aby wyodrębnić tekst z pliku PDF, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.pdf i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF

Wyodrębnij tekst z pliku PDF w C#


Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for .NET.

  1. Załaduj plik PDF z instancją dokumentu.
  2. Utwórz obiekt TextTabSorber, aby wyodrębnić tekst.
  3. Zaakceptuj absorber dla wszystkich stron.
  4. Pobierz wyodrębniony tekst
  5. Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij tekst z pliku PDF za pomocą C#

Ten przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentów PDF

Input file:

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
textAbsorber.TextSearchOptions.LimitToPageBounds = true;
textAbsorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

Informacje o Aspose.PDF for .NET API

Aspose.PDF for .NET API zapewnia szeroki zakres funkcji do pracy z plikami PDF. Niektóre funkcje obejmują:

  • Twórz dokumenty PDF od podstaw lub z HTML, XML lub obrazów.
  • Edytuj istniejące dokumenty PDF, dodając lub usuwając strony, tekst, obrazy i inne treści.
  • Konwertuj dokumenty PDF na inne formaty, takie jak HTML, XML i obrazy.
  • Renderuj dokumenty PDF do obrazów lub formatu XPS.
  • Drukuj dokumenty PDF bezpośrednio z aplikacji.
  • Cyfrowe podpisywanie dokumentów PDF.

Więcej informacji na temat Aspose.PDF dla interfejsu API C# można znaleźć w Aspose Documentation