Wyodrębnij tekst z pliku PDF w C#

Jak wyodrębnić tekst z pliku PDF za pomocą .NET

C# Java C++ Python

Jak wyodrębnić tekst z pliku PDF za pomocą Aspose.PDF dla .NET

Czy potrzebujesz wyodrębnić tekst z pliku PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom .NET, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów C#.

Wyodrębnij tekst z pliku PDF
Wyodrębnij obrazy z pliku PDF
Wyodrębnij czcionki z PDF
Wyodrębnij dane z formularza
Wyodrębnij tekst ze znaczków
Wyodrębnij dane z tabeli

Aby wyodrębnić tekst z pliku PDF, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.PDF i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF

Wyodrębnij tekst z pliku PDF w C#

Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for .NET.

Załaduj plik PDF z instancją dokumentu.
Utwórz obiekt TextTabSorber, aby wyodrębnić tekst.
Zaakceptuj absorber dla wszystkich stron.
Pobierz wyodrębniony tekst
Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij tekst z pliku PDF za pomocą C#

Ten przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentów PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
textAbsorber.TextSearchOptions.LimitToPageBounds = true;
textAbsorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

Informacje o Aspose.PDF for .NET API

Aspose.PDF for .NET API zapewnia szeroki zakres funkcji do pracy z plikami PDF. Niektóre funkcje obejmują:

Twórz dokumenty PDF od podstaw lub z HTML, XML lub obrazów.
Edytuj istniejące dokumenty PDF, dodając lub usuwając strony, tekst, obrazy i inne treści.
Konwertuj dokumenty PDF na inne formaty, takie jak HTML, XML i obrazy.
Renderuj dokumenty PDF do obrazów lub formatu XPS.
Drukuj dokumenty PDF bezpośrednio z aplikacji.
Cyfrowe podpisywanie dokumentów PDF.

Więcej informacji na temat Aspose.PDF dla interfejsu API C# można znaleźć w Aspose Documentation