Rozwiązanie do ekstrakcji dokumentów PDF

Wyodrębnij obrazy i tekst z dokumentów PDF za pomocą bezpłatnych aplikacji i interfejsów API dla wielu platform

Jak analizować plik PDF za pomocą biblioteki Aspose

**Dlaczego warto korzystać z analizowania dokumentów PDF? ** Aby przeanalizować plik PDF, użyjemy interfejsu API Aspose.PDF, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulowania dokumentami. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.PDF i zainstaluj. Można również użyć następującego polecenia z konsoli Menedżera pakietów. Przeanalizuj dokumenty PDF to termin wydany w celu wyodrębnienia różnego rodzaju informacji z pliku PDF. Ansuj dokument PDF, aby wyodrębnić tekst i obrazy. Ponadto do oddzielania PDF jako tekstu i obrazów. Biblioteka Aspose.PDF umożliwia wyodrębnianie tekstu z plików PDF i ze znaczków, wyodrębnianie obrazów i czcionek z plików PDF, wyodrębnianie danych z tabel i formularzy.

Wysoki kod API do analizowania dokumentu Natywne interfejsy API do plików PDF za pomocą .NET, .NET Core, Java, C++ i Android

Parse plików PDF

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();