Konwertuj PDF na TXT w C#
Wykonaj optyczne rozpoznawanie znaków na dokumencie PDF i zapisz tekst jako dokument PDF przy użyciu Aspose.OCR z biblioteki .NET.
Jak przekonwertować PDF na TXT za pomocą C#
Aspose.OCR dla .NET to potężna, ale łatwa w użyciu i opłacalna biblioteka do konwersji obrazów PDF na dokumenty TXT. Dzięki obsłudze 26 języków opartych na łacinie, cyrylicy i chińskim, najnowocześniejszy mechanizm optycznego rozpoznawania znaków zapewnia doskonałą szybkość i dokładność rozpoznawania, izolując Cię od formuł, sieci neuronowych i innych złożonych szczegółów technicznych. Umożliwia dodanie funkcji OCR do aplikacji .NET w mniej niż 10 wierszach kodu.
przetwarza zeskanowane obrazy, a nawet zdjęcia ze smartfona w formacie PDF i tworzy dokumenty PDF zawierające rozpoznany tekst. Aby dodać go do swojego projektu, wystarczy zainstalować Aspose.OCR
zapakuj w swój projekt za pomocą następującego polecenia:
Package Manager Console Command
PM> Install-Package Aspose.OCR
Kroki, aby przekonwertować PDF na TXT
Dzięki .NET OCR i zaledwie kilku linijkom kodu możesz stworzyć w pełni funkcjonalną aplikację, która konwertuje obraz PDF na dokument TXT:
- Utwórz instancję klasy AsposeOcr
- Wywołaj metodę AsposeOCR.RecognizeImage
- Przekaż ścieżkę pliku PDF jako parametr
- AsposeOCR.RecognizeImage zwraca ciąg lub plik typu TXT
wymagania systemowe
Przed uruchomieniem przykładu upewnij się, że .NET API zgodne ze specyfikacją NET Standard 2.0 jest zainstalowane w Twoim systemie i wszystkie [zewnętrzne zależności]( https://docs.aspose.com/ocr/net/system-requirements/#external- zależności) pakietu Aspose.OCR są przywoływane w projekcie.
- Rozwiązanie kompatybilne z NET Standard 2.0+
- Aspose.OCR dla platformy .NET, do której odwołuje się Twój projekt.
Ten przykładowy kod pokazuje konwersję PDF na TXT .NET
// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.TXT", riText);
PDF Co jest PDF Format pliku
Portable Document Format (PDF) to rodzaj dokumentu stworzony przez firmę Adobe w latach 90. XX wieku. Celem tego formatu pliku było wprowadzenie standardu reprezentacji dokumentów i innych materiałów referencyjnych w formacie niezależnym od oprogramowania aplikacji, sprzętu oraz systemu operacyjnego. Format pliku PDF ma pełną zdolność do przechowywania informacji, takich jak tekst, obrazy, hiperłącza, pola formularzy, multimedia, podpisy cyfrowe, załączniki, metadane, funkcje geoprzestrzenne i obiekty 3D, które mogą stać się częścią dokumentu źródłowego.
Czytaj więcejTXT Co jest TXT Format pliku
Plik z rozszerzeniem .TXT reprezentuje dokument tekstowy, który zawiera zwykły tekst w postaci linii. Akapity w dokumencie tekstowym są rozpoznawane przez znaki powrotu karetki i służą do lepszego rozmieszczenia zawartości pliku. Standardowy dokument tekstowy można otworzyć w dowolnym edytorze tekstu lub aplikacji do przetwarzania tekstu w różnych systemach operacyjnych. Cały tekst zawarty w takim pliku jest w formacie czytelnym dla człowieka i reprezentowany przez ciąg znaków.
Czytaj więcejInne obsługiwane konwersje
Za pomocą C# można łatwo konwertować różne formaty, w tym.