przetwarza zeskanowane obrazy, a nawet zdjęcia ze smartfona w formacie PDF i tworzy dokumenty PDF zawierające rozpoznany tekst. Aby dodać go do swojego projektu, wystarczy pobrać Aspose.OCR
Maven lub określ konfigurację repozytorium Aspose Maven i zainstaluj go w swoim projekcie opartym na Maven, dodając następujące konfiguracje do pliku pom.xml. Przykłady Graddle, Ivy, Sbt znajdziesz w naszym repozytorium .
Maven Dependency
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>22.5</version>
</dependency>
Dzięki Java OCR i zaledwie kilku linijkom kodu możesz stworzyć w pełni funkcjonalną aplikację, która konwertuje obraz PDF na dokument TXT:
- Utwórz instancję klasy AsposeOcr
- Wywołaj metodę AsposeOCR.RecognizePage
- Przekaż ścieżkę pliku PDF jako parametr
- AsposeOCR.RecognizePage zwraca ciąg lub plik typu TXT
wymagania systemowe
Przed uruchomieniem przykładu upewnij się, że w systemie jest zainstalowana Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) lub nowsza.
- JDK 1.6 lub nowszy jest zainstalowany.
//Create API instance
AsposeOCR api = new AsposeOCR();
//Prepare rectangles with texts.
ArrayList rectArray = new ArrayList();
rectArray.add(new Rectangle(138, 352, 2033, 537));
rectArray.add(new Rectangle(147, 890, 2033, 1157));
String result = api.RecognizePage("srcImage.png", rectArray);
System.out.println("Result with rect: " + result);
PDF Co jest PDF Format pliku
Portable Document Format (PDF) to rodzaj dokumentu stworzony przez firmę Adobe w latach 90. XX wieku. Celem tego formatu pliku było wprowadzenie standardu reprezentacji dokumentów i innych materiałów referencyjnych w formacie niezależnym od oprogramowania aplikacji, sprzętu oraz systemu operacyjnego. Format pliku PDF ma pełną zdolność do przechowywania informacji, takich jak tekst, obrazy, hiperłącza, pola formularzy, multimedia, podpisy cyfrowe, załączniki, metadane, funkcje geoprzestrzenne i obiekty 3D, które mogą stać się częścią dokumentu źródłowego.
Czytaj więcejTXT Co jest TXT Format pliku
Plik z rozszerzeniem .TXT reprezentuje dokument tekstowy, który zawiera zwykły tekst w postaci linii. Akapity w dokumencie tekstowym są rozpoznawane przez znaki powrotu karetki i służą do lepszego rozmieszczenia zawartości pliku. Standardowy dokument tekstowy można otworzyć w dowolnym edytorze tekstu lub aplikacji do przetwarzania tekstu w różnych systemach operacyjnych. Cały tekst zawarty w takim pliku jest w formacie czytelnym dla człowieka i reprezentowany przez ciąg znaków.
Czytaj więcej