HTML JPG OCR XML BMP
Aspose.OCR  voor Java
DOCX

Aspose.Imaging voor Java

verwerkt gescande afbeeldingen of zelfs smartphonefoto’s in TIF-indeling en maakt TIF-documenten met herkende tekst. Om het aan uw project toe te voegen, hoeft u alleen maar Aspose.OCR te downloaden.

Maven of specificeer de Aspose Maven Repository-configuratie en installeer het binnen uw op Maven gebaseerde project door de volgende configuraties toe te voegen aan de pom.xml. Bekijk voor voorbeelden van Graddle, Ivy en Sbt onze repository .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

Met Java OCR en slechts een paar regels code, kunt u een complete applicatie maken die een TIF-afbeelding converteert naar een DOCX-document:

  • Maak een instantie van de AsposeOcr-klasse
  • Roep AsposeOCR.RecognizePage-methode aan
  • Geef het TIF bestandspad door als parameter
  • AsposeOCR.RecognizePage retourneert een tekenreeks of bestand van het type DOCX

systeem vereisten

Voordat u het voorbeeld uitvoert, moet u ervoor zorgen dat Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) of hoger op uw systeem is geïnstalleerd.

  • JDK 1.6 of hoger is geïnstalleerd.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • TIF Wat is TIF Bestandsformaat

    TIFF of TIF, Tagged Image File Format, staat voor rasterafbeeldingen die bedoeld zijn voor gebruik op verschillende apparaten die voldoen aan deze standaard voor bestandsindelingen. Het is in staat om bilevel-, grijswaarden-, paletkleur- en full-color afbeeldingsgegevens in verschillende kleurruimten te beschrijven. Het ondersteunt zowel lossy als lossless compressieschema's om te kiezen tussen ruimte en tijd voor toepassingen die het formaat gebruiken. Het formaat is uitbreidbaar en heeft verschillende revisies ondergaan waardoor een onbeperkte hoeveelheid persoonlijke of speciale informatie kan worden opgenomen. Het formaat is niet machine-afhankelijk en is vrij van beperkingen zoals processor, besturingssysteem of bestandssystemen.

    Lees verder

    DOCX Wat is DOCX Bestandsformaat

    DOCX is een bekend formaat voor Microsoft Word-documenten. Geïntroduceerd vanaf 2007 met de release van Microsoft Office 2007, werd de structuur van dit nieuwe documentformaat veranderd van gewoon binair naar een combinatie van XML en binaire bestanden. Docx-bestanden kunnen worden geopend met Word 2007 en laterale versies, maar niet met de eerdere versies van MS Word die DOC-bestandsextensies ondersteunen.

    Lees verder

    TXT (Tekstdocumentbestand)
    Text (Tekstdocumentbestand)
    DOC (Documenten gegenereerd door Microsoft Word)
    DOCX (Microsoft Word-documenten)
    XLS (Microsoft Excel binaire bestandsindeling)
    XLSX (Microsoft Excel-documenten)
    PDF (Draagbaar documentformaat (PDF))
    Searchable PDF (Doorzoekbare draagbare netwerkgraphics)
    XML (Uitbreidbare opmaaktaal)
    JSON (JavaScript-objectnotatie)