HTML JPG OCR XML BMP
Aspose.OCR  voor Java
XLSX

Aspose.Imaging voor Java

verwerkt gescande afbeeldingen of zelfs smartphonefoto’s in PDF-indeling en maakt PDF-documenten met herkende tekst. Om het aan uw project toe te voegen, hoeft u alleen maar Aspose.OCR te downloaden.

Maven of specificeer de Aspose Maven Repository-configuratie en installeer het binnen uw op Maven gebaseerde project door de volgende configuraties toe te voegen aan de pom.xml. Bekijk voor voorbeelden van Graddle, Ivy en Sbt onze repository .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

Met Java OCR en slechts een paar regels code, kunt u een complete applicatie maken die een PDF-afbeelding converteert naar een XLSX-document:

  • Maak een instantie van de AsposeOcr-klasse
  • Roep AsposeOCR.RecognizePage-methode aan
  • Geef het PDF bestandspad door als parameter
  • AsposeOCR.RecognizePage retourneert een tekenreeks of bestand van het type XLSX

systeem vereisten

Voordat u het voorbeeld uitvoert, moet u ervoor zorgen dat Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) of hoger op uw systeem is geïnstalleerd.

  • JDK 1.6 of hoger is geïnstalleerd.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • PDF Wat is PDF Bestandsformaat

    Portable Document Format (PDF) is een type document dat in de jaren negentig door Adobe is gemaakt. Het doel van dit bestandsformaat was om een ​​standaard te introduceren voor de weergave van documenten en ander referentiemateriaal in een formaat dat onafhankelijk is van applicatiesoftware, hardware en besturingssysteem. Het PDF-bestandsformaat heeft volledige mogelijkheden om informatie zoals tekst, afbeeldingen, hyperlinks, formuliervelden, rich media, digitale handtekeningen, bijlagen, metadata, geospatiale functies en 3D-objecten erin te bevatten die als onderdeel van het brondocument kunnen worden gebruikt.

    Lees verder

    XLSX Wat is XLSX Bestandsformaat

    XLSX is een bekende indeling voor Microsoft Excel-documenten die door Microsoft is geïntroduceerd met de release van Microsoft Office 2007. Gebaseerd op de structuur die is georganiseerd volgens de Open Packaging Conventions zoals uiteengezet in deel 2 van de OOXML-standaard ECMA-376, is de nieuwe indeling een zip-pakket dat een aantal XML-bestanden bevat. De onderliggende structuur en bestanden kunnen worden onderzocht door het .xlsx-bestand eenvoudig uit te pakken.

    Lees verder

    TXT (Tekstdocumentbestand)
    Text (Tekstdocumentbestand)
    DOC (Documenten gegenereerd door Microsoft Word)
    DOCX (Microsoft Word-documenten)
    XLS (Microsoft Excel binaire bestandsindeling)
    XLSX (Microsoft Excel-documenten)
    PDF (Draagbaar documentformaat (PDF))
    Searchable PDF (Doorzoekbare draagbare netwerkgraphics)
    XML (Uitbreidbare opmaaktaal)
    JSON (JavaScript-objectnotatie)