Aspose.OCR  for Python via .NET

API voor optische tekenherkenning voor Python

Extraheer tekst uit gescande afbeeldingen, foto’s en schermafbeeldingen, maak doorzoekbare pdf’s, zoek en vergelijk tekst in afbeeldingen en meer vanuit Python-toepassingen.

  Download Free Trial
  
 

Aspose.OCR for Python via .NET is een krachtige en gebruiksvriendelijke OCR-engine (Optical Character Recognition) voor uw Python-applicaties en notebooks. In minder dan 10 regels code kunt u tekst herkennen in 28 talen op basis van Latijnse, Cyrillische en Aziatische scripts, en resultaten opleveren in de meest populaire indelingen voor documenten en gegevensuitwisseling. Het is niet nodig om complexe wiskundige modellen te leren, algoritmen voor machine learning te bouwen en neurale netwerken te trainen — onze eenvoudige en robuuste API doet alles voor je.

De bibliotheek werkt even goed met alle bronnen, van een hoogwaardige scan tot een snelle foto op een smartphone. Of het beeld nu gedraaid, vervormd of met ruis is — automatische voor- en nabewerkingsfilters zorgen voor de hoogste herkenningsnauwkeurigheid in de kortst mogelijke tijd.

Features and capabilities

Extraheer tekst uit scans, foto's en screenshots

Converteer gescande PDF's naar doorzoekbare en indexeerbare PDF's

Lees Latijnse, Cyrillische en Aziatische scripts in alle populaire lettertypen

Herken meer dan 6.000 Chinese karakters

Werk met wazige, vervormde, geroteerde en lawaaierige afbeeldingen

Identificeer en bewaar inhoudsblokken van de oorspronkelijke tekstlay-out

Detecteer en lees delen van een afbeelding: paragrafen, regels en losse woorden

Bulkverwerking van documenten, mappen en archieven met meerdere pagina's

Herken afbeeldingen van internet zonder te downloaden

Identificeer en corrigeer automatisch verkeerd gespelde woorden

Zoek tekst in afbeeldingen en vergelijk op intelligente wijze afbeeldingsteksten

Makkelijk te gebruiken

U heeft slechts 5 regels code nodig om de afbeelding te herkennen en het resultaat weer te geven. Ja, het is echt zo simpel!

Klaar om te herkennen Herkennen Zet hier een bestand neer of klik om te bladeren *

* Door uw bestanden te uploaden of gebruik te maken van de dienst gaat u akkoord met onze Gebruiksvoorwaarden en Privacybeleid.

Live code sample - Python 3

# Initialiseer de OCR-engine
recognitionEngine = AsposeOcr()
# Afbeelding aan batch toevoegen
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")
# Extraheer tekst uit afbeelding
result = recognitionEngine.recognize(input)
# Geef het herkenningsresultaat weer
print(result[0].recognition_text)
Erkenning resultaat
 

28 herkenningstalen

Aspose.OCR for Python via .NET kan een groot aantal talen en alle populaire schrijfscripts herkennen, inclusief teksten met gemengde talen:

  • Uitgebreid Latijns alfabet: Kroatisch, Tsjechisch, Deens, Nederlands, Engels (inclusief handgeschreven script), Ests, Fins, Frans, Duits, Italiaans, Lets, Litouws, Noors, Pools, Portugees, Roemeens , Slowaaks, Sloveens, Spaans, Zweeds.
  • Cyrillisch alfabet: Wit-Russisch, Bulgaars, Kazachs, Russisch, Servisch, Oekraïens.
  • Chinees: meer dan 6.000 tekens.
  • Hindi
  • U kunt ook teksten in andere talen lezen op basis van uitgebreid Latijn en Cyrillisch, zelfs als deze niet rechtstreeks worden ondersteund door de OCR-engine. Bijvoorbeeld Latijn, Vietnamees, Gaelic, enzovoort.

    Krachtige verwerkingsfilters

    De nauwkeurigheid en betrouwbaarheid van optische tekenherkenning is sterk afhankelijk van de kwaliteit van de originele afbeelding. Aspose.OCR for Python via .NET biedt een groot aantal volledig geautomatiseerde en handmatige beeldverwerkingsfilters die een afbeelding verbeteren voordat deze naar de OCR-engine wordt verzonden:

  • Maak automatisch afbeeldingen recht die onder een kleine hoek ten opzichte van de horizontaal zijn uitgelijnd.
  • Sterk scheve afbeeldingen handmatig draaien.
  • Verwijder automatisch vuil, vlekken, krassen, schittering, ongewenste hellingen en andere ruis.
  • Pas automatisch het beeldcontrast aan.
  • Automatisch de afbeelding opschalen of de grootte ervan handmatig wijzigen.
  • Converteer afbeeldingen naar zwart-wit of grijstinten.
  • Keer afbeeldingskleuren om zodat lichte gebieden donker lijken en donkere gebieden licht lijken.
  • Vergroot de dikte van tekens in een afbeelding.
  • Vervaag afbeeldingen met ruis terwijl de randen van letters behouden blijven.
  • Paginakromming rechtzetten en cameralensvervorming corrigeren voor paginafoto's.
  • Deze filters kunnen worden gecombineerd en toegepast op de hele afbeelding of alleen op geselecteerde delen van de afbeelding, evenals bij batchverwerking. U kunt niet alleen de voorverwerking in de herkenningspijplijn verfijnen, maar u kunt ook verwerkte afbeeldingen opslaan voor weergave, caching en foutopsporing.

    Geoptimaliseerd voor specifieke documenttypen

    Aspose.OCR for Python via .NET biedt speciaal getrainde neurale netwerken om tekst met maximale nauwkeurigheid uit bepaalde soorten afbeeldingen te extraheren:

  • Gescande of gefotografeerde identiteitskaarten en paspoorten.
  • Kentekenplaten van voertuigen.
  • Facturen.
  • Kwitanties.
  • Ingebouwde spellingcontrole

    Hoewel Aspose.OCR for Python via .NET een hoge herkenningsnauwkeurigheid biedt, kunnen afdrukfouten, vuil of niet-standaard lettertypen ervoor zorgen dat bepaalde tekens of woorden onjuist worden herkend. Om de herkenningsresultaten verder te verbeteren, kunt u de spellingcontrole inschakelen, die spelfouten vindt en automatisch corrigeert op basis van de geselecteerde herkenningstaal.

    Als de herkende tekst gespecialiseerde terminologie, afkortingen en andere woorden bevat die niet voorkomen in gewone spellingwoordenboeken, kunt u uw eigen woordenlijsten opgeven.

    Doorzoekbare pdf's maken

    Zelfs met de hoogste herkenningsnauwkeurigheid kan de originele afbeelding veel belangrijke niet-tekstuele informatie bevatten of gewoon van grote historische waarde zijn. Aspose.OCR for Python via .NET biedt een eenvoudige en elegante oplossing om het beste van twee werelden te combineren. We halen tekst uit een afbeelding, PDF-document of bestandspakket en plaatsen deze als een onzichtbare tekstlaag bovenop de originele afbeeldingen. Het resultaat wordt opgeslagen in PDF-indeling, de industriestandaard voor het opslaan en delen van documenten. De resulterende bestanden kunnen worden doorzocht en geïndexeerd, en de tekst kan op dezelfde manier worden geselecteerd en gekopieerd als wanneer u de originele tekens zou selecteren en kopiëren.

    Bulkherkenning

    Aspose.OCR for Python via .NET stelt u in staat meerdere bestanden te herkennen, ongeacht hun aantal en type, net zo eenvoudig als het lezen van een enkele afbeelding. Met één enkele API-aanroep kunt u meerdere pagina's van een automatische invoerscanner herkennen of kentekenplaten van voertuigen uit automatische verkeerscamera's halen.

    De resultaten kunnen worden opgeslagen als doorzoekbaar PDF-document of spreadsheets, of worden geretourneerd als platte tekst, JSON of XML voor verdere analyse.

      

    Support and Learning Resources

      
      

    Aspose biedt ook native OCR API's voor andere populaire programmeertalen: