Dlaczego warto wybrać bibliotekę Aspose OCR?

Zbuduj potężne możliwości OCR w aplikacjach .NET w kilka sekund. Nasz łatwy w użyciu interfejs API OCR pozwala wyodrębnić tekst z obrazów i skanów, tworzyć wyszukiwalne pliki PDF, a więcej z minimalnym kodem C#. Idealny do funkcji .NET Desktop, Web, Cloud i Serverless Funkcje.
Doświadcz OCR, który nie tylko wyodrębnia tekst, ale rozumie i poprawia go za pomocą sztucznej inteligencji. Kliknij poniższe elementy, aby dowiedzieć się więcej o naszych funkcjach i korzyściach.

Illustration ocr

Globalne aplikacje OCR

C# OCR rozpoznaje angielski, cyrylliczny, arabski, perski, chiński, japoński, koreański, hindi, tamilski i mieszany w języku.

Przeczytaj wszystko

Uzyskaj tekst z dowolnego pliku uzyskanego przez skaner lub aparat i przetwarzaj obrazy bezpośrednio z linków internetowych.

Wiarygodne wyniki

Osiągnij wysoką dokładność rozpoznawania wszystkich obrazów, w tym te, które są poza wynikiem, obracane, zniekształcone i hałaśliwe.

Rozpoznawanie partii

Zbieraj wszystkie obrazy z folderów i archiwów; Przeczytaj wielostronicowe dokumenty PDF i obrazy TIFF.

Wykrywanie układu

Zidentyfikuj i kategoryzuj bloki treści w obrazach, aby zapewnić prawidłową kolejność wyodrębnionego tekstu, niezależnie od układu.

AI Postrocessing za pomocą LLMS

Nie tylko OCR-twoje wszystko, co w jednym w jednym rozwiązaniu AI dla mądrzejszego, bezbłędnego rozpoznawania tekstu. Aspose.ocr integruje teraz AI i LLM do wyboru modeli, które znacznie zwiększają dokładność OCR - ustawianie błędów, przywracanie brakującego tekstu i poprawa ogólnej jakości rozpoznawania.

Próbka kodu na żywo

.NET OCR staje się trywialnym i prostym zadaniem z Aspose OCR API, nawet dla nowych programistów. Tylko kilka wierszy kodu wystarczy, aby wyodrębnić tekst z obrazu i wyświetlić go na ekranie. To naprawdę takie proste - spróbuj.

Gotowy do rozpoznania Gotowy do rozpoznania Upuść plik tutaj lub kliknij, aby przejrzeć *

* Przesyłając swoje pliki lub korzystając z Usługi, z którą zgadzasz się z naszym Warunki użytkowania I Polityka prywatności.

Wynik rozpoznawania
 

Konwertuj obraz na tekst

Więcej przykładów >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Niezależność platformy

Biblioteka OCR cross-platform może działać wszędzie pod .net, .net Core lub .NET Framework-na maszynie lokalnej, na serwerze internetowym lub w chmurze.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Obsługiwane formaty plików

Aspose.OCR for .NET może pracować z dowolnym plikiem Możesz dostać ze skanera lub aparatu. Wyniki rozpoznawania można zapisać, zaimportować do bazy danych lub analizować w czasie rzeczywistym.

Obrazy

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

Partia ocr

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Wyniki rozpoznawania

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

OCR z napędem LLM: Nowa generacja OCR napędzana modelem języka AI.

Dokładność wyników nie kończy się na rozpoznawaniu - odblokuj następny poziom jakości, udostępniając tekst za pomocą zewnętrznych LLM.

  • Automatycznie popraw pisownia i gramatyka w rozpoznanym tekście.
  • Normalizuj niespójności i formatowanie problemów w różnych skanach.
  • Dostosowuj wyniki rozpoznawania do słownictwa specyficznego dla tematu przy użyciu modeli opartych na szybkim.
  • Zintegruj dowolny zewnętrzny rurociąg LLM z przepływem pracy OCR z zaledwie kilkoma wierszami kodu.

Nadaje się dla dowolnej treści

Dokładność i niezawodność rozpoznawania tekstu w C# zależy głównie od jakości obrazu. .NET OCR oferuje pełny zestaw zautomatyzowanej i ręcznej optymalizacji obrazu, zapewniając doskonałe wyniki rozpoznawania.

Potężne przetwarzanie obrazu, w pełni konfigurowalne wykrywanie tekstu, przetwarzanie końcowe i automatyczna korekta pisowni umożliwiają ekstrakcję tekstu z dowolnego skanowania lub zdjęcia z najwyższą dokładnością.

Optymalizacja zasobów OCR

Biblioteka Aspose ‘C# OCR umożliwia wysoce elastyczne równoważenie prędkości rozpoznawania, jakości i wykorzystania zasobów dla każdego konkretnego przypadku użycia:

  • Wybierz między dokładnym rozpoznawaniem a szybkim rozpoznawaniem.
  • Określ liczbę wątków przydzielonych do rozpoznawania lub pozwól naszej bibliotece .NET OCR na automatyczną skalowanie do liczby rdzeni procesora.
  • Zwolnij CPU, rozładowując obliczenia do GPU.

140 języków rozpoznawania

Nasza biblioteka C# OCR jest uniwersalnym rozwiązaniem do przetwarzania dokumentów, ekstrakcji danych i cyfryzacji treści w skali globalnej. Przy wsparciu szerokiej gamy europejskich, na Bliskim Wschodzie i azjatyckim pisaniu, jest dobrze przystosowany do każdego kraju i biznesu.

Możesz rozpoznać dokumenty napisane w językach mieszanych, takie jak chiński/angielski, arabski/francuski lub cyrylicy/angielski. Obsługiwane są następujące języki:

  • ** Rozszerzona łacińska **: angielski, hiszpański, francuski, indonezyjski, portugalski, niemiecki, wietnamski, turecki, włoski, polski i 80+ więcej;
  • ** Cyrillic ** Alphabet: Rosjanin, Ukraińczyk, Kazachs, Bułgar, w tym teksty cyrylicy/angielskiego;
  • Arabski, perski, urdu, w tym teksty zmieszane z angielskim;
  • Języki chińskie, koreańskie, japońskie, devanagari i dravidian, w tym hindi, tamilskie, marathi i inne.

Funkcje i możliwości

C# OCR automatycznie wyodrębnia tekst ze zdjęć lub skanów, eliminując potrzebę ręcznego retimowania dokumentów.

Feature icon

Photo OCR

Wyodrębnij tekst ze zdjęć ze smartfonów z dokładnością na poziomie skanowania.

Feature icon

Wyszukiwanie pdf

Konwertuj dowolny skan na w pełni możliwy do wyszukiwania dokument.

Feature icon

Uznanie URL

Rozpoznaj zdjęcie z adresu URL bez pobierania go lokalnie.

Feature icon

Rozpoznawanie masowe

Przeczytaj wszystkie obrazy z wielostronicowych dokumentów, folderów i archiwów.

Feature icon

Każda czcionka i styl

Zidentyfikuj i rozpoznaj tekst we wszystkich popularnych krojach krojów i stylach.

Feature icon

Rozpoznanie się

Dostosuj każdy parametr OCR, aby uzyskać najlepsze wyniki rozpoznawania.

Feature icon

Sprawdzanie pisowni

Popraw wyniki, automatycznie korygując błędnie napisane słowa.

Feature icon

Znajdź tekst w obrazach

Wyszukaj tekst lub wyrażenie regularne w zestawie obrazów.

Feature icon

Porównaj teksty obrazu

Porównaj teksty na dwóch obrazach, niezależnie od obudowy i układu.

Feature icon

Korekta z napędem AI

Napraw błędnie rozpoznane słowa i gramatykę za pomocą LLM opartych na transformatorach-nie wymaga szkolenia niestandardowego.

Feature icon

Semantyczne postProcessing

Wyjdź poza znaki: Udostępnij hałaśliwe wyjście OCR za pomocą LLMS w celu lepszej jakości treści i normalizacji języka.

Feature icon

Rurociągi Plug-In LLM

Połącz modele języków zewnętrznych, aby poprawić błędy rozpoznawania OCR i przywrócić niekompletny lub fragmentaryczny tekst.

Łatwy w użyciu OCR

Dzięki naszemu interfejsowi API C# OCR potrzebujesz tylko kilku wierszy kodu C# do konwersji obrazu na tekst, utworzyć wyszukiwanie pdf, zapisz wyniki rozpoznawania, aby dokumentować i wiele innych. Przeglądaj próbki kodu, aby zrozumieć, jak zintegrować nasz API OCR z rozwiązaniami .NET.

Instalacja

.NET OCR jest dystrybuowany jako pakiet Nuget lub jako plik do pobrania z minimalnymi zależnościami. Pakiet można dodać do projektu bezpośrednio z Microsoft Visual Studio. Po prostu zainstaluj go w swoim projekcie, a możesz wyodrębnić tekst z obrazów i zapisać wyniki rozpoznawania w dowolnym z obsługiwanych formatów. Jeśli twój system ma procesor graficzny zdolny do CUDA, możesz użyć [silnika OCR GPU-Accelered OCR , aby znacznie zwiększyć wydajność rozpoznawania.

możesz zacząć używać Aspose.OCR for .NET zaraz po instalacji z niektórymi ograniczeniami . Tymczasowa licencja usuwa wszystkie ograniczenia wersji próbnej na 30 dni. Użyj go, aby rozpocząć budowanie w pełni funkcjonalnej aplikacji OCR i podjąć ostateczną decyzję o zakupie OCR dla .NET później.

Wyodrębnij tekst ze zdjęcia

Kiedy ludzie zwykle myślą o OCR (rozpoznawanie znaków optycznych), pierwsze skojarzenie często ma skaner jako podstawowe urządzenie do przechwytywania. To stowarzyszenie ma przyczyny historyczne i nadal jest powszechne w wielu kontekstach, zapewniając spójne i kontrolowane środowisko do przechwytywania drukowanego tekstu z dokumentów fizycznych o niezrównanej jakości. Jednak skaner jest specjalistycznym sprzętem, który nie zawsze jest pod ręką i wymaga stacjonarnej stacji roboczej. Na szczęście współczesny świat stanowi wygodną alternatywę dla tradycyjnych skanerów - aparatu na smartfony. Postępy w technologii kamer smartfonów zapewniają, że nawet smartfon podstawowy zapewnia wystarczającą jakość do przechwytywania dokumentów gotowych do OCR. Wbudowana pamięć ułatwia digitalizację dużych ilości dokumentów, gazet, książek, znaków ulicznych i innego tekstu w podróży. Wszystko, czego potrzebujesz, to odpowiednia technologia, aby przekonwertować te zdjęcia na tekst, który można odczytać maszynowo.

Nasza biblioteka C# OCR jest specjalnie zaprojektowana w celu rozpoznania wszystkich rodzajów obrazów z pudełka i może być dodatkowo dostosowana do obsługi nawet zdjęć niskiej jakości. W połączeniu z nowoczesnym smartfonem pozwala tworzyć potężne aplikacje OCR dla większości codziennych zadań skanowania i rozpoznawania tekstu. Najbardziej zaawansowana analiza przetwarzania obrazu i struktury dokumentów są wykonywane w kilku wierszach kodu, co pozwala skupić się na biznesie, a nie złożonych algorytmach matematycznych, sieci neuronowych i innych zawiłości technicznych.

Photo OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Utwórz wyszukiwarkę PDF ze skanowania

PDF jest jednym z najpopularniejszych formatów dokumentów ze skanowaniem, szczególnie ze względu na jego zdolność do łączenia wielu stron w jednym pliku. Format ten jest szeroko stosowany do wymiany umów, faktur, dokumentów prawnych, paszportów i dowodów osobistych oraz wielu innych dokumentów między osobami fizycznymi, firmami, bankami i agencjami rządowymi. Jednak każdy zeskanowany PDF jest zasadniczo zbiorem obrazów. Nie zawiera tekstu odczytującego maszynę, więc użytkownicy nie mogą wyszukiwać, kopiować ani w inny sposób manipulować treścią dokumentu.

ASPOSE .NET OCR oferuje szybki, łatwy i wysoce niezawodny sposób konwersji dowolnego zeskanowanego PDF na w pełni wyszukiwany dokument i indeksowalny. Dokładnie rozpoznaje zawartość strony, przekształcając ją w czytaną maszynową warstwę tekstową na oryginalny obraz, który można wybrać, kopiować, odczytać za pomocą oprogramowania do mowy, a nawet automatycznie przetwarzanie przez tłumaczy, podsumowniki i inne narzędzia analityczne napędzane sztuczną inteligencją.

Dodaj nakładkę tekstową do PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Wyszukaj tekst w obrazach

Archiwa cyfrowe, szczególnie w dużych organizacjach, często składają się z ogromnej kolekcji skanów i zdjęć, z których wiele może zawierać dokumenty wielostronicowe. Skuteczne zarządzanie i organizację takich archiwów jest niezbędne dla łatwego wyszukiwania informacji i nawigacji. Jednak obrazy nie zawierają tekstu, które można odczytać, uniemożliwiając wyszukiwanie i analizę treści dokumentów.

Biblioteka C# OCR pozwala łatwo wyszukiwać tekst w obrazach, niezależnie od czcionki, rozmiaru tekstu, stylu i innych parametrów. Biblioteka obsługuje również wyszukiwania i wyrażenia regularne, które są niezwykle przydatne w różnych aplikacjach i branżach. Ta funkcjonalność może być używana do kategoryzacji dokumentów na podstawie treści, słów kluczowych lub wzorców znalezionych w tekście; wyszukiwanie określonych warunków lub klauzul w ramach umów i umów; reorganizacja plików na podstawie słów kluczowych lub treści znalezionych w nich; Znajdź i zidentyfikuj dane osobowe w dokumentach, ułatwiając zapewnienie zgodności RODO i skuteczniej zarządzaj poufnymi informacjami. Wyszukiwanie obrazów pozwala również na tworzenie zautomatyzowanych przepływów pracy i usprawnienia różnych procesów biznesowych po otrzymaniu podpisanych umów i faktur.

Wyszukaj tekst w obrazach - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}

AI Postrocessing z LLM

Możesz teraz wyjść poza RAW rozpoznawanie i zastosować logikę opartą na AI, aby poprawić jakość tekstową wyników OCR. Duże modele językowe (LLM) mogą inteligentnie korygować błędy pisowni, przywracać granice słów, zastosować reguły gramatyczne i dostosować tekst oparty na kontekście-czego nie mogą zrobić, czego nie mogą zrobić.

Ten etap postprocessingu jest idealny do skanowania niskiej jakości, zdjęć z szumem w tle lub dokumentów wielojęzycznych. Możesz podłączyć dowolny rurociąg LLM, który obsługuje podstawowe dane wejściowe/wyjściowe tekstu lub użyć wbudowanych narzędzi Aspose Inteligentne korekty, aby uzyskać wyniki gotowe do produkcji.

🧠Ai A.

// Optional logger for progress and error reporting (can be set to null)
ILogger logger = new ConsoleLogger();

// Configure AI model for postprocessing
AsposeAIModelConfig modelConfig = new AsposeAIModelConfig
{
    AllowAutoDownload = true,
    DirectoryModelPath = "D://Models", // Path to local or downloaded model files
};

// Initialize AI postprocessing engine
AsposeAI aiEngine = new AsposeAI(modelConfig, logger);

// Register a spell-checking processor
aiEngine.AddPostProcessor(new SpellCheckAIProcessor());

// Execute AI-based postprocessing on OCR results
aiEngine.RunPostprocessor(ocrResults);

// Output the refined recognition result
Console.WriteLine("Corrected OCR Output:\n");
Console.WriteLine(ocrResults[0].RecognitionText);

// Release resources
aiEngine.Dispose();