Converti PDF in XML in C#
Esegui il riconoscimento ottico dei caratteri sul documento PDF e salva il testo come documento PDF utilizzando Aspose.OCR dalla libreria .NET.
Come convertire PDF in XML usando C#
Aspose.OCR per .NET è una libreria potente ma facile da usare ed economica per convertire immagini PDF in documenti XML. Supportando 26 lingue basate su latino, cirillico e cinese, il suo motore di riconoscimento ottico dei caratteri all’avanguardia offre velocità e precisione di riconoscimento superiori, isolandoti da formule, reti neurali e altri dettagli tecnici complessi. Ti consente di aggiungere funzionalità OCR alle tue applicazioni .NET in meno di 10 righe di codice.
elabora le immagini scansionate o anche le foto dello smartphone in formato PDF e crea documenti PDF contenenti testo riconosciuto. Per aggiungerlo al tuo progetto, devi solo installare Aspose.OCR
pacchetto nel tuo progetto con il seguente comando:
Package Manager Console Command
PM> Install-Package Aspose.OCR
Passaggi per convertire PDF in XML
Con .NET OCR e poche righe di codice, puoi creare un’applicazione completa che converte un’immagine PDF in un documento XML:
- Crea un’istanza della classe AsposeOcr
- Chiama il metodo AsposeOCR.RecognizeImage
- Passa il percorso del file PDF come parametro
- AsposeOCR.RecognizeImage restituisce una stringa o un file di tipo XML
Requisiti di sistema
Prima di eseguire l’esempio, assicurati che l’API .NET compatibile con la specifica NET Standard 2.0 sia installata sul tuo sistema e tutte le [dipendenze esterne]( https://docs.aspose.com/ocr/net/system-requirements/#external- dipendenze) del pacchetto Aspose.OCR sono referenziati nel progetto.
- Soluzione compatibile con NET Standard 2.0+
- Aspose.OCR per .NET referenziato nel tuo progetto.
Questo codice di esempio mostra la conversione da PDF a XML .NET
// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.XML", riText);
PDF Cos'è PDF Formato del file
Portable Document Format (PDF) è un tipo di documento creato da Adobe negli anni '90. Lo scopo di questo formato di file era quello di introdurre uno standard per la rappresentazione di documenti e altro materiale di riferimento in un formato indipendente dal software applicativo, dall'hardware e dal sistema operativo. Il formato di file PDF ha la piena capacità di contenere informazioni come testo, immagini, collegamenti ipertestuali, campi modulo, rich media, firme digitali, allegati, metadati, caratteristiche geospaziali e oggetti 3D che possono diventare parte del documento di origine.
Leggi di piùXML Cos'è XML Formato del file
XML sta per Extensible Markup Language che è simile a HTML ma diverso nell'uso dei tag per definire gli oggetti. L'idea alla base della creazione del formato file XML era quella di archiviare e trasportare i dati senza dipendere da strumenti software o hardware. La sua popolarità è dovuta al fatto che è leggibile sia dall'uomo che dalla macchina. Ciò consente di creare protocolli di dati comuni sotto forma di oggetti da archiviare e condividere su una rete come il World Wide Web (WWW). La "X" in XML è estensibile, il che implica che il linguaggio può essere esteso a qualsiasi numero di simboli secondo i requisiti dell'utente. È per queste funzionalità che molti formati di file standard ne fanno uso come Microsoft Open XML, LibreOffice OpenDocument, XHTML e SVG.
Leggi di piùAltre conversioni supportate
Usando C#, è possibile convertire facilmente diversi formati tra cui.