Transformeer PDF naar MARKDOWN via Java

On Premise Java API om PDF naar MARKDOWN te renderen zonder een applicatie van derden te gebruiken

 

U kunt PDF naar MARKDOWN converteren met behulp van twee eenvoudige stappen. Eerst moet u het PDF-bestand naar DOC renderen met Aspose.PDF for Java . Daarna kunt u met behulp van de krachtige API voor documentverwerking Aspose.Words for Java DOC naar MARKDOWN converteren. Beide API’s vallen onder het pakket Aspose.Total for Java .

Java API om PDF naar MARKDOWN te converteren

  1. Open het PDF-bestand met de klasse Document
  2. Converteer PDF naar DOC met behulp van save methode:
  3. Laad het DOC-bestand met behulp van de Document klasse van Aspose.Words
  4. Sla het document op in MARKDOWN-formaat met behulp van save methode en stel MARKDOWN in als OpslaanFormaat

Conversievereisten

U kunt Aspose.Total voor Java gemakkelijk rechtstreeks vanuit een op Maven gebaseerd project gebruiken en bevatten Aspose.PDF voor Java en Aspose.Words voor Java in uw po.xml.

U kunt ook een ZIP-bestand krijgen van downloads .

// load PDF file with an instance of Document class
Document document = new Document("template.pdf");
// save PDF as a DOC 
document.save("DocOutput.doc", SaveFormat.DOC); 
// load DOC with an instance of Document
Document outputDocument = new com.aspose.words.Document("DocOutput.doc");
// call save method while passing SaveFormat.MARKDOWN
outputDocument.save("output.markdown", SaveFormat.MARKDOWN);   

Conversievereisten

Tijdens het converteren van PDF naar MARKDOWN kunt u, zelfs als uw document met een wachtwoord is beveiligd, het nog steeds openen met de PDF Manipulation API Aspose.PDF for Java . Om het versleutelde bestand te openen, moet u een Document -object maken en de PDF openen met het wachtwoord van de eigenaar.

// open encrypted document
Document document = new Document("input.pdf", "password");
// save PDF as a DOC 
document.save("DocOutput.doc", SaveFormat.DOC);

Open met een wachtwoord beveiligd PDF-document via Java

Terwijl u uw invoerdocument opslaat in MARKDOWN-bestandsindeling, kunt u uw document ook opslaan in een database in plaats van in een bestandssysteem. Mogelijk moet u het opslaan en ophalen van documentobjecten van en naar een database implementeren. Dit zou nodig zijn als u een inhoudsbeheersysteem zou implementeren. Om uw MARKDOWN in de database op te slaan, is het vaak nodig om het document te serialiseren om een bytearray te verkrijgen. Dit kan worden gedaan met behulp van Aspose.Words for Java API. Nadat u uw byte-array hebt ontvangen, kunt u deze in de database opslaan met behulp van een SQL-instructie.

public static void StoreToDatabase(Document doc, Connection mConnection) throws Exception {
    // create an output stream which uses byte array to save data
    ByteArrayOutputStream aout = new ByteArrayOutputStream();
    // save the document to byte array
    doc.save(aout, SaveFormat.MARKDOWN);
    // get the byte array from output steam
    // the byte array now contains the document
    byte[] buffer = aout.toByteArray();
    // get the filename from the document.
    String fileName = doc.getOriginalFileName();
    String filePath = fileName.replace("\\", "\\\\");
    // create the SQL command.
    String commandString = "INSERT INTO Documents (FileName, FileContent) VALUES('" + filePath + "', '" + buffer + "')";
    Statement statement = mConnection.createStatement();
    statement.executeUpdate(commandString);
}  

Bekijk PDF conversieopties met Java

PDFs converteren naar APNG (Geanimeerde draagbare netwerkafbeeldingen)
PDFs converteren naar DICOM (Digitale beeldvorming en communicatie in de geneeskunde)
PDFs converteren naar DXF (Autodesk Drawing Exchange-indeling)
PDFs converteren naar EMZ (Windows gecomprimeerd verbeterd metabestand)
PDFs converteren naar IMAGE (Afbeeldingsbestanden)
PDFs converteren naar ODP (OpenDocument-presentatieformaat)
PDFs converteren naar OTP (OpenDocument Standaardformaat)
PDFs converteren naar POT (Microsoft PowerPoint-sjabloonbestanden)
PDFs converteren naar POTM (Microsoft PowerPoint-sjabloonbestand)
PDFs converteren naar POTX (Microsoft PowerPoint-sjabloonpresentatie)
PDFs converteren naar POWERPOINT (Presentatie bestanden)
PDFs converteren naar PPS (PowerPoint-diavoorstelling)
PDFs converteren naar PPSM (Diavoorstelling met macro's)
PDFs converteren naar PPSX (PowerPoint-diavoorstelling)
PDFs converteren naar PPT (PowerPoint presentatie)
PDFs converteren naar PPTM (Presentatiebestand met ingeschakelde macro's)
PDFs converteren naar PSD (Photoshop-document)
PDFs converteren naar SVGZ (Gecomprimeerde schaalbare vectorafbeeldingen)
PDFs converteren naar SWF (Shockwave Flash-film)
PDFs converteren naar TGA (Truevision grafische adapter)
PDFs converteren naar WMF (Windows-metabestand)
PDFs converteren naar WMZ (Gecomprimeerd Windows-metabestand)
PDFs converteren naar CSV (Door komma's gescheiden waarden)
PDFs converteren naar DIF (Formaat voor gegevensuitwisseling)
PDFs converteren naar DOCM (Microsoft Word 2007 Marco-bestand)
PDFs converteren naar DOT (Microsoft Word-sjabloonbestanden)
PDFs converteren naar DOTM (Microsoft Word 2007+ sjabloonbestand)
PDFs converteren naar DOTX (Microsoft Word-sjabloonbestand)
PDFs converteren naar EXCEL (Spreadsheet-bestandsindelingen)
PDFs converteren naar FLATOPC (Microsoft Word 2003 TekstverwerkingML)
PDFs converteren naar FODS (OpenDocument platte XML-spreadsheet)
PDFs converteren naar GIF (Grafisch uitwisselingsformaat)
PDFs converteren naar MD (Markdown-taal)
PDFs converteren naar ODS (OpenDocument-spreadsheet)
PDFs converteren naar ODT (OpenDocument Tekstbestandsindeling)
PDFs converteren naar OTT (Documentsjabloon openen)
PDFs converteren naar PCL (Printeropdrachttaal)

Wat is PDF bestandsformaat

PDF, of Portable Document Format, is een bestandsindeling die is ontworpen om documenten te presenteren op een manier die consistent blijft in verschillende softwaretoepassingen, hardwareapparaten en besturingssystemen. Elk PDF-bestand bevat een uitgebreide beschrijving van een document met een vaste lay-out, inclusief tekst, lettertypen, afbeeldingen en andere noodzakelijke informatie voor een nauwkeurige weergave. Oorspronkelijk ontwikkeld door Adobe Systems in de vroege jaren 1990, diende PDF als een middel om computerdocumenten te delen met behoud van tekstopmaak en inline afbeeldingen.

PDF-bestanden worden meestal gegenereerd met software zoals Adobe Acrobat of vergelijkbare tools voor het maken van PDF’s. Momenteel is PDF een open standaard geworden die wordt beheerd door de International Organization for Standardization (ISO). Deze standaardisatie zorgt voor compatibiliteit en interoperabiliteit tussen verschillende platforms en systemen. Om PDF-bestanden te bekijken, kunnen gebruikers gratis software zoals Adobe Reader of andere beschikbare PDF-viewers gebruiken.

Een van de grote voordelen van PDF is de platformonafhankelijkheid, waardoor naadloos bekijken en afdrukken mogelijk is op een breed scala aan apparaten en besturingssystemen. Ongeacht de gebruikte hardware of software, de lay-out en inhoud van het document blijven intact. Deze universele toegankelijkheid heeft bijgedragen aan de populariteit van PDF als voorkeursindeling voor het delen en distribueren van documenten over verschillende platforms en systemen.

De mogelijkheid van PDF om een volledig document in te kapselen, inclusief tekst, lettertypen, afbeeldingen en opmaak, maakt het is een betrouwbare keuze voor verschillende toepassingen. Of het nu gaat om het delen van belangrijke rapporten, het publiceren van e-books, het verspreiden van formulieren of het geven van professionele presentaties, PDF zorgt voor consistente documentweergave en betrouwbare bewaring van inhoud in verschillende omgevingen.

Wat is MARKDOWN bestandsformaat

Markdown, een lichtgewicht opmaaktaal die veel wordt gebruikt voor het maken van opgemaakte documenten en webinhoud, biedt een gebruiksvriendelijke en efficiënte oplossing. Met zijn eenvoudige syntaxis stelt Markdown gebruikers in staat om het snel te leren en toe te passen voor verschillende doeleinden. De veelzijdigheid is een belangrijk voordeel, omdat het de mogelijkheid biedt om eenvoudige notities, takenlijsten en complexe technische documentatie en webpagina’s te maken. Bovendien biedt Markdown flexibiliteit door eenvoudige conversie naar andere indelingen mogelijk te maken, waaronder HTML, PDF en DOCX, waardoor de overdraagbaarheid wordt verbeterd.

Eenvoud is een ander waardevol aspect van Markdown. Door een minimale syntaxis te gebruiken, kunnen gebruikers zich concentreren op de inhoud van hun documenten in plaats van te worstelen met ingewikkelde opmaakregels. Deze eenvoud maakt een snelle en efficiënte creatie van inhoud mogelijk, waardoor het niet meer nodig is om stil te staan bij het formatteren van details. Markdown biedt ook compatibiliteit met tal van tools en platforms, waardoor het zeer toegankelijk is. Notion, Obsidian en Bear zijn slechts enkele voorbeelden van populaire schrijf- en notitietoepassingen die Markdown ondersteunen. Bovendien kunnen Markdown-bestanden moeiteloos worden gedeeld en samengewerkt via versiebeheersystemen zoals Git, waardoor samenwerkingsworkflows worden gestroomlijnd.