Αναλύστε το αρχείο PDF Online καθώς και εξαγωγή κειμένου ή εικόνων μέσω Python
Αναπτύξτε μια ισχυρή εφαρμογή βοηθητικού προγράμματος ανάλυσης εγγράφων PDF που βασίζεται στην Python.Παρατίθεται κώδικας για εικόνες εγγράφων PDF και εξαγωγή κειμένου μέσω Python.
Αναλύστε το έγγραφο PDF μέσω της διαδικτυακής εφαρμογής
- Εισαγάγετε το αρχείο PDF για ανάλυση ανεβάζοντάς το.
- Κάντε το κάνοντας κλικ μέσα στην περιοχή απόθεσης μέσω μεταφοράς και απόθεσης της εφαρμογής ανάλυσης.
- Ανάλογα με το μέγεθος του αρχείου PDF και την ταχύτητα του Διαδικτύου, περιμένετε μερικά δευτερόλεπτα.
- Κάντε κλικ στο κουμπί “Ανάλυση τώρα” για να αναλύσετε το έγγραφο.
- Κάντε λήψη των αναλυμένων αρχείων για άμεση προβολή.
Εξαγωγή κειμένου από το αρχείο PDF μέσω Python
- Αναφορά API εντός του έργου απευθείας από το PyPI ( Aspose.Words )
- Φορτώστε το αρχείο PDF χρησιμοποιώντας την κλάση εγγράφων
- Χρησιμοποιήστε τη μέθοδο αποθήκευσης για να το αποθηκεύσετε ως αρχείο .txt
- Όλο το περιεχόμενο PDF αποδίδεται σε κείμενο
Παράδειγμα κώδικα στην Python για εξαγωγή κειμένου εγγράφου PDF
Εξαγωγή εικόνων από το αρχείο PDF μέσω Python
- Αναφορά API εντός του έργου απευθείας από το PyPI ( Aspose.Words )
- Φορτώστε το PDF χρησιμοποιώντας το αντικείμενο κλάσης εγγράφου
- Αποθηκεύστε το αρχείο ως αρχείο Word
- Φορτώστε το αρχείο Word χρησιμοποιώντας το αντικείμενο κλάσης Document
- Εικόνες που είναι αποθηκευμένες σε κόμβους σχήματος σε ένα αντικείμενο Document
- Για να επιλέξετε όλους τους κόμβους Shape, χρησιμοποιήστε τη μέθοδο Document.get_child_nodes
- Κάντε βρόχο μέσω των συλλογών κόμβων που προκύπτουν
- Εάν το Shape.has_image επιστρέψει true.
- Χρησιμοποιήστε την ιδιότητα Shape.image_data για να εξαγάγετε δεδομένα εικόνας.
- Αποθήκευση δεδομένων εικόνας σε αρχείο
Παράδειγμα κώδικα στην Python για εξαγωγή εικόνων εγγράφων PDF
Develop PDF File Parser Application via Python
Χρειάζεστε να αναπτύξετε μια εφαρμογή ή βοηθητικό πρόγραμμα ανάλυσης PDF;Με το
Aspose.Words for Python via .NET
ένα θυγατρικό API του
Aspose.Total for Python via .NET
, οποιοσδήποτε προγραμματιστής python μπορεί να ενσωματώσει τον παραπάνω κώδικα API στην εφαρμογή ανάλυσης εγγράφων του.Η ισχυρή βιβλιοθήκη Python επιτρέπει τον προγραμματισμό οποιασδήποτε λύσης ανάλυσης εγγράφων για εξαγωγή εικόνων καθώς και κειμένου.Επιπλέον, μπορεί να υποστηρίξει πολλές δημοφιλείς μορφές, συμπεριλαμβανομένης της μορφής PDF.
Βοηθητικό πρόγραμμα Python για την επεξεργασία αρχείου PDF για εφαρμογή ανάλυσης
Υπάρχουν εναλλακτικές επιλογές για να εγκαταστήσετε το “
Aspose.Words for Python via .NET
” ή το “
Aspose.Total for Python via .NET
” στο σύστημά σας.Επιλέξτε αυτό που μοιάζει με τις ανάγκες σας και ακολουθήστε τις οδηγίες βήμα προς βήμα:
- Εγκαταστήστε το Aspose.Words for Python via .NET από το PyPI
- Ή Χρησιμοποιήστε τις ακόλουθες εντολές pip
pip install aspose-pdf
.
Απαιτήσεις συστήματος
- Έχει εγκατασταθεί η Python 3.5 ή νεότερη έκδοση
- Βιβλιοθήκες χρόνου εκτέλεσης GCC-6 (ή νεότερες).
- Για Python 3.5-3.7: Απαιτείται η κατασκευή pymalloc της Python.
Για περισσότερες λεπτομέρειες, ανατρέξτε στο Product Documentation .
Συχνές ερωτήσεις
- Μπορώ να χρησιμοποιήσω τον παραπάνω κώδικα Python στην εφαρμογή μου;Ναι, μπορείτε να κάνετε λήψη αυτού του κώδικα και να τον χρησιμοποιήσετε για την ανάπτυξη εφαρμογής ανάλυσης εγγράφων που βασίζεται σε Python.Αυτός ο κώδικας μπορεί να χρησιμεύσει ως πολύτιμος πόρος για τη βελτίωση της λειτουργικότητας και των δυνατοτήτων των έργων σας στον τομέα της επεξεργασίας εγγράφων υποστήριξης, όπως η ανάγνωση κόμβων και η φόρτωση του εγγράφου για εξαγωγή κειμένου και εικόνων.
- Αυτή η διαδικτυακή εφαρμογή ανάλυσης εγγράφων λειτουργεί μόνο σε Windows;Έχετε την ευελιξία να ξεκινήσετε την ανάλυση εγγράφων σε οποιαδήποτε συσκευή, ανεξάρτητα από το λειτουργικό σύστημα στο οποίο εκτελείται, είτε είναι Windows, Linux, Mac OS ή Android.Το μόνο που απαιτείται είναι ένα σύγχρονο πρόγραμμα περιήγησης και μια ενεργή σύνδεση στο Διαδίκτυο.
- Είναι ασφαλής η χρήση της διαδικτυακής εφαρμογής για την ανάλυση του εγγράφου PDF;Φυσικά! Τα αρχεία εξόδου που δημιουργούνται μέσω της υπηρεσίας μας θα αφαιρεθούν με ασφάλεια και αυτόματα από τους διακομιστές μας εντός 24 ωρών.Ως αποτέλεσμα, οι σύνδεσμοι εμφάνισης που σχετίζονται με αυτά τα αρχεία θα πάψουν να λειτουργούν μετά από αυτήν την περίοδο.
- Ποιο πρόγραμμα περιήγησης πρέπει να χρησιμοποιήσει την εφαρμογή;Μπορείτε να χρησιμοποιήσετε οποιοδήποτε σύγχρονο πρόγραμμα περιήγησης ιστού, όπως το Google Chrome, το Firefox, το Opera ή το Safari για διαδικτυακή ανάλυση εγγράφων PDF. Ωστόσο, εάν αναπτύσσετε μια εφαρμογή επιτραπέζιου υπολογιστή, συνιστούμε να χρησιμοποιήσετε το API επεξεργασίας εγγράφων Aspose.Total για αποτελεσματική διαχείριση.