Αναγνώστης - Οπτική Αναγνώριση Χαρακτήρων (OCR) για Πολυτονικά! / Greek Polytonic OCR

spiros · 3 · 11811

spiros

  • Administrator
  • Hero Member
  • *****
    • Posts: 812601
    • Gender:Male
  • point d’amour
Η οπτική αναγνώριση χαρακτήρων (optical character recognition ή ocr) σε πολυτονικό κείμενο (αρχαία ελληνικά, καθαρεύουσα) είναι ζητούμενο για πολλούς χρήστες αλλά δεν διατίθεται ως επιλογή από τα κορυφαία προγράμματα του είδους, όπως το ABBYY Finereader (εκτός αν… έχασα επεισόδια και δεν το ξέρω). Υπάρχουν όμως δύο δωρεάν λύσεις που μπορούν να μας προσφέρουν αυτή τη δυνατότητα: η εφαρμογή Capture2Text, καθώς και η εφαρμογή gImageReader, σε συνδυασμό με το πρότζεκτ tesseract. Σε αυτόν το σύντομο οδηγό θα αναφερθώ στην πρώτη εφαρμογή.

Capture2Text

Η εφαρμογή Capture2Text προορίζεται να αναγνωρίζει κείμενο που βλέπουμε στην οθόνη, δηλ. κάτι αντίστοιχο του εμπορικού ABBYY ScreenshotReader. Είναι ικανή να αναγνωρίσει μόνο μία γλώσσα και όχι περισσότερες ταυτόχρονα. Επίσης έχει και τη δυνατότητα αυτόματης μετάφρασης (με τη χρήση του Google Translate) αλλά δε θα μας απασχολήσει εδώ αυτή η λειτουργία.

Λειτουργεί σε Windows 7, 8 και 10 - εγώ τη δοκίμασα στην τελευταία έκδοση των ελληνικών Windows 10 64 bit με το Creators Update. Τα Windows XP υποστηρίζονται από εκδόσεις προηγούμενες της έκδοσης 4.

- Σελίδα εφαρμογής: Capture2Text

- Κατεβάζουμε την εφαρμογή από εδώ.

Τρέχουσα έκδοση είναι η 4.3.0. Επιλέγουμε την κατάλληλη αρχιτεκτονική (32 bit ή 64 bit) ανάλογα με την έκδοση Windows που έχουμε.

Θα χρειαστούμε επιπρόσθετα δύο αρχεία, ένα για την ελληνική και ένα για την αρχαία ελληνική γλώσσα. Τα κατεβάζουμε από εδώ.

Το αρχείο ell.traineddata (12 MB) είναι για τα ελληνικά κείμενα και το αρχείο grc.traineddata (12,2 MB) για τα πολυτονικά.

ΕΓΚΑΤΑΣΤΑΣΗ

Η εφαρμογή έχει μέγεθος λίγο πάνω από τα 60 MB, είναι portable και δεν απαιτεί εγκατάσταση· απλώς την αποσυμπιέζουμε σε έναν φάκελο της επιλογής μας. Στη συνέχεια πηγαίνουμε μέσα στον φάκελο αυτό και προσθέτουμε στον υποφάκελο tessdata τα αρχεία ell.traineddata και grc.traineddata.

Οι ρυθμίσεις που κάνουμε στην εφαρμογή αποθηκεύονται σε αρχείο .ini στη διαδρομή C:\Users\[username]\AppData\Roaming\Capture2Text.

ΕΚΤΕΛΕΣΗ - ΡΥΘΜΙΣΕΙΣ

Εκτελούμε την εφαρμογή με διπλό κλικ στο αρχείο Capture2Text.exe (αν θέλουμε, φτιάχνουμε συντόμευσή του στην επιφάνεια εργασίας ή στη γραμμή εργασιών για γρήγορη πρόσβαση). Μόλις το εκτελέσουμε, το εικονίδιο της εφαρμογής θα εμφανιστεί στη γραμμή εργασιών κάτω δεξιά (εφόσον έχουμε την προεπιλεγμένη ρύθμιση των Windows για τη θέση της γραμμής εργαλείων). Με δεξί κλικ πάνω του έχουμε πρόσβαση στις ρυθμίσεις (Settings), στην τρέχουσα γλώσσα αναγνώρισης και σε διάφορες άλλες επιλογές.

Με κλικ στο Settings βλέπουμε (και αλλάζουμε, αν το επιθυμούμε) στην καρτέλα Hotkeys τα πλήκτρα συντόμευσης με τα οποία μπορούμε να χειριζόμαστε την εφαρμογή. Στην καρτέλα OCR1 βλέπουμε, ανάμεσα σε άλλα, τις διαθέσιμες γλώσσες αναγνώρισης και τη λίστα με τις γλώσσες γρήγορης πρόσβασης· εδώ μπορούμε να ορίσουμε τις τρεις γλώσσες που θέλουμε (π.χ. Greek, Ancient Greek, English, και τη σειρά που μας εξυπηρετεί) και διάφορες άλλες διαθέσιμες ρυθμίσεις που δεν θα μας απασχολήσουν ιδιαίτερα.

Ο προεπιλεγμένος συνδυασμός πλήκτρων για την έναρξη της αναγνώρισης είναι Win+Q. Για την επιλογή της 1ης γλώσσας αναγνώρισης το Win+1, της 2ης γλώσσας το Win+2 και της 3ης γλώσσας το Win+3.

post-42026-0-66756900-1498569625_thumb.png

ΛΕΙΤΟΥΡΓΙΑ

Εκτελούμε  την εφαρμογή και επιλέγουμε τη βασική γλώσσα αναγνώρισης, π.χ. Ancient Greek.

Εμφανίζουμε το πολυτονικό κείμενο στην οθόνη, είτε αυτό βρίσκεται σε pdf, είτε σε αρχείο εικόνας (jpg, tif κτλ.). Φροντίζουμε να το μεγεθύνουμε ώστε να φαίνεται όσο το δυνατόν πιο καθαρά στην οθόνη.

Αφού φέρουμε το κείμενο σε τέτοια θέση ώστε να το βλέπουμε όλο στην οθόνη –ή τουλάχιστον όλο το πλάτος του– μετακινούμε τον δείκτη το ποντικιού σε μία από τις τέσσερις γωνίες του κειμένου (π.χ. πάνω και αριστερά, λίγο πάνω από το κείμενο) και πατάμε Win+Q. Στη συνέχεια μετακινούμε το ποντίκι προς την αντίθετη κατεύθυνση διαγώνια, ώστε να επιλέξουμε τις γραμμές κειμένου που θέλουμε. Καθώς κάνουμε αυτή την κίνηση, βλέπουμε ένα διάφανο γαλάζιο πλαίσιο να καλύπτει το κείμενο και ταυτόχρονα, στο πάνω μέρος της οθόνης, μια γραμμή στην οποία εμφανίζεται σε προεπισκόπηση το αναγνωρισμένο κείμενο (αν κάναμε λάθος, μπορούμε πατώντας Escape να ακυρώσουμε τη διαδικασία ώστε να ξαναπροσπαθήσουμε).

Αφού φέρουμε τον δείκτη του ποντικιού στο απέναντι μέρος του κειμένου (π.χ. κάτω δεξιά, λίγο πιο κάτω από το κείμενο) ώστε να καλύψουμε με το πλαίσιο όλο το κείμενο που μας ενδιαφέρει, πατάμε πάλι Win+Q ή, εναλλακτικά, κάνουμε αριστερό κλικ με το ποντίκι, για να αρχίσει η οπτική αναγνώριση.

Μόλις αυτή ολοκληρωθεί, θα εμφανιστεί ένα παράθυρο με το αποτέλεσμα. Σε αυτό το παράθυρο μπορούμε, προαιρετικά, να κάνουμε τις διορθώσεις που θέλουμε (η εφαρμογή, φυσικά, δεν είναι αλάνθαστη και σίγουρα θα κάνει λάθη) ή να τις αφήσουμε για αργότερα. Αφού τελειώσουμε με τις διορθώσεις πατάμε το OK και το αποτέλεσμα μεταφέρεται στην προσωρινή μνήμη (Πρόχειρο - Clipboard) των Windows, ώστε να το επικολλήσουμε σε επεξεργαστή κειμένου ή άλλη ανάλογη εφαρμογή για περαιτέρω επεξεργασία. Το κείμενο επικολλάται χωρίς μορφοποίηση.

Επαναλαμβάνουμε τη διαδικασία αυτή για όλο το κείμενο που θέλουμε.

Για να κλείσουμε την εφαρμογή, κάνουμε δεξί κλικ στο εικονίδιό της στο tray και πατάμε Exit.
https://www.insomnia.gr/forums/topic/648301-%CE%BF%CF%80%CF%84%CE%B9%CE%BA%CE%AE-%CE%B1%CE%BD%CE%B1%CE%B3%CE%BD%CF%8E%CF%81%CE%B9%CF%83%CE%B7-%CF%87%CE%B1%CF%81%CE%B1%CE%BA%CF%84%CE%AE%CF%81%CF%89%CE%BD-%CF%83%CE%B5-%CF%80%CE%BF%CE%BB%CF%85%CF%84%CE%BF%CE%BD%CE%B9%CE%BA%CF%8C-%CE%BA%CE%B5%CE%AF%CE%BC%CE%B5%CE%BD%CE%BF/

Αναγνώστης - Οπτική Αναγνώριση Χαρακτήρων (OCR) για Πολυτονικά!
http://www.ideatech.gr/

The best OCR results I've seen for older volumes of polytonic Greek come from Bruce Robertson's Lace project (http://heml.mta.ca/lace/), which is open source. There are classifiers for different font types, so it helps to be able to identify the font.

For more recently printed works, Nick White's Ancient Greek OCR project (Ancient Greek OCR) may give better results, according to rumor.
https://www.ibiblio.org/bgreek/forum/viewtopic.php?f=25&t=3503

Ήταν γελοίο που τόσο καιρό το FineReader δεν έκανε κάτι για τα πολυτονικά.

Κάποιος Έλληνας, πήρε την πρωτοβουλία να κάνει το δικό του. Δεν το έχω δοκιμάσει και επομένως δεν γνωρίζω πόσο αξιόπιστο είναι. Η τιμή του βέβαια είναι κάπως υπερβολική... 585 ευρώ.



Ο  Αναγνώστης, το  μοναδικό σύστημα Οπτικής Αναγνώρισης Χαρακτήρων με δυνατότητα αναγνώρισης πολυτονικών κειμένων, παρέχεται με επεξεργαστή κειμένου για αρχαίο ελληνικό κείμενο, έχει τη δυνατότητα αναγνώρισης κειμένων με ποικίλες γραμματοσειρές αρχαίων ελληνικών καθώς και δυνατότητα ελληνικού πολυτονικού κειμένου χωρίς τη χρήση του πληκτρολογίου.

Τα κύρια χαρακτηριστικά του "Αναγνώστη" είναι:

Αναγνωρίζει κείμενα με ποικίλες γραμματοσειρές (fonts), μεγέθη και τύπους χαρακτήρων (Bold, Italics κλπ.)

Αναγνωρίζει ελληνικό (μονοτονικό) κείμενο με λατινικές λέξεις, ελληνικό πολυτονικό κείμενο (με διατήρηση όλων των τόνων, πνευμάτων κλπ.), όπως επίσης και αγγλικό, γαλλικό, γερμανικό, ιταλικό, ισπανικό και μικτό λατινικό κείμενο.

Εκπαιδεύεται σε καινούργιες γραμματοσειρές από το χρήστη.

Μια σελίδα Α4 (με 3000 περίπου χαρακτήρες) χρειάζεται περίπου 10 δεύτερα (Pentium 300 CPU) για να αναγνωσθεί και να μεταφρασθεί σε ASCII μορφή.

Κάνει ελάχιστα λάθη.
Σε ένα συνηθισμένο κείμενο το ποσοστό επιτυχίας ξεπερνά το 99,5%.

Παρέχει τη δυνατότητα αναγνώρισης ολόκληρης σελίδας (μεγέθους έως Α2) ή τμημάτων αυτής.

Έχει δυνατότητα αυτόματου διαχωρισμού της σελίδας σε κείμενο και γραφικά καθώς και αναγνώρισης πολύστηλων κειμένων.

Παράγει κείμενο στις πιο διαδεδομένες τυποποιήσεις επεξεργαστών κειμένου.

Αναγνωρίζει κείμενο σε μορφή πίνακα.

Περιλαμβάνει Unicode επεξεργαστή κειμένου για μορφοποίηση του αναγνωρισμένου κειμένου.

Μπορεί να επεξεργαστεί οποιαδήποτε σελίδα σε μορφή TIFF, η οποία έχει προκύψει από σάρωση με οποιοδήποτε flat-bed, roller-bed ή hand-held scanner.

Αποθηκεύει TIFF εικόνες με επιλεγόμενη συμπίεση. Επίσης υποστηρίζει TIFF αρχεία πολλαπλών εικόνων (multipage TIFF).

Επίσης υποτηρίζει BMP, PCX και GIF τυποποιήσεις εικόνας.

Συνεργάζεται μέσω TWAIN πρωτοκόλλου με όλους τους σύγχρονους scanners της αγοράς.

Υποστηρίζει αρχεία παραμέτρων (templates), παραμετρικές περιοχές αναγνώρισης, μαζική σάρωση και αναγνώριση (εκδόσεις Pro).

Ελάχιστες απαιτήσεις hardware

Ενας PC/AT 386 προσωπικός υπολογιστής με 16 MΒytes RAM, ποντίκι, συνιστώμενη διακριτικότητα οθόνης 800x600 η ανώτερη.

Σαρωτής (scanner) flat-bed, roller-bed ή hand-held με ελάχιστη διακριτικότητα 300 dpi (συνιστώμενη 400 dpi).


Άλλοι σύνδεσμοι
https://github.com/manisandro/gImageReader/releases
https://ancientgreekocr.org/

This is a Gamera toolkit for building text recognition applications for polytonal (classical) Greek. It is based on the Gamera framework and requires a working installation of both Gamera and the Gamera OCR toolkit.
The Gamera Homepage
http://www.e-humanities.net/assets/seminar/2012/seminar%20on%20oct%2010th.pdf
Polytonic Greek Optical Character Recognition: Preliminary Results
http://www.intercollege.ac.cy/media/Research/charalamboschristoupenek.pdf
https://alopsis.gr/alopsis/gImageReader.pdf
« Last Edit: 10 Jun, 2020, 15:03:59 by spiros »


menmech

  • Jr. Member
  • **
    • Posts: 229
    • Gender:Male
  • Μενέλαος Αγγελόπουλος
Κυκλοφορεί ένα πρόγραμμα το Anagnostis 4.1 το οποίο είναι το μόνο που δίνει τη δυνατότητα στο σαρωτή να αναγνωρίζει αρχαίο κείμενο ώστε να μπορεί κανείς να το επεξεργαστεί. Το demo του κυκλοφορεί ελεύθερα και έχει απλά περιορισμό στην αποθήκευση του κειμένου. Κατάφερα να εντοπίσω μόνο αυτό ως λύση http://masktm.proboards.com/index.cgi?board=general&action=print&thread=9.

Βέβαια μπορεί κάποιος να μου πεί:

Φίλε τι λες; Οι άλλοι το πουλάνε αυτό και εσύ θέλεις να το βρεις τζάμπα;

Τι να πω...
Δεν πάμε καλά εμείς οι φοιτητές...
Ευχαριστώ πάντως
Ἐάσατε τῇ κέλλῃ με μόνον ἐγκεκλεισμένον,
ἄφετέ με μετά Θεοῦ τοῦ μόνου φιλανθρώπου,
ἀπόστητε, μακρύνατε, ἐάσατέ με μόνον
ἀποθανεῖν ἐνώπιον Θεοῦ τοῦ πλάσαντός με.
Αγίου Συμεών του Νέου Θεολόγου Ύμνος ΚΗ



spiros

  • Administrator
  • Hero Member
  • *****
    • Posts: 812601
    • Gender:Male
  • point d’amour
http://www.textkit.com/greek-latin-forum/viewtopic.php?f=2&t=9335

OCR for ancient Greek - DigitalClassicist

What do monks, OCR and goat cheese have in common? If you guessed ABBYY FineReader, you’d be right! When Father Gregory contacted ABBYY and explained their monastery’s challenge, ABBYY was only too glad to accommodate with a donation of FineReader 10 Professional.
ABBYY USA
« Last Edit: 27 Jan, 2013, 22:15:07 by spiros »


 

Search Tools