Γλωσσάριο όρων σωμάτων κειμένων [English Greek glossary, Αγγλικά, Ελληνικά]

spiros · 1 · 1263

spiros

  • Administrator
  • Hero Member
  • *****
    • Posts: 853706
    • Gender:Male
  • point d’amour
Γλωσσάριο όρων σωμάτων κειμένων

Από το βιβλίο: Εισαγωγή στη γλωσσολογία σωμάτων κειμένων, Διονύσης Γούτσος Γεωργία Φραγκάκη

ανοικτό σώμα ή σώμα κειμένων ελέγχου (monitor corpus): Σώμα κειμένων που επιτρέπει τον έλεγχο της κατάστασης μιας γλώσσας ανά πάσα στιγμή, καθώς ανανεώνεται συνεχώς με την προσθήκη νέων δεδομένων.

αντιπροσωπευτικότητα (representativeness): Η ιδιότητα ενός σώματος κειμένων να προσφέρει μια αντιπροσωπευτική εικόνα της γλώσσας (ή της ποικιλίας της γλώσσας) που συλλέγεται, έτσι ώστε, τηρουμένων των αναλογιών, τα συμπεράσματα που εξάγονται από αυτό να ισχύουν για όλη τη γλώσσα ή τη γλωσσική ποικιλία που περιέχει το σώμα κειμένων. Για την επίτευξη της αντιπροσωπευτικότητας σημαντικά είναι το μέγεθος του σώματος κειμένων, η αυθεντικότητα των δεδομένων (κείμενα από φυσικά περιβάλλοντα επικοινωνίας που έχουν κεντρική σημασία για τη συγκεκριμένη γλωσσική ποικιλία που μελετάται) και η σχετική ισορροπία (balance) μεταξύ των κειμενικών ειδών που απαρτίζουν το σώμα κειμένων, η οποία θα πρέπει να βασίζεται σε ρητά διατυπωμένα κριτήρια.

αντίστροφος κατάλογος συχνότητας (reverse word list): Ο αντίστροφος κατάλογος συχνότητας περιλαμβάνει τις λέξεις που εμφανίζονται στα κείμενα του σώματος κειμένων και τη συχνότητα εμφάνισής τους. Οι λέξεις εμφανίζονται με αλφαβητική σειρά με βάση την κατάληξή τους. Βλ. κατάλογος συχνότητας.

άπαξ λεγόμενα (hapax legomena): Λέξεις που εμφανίζονται μόνο μία φορά σε έναν κατάλογο συχνότητας. Βλ. κατάλογος συχνότητας.

αρχή της ανοιχτής επιλογής (open choice principle): Σύμφωνα με τον Sinclair, η αρχή της ανοιχτής επιλογής προβλέπει ότι οι ομιλητές/συγγραφείς κάνουν ελεύθερους συνδυασμούς στοιχείων, επιλέγοντας ελεύθερα από αυτόνομα στοιχεία που συνδυάζονται γραμματικά με άλλα αυτόνομα στοιχεία. Η αρχή αυτή βρίσκεται στα κείμενα σε διαρκή αντιπαράθεση με την αρχή του ιδιωτισμού. Βλ. αρχή του ιδιωτισμού.

αρχή του ιδιωτισμού (idiom principle): Σύμφωνα με τον Sinclair, η αρχή του ιδιωτισμού προβλέπει ότι «οι χρήστες της γλώσσας έχουν στη διάθεσή τους μεγάλο αριθμό από ημιπροκατασκευασμένες φράσεις που αποτελούν μία και μόνη επιλογή, έστω κι αν φαίνεται ότι μπορούν να αναλυθούν σε τεμάχια». Τέτοια στοιχεία είναι οι λεξικές και οι γραμματικές συνάψεις, ενώ και η σημασιολογική προτίμηση και η σημασιολογική προσωδία είναι φαινόμενα που αποκαλύπτουν τέτοιες χρήσεις λεξικών μονάδων. Η αρχή αυτή βρίσκεται στα κείμενα σε διαρκή αντιπαράθεση με την αρχή της ανοιχτής επιλογής. Βλ. αρχή της ανοιχτής επιλογής.

γλωσσολογία σωμάτων κειμένων (corpus linguistics): Ο κλάδος της γλωσσολογίας που επιχειρεί να ελέγξει ερευνητικές υποθέσεις, αλλά και να διαμορφώσει νέες θεωρητικές προσεγγίσεις για τη γλώσσα χρησιμοποιώντας μεθόδους για τη δημιουργία και ανάλυση σωμάτων κειμένων.

γραμματική σύναψη (colligation): Οι γραμματικές συνάψεις εκφράζουν τη σχέση μιας λέξης με τις γραμματικές κατηγορίες με τις οποίες συνεμφανίζεται με ορισμένη συχνότητα.

διαχρονικό σώμα κειμένων (diachronic corpus): Τα διαχρονικά σώματα κειμένων περιλαμβάνουν κείμενα της ίδιας γλώσσας ή γλωσσικής ποικιλίας από διαφορετικές χρονικές περιόδους.

ειδικό σώμα κειμένων (specialized corpus): Τα ειδικά σώματα κειμένων εξειδικεύονται σε μία από τις παραμέτρους της γλωσσικής ποικιλότητας, όπως σε μια γεωγραφική ή διαλεκτική ποικιλία της γλώσσας, σε μια κοινωνιόλεκτο με βάση την ηλικία, το φύλο, το μορφωτικό επίπεδο κ.λπ. των ομιλητών, σε ένα μέσο (π.χ. ηλεκτρονική επικοινωνία), σε ένα πεδίο (π.χ. οικονομικά, γεωγραφία) κ.λπ.

επισημείωση (annotation): Η επισημείωση μπορεί να θεωρηθεί ως υποπερίπτωση του χαρακτηρισμού των σωμάτων κειμένων. Βλ. χαρακτηρισμός σωμάτων κειμένων. Περιλαμβάνει, μεταξύ άλλων, την επισημείωση για μέρη του λόγου (part-of-speech tagging ή POS tagging), τον χαρακτηρισμό δηλαδή κάθε γλωσσικού τύπου για το μέρος του λόγου στο οποίο ανήκει, τη συντακτική επισημείωση (parsing), τον χαρακτηρισμό δηλαδή της συντακτικής δομής σε επίπεδο πρότασης, τη σημασιολογική επισημείωση (semantic annotation), τον χαρακτηρισμό δηλαδή λέξεων ή προτάσεων του κειμένου για πτυχές της σημασίας, και την κειμενική επισημείωση (discourse annotation), δηλαδή τον χαρακτηρισμό τμημάτων του κειμένου σε διαπροτασιακό επίπεδο.

ευθυγράμμιση (alignment): Η αντιστοίχιση προτάσεων, παραγράφων ή λέξεων ενός κειμένου με αυτές ενός άλλου σε ένα παράλληλο σώμα κειμένων. Βλ. παράλληλο σώμα κειμένων.

ιστορικό σώμα κειμένων (historical corpus): Σώμα κειμένων που περιλαμβάνει κείμενα από μια συγκεκριμένη ιστορική περίοδο.

κάλυψη (coverage): Το ποσοστό που καταλαμβάνει σε ένα σώμα κειμένων ένα γλωσσικό φαινόμενο, δηλαδή σε πόσα κείμενα εμφανίζεται.

κατάλογος συχνότητας (word list): Ο κατάλογος συχνότητας περιλαμβάνει τις λέξεις που εμφανίζονται στα κείμενα του σώματος κειμένων και τη συχνότητα εμφάνισής τους. Ανάλογα με την επιλογή μας, οι λέξεις εμφανίζονται με αλφαβητική σειρά ή με σειρά συχνότητας. Βλ. και αντίστροφος κατάλογος συχνότητας.

κειμενικές γραμματικές συνάψεις (textual colligations): Σύμφωνα με τον Hoey, οι κειμενικές γραμματικές συνάψεις αναφέρονται στην τάση κάθε λέξης να εμφανίζεται ή να αποφεύγει συγκεκριμένες θέσεις στον λόγο.

κειμενικές συνάψεις (textual collocations): Σύμφωνα με τον Hoey, οι κειμενικές συνάψεις αναφέρονται στην τάση κάθε λέξης να συμμετέχει ή να αποφεύγει συγκεκριμένους συνοχικούς δεσμούς.

κλειστό σώμα κειμένων (closed corpus): Ένα στατικό σώμα κειμένων, με δεδομένο μέγεθος και σύσταση,
το οποίο συγκροτείται και ολοκληρώνεται σε μια δεδομένη χρονική στιγμή και δεν αλλάζει ύστερα από αυτή.

λέξη-κλειδί (keyword): Οι λέξεις-κλειδιά σε ένα σώμα κειμένων περιλαμβάνουν τις στατιστικά σημαντικές λέξεις, όπως προκύπτουν από τη σύγκριση της συχνότητας εμφάνισής τους σε αυτό το σώμα σε σχέση με τη συχνότητα εμφάνισής τους σε ένα άλλο σώμα κειμένων, το οποίο χρησιμοποιείται ως σώμα κειμένων αναφοράς. Η σύγκριση αυτή λαμβάνει υπόψη το μέγεθος των δύο σωμάτων κειμένων και αξιοποιεί στατιστικά τεστ όπως το χ2.

λεξική σύναψη (collocation): Άλλος όρος για τη σύναψη. Βλ. σύναψη.

λεξική προέγερση (lexical priming): Σύμφωνα με τον Hoey, η δυναμική κάθε λέξης να ανακαλείται ως αποτέλεσμα των επαναλαμβανόμενων φορών που την έχει συναντήσει ένας ομιλητής.

λεξικό σύμπλεγμα (cluster): Τα λεξικά συμπλέγματα αποτελούν ακολουθίες περισσότερων από δύο λέξεις με στατιστικά σημαντική συνεμφάνιση σε ένα κείμενο ή σε ένα σώμα κειμένων. Άλλοι σχετικοί όροι είναι: αλληλουχία (chain), ν-γράφοι ή ν-γράμματα (n-grams) και λεξική δέσμη (lexical bundle). Τα λεξικά συμπλέγματα περιλαμβάνονται στον ευρύτερο όρο της φρασεολογίας. Βλ. φρασεολογία.

λημματοποίηση (lemmatization): Η λημματοποίηση αποτελεί την[/google] (αυτόματη ή μη αυτόματη) διαδικασία της σύνδεσης κάθε επιμέρους γλωσσικού τύπου με το λήμμα στο οποίο ανήκει.

μάθηση κατευθυνόμενη από τα δεδομένα (data-driven learning): Η διαδικασία εκμάθησης ενός γλωσσικού φαινομένου που καθοδηγείται από την εμπειρική παρατήρηση του μαθητή στα δεδομένα ενός
σώματος κειμένων.

μελέτες που βασίζονται σε σώματα κειμένων (corpus-based studies): Πρόκειται για μελέτες που χρησιμοποιούν ένα σώμα κειμένων ως βάση για τη διερεύνηση ήδη υπαρχουσών θεωρητικών παραδοχών.

μελέτες που καθοδηγούνται από σώματα κειμένων (corpus-driven studies): Πρόκειται για μελέτες που διαμορφώνουν νέες θεωρητικές προσεγγίσεις στο αντικείμενο με βάση τα ίδια τα ευρήματα που προκύπτουν από την ανάλυση σωμάτων κειμένων.

μεταδεδομένα (metadata): Τα μεταδεδομένα αποτελούν τα στοιχεία της τεκμηρίωσης του σχεδιασμού και της σύστασης ενός σώματος κειμένων και περιλαμβάνουν τα εκδοτικά μεταδεδομένα (πληροφορίες για τη σχέση μεταξύ των συστατικών του σώματος κειμένων με την αρχική τους πηγή όπως π.χ. παραλείψεις τμημάτων, κανονικοποιήσεις κ.λπ.), τα αναλυτικά μεταδεδομένα (πληροφορίες για τον τρόπο με τον οποίο γίνονται αντιληπτά και αναλύονται τα συστατικά μέρη του σώματος κειμένων όπως π.χ. την κατηγοριοποίηση του κειμένου), τα περιγραφικά μεταδεδομένα (ταξινομικές πληροφορίες με βάση τα εξωτερικά ή εσωτερικά χαρακτηριστικά των συστατικών μερών του σώματος κειμένων) και τα διοικητικά μεταδεδομένα (τεκμηρίωση για το ίδιο το σώμα κειμένων όπως λ.χ. τον τίτλο, τη διαθεσιμότητά του, τις διαδοχικές του εκδόσεις κ.λπ.).

ν-γράμματο/ν-γράφος (n-gram): Οποιαδήποτε ακολουθία χαρακτήρων ή λέξεων με ορισμένο μήκος.

ολική εξηγησιμότητα (total accountability): Η αρχή σύμφωνα με την οποία πρέπει να ερμηνεύονται όλες οι εμφανίσεις ενός γλωσσικού φαινομένου στο σώμα κειμένων που απαντά, χωρίς εξαιρέσεις.

ουσιαστικό-κέλυφος (shell noun): Πρόκειται για γενικά ουσιαστικά που χρησιμοποιούνται σε φράσεις για να αναφερθούν συμπεριληπτικά σε ολόκληρα τμήματα ενός κειμένου.

παράλληλο σώμα κειμένων (parallel corpus): Τα παράλληλα σώματα κειμένων περιλαμβάνουν κυρίως τα ίδια κείμενα σε διαφορετικές γλώσσες (π.χ. πρωτότυπο κείμενο σε μια γλώσσα και τη μετάφρασή του σε άλλη ή άλλες γλώσσες ή μεταφράσεις σε διάφορες γλώσσες από ένα κοινό πρωτότυπο), τα οποία είναι επεξεργασμένα έτσι ώστε να υπάρχει ευθυγράμμιση ανάμεσα σε παραγράφους, προτάσεις ή λέξεις των κειμένων αυτών, για τη διευκόλυνση της ανάκλησης όλων των αντίστοιχων μονάδων στις γλώσσες των σωμάτων κειμένων που συγκρίνονται.

πολυτροπικό σώμα κειμένων (multimodal corpus): Το σώμα κειμένων που συνδυάζει υλικό από διάφορες τροπικότητες (π.χ. προφορικό λόγο με ηχητικά αρχεία ή βίντεο, γραπτό λόγο με εικόνες κ.λπ.).

σημαντικότητα (keyness): Ο βαθμός στον οποίο μια λέξη-κλειδί σε ένα σώμα κειμένων διαφέρει με στατιστικά σημαντικό τρόπο από την εμφάνισή της στο σώμα κειμένων αναφοράς. Βλ. λέξη-κλειδί.

σημασιολογική προσωδία (semantic prosody): Σύμφωνα με τον Louw, πρόκειται για το σημασιολογικό φαινόμενο που προκύπτει από τον αρνητικό ή θετικό χρωματισμό μιας λέξης ή φράσης από τις συνήθεις συνάψεις της, ο οποίος συνήθως διατηρείται, ακόμη και όταν η λέξη ή η φράση εμφανίζεται με διαφορετικές συνάψεις. Με αυτήν την έννοια, η σημασιολογική προσωδία είναι προϊόν της επαναλαμβανόμενης συνεμφάνισης στο πέρασμα του χρόνου μιας λέξης με άλλες κακόσημες ή εύσημες λέξεις. Εναλλακτικά (με διαφορετική έμφαση) έχει χρησιμοποιηθεί και ο όρος κειμενική προσωδία (discourse prosody).

σημασιολογική προτίμηση (semantic preference): Η τάση μιας λέξης να συνεμφανίζεται με λέξεις από ένα συγκεκριμένο σημασιολογικό πεδίο.

συγκρίσιμo σώμα κειμένων (comparable corpus): Τα συγκρίσιμα σώματα κειμένων περιλαμβάνουν κείμενα σε δύο ή περισσότερες γλώσσες που αφορούν την ίδια γλωσσική ποικιλία και τηρούν τις ίδιες προδιαγραφές, έχουν δηλαδή την ίδια αναλογία από τα ίδια κειμενικά είδη στην ίδια περίοδο δειγματοληψίας, χωρίς να αναφέρονται κατ’ ανάγκην στο ίδιο περιεχόμενο.

συγχρονικό σώμα κειμένων (synchronic corpus): Τα συγχρονικά σώματα κειμένων περιλαμβάνουν κείμενα από μία συγκεκριμένη χρονική περίοδο και μόνο.

συμφραστικό διάστημα (collocation span): Το σύνολο των λέξεων αριστερά και δεξιά από μια λέξη, μέσα στο οποίο εντοπίζονται οι συνάψεις της. Βλ. σύναψη.

συμφραστικό εύρος (collocational range): Το συμφραστικό εύρος μιας λέξης αναφέρεται στον αριθμό των διαφορετικών λέξεων με τις οποίες μπορεί να συνάπτεται. Βλ. σύναψη.

συμφραστικός πίνακας (concordances): Λίστες με γραμμές που περιλαμβάνουν την υπό εξέταση λέξη (ή φράση) και τα στενά της συμφραζόμενα. Συνήθως, η υπό εξέταση λέξη, ή αλλιώς κομβική λέξη (node word), εμφανίζεται στο κέντρο, ενώ αριστερά και δεξιά δίνονται οι λέξεις με τις οποίες συνεμφανίζεται, δηλαδή οι συνάψεις της.

συναπτική ισχύς (collocation strength): Ο βαθμός έλξης των δύο λέξεων σε κάθε σύναψη.

σύναψη (collocation): Η συνταγματική σχέση μεταξύ λέξεων που συνεμφανίζονται στον λόγο. Σύμφωνα με τον Firth, οι λεξικές συνάψεις αναφέρονται σε σχέσεις αμοιβαίας προβλεψιμότητας μεταξύ μεμονωμένων λεξικών στοιχείων. Πρόκειται για αυθαίρετες σημασιολογικά συνεμφανίσεις λέξεων με στατιστική συχνότητα. Άλλοι σχετικοί όροι είναι: σύμπλοκο και σύμφραση.

σώμα κειμένων (corpus): Συλλογή γραπτού ή/και προφορικού λόγου που συνήθως είναι αποθηκευμένη ηλεκτρονικά και χρησιμοποιείται για γλωσσολογική ανάλυση και εκπαιδευτικές εφαρμογές. Τα δεδομένα του αξιοποιούνται κυρίως με καταλόγους συχνοτήτων, συμφραστικούς πίνακες και στατιστικά εργαλεία υπολογισμού λέξεων-κλειδιών.

σώμα κειμένων αναφοράς (reference corpus): Περιλαμβάνει ένα ευρύ φάσμα κειμενικών ειδών από ποικίλες πηγές και έχει ως στόχο να προσφέρει στοιχεία για μια γλώσσα στο σύνολό της.

σώμα κειμένων μαθητών δεύτερης γλώσσας (learner corpus): Πρόκειται για ειδικά σώματα κειμένων που περιλαμβάνουν (προφορικά ή γραπτά) κείμενα μη φυσικών ομιλητών μιας γλώσσας.

υπολογιστική γλωσσολογία (computational linguistics): Διεπιστημονικό πεδίο της πληροφορικής και της γλωσσολογίας που ασχολείται κυρίως με την επεξεργασία φυσικής γλώσσας (natural language processing) σε διάφορα επίπεδα της γλωσσικής δομής (π.χ. φωνολογία, μορφολογία, σύνταξη κ.λπ.), με σκοπό τη δημιουργία υπολογιστικών εφαρμογών για την αναγνώριση, επεξεργασία και παραγωγή της γλώσσας από τον υπολογιστή.

υποσώμα κειμένων (subcorpus): Τμήμα ενός σώματος κειμένων που αποτελεί επιλογή από αυτό με βάση ορισμένα κριτήρια.

φρασεολογία (phraseology): Αποτελεί έναν ευρύτερο όρο που αναφέρεται σε δομές που περιλαμβάνουν δύο ή περισσότερες λέξεις και συχνά έχουν προκατασκευασμένο ή ιδιωματικό χαρακτήρα. Άλλοι σχετικοί όροι είναι: εκτεταμένες λεξικές μονάδες (lexical units), συμφραστικά πλαίσια (collocation frameworks/collocation frames), σχήματα (patterns), συνάψεις, δυώνυμα (binomials), λεξικά συμπλέγματα, ιδιωτισμοί (idioms), φόρμουλες (formulae) κ.ά.

χαρακτηρισμός σωμάτων κειμένων (corpus markup): Η προσθήκη πληροφοριών για την επεξεργασία και τη μορφοποίηση των κειμένων που περιλαμβάνονται στο σώμα κειμένων, για την κατηγοριοποίησή τους σε κειμενικά είδη ή για τη σύσταση των μερών τους μέσω της εισαγωγής συγκεκριμένης κωδικοποίησης. Ο χαρακτηρισμός των σωμάτων κειμένων είναι ευρύτερη έννοια και περιλαμβάνει και την επισημείωση των σωμάτων κειμένων. Βλ. επισημείωση.

ψηφιακές ανθρωπιστικές σπουδές (digital humanities): Η αξιοποίηση ψηφιακών πόρων, εργαλείων, καθώς και σχετικών θεωρητικών εννοιών για την έρευνα στον χώρο των ανθρωπιστικών σπουδών.
« Last Edit: 08 Apr, 2022, 19:27:20 by spiros »


 

Search Tools