Extension du dictionnaire électronique grec de termes boursiers à partir d'un corpus spécialisé
RésuméUn des problèmes essentiels en traitement automatique des langues (TAL) est celui des mots non reconnus par les systèmes d’analyse automatique, quelque soit l’approche adoptée, linguistique, statistique ou hybride. Dans ce travail, nous définissons comme mots inconnus les mots non reconnus dans un corpus donné, précisément dans le corpus boursier grec car ils ne sont pas répertoriés dans les dictionnaires électroniques généraux et terminologiques du grec auxquels ont recours les systèmes de TAL. Dans un domaine de spécialité, ce problème s’avère l’un des plus délicats, suite à l’évolution rapide des langues techniques ou scientifiques. Pour l’enrichissement de ces ressources et afin d’exploiter de nouveaux domaines, il est nécessaire d’acquérir rapidement la nouvelle terminologie et de mettre à jour les ressources existantes. Parmi les mots inconnus, figurent des néologismes, mais aussi des mots étrangers, transcrits en grec ou en alphabet latin, des mots en écriture hybride (caractères grecs et latins), des noms propres, des sigles, des mots mal orthographiés et en principe des mots non accentués. Ces mots non reconnus freinent l’analyse automatique des textes boursiers. L’objet du présent travail est l’étude de mots inconnus du corpus boursier (CoBourse), ce qui nous permettra l’ajout de termes néologiques dans le dictionnaire électronique des termes du domaine boursier. Nous nous limitons aux mots simples, les unités polylexicales demandant une approche de traitement différente. À partir de données extraites, nous proposons des heuristiques pour l’annotation semi-automatique des mots inconnus détectés à l’aide du système Unitex (PAUMIER, 2003), afin de les intégrer dans le dictionnaire de termes boursiers.
AbstractThe problem of unknown words (words not recognized by automated language analysis systems) is one of great importance for Natural Language Processing (NLP). In this paper, we consider as unknown words the words not recognized in a given corpus, the corpus of Greek Stock Exchange texts, since they are not included in the general dictionaries and terminologies for the Greek language, as used by the NLP systems. In this special domain, it is a critical issue, due to the rapid development of technical and scientific languages. In order to expand our resources, especially as regards new domains, it is necessary to acquire as soon as possible new terms and include them in the existing resources. Many of the unknown words are actually neologisms, and also loan words, written in Latin or Greek alphabet, words in hybrid form (both Latin and Greek alphabet), proper names, abbreviations, wrong spelled words, words without accents etc. The aim of this work is to study the unknown words found in the Stock Exchange corpus (CoBourse) and to make them part of the dictionary of the Stock Exchange terms. In this paper, we are studying simple words, as multiword expressions require a different approach.
Termes dérivés par préfixationαυτοπαλινδρόμηση →
auto-régressionαυτοπεραίωση →
auto-achèvementβραχυδιακύμανση →
fluctuation à court termeβραχυμεσοπρόθεσμος →
court et moyen termeενδοδίκτυο →
intranetενδοημερήσια →
pendant la journéeενδοσυνεδριακά →
pendant la séance boursièreεξωεταιρικός →
en dehors d’une sociétéεξωχρηματιστηριακός →
hors bourseεξωχρηματιστηριακή συναλλαγή →
transaction hors Bourseεπαναδημοσιοποίηση →
nouvelle communicationεπαναπώληση →
reventeημιδιακύμανση →
semi fluctuationιδιοχρηματοδότηση →
autofinancementιδιοχρηματοδοτούμενος →
autofinancéιδιοχρηματοδοτούμενος →
autofinancéιδιοχρησιμοποιώ →
auto-utiliserμακροπρόβλεψη →
prévision à long termeμακροσταθερότητα →
stabilité à long termeμεγαλοκαρχαρίας →
requin de la financeμεγαλοκαταθέτης →
gros déposantμεγαλομετοχοαπατεώνας →
gros-actionnaire-escrocμεσομακροπρόθεσμος →
ayant un impact à moyen et long termeμεσομακροχρόνιος →
de moyen et longue duréeμικροάνοδος →
petite hausseμικροϊδιώτης →
investisseur de détailμικροπρόβλεψη →
mini-prévisionμικροτράπεζα →
petite banqueνεοεισαγόμενος →
nouvellement introduitνεοεισερχόμενος →
nouvel entrantνεοεπενδυτής →
nouveau sponsorνεοϊδρυόμενος →
nouvellement crééπολυδιασπορά →
grande dispersionπολυσυγγραμικότητα →
multicolinéaritéπρωτοεισάγω →
introduire pour la première foisπρωτοεισαχθείς →
introduit pour la première foisπρωτοσορτάρω →
être vendeur pour la premièreυπερτράπεζα →
banque énormeυποαγορά →
la marchée peu efficaceυποαντίδραση →
réaction hypotoniqueυποαπόδοση →
baisse de revenuψευδοείδηση →
fausse nouvelleψευδομεταβλητή →
pseudo-variableψευτοάνοδος →
fausse hausseψιλοκλειδώνω →
en train de clôturer