Ανίχνευση Λεξικών Ομάδων (Compound Terms)

Στην ενότητα αυτή θα εξετάσουμε τρόπους ανίχνευσης λεξικών μονάδων που αποτελούνται από περισσότερους από ένα όρους. Η ανίχνευση τέτοιων ομάδων, όπως για παράδειγμα, ονοματικών ή ρηματικών φράσεων, είναι μια εφαρμογή που υπάγεται στο χώρο της επιφανειακής συντακτικής ανάλυσης (shallow parsing) και στη διεθνή ορολογία περιγράφεται με τον όρο chunking. Με τη συντακτική ανάλυση ανιχνεύονται τα όρια των βασικών φράσεων που αποτελούν μια πρόταση. Οι φράσεις που ανιχνεύονται συνήθως είναι ενδοπροτασιακές και μη επικαλυπτόμενες (chunks) και περιλαμβάνουν:

Ονοματικές φράσεις.
Προθεματικές φράσεις.
Ρηματικές φράσεις.
Επιρρηματικές φράσεις.
Συνδετικές φράσεις.

Απαραίτητα εργαλεία συντακτικής ανάλυσης είναι τα λεξικά. Οι μέθοδοι ανίχνευσης λεξικών μονάδων που έχουν προταθεί και εφαρμοστεί ποικίλουν από τεχνικές βασισμένες σε κανόνες (ευρετικούς ή αυτόματα εξαγχθέντες με χρήση τεχνικών μηχανικής μάθησης). Μια ειδικότερη περίπτωση chunking είναι η αναγνώριση φράσεων που έχουν ειδικό σημασιολογικό περιεχόμενο, διαφορετικό από την σύνθεση των επιμέρους στοιχείων τους. Τέτοιες φράσεις μπορεί να αποτελούν

Ονόματα οντοτήτων (π.χ., Μεγάλη Βρετανία)
Iδιωματικές εκφράσεις της γλώσσας (π.χ., σπάω πλάκα).

Αυτή η περίπτωση αποτελεί ένα μη τετριμμένο πρόβλημα ταιριάσματος προτύπων (pattern-matching problem), καθώς κάποιες εκφράσεις μπορεί να μην εμφανίζονται με στερεότυπη δομή και μορφολογία (π.χ., σπάσαμε την πλάκα της ζωής μας). Γενικά το θέμα των ιδιότυπων γειτνιακών σχέσεων που εμφανίζονται μεταξύ συγκεκριμένων λέξεων χαρακτηρίζεται με τον όρο word collocation. Απαραίτητα εργαλεία συντακτικής ανάλυσης είναι τα λεξικά. Η κατασκευή όμως λεξικών είναι μια χρονοβόρα και πολύ δαπανηρή διαδικασία. Στην επόμενη παράγραφο περιγράφουμε ένα εργαλείο για την ημι-αυτόματη κατασκευή λεξικού.

Αυτόματη κατασκευή Λεξικών-Θησαυρών

Μια ομάδα λέξεων αποτελεί λεξικό πρότυπο (pattern) εάν εμφανίζεται σε μια συλλογή τουλάχιστον δύο φορές. Ομάδες λέξεων που έμφανίζονται μία μόνο φορά (άπαξ λεγόμενα, hapax legomena) συνήθως δεν αποτελούν ενδιαφέρον. Εδώ έχουμε δύο προσεγγίσεις:

η λέξη έχει σταθερή σημασία (terminological tendency)
λέξεις συνδυάζονται και φτιάχνουν διαφορετικές σημασίες (collocations, ιδιωματισμοί)

(phraseological tendency) Πώς μπορούμε να ανακαλύψουμε τέτοια λεξικά πρότυπα σε μια γλώσσα; Πώς μπορούμε να ανακαλύψουμε όλες τις διαφορετικές ερμηνείες μιας λεξικής μονάδας; Είναι γνωστό ότι γνωρίζουμε καλύτερα μια λέξη από την “παρέα” της μέσα στα κείμενα που εμφανίζεται. Η ανακάλυψη της συμπεριφοράς μιας λέξης μπορεί να γίνει με τον υπολογισμό όλων των τμημάτων κειμένου που περιέχουν την λέξη (λεξικό αναφορών –concordance listing) στην γνωστή μορφή KWIC (Keyword In Context). Με το λεξικό αναφορών (concordances) μπορούν να γίνουν πολλές γλωσσολογικές γενικεύσεις εξετάζοντας το περιεχόμενο των λέξεων που περικυκλώνουν την λέξη που εξετάζουμε. Η μέθοδος αυτή χρησιμοποιείται συνήθως για την αυτόματη δημιουργία λεξικού ή θησαυρού. Η διαδικασία περιλαμβάνει δύο στάδια:

την εξαγωγή λέξεων από κείμενα και
Μεθοδολογίες βάσεων γνώσεων ή στατιστικών μεθόδων. (μπορεί βεβαίως να έχουμε και υβριδικές μεθόδους).

Μία προσέγγιση είναι η εξαγωγή συσχετίσεων μεταξύ των λέξεων η οποία βασίζεται σε συχνότητες συνεμφάνισης (co-occurrence frequencies) των λέξεων στα κείμενα. Η εξαγωγή τέτοιων συσχετίσεων μεταξύ των λέξεων εμπεριέχει γνώση που είναι αναγκαία για τη σωστή χρησιμοποίηση των λέξεων και καθορίζουν την σημασία των λέξεων από το περιβάλλον τους ανεξάρτητα από συντακτικά ή σημασιολογικά κριτήρια. Τέτοιες συσχετίσεις μπορεί να βοηθήσουν στο πρόβλημα της αμφισημίας των λέξεων (disambiquation). Ένα πρόγραμμα εξαγωγής φράσεων είναι το XTRACT [Smadja]. Το πρόγραμμα αυτό δέχεται ως είσοδο τα κείμενα και μία παράμετρο που καθορίζει το πεδίο (domain), ή άνοιγμα παραθύρου (window span) μέσα στο οποίο θεωρούμε ότι δύο λέξεις συνεμφανίζονται. Μια άλλη παράμετρος είναι η απόσταση μεταξύ των λέξεων του πεδίου (span position) από την λέξη-κόβμο (σχήμα 2-6). Το πρόγραμμα παράγει μία λίστα από τριάδες , όπου w1 και w2, είναι δύο λέξεις και f η συχνότητα της συνεμφάνισής τους. Το μέγεθος του παραθύρου συνήθως είναι δέκα, δηλαδή περιέχει πέντε λέξεις αριστερά και πέντε λέξεις δεξιά της ζητούμενης λέξης (node word). Στις λέξεις αυτές δεν περιλαμβάνονται οι τετριμμένες λέξεις (stop words). Η συχνότητα συνεμφάνισης προκύπτει από 10 αριθμούς που παριστούν την συσχέτιση των λέξεων στη συλλογή. Η μεγαλύτερη συχνότητα συνεμφάνισης των δύο λέξεων παρουσιάζεται στη θέση –2.

kwic

Σχήμα 6. Βασική δομή για τον υπολογισμό της συχνότητας συνεμφανίσεων της λέξης w με άλλες λέξεις σε ένα παράθυρο προκαθορισμένου μεγέθους
Ένα άλλο μέτρο που έχει χρησιμοποιηθεί είναι η αμοιβαία πληροφορία (mutual information) μεταξύ δύο λέξεων x και y που ορίζεται από τη σχέση:

Το μέτρο αυτό είναι ένα σημαντικό ποσοτικό μέτρο αλλά δεν αρκεί από μόνο του. Η ανάλυση συνεμφάνισης των λέξεων μπορεί να ενισχυθεί και με συντακτικά στοιχεία. Για το σκοπό αυτό έχουν χρησιμοποιηθεί στατιστικοί μορφολογικοί αναλυτές αλλά εκτός του ότι θέλουν ανάλογη εκπαίδευση έχουν -φτωχή απόδοση. Παρόλα όμως τα εργαλεία αυτόματης ή ημιαυτόματης κατασκευής θησαυρού είναι φανερό ότι η μεσολάβηση του ειδικού-λεξικογράφου είναι ακόμη απαραίτητη.

Στατιστική Ανάλυση για τον Εντοπισμό Φράσεων

Όπως αναφέραμε το περιβάλλον στο οποίο βρίσκεται μια λέξη (context) επηρεάζει τη σημασία της. Το πρόβλημα της πολυσημίας των λέξεων μιας γλώσσας αίρεται όταν η λέξη εμφανίζεται ως όρος μιας φράσης καθώς οι σημασίες μιας φράσης είναι πολύ περιορισμένες. Για την εξαγωγή φράσεων χρησιμοποιούνται οι συχνότητες συνεμφάνισης των όρων. Κάποιοι ερευνητές έχουν ακολουθήσει ένα μέσο δρόμο δηλαδή χρησιμοποιούν μαζί με τις συχνότητες και τεχνικές περισσότερο πλούσιες σε γνώση (knowledge rich techniques). Σ’ αυτές τις προσεγγίσεις συνήθως γίνεται συντακτική ανάλυση έτσι ώστε να περιοριζόμαστε μόνο σε ονοματικές φράσεις ή συνδυασμούς ουσιαστικού και ρήματος. Έτσι υπολογίζεται η αμοιβαία πληροφορία για συνεμφανίσεις συνδυασμών ουσιαστικού και ρήματος ή ουσιαστικού και ουσιαστικού. Από τις συνεμφανίσεις όρων απορρίπτονται εκείνες οι οποίες αρχίζουν ή τελειώνουν με ρήμα ή περιέχουν λέξεις με υψηλή συχνότητα όπως για παράδειγμα αριθμούς, χρόνους ή λέξεις όπως άρθρα κ.λπ. Επίσης εξαιρούνται υπο-φράσεις που ανήκουν σε μεγαλύτερες φράσεις π.χ., Αξιών Αθηνών αποτελεί μέρος της φράσης: Χρηματιστήριο Αξιών Αθηνών.

Σημαντικές Συνεμφανίσεις Λέξεων

Σύμφωνα με τον Chomsky (http://en.wikipedia.org/wiki/Noam_Chomsky) εμπειρικά δεδομένα που εξάγονται από συλλογές μπορεί να είναι παραπλανητικά αν δεν χρησιμοποιηθούν με ιδιαίτερη προσοχή. Το σκεπτικό πίσω από αυτή την παρατήρηση είναι ότι κάποια γεγονότα μπορεί να έχουν υψηλή συχνότητα σε μια συλλογή τυχαία και το αντίστροφο. Ο μόνος τρόπος για να ξεπεραστεί το πρόβλημα αυτό είναι η κατασκευή μιας όσο το δυνατόν πιο αντιπροσωπευτικής συλλογής κειμένων. Οπωσδήποτε μια ποιοτική ανάλυση είναι πιο πλούσια και λεπτομερής αφού σπάνια φαινόμενα τυγχάνουν της ίδιας προσοχής με φαινόμενα που έχουν υψηλή συχνότητα εμφάνισης. Σε μια ποσοτική-αυτοματοποιημένη διαδικασία συνήθως εκείνο που γίνεται είναι πρώτα η ομαδοποίηση των όρων (tokens) σύμφωνα με κάποιο σχήμα (τρόπο) και στη συνέχεια υπολογίζεται το πλήθος των όρων που ανήκουν σε κάθε ομάδα. Έστω για παράδειγμα, ότι η μέθοδος ομαδοποίησης είναι να υπολογίσουμε τις συχνότητες για τις κατηγορίες: Ουσιαστικό, ρήμα, επίθετο, επίρρημα. Κάθε φορά που βρίσκουμε μια λέξη στη συλλογή που ανήκει σε μια από τις τέσσερις αυτές ομάδες αυξάνουμε τον μετρητή εμφανίσεως της ομάδας αυτής κατά 1. Πολλές φορές υπολογίζουμε τις συχνότητες όλων των όρων ξεχωριστά. Αλλά και σ’ αυτή την περίπτωση κάνουμε κάποιας μορφής ομαδοποίηση, π.χ., οι λέξεις χαρακτήρισα, χαρακτηρίσω, χαρακτηρίζουμε αντιστοιχίζονται με το λέξημα χαρακτηρίζω. Τα ποσοτικά μέτρα έχουν και μειονεκτήματα, όπως για παράδειγμα, όταν θέλουμε να συγκρίνουμε τα αποτελέσματα από δύο δείγματα. Οι συχνότητες εμφάνισης είναι απλοί αριθμοί και δηλώνουν το πλήθος εμφανίσεων ενός όρου. Για το λόγο αυτό για κάθε όρο υπολογίζουμε τα ποσοστά ως προς το συνολικό πλήθος των λέξεων (όρων) στη συλλογή. Οπωσδήποτε και αυτό είναι προβληματικό όταν οι συλλογές έχουν διαφορετικό μέγεθος. Για να διαπιστώσουμε αν η διαφορά μεταξύ δύο κειμένων είναι τυχαία για κάποια συγκεκριμένα χαρακτηριστικά θα πρέπει να κάνουμε έλεγχο στατιστικής σημαντικότητας (statistical significance test) να υπολογίσουμε δηλαδή πόσο μεγάλη ή μικρή είναι η πιθανότητα ώστε η διαφορά μεταξύ των δύο κειμένων να είναι τυχαία. Τέτοιοι έλεγχοι είναι οι: Chi-square (χ2), T-test, Wilcoxon’s test, z-score κ.ά. Από αυτούς τους ελέγχους ο Chi-square είναι ο περισσότερο συνηθισμένος γιατί είναι πολύ απλός και δεν απαιτεί τα δεδομένα να ακολουθούν την κανονική κατανομή. Το μόνο μειονέκτημά του είναι ότι δεν είναι αξιόπιστο για πολύ μικρές συχνότητες. Ο chi-square έλεγχος συγκρίνει τις διαφορές μεταξύ των συχνοτήτων που παρατηρήθηκαν (observed frequencies) και των αναμενόμενων συχνοτήτων (expected frequencies). Όσο πιο κοντά είναι οι τιμές αυτές τόσο μεγαλύτερη είναι η πιθανότητα να είναι τα αποτελέσματα τυχαία. Όσο πιο μακριά είναι οι τιμές αυτές τότε αυτό σημαίνει ότι οι παρατηρηθείσες τιμές έχουν επηρεαστεί από κάτι π.χ. την γραμματική της γλώσσας των δύο κειμένων. Τα μέτρα σημαντικότητας χρησιμοποιούνται για την εξαγωγή λεξικών μονάδων περισσότερων της μιας λέξης (multiword units) από συλλογές κειμένων, όπως ιδιωματισμοί, σχετιζόμενες μεταξύ τους λέξεις ή φράσεις ουσιαστικών. Μια άλλη χρήση των μέτρων της αμοιβαίας πληροφορίας και του z-score είναι ως βοήθημα σημασιολογίας. Αν έχουμε για μια λέξη όλα τα σημαντικά collocates μπορούμε: • Να ανακαλύψουμε διαφορετικές σημασίες για τα collocates. π.χ. (bank, river ) και (bank, investment). • Να συγκρίνουμε τα collocates δύο όμοιων λέξεων π.χ., tall και high για να δούμε πως χρησιμοποιείται η κάθε μια από τις λέξεις.

Υπολογισμός Σχέσεων Πολλών Μεταβλητών

Τα στατιστικά μέτρα που είδαμε αν και μπορούν να υπολογίσουν σημαντικές διαφορές μεταξύ δειγμάτων-συλλογών για ειδικές μεταβλητές (γλωσσολογικά χαρακτηριστικά) δεν μπορούν να δώσουν την εικόνα των πολύπλοκων σχέσεων ομοιότητας και διαφορών μεταξύ ενός μεγάλου αριθμού δειγμάτων και ενός μεγάλου πλήθους μεταβλητών. Για παράδειγμα, με τον έλεγχο chi-square δεν μπορούμε να εξετάσουμε τις σχέσεις του λεξιλογίου μεταξύ πέντε διαφορετικών κατηγοριών. Για να κάνουμε τέτοιες συγκρίσεις χρειαζόμαστε ανάλυση πολλών μεταβλητών (multivariate analysis). Oι τεχνικές που χρησιμοποιούνται εδώ είναι οι: ανάλυση παραγόντων (factor analysis), ανάλυση κυρίων συνιστωσών (principal component analysis), multidimensional scaling (Latent Semantic Indexing) και cluster analysis. Μερικές από αυτές θα μελετήσουμε σε επόμενα κεφάλαια. Για παράδειγμα, αν κάνουμε μια ανάλυση χρησιμοποιώντας αμοιβαία πληροφορία τότε μπορούμε να βρούμε ότι το περιβάλλον της λέξης boot είναι οι λέξεις: {riding, cowboy, PC, disk}. Εδώ προφανώς έχουμε δύο διαφορετικές έννοιες της λέξης boot αλλά η ανάλυση της αμοιβαίας πληροφορίας δεν μπορεί να τις ξεχωρίσει. Αυτό μπορεί να γίνει με τις μεθόδους που αναφέραμε. Συνοψίζοντας τονίζουμε ότι η χρήση συλλογής αποτελεί την πηγή για την εξαγωγή των παραπάνω μεθοδολογιών δηλαδή, συχνότητες, περιβάλλον λέξης, συνδυασμός με βάση γνώσης, γραμματολογική και συντακτική ανάλυση στοιχείων. Όλα αυτά τα στοιχεία αποτελούν αυτό που λέμε Πλαίσιο Λεξικής Ανάλυσης (Lexical Frame Analysis).

Αναφορές

Grefenstette G., Explorations In Automatic Thesaurus Discovery. Kluwer Academic Publishers, 1994.
Smadja F. Retrieving Collocations From Text: XTRACT. Computational Linguistics 19:143-178. 1993. (http://acl.ldc.upenn.edu/J/J93/J93-1007.pdf)