Στατιστική Ανάλυση των Λέξεων (Word Statistics)


Για να μελετήσουμε τη κατανομή συχνοτήτων των λέξεων σε μια συλλογή κειμένων θα πρέπει πρώτα απόλα να μετρήσουμε τις λεκτικές μονάδες (tokens) που υπάρχουν στη συλλογή. Το θέμα αυτό αναλύθηκε με λεπτομέρεια στο προηγούμενο κεφάλαιο. Στη συνέχεια ακολουθεί το βήμα της αντιστοίχησης μιας λεκτικής μονάδας σε μια λέξη. Για παράδειγμα μετατρέπουμε τους χαρακτήρες των λεκτικών μονάδων σε πεζούς. Προφανώς στη περίπτωση αυτή θα πρέπει να προσέξουμε τις περιπτώσεις σύνθετων ονομάτων όπως για παράδειγμα «Νέα Ιωνία» να μην την αποδόσουμε με τις λέξεις «νέα» και «ιωνία». Η αντιστοίχηση αυτή μπορεί να γίνει με την βοήθεια λεξικού εφόσον υπάρχει. Όσο πιο εκλεπτυσμένος είναι ένας αλγόριθμος αναγνώρισης λεκτικών μονάδων (tokenizer) και όσο καλύτερη είναι η αντιστοίχηση σε λέξεις τόσο πιο αντιπροσωπευτικά είναι τα στατιστικά στοιχεία που λαμβάνουμε από μια συλλογή. Μετά την διαδικασία απομόνωσης των λέξεων μπορούμε να υπολογίσουμε πόσες φορές εμφανίζεται κάθε λέξη στη συλλογή, το μέγεθος της συλλογής (Ν) και το μέγεθος του λεξιλογίου (V) (vocabulary, σύνολο διακριτών λέξεων στη συλλογή).
Στα κείμενα μια φυσικής γλώσσας παρατηρούμε ότι κάποιες λέξεις εμφανίζονται πολύ πιο συχνά από κάποιες άλλες. Για παράδειγμα, στη συλλογή Brown, μια από τις πρώτες συλλογές που χρησιμοποιήθηκε στη λεξική ανάλυση (lexical analysis) την οποία θα χρησιμοποιήσουμε στα επόμενα, η λέξη “the” εμφανίζεται 62642 φορές (6.88%), και η “of” εμφανίζεται 35971 φορές (3.61%).

figure-1
Πίνακας 1. Οι 10 λέξεις από τη συλλογή Brown με την υψηλότερη συχνότητα

Η συλλογή Brown περιέχει συνολικά 996.883 λεκτικές μοναδες και 52,033 διακριτές λέξεις. Όπως βλέπουμε από τον πίνακα 1 οι πρώτες 10 λέξεις εμφανίζονται συνολικά 246.149, δηλαδή καταλαμβάνουν το 24,69% της συλλογής. Με άλλα λόγια, η μία στις 5 αγγλικές λέξεις είναι μια από τις 10 του πίνακα 1. Η συχνότητα εμφάνισης των λέξεων ελαττώνεται πολύ γρήγορα στην αρχή, π.χ. η συχνότητα της δεύτερης σε σειρά λέξης είναι η μισή της συχνότητας της πρώτης λέξης. Επίσης παρατηρούμε ότι οι λέξεις αυτές είναι λειτουργικές. Στην άλλη άκρη του φάσματος υπάρχουν 4137 λέξεις με συχνότητα 3, 7624 λέξεις με συχνότητα 2, και τέλος 24374 λέξεις με συχνότητα 1 (hapax legomena). Επειδή όπως είπαμε η συλλογή Brown περιέχει 52,033 διακριτές λέξεις συνολικά, οι λέξεις με συχνότητα 1 είναι σχεδόν οι μισές σε όλο το λεξιλόγιο. Οι λέξεις με συχνότητα μικρότερη ή ίση του 3 καταλαμβάνουν το 70% του λεξιλογίου. Αυτό το 70% αντιστοιχεί μόνο στο 3,6% των συνολικών λεκτικών μονάδων της συλλογής, 36,135 λέξεις από τις 996,883 λέξεις. Οι λέξεις αυτές με τις μικρότερες συχνότητες είναι λέξεις «περιεχομένου».
Η μέση συχνότητα των λέξεων στη συλλογή είναι 19.16. Ωστόσο περισσότερες απο το 90% των λέξεων στη συλλογή έχουν συχνότητα μικρότερη από τη μέση τιμή. Η μεσαία (median) τιμή της συχνότητας των λέξεων είναι 2 (δηλαδή οι μισές από τις λέξεις της συλλογής έχουν συχνότητα εμφάνισης μεγαλύτερη ή ίση του 2 και οι άλλες μισές έχουν συχνότητες μικρότερη ή ίση του 2. Οι περισσότερες λέξεις είναι αυτές με συχνότητα 1.