Στατιστική Ανάλυση Λέξεων (Word statistics)


Τα στατιστικά στοιχεία που αφορούν τις συχνότητες εμφάνισης των λέξεων είναι πολύ σημαντικά στην ανάκτηση πληροφορίας και χρησιμοποιούνται από τις μηχανές αναζήτησης για την απόδοση βαρών στους όρους των κειμένων κατά τη φάση της ευρετηρίασης και την αξιολόγηση των ερωτημάτων επιλέγοντας την κατάλληλη συνάρτηση ομοιότητας. Πράγματι η συχνότητες των λέξεων παίζουν σημαντικό ρόλο στη γλωσσολογία με βάση συλλογές (corpus linguistics). Πατέρας της στατιστικής των λέξεων θεωρείται ο καθηγητής στο πανεπιστήμιο του Harvard, George Kingsley Zipf, φιλόλογος και γλωσσολόγος ο οποίος ήταν ο πρώτος που εισήγαγε τη στατιστική στη μελέτη της φυσικής γλώσσας. Στο κεφάλαιο αυτό θα περιγράψουμε κάποια εμπειρικά φαινόμενα που ισχύουν με την κατανομή συχνοτήτων των λέξεων σε συλλογές κειμένων.





george Zipf
George Kingsley Zipf 1902-1950, Αμερικανός γλωσσολόγος και Φιλόλογος, καθηγητής στο Πανεπιστήμιο του Harvard που μελέτησε τις στατιστικές ιδιότητες των λέξεων σε διάφορες φυσικές γλώσσες.

To 1949 δημοσίευσε το έργο "Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology" με τη σημαντική παρατήρηση ότι η συμπεριφορά του ανθρώπου ακολουθεί εκ φύσεως μια βασική αρχή: την αρχή ελαχίστου κόστους (least effort principle). Εκ φύσεως οι άνθρωποι πάντα αναζητούν το πιο εύκολο τρόπο για να κάνουν κάτι.

O Zipf παρατήρησε ότι σε μια φυσική γλώσσα υπάρχει μια εκθετική σχέση μεταξύ "εύκολων" και "δύσκολων" λέξεων. ("Δύσκολη" χαρακτηρίζουμε μια λέξη που χρησιμποποιείται σπανίως). Έτσι το πλήθος εμφανίσεων της πιο συχνά εμφανιζόμενης λέξης θα είναι διπλάσιο από το πλήθος εμφανίσεων της δεύτερης πιο συχνά εμφανιζόμενης λέξης κοκ.