Ο νόμος του Zipf (Zipf's Law)


Ο νόμος αναφέρεται σε φαινόμενα όπου έχουμε πολλά και μικρά γεγονότα και λίγα αλλά μεγάλα γεγονότα. π.χ. έχουμε πολύ λίγους και μεγάλους σεισμούς και πολλούς μικρούς σεισμούς, έχουμε λίγους και πλούσιους και πολλούς αλλά φτωχούς, έχουμε λίγες αλλά μεγάλες πόλεις και πολλές αλλά μικρές, έχουμε λίγους αλλά πολύ δημοφιλείς ιστότοπους αλλά πολλούς που δεν τους έχει επισκεφτεί κανείς. Όλα τα παραπάνω φαινόμενα αλλά και πολλά άλλα που ακολουθούν το ίδιο σενάριο, ακολουθούν μια κατανομή γνωστή ως νόμος των δυνάμεων. (power law).
brown corpus counts
Σχήμα 1 Σχέση μεταξύ της σειράς μιας λέξης και της συχνότητος για 2000 λέξεις της συλλογής Brown.

Η κατανομή αυτή περιγράφεται από το νόμο του Zipf, ο οποίος μας λέει ότι ότι η συχνότητα της r-οστής πιο συχνά εμφανιζόμενης λέξης είναι αντιστρόφως ανάλογη του r, ή εναλλακτικά το γινόμενο της τάξης, r, (rank, σειρά μιας λέξης, 1η, 2η κλπ σε συχνότητα εμφάνισης), επί τη συχνότητά της (f) είναι σχεδόν σταθερά (k):
r x f = k

Επειδή συνήθως χρησιμοποιούμε την πιθανότητα, Pr=f/N και όχι τη συχνότητα (πλήθος εμφανίσεων) ο νόμος του Zipf εναλλακτικά αποδίδεται από τη σχέση:
r x Pr = c

όπου Pr είναι η πιθανότητα εμφάνισης της r-οστής λέξης, c είναι μια σταθερά και Ν είναι το σύνολο των λέξεων στα κείμενα. Για τα αγγλικά, c ≈ 0.1. Στο σχήμα 1 φαίνεται η σχέση μεταξύ του πλήθους εμφανίσεων των λέξεων και της τάξης τους που περιγράφεται από το νόμο του Zipf για τη συλλογή Brown και για τις 2000 πρώτες σε συχνότητα εμφάνισης λέξεις. Από το διάγραμμα φαίνεται καθαρά ότι η συχνότητα εμφάνισης των λέξεων πέφτει απότομα μετά από πολύ λίγες λέξεις με τις μεγαλύτερες συχνότητες. Από το πίνακα 2 παρατηρούμε ότι ο νόμος του Zipf είναι αρκετά ακριβής και ότι το γινόμενο r.Pr είναι σχεδόν σταθερό και πολύ κοντά στη τιμή 0.1. Ωστόσο ο νόμος του Zipf δεν είναι ακριβής για τις λέξεις με πολύ υψηλή και πολύ χαμηλή συχνότητα εμφάνισης.
r x Pr eq c
Σχήμα 2 Σχέση μεταξύ r και rxPr

Επειδή όπως είδαμε οι συχνότητες των όρων στην αρχή αλλάξουν απότομα η σχέση του νόμου του Zipf αποδίδεται καλύτερα σε ένα διάγραμμα log-log (του logr σε σχέση με το logf). Στο διάγραμμα αυτό ο νόμος του Zipf παρίσταται με μια ευθεία. Πράγματι,
logf-r

Από τη εξίσωση της ευθείας που προσαρμόζει τα σημεία (logr, logf) έχουμε ότι μεταξύ τα r και f συνδέονται μεταξύ τους με την σχέση:
logf logr

ή διαιρώντας και τα δύο μέλη με Ν,
prxr

με c=0.075745. Η σχέση (2) αναφέρεται ως ο γενικευμένος νόμος του Zipf.
r x Pr eq c
Σχήμα 3. log-log διάγραμμα του νόμου του Zipf

Από το νόμο του Zipf είναι δυνατόν να εκτιμήσουμε το ποσοστό των λέξεων με μια δοσμένη συχνότητα εμφανίσεων. Από τη σχέση r x f=k, προκύπτει ότι μια λέξη που εμφανίζεται n φορές στη συλλογή θα έχει τάξη rn = k/n. Γενικά, περισσότερες από μια λέξεις μπορεί να έχουν την ίδια συχνότητα εμφάνισης. Ας υποθέτουμε ότι η τάξη rn αντιστοιχεί στη τελευταία λέξη από μια ομάδα λέξεων που έχουν την ίδια συχνότητα εμφάνισης. (βλέπε πίνακα 2). Στη περίπτωση αυτή, το πλήθος των λέξεων με την ίδια συχνότητα, n, δίνεται από τη σχέση (rn − rn+1),
rn-rnplus1

όπου rn+1 είναι η τάξη της τελευταίας λέξης της ομάδας με υψηλότερη συχνότητα (λέξεις με μεγαλύτερη συχνότητα έχουν μικρότερη τάξη). Για παράδειγμα, από τον πίνακα 2 έχουμε ότι το πλήθος των λέξεων με συχνότητα 56 είναι η τάξη της τελευταίας λέξης της ομάδας αυτής (“evident”) μείον την τάξη της τελευταίας λέξης της προηγούμενης ομάδας (“shook”), δηλαδή είναι 1971 − 1940 = 31.
table2
Πίνακας 2. Παράδειγμα τάξης λέξεων και συχνότητας

Επειδή, το ποσοστό των λέξεων με αυτή τη συχνότητα μπορεί να υπολογιστεί διαιρώντας τον αριθμό αυτό με το συνολικό πλήθος λέξεων στη συλλογή, που είναι η τάξη της τελευταίας λέξης με συχνότητα 1. Η τάξη της τελευταίας λέξης στο λεξιλόγιο είναι k/1 = k. Συνεπώς το ποσοστό των λέξεων με συχνότητα n, δίνεται από το 1/n(n+1). Η σχέση αυτή μας δίνει για παράδειγμα ότι το 1/2 των λέξεων του λεξιλογίου εμφανίζονται μια μόνο φορά.

Στο πίνακα 3 δίνoνται κάποια παραδείγματα με τις πραγματικές και τις εκτιμώμενες τιμές των ποσοστών εμφανίσεων λέξεων με μια δοσμένη συχνότητα εμφάνισης όπως προκύπτει από την συλλογή Brown.

table3
Πίνακας 3. Ποσοστά λέξεων που εμφανίζονται n φορές στη συλλογή Brown.