Η αύξηση του Λεξιλογίου (Vocabulary Size))


Μια άλλη χρήσιμη εκτίμηση που σχετίζεται με την συχνότητα εμφάνισης των λέξεων είναι η αύξηση του λεξιλογίου, ένα στοιχείο που συνδέεται άμεσα με το μέγεθος των ευρετηρίων σε ένα σύστημα ανάκτησης. Οι νέες λέξεις που προστίθενται σε μια συλλογή είναι λιγότερες όσο μεγαλύτερη είναι η συλλογή. Νέες λέξεις βέβαια πάντα θα υπάρχουν. Τέτοιες λέξεις είναι τα ονόματα, ανορθόγραφες λέξεις, αριθμοί, emails, κλπ). Η σχέση μεταξύ του μεγέθους της συλλογής και του μεγέθους του λεξιλογίου ευρέθηκε εμπειρικά από τον Heaps το 1978 ότι ακολουθεί τον νόμο των δυνάμεων:
vocabulary

όπου v είναι το μέγεθος του λεξιλογίου μιας συλλογής n λέξεων, και k, β είναι παράμετροι που εξαρτώνται από τη συλλογή.
vocabulary
Εικόνα 1 Αύξηση του λεξιλογίου για τη συλλογή Brown

Η σχέση αυτή συχνά αναφέρεται ως νόμος του Heaps. Τυπικές τιμές των k και β είναι 10 ≤ k ≤ 100 και β ≈ 0.5. Ο νόμος του Heaps μας λέει ότι το πλήθος των νέων λέξεων θα αυξάνεται πολύ γρήγορα όταν η συλλογή είναι μικρή και συνεχίζει να αυξάνεται συνεχώς αλλά με ολοένα και μικρότερη συχνότητα όσο μεγαλώνει η συλλογή. Για την συλλογή Brown αν επιλέξουμε τις παραμέτρους k =11,3 και β = 0,6017 τότε με βάση τον νόμο του Heaps εκτιμούμε ότι ολόκληρη η συλλογή (996883 λέξεις) θα έχει ένα λεξιλόγιο μεγέθους 52051, πολύ κοντά στη πραγματική τιμή που είναι 52033. Όμοια αν θεωρήσουμε το τμήμα της συλλογής που περιέχει 500000 λέξεις τότε το μέγεθος του λεξιλογίου θα είναι 34154 λέξεις.