Τιμή Διακριτότητας των Όρων


Η τιμή διάκρισης (discrimination value) ενός όρου μετρά τον βαθμό κατά τον οποίο η χρήση ενός όρου βοηθά να ξεχωρίσουμε το κείμενο στο οποίο υπάρχει ο όρος από τα υπόλοιπα κείμενα. Έστω δύο κείμενα di, dj. Τότε με μια συνάρτηση, sim(di, dj), όπως το συνημίτονο μπορούμε να υπολογίσουμε κατά πόσο τα κείμενα είναι όμοια-σχετικά. Έστω ότι υπολογίζουμε τη μέση ομοιότητα για όλα τα κείμενα μιας συλλογής μεγέθους n από τον τύπο:
avgsim
Η τιμή αυτή αντανακλά την πυκνότητα του χώρου των κειμένων. Επειδή ο υπολογισμός του avg_sim έχει πολυπλοκότητα O(n2) κατασκευάζουμε ένα τεχνητό "μέσο" κείμενο d, το κεντροειδές, (centroid) από τον τύπο:
avgsim
Oι όροι, j, του κεντροειδούς έχουν έχουν συχνότητα την μέση συχνότητα του όρου tj που ορίζεται ως εξής:
avgsim
Τότε η πυκνότητα υπολογίζεται ως το άθροισμα των sim(di ,d) για όλα τα i.
avgsim

Η τελευταία σχέση υπολογίζεται τώρα με O(n) πράξεις. Έστω τώρα ότι από την αρχική συλλογή αφαιρούμε ένα όρο, tj, από όλα τα κείμενα και έστω avg_simj παριστά την πυκνότητα του χώρου στη περίπτωση αυτή.
avgsim
Σχήμα 2 Η αφαίρεση ενός «καλού» όρου αυξάνει τη πυκνότητα του χώρου των κειμένων. Το αντίθετο αποτέλεσμα έχει η αφαίρεση ενός «κακού» όρου.
Όταν ο όρος tj είναι γενικός τότε θα υπάρχει σε πολλά κείμενα συνεπώς η αφαίρεσή του θα ελαττώσει το avg_sim, δηλαδή avg_simjavg_sim. Συνεπώς ορίζουμε ως τιμή διακριτότητας των όρων, DiscValuej την διαφορά:
DiscValue

Έτσι οι όροι tj του ευρετηρίου κατατάσσονται σε τρείς κατηγορίες ανάλογα με το DiscValuej.
  1. Καλός διαχωριστής (good discriminator), αν ισχύει: DiscValuej>0 (η εισαγωγή του στο ευρετήριο αυξάνει την πυκνότητα του χώρου των κειμένων).
  2. Ουδέτερος διαχωριστής (indifferent discriminator), αν DiscValuej =0.
  3. Φτωχός διαχωριστής (poor discriminator) αν DiscValuej < 0.
Τελικά το βάρος ενός όρου tj σε ένα κείμενο di υπολογίζεται από τη σχέση:
avgsim