Αντίστροφη Συχνότητα Κειμένων


Όπως είδαμε στις δύο παραπάνω ενότητες το βάρος ενός όρου σε ένα κείμενο εξαρτάται από δύο παράγοντες: την συχνότητα του όρου στο κείμενο και από ένα άλλο παράγοντα του οποίου η τιμή είναι αντιστρόφως ανάλογη του πλήθους των κειμένων που περιέχουν τον όρο. Η τιμή του παράγοντα αυτού προσεγγίζεται από τη σχέση
idf
όπου Ν, είναι το μέγεθος της συλλογής και dfj συμβολίζει το πλήθος των κειμένων που περιέχουν τον όρο tj. Το idf(tj) αναφέρεται ως αντίστροφη συχνότητα κειμένων (inverse document frequency) του όρου tj και το βάρος ενός όρου υπολογίζεται από τη σχέση:
weight
Η προσέγγιση αυτή είναι η πλέον διαδεδομένη σε όλα τα υπάρχοντα συστήματα ανάκτησης και αναφέρεται στη βιβλιογραφία ως μέθοδος απόδοσης βαρών TF*IDF. Ωστόσο επειδή οι όροι με υψηλότερη συχνότητα εμφάνισης έχουν μεγαλύτερο βάρος ο τύπος (15) είναι τρωτός από κακόβουλους χρήστες (term spamming) μια τεχνική που συμβαίνει συχνά στις διαφημίσεις με σκοπό να βελτιωθεί η σειρά με την οποία ανακτάται μια ιστοσελίδα από τις μηχανές αναζήτησης. Ο τύπος (15) γίνεται λιγότερο ευαίσθητος σε τέτοιες κακόβουλες προσπάθειες με κάποια μορφή κανονικοποίησης. Διάφοροι τύποι έχουν χρησιμοποιηθεί στη βιβλιογραφία για την κανονικοποίηση του tf(t,d), όπως για παράδειγμα οι τύποι,
tf
όπου doc_length δηλώνει το πλήθος των διακτιτών όρων σε ένα κείμενο.