Σήμα και Θόρυβος


Eδώ θα χρησιμοποιήσουμε εργαλεία από την θεωρεία πληροφορίας για ν' αποδώσουμε βάρη στους όρους των κειμένων. Είναι γνωστό ότι η πληροφορία που εμπεριέχει ένας όρος είναι αντιστρόφως ανάλογος της πιθανότητας να υπάρχει ο όρος αυτός σ’ ένα κείμενο. Όσο μεγαλύτερη είναι η πιθανότητα να υπάρχει ένας όρος σ' ένα κείμενο τόσο η πληροφορία που περιέχει είναι μικρότερη. Η πληροφορία που περιέχει μια λέξη μετράτε από το log2(1/p) όπου p είναι η πιθανότητα εμφάνισης της λέξης. π.χ. Αν η λέξη t έχει συχνότητα εμφάνισης 1/4096 τότε η πιθανότητα εμφάνισής της σε ένα κείμενο είναι 0.0001 και η πληροφορία που περιέχει είναι log2(1/4096)=12. Όμοια αν μια λέξη έχει συχνότητα εμφάνισης 1/16 τότε η πληροφορία που περιέχει θα είναι: log2(1/16)=4. Δοθέντος ότι έχουμε δεχτεί ότι οι όροι ενός κειμένου εκφράζουν το περιεχόμενό του τότε η γνώση ενός όρου ελαττώνει την αβεβαιότητα για το περιεχόμενο του κειμένου. Επιπλέον όσο πιο ειδικός είναι ο όρος (μικρή συχνότητα εμφάνισης στα κείμενα της συλλογής) τόσο μεγαλύτερη είναι η ελάττωση της αβεβαιότητας. Επομένως όταν σ' ένα κείμενο η πιθανότητα εμφάνισης των όρων είναι pi τότε η μέση ή αναμενόμενη πληροφορία που κερδίζουμε όταν γνωρίζουμε ότι υπάρχει ένας όρος είναι:
entropy
Ως γνωστό η μέση πληροφορία παίρνει την μεγίστη τιμή της όταν τα pi είναι ίσα (pi=1/n ) για όλα τα i=1,..,k. Ο τύπος (4) παριστά τον θόρυβο (Noise ), Nj, που εισαγάγει ο όρος tj σ’ ένα κείμενο di.
entropy
όπου tfij παριστά την συχνότητα εμφάνισης του όρου tj στο κείμενο di και TFj παριστά την συνολική συχνότητα του όρου σε ολόκληρη τη συλλογή. Το μέτρο αυτό μεταβάλλεται αντίστροφα με την συγκέντρωση των όρων στη συλλογή. π.χ. όταν οι όροι κατανέμονται ομοιόμορφα σε όλα τα κείμενα της συλλογής τότε ο θόρυβος είναι μέγιστος. Για παράδειγμα όταν tfij =1 για όλα τα i=1,...,n. Tότε:
entropy
Αντίστροφα όταν υπάρχει μεγάλη συγκέντρωση όρων σε ορισμένα κείμενα της συλλογής τότε ο θόρυβος είναι μικρός π.χ. αν ο όρος tk υπάρχει σ' ένα μόνο κείμενο της συλλογής τότε tfk=TFk και:
entropy
Συνεπώς υπάρχει άμεση σχέση μεταξύ του θορύβου και της εξειδίκευσης (specificity) του όρου δηλαδή γενικοί όροι έχουν περισσότερο ομοιόμορφη κατανομή στα κείμενα της συλλογής και συνεπώς εισάγουν μεγάλο θόρυβο. Για το λόγο αυτό χρησιμοποιούμε ως τιμή βάρους για ένα όρο την αντίστροφο συνάρτηση του θορύβου, δηλαδή το σήμα (signal) που ορίζεται από:
entropy
Τώρα αν ένας όρος υπάρχει σε όλα τα κείμενα τότε το βάρος του είναι μηδέν. Συνεπώς μπορούμε να χρησιμοποιήσουμε ως βάρος για ένα όρο το:
entropy