Θεωρητικό Μοντέλο Διανυσματικού Χώρου
Έστω ότι έχουμε μια συλλογή από Ν κείμενα της οποίας το σύνολο των διακριτών όρων είναι και έστω ότι η έννοια (concept) κάθε όρου tj παρίσταται με τη κατεύθυνση ενός διανύσματος Τj. Προφανώς μεταξύ των όρων tj υπάρχει κάποια συσχέτιση και συνεπώς τα διανύσματα Τj, δεν είναι κάθετα μεταξύ τους. Τα n αυτά διανύσματα αποτελούν ένα διανυσματικό χώρο διάστασης n και κάθε διάνυσμα σ’ αυτό τον διανυσματικό χώρο μπορεί να γραφτεί ως γραμμικός συνδυασμός των Τj. Αν δούμε τα κείμενα της συλλογής , di, απλά ως σύνολα όρων, tj, τότε μπορούμε να τα θεωρήσουμε ως διανύσματα της μορφής . Συνεπώς τα κείμενα μπορούν να γραφτούν ως γραμμικοί συνδυασμοί των:
όπου τα αij παριστούν τα βάρη των όρων tj στο κείμενο di, και αντανακλούν την σπουδαιότητα των όρων στο κείμενο. Στη περίπτωση δυαδικών βαρών τα αij ορίζονται από
Με το ίδιο τρόπο ένα ερώτημα γράφεται ως γραμμικός συνδυασμός των διανυσμάτων Τj ως:
Σχήμα 2. Παράσταση των διανυσμάτων για n=3. Για παραστατικότητα του σχήματος τα Τj είναι κάθετα.
To συνημίτονο της γωνίας μεταξύ των διανυσμάτων di, q τώρα ορίζεται από τον τύπο:
Ο υπολογισμός της παράστασης αυτής προϋποθέτει την γνώση των αik qj καθώς επίσης και της συσχέτισης μεταξύ των διανυσμάτων Tj και Tk . Τα αik, qj μπορούν να υπολογιστούν κατά κάποιο τρόπο αλλά τα δεν είναι εύκολο να υπολογιστούν. Για το λόγο αυτό υποθέτουμε ότι τα Tj είναι μεταξύ τους ορθογώνια δηλαδή:
Η υπόθεση αυτή, ότι λέξεις σε μια γλώσσα είναι μεταξύ τους ανεξάρτητες, είναι μια υπεραπλούστευση η οποία όμως είναι ένα αναγκαίο κακό ώστε να έχουμε ένα αλγόριθμο που να είναι εφαρμόσιμος στη πράξη. Έτσι λοιπόν από τις παραπάνω σχέσεις προκύπτει ότι:
Παράδειγμα: Έστω ότι έχουμε δύο κείμενα στον τρισδιάστατο χώρο, d1=4T1+3T2+2T3 , d2=0T1+3T2+ T3 και το ερώτημα, q=0 T1+0 T2+ T3.Όταν τα διανύσματα Tj είναι ορθογώνια έχουμε ότι:
Συνεπώς το κείμενο d1 ανακτάται πρώτο και το d2 δεύτερο. Όταν όμως τα Tj δεν είναι ορθογώνια και υποθέσουμε ότι έχουμε την πληροφορία για την συσχέτιση μεταξύ των εννοιών των όρων, π.χ.
Τότε έχουμε:
και
Στη περίπτωση αυτή το d2 θα ανακτηθεί πρώτο και το d1 δεύτερο. Όλα σχεδόν τα μοντέλα ανάκτησης κάνουν την παραδοχή ότι τα κείμενα είναι ακολουθίες από λέξεις οι οποίες παράγονται τυχαία. Στο μοντέλο του διανυσματικού χώρου τα διανύσματα Tj για απλούστευση θεωρούνται ότι είναι ανεξάρτητα.
Αναφορές
- G. Salton, M.J McGill, Introduction to modern information retrieval, McGraw Hill, 1984.
- G Salton, Automatic Text Processing, Addison-Wesley Publishing Company, 1989.
- R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. New York: ACM Press, 1999.
- W.B. Frakes and R. Baeza-Yates. Information Retrieval: Data Structures and Algorithms. Englewood Cliffs, NJ: Prentice Hall, 1992.