Θεωρητικό Μοντέλο Διανυσματικού Χώρου


Έστω ότι έχουμε μια συλλογή από Ν κείμενα της οποίας το σύνολο των διακριτών όρων είναι termsim και έστω ότι η έννοια (concept) κάθε όρου tj παρίσταται με τη κατεύθυνση ενός διανύσματος Τj. Προφανώς μεταξύ των όρων tj υπάρχει κάποια συσχέτιση και συνεπώς τα διανύσματα Τj, δεν είναι κάθετα μεταξύ τους. Τα n αυτά διανύσματα αποτελούν ένα διανυσματικό χώρο διάστασης n και κάθε διάνυσμα σ’ αυτό τον διανυσματικό χώρο μπορεί να γραφτεί ως γραμμικός συνδυασμός των Τj. Αν δούμε τα κείμενα της συλλογής , di, απλά ως σύνολα όρων, tj, τότε μπορούμε να τα θεωρήσουμε ως διανύσματα της μορφής . Συνεπώς τα κείμενα μπορούν να γραφτούν ως γραμμικοί συνδυασμοί των:
termsim
όπου τα αij παριστούν τα βάρη των όρων tj στο κείμενο di, και αντανακλούν την σπουδαιότητα των όρων στο κείμενο. Στη περίπτωση δυαδικών βαρών τα αij ορίζονται από
termsim
Με το ίδιο τρόπο ένα ερώτημα γράφεται ως γραμμικός συνδυασμός των διανυσμάτων Τj ως:
termsim

gvsm
Σχήμα 2. Παράσταση των διανυσμάτων για n=3. Για παραστατικότητα του σχήματος τα Τj είναι κάθετα.

To συνημίτονο της γωνίας μεταξύ των διανυσμάτων di, q τώρα ορίζεται από τον τύπο:
termsim
Ο υπολογισμός της παράστασης αυτής προϋποθέτει την γνώση των αik qj καθώς επίσης και της συσχέτισης μεταξύ των διανυσμάτων Tj και Tk . Τα αik, qj μπορούν να υπολογιστούν κατά κάποιο τρόπο αλλά τα δεν είναι εύκολο να υπολογιστούν. Για το λόγο αυτό υποθέτουμε ότι τα Tj είναι μεταξύ τους ορθογώνια δηλαδή:
termsim
Η υπόθεση αυτή, ότι λέξεις σε μια γλώσσα είναι μεταξύ τους ανεξάρτητες, είναι μια υπεραπλούστευση η οποία όμως είναι ένα αναγκαίο κακό ώστε να έχουμε ένα αλγόριθμο που να είναι εφαρμόσιμος στη πράξη. Έτσι λοιπόν από τις παραπάνω σχέσεις προκύπτει ότι:
termsim
Παράδειγμα: Έστω ότι έχουμε δύο κείμενα στον τρισδιάστατο χώρο, d1=4T1+3T2+2T3 , d2=0T1+3T2+ T3 και το ερώτημα, q=0 T1+0 T2+ T3.Όταν τα διανύσματα Tj είναι ορθογώνια έχουμε ότι:
termsim
Συνεπώς το κείμενο d1 ανακτάται πρώτο και το d2 δεύτερο. Όταν όμως τα Tj δεν είναι ορθογώνια και υποθέσουμε ότι έχουμε την πληροφορία για την συσχέτιση μεταξύ των εννοιών των όρων, π.χ.
termsim
Τότε έχουμε:
termsim
και
termsim
Στη περίπτωση αυτή το d2 θα ανακτηθεί πρώτο και το d1 δεύτερο. Όλα σχεδόν τα μοντέλα ανάκτησης κάνουν την παραδοχή ότι τα κείμενα είναι ακολουθίες από λέξεις οι οποίες παράγονται τυχαία. Στο μοντέλο του διανυσματικού χώρου τα διανύσματα Tj για απλούστευση θεωρούνται ότι είναι ανεξάρτητα.

Αναφορές

  1. G. Salton, M.J McGill, Introduction to modern information retrieval, McGraw Hill, 1984.
  2. G Salton, Automatic Text Processing, Addison-Wesley Publishing Company, 1989.
  3. R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. New York: ACM Press, 1999.
  4. W.B. Frakes and R. Baeza-Yates. Information Retrieval: Data Structures and Algorithms. Englewood Cliffs, NJ: Prentice Hall, 1992.