Ανάδραση Συνάφειας (Relevance Feedback)


Όπως είπαμε για να χρησιμοποιήσουμε το πιθανολογικό μοντέλο ανάκτησης που περιγράψαμε θα πρέπει να γνωρίζουμε τις τιμές Pi, qi για όλους τους όρους της συλλογής. Έτσι διάφοροι μέθοδοι έχουν προταθεί για να προσεγγίσουμε τις παραμέτρους αυτές. Για μια αρχική ανάκτηση δεν έχουμε καμιά πληροφορία για τις παραμέτρους αυτές και έτσι μπορούμε να υποθέσουμε ότι αυτές είναι σταθερές για όλους τους όρους (π.χ. pi=0.5) και ότι η κατανομή των όρων στα μη σχετικά κείμενα προσεγγίζεται από την κατανομή τους σε ολόκληρη τη συλλογή. Έστω ότι έχουμε τον πίνακα κατανομής ενός όρου ti στα Ν κείμενα της συλλογής. Από τον πίνακα αυτό μπορούμε να υπολογίσουμε τα qi από την:
prob

δηλαδή το ποσοστό των κειμένων της συλλογής που περιέχουν τον όρο ti. Έτσι για μια αρχική ανάκτηση η συνάρτηση του RSV γίνεται:
rsv

Στις επόμενες επαναλήψεις συσσωρεύονται στατιστικά στοιχεία από τα σχετικά και τα μη σχετικά κείμενα που έχουν προηγουμένως ανακτηθεί τα οποία χρησιμοποιούνται για τον υπολογισμό του RSV. Αυτό γίνεται με την υπόθεση ότι η κατανομή των όρων στα σχετικά κείμενα που ανακτήθηκαν είναι η ίδια με την κατανομή σε όλα τα σχετικά κείμενα της συλλογής και αντίστοιχα για τα μη σχετικά. Έτσι από τον πίνακα κατανομής των όρων στα κείμενα της συλλογής έχουμε ότι:
example


contigency

Αντικαθιστώντας τις σχέσεις αυτές στην συνάρτηση αξιολόγησης RSV, έχουμε:
example

όπου R δηλώνει το συνολικό πλήθος σχετικών κειμένων που ανακτήθηκαν, ri το συνολικό πλήθος σχετικών κειμένων που ανακτήθηκαν και περιέχουν τον όρο ti, και ni το συνολικό πλήθος κειμένων που ανακτήθηκαν και περιέχουν τον όρο ti. H τελευταία σχέση αξιολόγησης παρουσιάζει προβλήματα για μικρές τιμές των R και ri (κάτι που συμβαίνει συχνά στη πράξη). Για παράδειγμα αν R=1 και ri=0 λόγω του λογαρίθμου θα έχουμε σχετικότητα μηδέν. Για τον λόγο αυτό προστίθεται ένας παράγοντας 0.5 στα pi και qi οπότε έχουμε:
f05

Tο πιθανολογικό μοντέλο έχει δεχτεί πολύ κριτική για διάφορους λόγους, π.χ. ο παράγοντας 0.5 σε ορισμένες περιπτώσεις δεν δίνει ικανοποιητικά αποτελέσματα. Έτσι έχουν προταθεί εναλλακτικοί τρόποι για τον υπολογισμό των pi, qi, όπως για παράδειγμα:
example

Αν δεν ανακτηθεί κανένα σχετικό κείμενο αρχικά, δηλαδή αν R=0 τότε η καλύτερη προσέγγιση για το pi (πιθανότητα να υπάρχει ένας όρος σ' ένα σχετικό κείμενο) μπορεί να προσεγγιστεί από την πιθανότητα να υπάρχει ο όρος σ' ένα κείμενο σε σχέση με ολόκληρη τη συλλογή δηλαδή
probgl

Το πλεονέκτημα του πιθανολογικού μοντέλου ανάδρασης σε σύγκριση με το διανυσματικό είναι ότι σχετίζεται άμεσα με τον υπολογισμό του βάρους για τους όρους του ερωτήματος. Ωστόσο κάποιες χρήσιμες πληροφορίες αγνοούνται στο πιθανολογικό μοντέλο όπως για παράδειγμα το βάρος των όρων στα κείμενα και το βάρος των όρων στο αρχικό ερώτημα. Επιπλέον το σύνολο των ανακτηθέντων σχετικών κειμένων δεν χρησιμοποιείται απ' ευθείας για να βελτιώσουμε το ερώτημα όπως συμβαίνει στο διανυσματικό μοντέλο. Αντί γι' αυτό χρησιμοποιούμε την κατανομή των όρων στα ανακτηθέντα σχετικά κείμενα. Αυτά μπορεί να μας κάνουν να συμπεράνουμε ότι το πιθανολογικό μοντέλο ανάδρασης δεν είναι τόσο αποτελεσματικό όσο το αντίστοιχο διανυσματικό.

Αναφορές

  1. C.J. van Rijsbergen, Information Retrieval, 2nd edition, London, UK:Butterworths (κεφάλαιο 6).
  2. N. Fuhr, Probabilistic Models in IR, The Computer Journal, 35, 1992, 243-255.May Issue 1 (January 2003) Pages: 41–57.
  3. Wong, S. K. M., Ziarko, W., Wong, P. C. N. Generalized vector space model on information retrieval. In Proceedings of the 8 th Annual Int'l ACM-SIGIR Conference, New York, 18--25, June 1985.