Επιλογή Όρων για τα Ευρετήρια


Η ανάκτηση πληροφοριών μπορεί να γίνει είτε με ακριβή αναζήτηση (exact search) συμβολοσειρών, μια πολύ χρονοβόρα διαδικασία, είτε μέσω ευρετηρίου. Ένα ευρετήριο μπορεί να δημιουργηθεί είτε από ειδικούς (experts) είτε αυτόματα. Όταν έχουμε ένα πολύ καλό ειδικό μπορεί να εξαγάγει όλους τους όρους που χαρακτηρίζουν επακριβώς ένα κείμενο και να επιτύχουμε υψηλή ποιότητα επίδοσης. Στην αυτόματη εξαγωγή όρων έχουμε μεγάλη ποικιλία όρων αφού όλοι οι όροι των κειμένων εισάγονται στο ευρετήριο. Η επιλογή "καλών" περιγραφητών-όρων (descriptors) επηρεάζει την αποτελεσματικότητα του συστήματος ανάκτησης. Συνήθως έχουμε δύο τύπους περιγραφητών: αντικειμενικούς ή δομικούς (όνομα, τίτλος, εκδότης, ημερομηνία κ.ά.) και μη αντικειμενικούς. Εδώ είναι δύσκολη μια συμφωνία για την επιλογή των όρων. Η αποτελεσματικότητα της διαδικασίας κατασκευής ευρετηρίου ελέγχεται από δύο παραμέτρους:
  1. κατά πόσο γενικοί είναι οι όροι (term exhaustivity) και
  2. κατά πόσο ειδικοί είναι οι όροι (term specificity).

Με το όρο γενικότητα του ευρετηρίου (indexing exhaustivity) εννοούμε τον βαθμό στον οποίο οι επιλεγέντες όροι καλύπτουν ένα κείμενο. Στη περίπτωση όμως αυτή σε κάθε κείμενο αντιστοιχούμε ένα μεγάλο αριθμό όρων το οποίο μπορεί να έχει αρνητικό αποτέλεσμα. Όταν ένας όρος είναι πολύ γενικός τότε επιστρέφει σχετικά κείμενα αλλά και πολλά μη σχετικά. Αντίθετα όσο πιο "στενός" είναι ένας όρος τόσο λιγότερα αλλά πιο σχετικά κείμενα ανακτώνται.

Για να αξιολογήσουμε το exhaustivity και το specificity των όρων τους συσχετίσουμε με τις παραμέτρους: απόκριση (recall) και ακρίβεια (precision):

recall-precision
0 ≤ R, P ≤1 όπου recall-precision είναι το πλήθος ανακτηθέντων σχετικών, recall-precision το σύνολο των σχετικών που δεν ανακτήθηκαν και recall-precision το σύνολο των μη σχετικών που ανακτήθηκαν.

Συνήθως ο χρήστης θέλει υψηλό R και P μαζί, δηλαδή να ανακτηθεί μεγάλο ποσοστό σχετικών κειμένων και συγχρόνως πολλά άσχετα να απορριφθούν (να μην ανακτηθούν). Και τα δύο όμως αυτά είναι δύσκολο να επιτευχθούν γιατί υπάρχει μια αντίστροφη σχέση μεταξύ της απόκρισης και της ακρίβειας: όσο μεγαλώνει η απόκριση ελαττώνεται η ακρίβεια και αντιθέτως. Όταν το ευρετήριο περιέχει πολύ στενούς όρους τότε η ακρίβεια θα είναι μεγαλύτερη αλλά όχι η απόκριση. Το αντίθετο συμβαίνει όταν έχουμε γενικούς όρους στο ευρετήριο. Στο ερώτημα αν θα πρέπει να χρησιμοποιήσουμε πολύ εξειδικευμένους όρους ή πολύ γενικούς προτιμάμε το πρώτο γιατί στην αντίθετη περίπτωση επιστρέφονται περισσότερα κείμενα. Στην αντίθετη περίπτωση έχουμε μεν υψηλή ακρίβεια αλλά έχουμε λιγότερα σχετικά κείμενα. Για την κατασκευή του ευρετηρίου προηγούνται δύο βήματα:

  1. η εξαγωγή όρων ή εννοιών (concepts) που αποδίδουν το περιεχόμενο των κειμένων και
  2. η απόδοση βαρών στους όρους της συλλογής ανάλογα με την σπουδαιότητά τους στα κείμενα.
Όπως είδαμε και από τον νόμο του Zipf οι συχνότητες εμφάνισης των λέξεων σε ένα άρθρο αποτελούν ένα χρήσιμο μέτρο της σημαντικότητας της λέξης. Ο νόμος του Zipf μπορεί να χρησιμοποιηθεί για να εξαγάγει τις λέξεις εκείνες οι οποίες αντιπροσωπεύουν καλύτερα ένα κείμενο. Συγκεκριμένα ο H.P. Luhn (IBM) το 1958 υπέθεσε ότι οι λέξεις με πολύ υψηλή συχνότητα είναι περισσότερο δομικές λέξεις και δεν περιέχουν πληροφορία και οι λέξεις με πολύ χαμηλή συχνότητα δεν είναι χρήσιμες για να χρησιμοποιηθούν στα ευρετήρια ενός συστήματος ανάκτησης. Ο Luhn χρησιμοποίησε το νόμο του Zipf για τον καθορισμό δύο ορίων ενός άνω και ενός κάτω ορίου τα οποία θα καθόριζαν τις σημαντικές λέξεις σε μια συλλογή. Όλες τις υπόλοιπες λέξεις εκτός των ορίων αγνοούνται (βλέπε σχήμα 4-1). Οι λέξεις πάνω από το άνω όριο θα είναι οι πλέον συχνά εμφανιζόμενες λέξεις και αυτές εκτός του κάτω ορίου είναι σπάνιες και συνεπώς δεν συνεισφέρουν ουσιαστικά στο περιεχόμενο ενός κειμένου. Έτσι βρήκε ένα τρόπο για να εξαγάγει σημαντικές λέξεις. Επιπλέον υπέθεσε ότι η δύναμη μιας λέξης είναι η ικανότητά της να διαφοροποιήσει το περιεχόμενο ενός κειμένου. Τέτοιες λέξεις βρίσκονται στη μέση τιμή της κατάταξης (rank) και στη μέση μεταξύ των δύο ορίων και βαίνει ελαττωμένη έως ότου μηδενιστή στα όρια. Ωστόσο ο ορισμός των ορίων είναι κάπως αυθαίρετος και μόνο πειραματικά μπορούν να υπολογιστούν. Οι ιδέες αυτές αν και αποτελούν τη βάση της ανάκτησης πληροφορίας σήμερα οι μηχανές αναζήτησης στο web δεν εφαρμόζουν τα κριτήρια αυτά για την επιλογή των όρων.
recall-precision
Σχήμα 4 1 Εξαγωγή σημαντικών όρων από μια συλλογή κειμένων

Ο αλγόριθμος επιλογής όρων για εισαγωγή στα ευρετήρια περιλαμβάνει τρεις φάσεις:

  1. Υπολογισμός της συνολικής συχνότητας, ΤFj, των όρων, tj, σε ολόκληρη τη συλλογή
  2. Αφαίρεση των όρων με συχνότητα ΤFj > Fmax ή ΤFj < Fmin
  3. Εισαγωγή των υπόλοιπων όρων στο ευρετήριο.
Όπως θα δούμε η αφαίρεση όλων των όρων με υψηλή συχνότητα επηρεάζει την απόκριση του συστήματος ενώ η αφαίρεση λέξεων με μικρή συχνότητα επηρεάζει την ακρίβεια. Στον παραπάνω αλγόριθμο δεν είναι προφανές να αποφασίσει κανείς που θα τραβήξει τις διαχωριστικές γραμμές μεταξύ υψηλής μέσης και χαμηλής συχνότητας λέξεις. Έτσι ένας όρος θα θεωρείται χρήσιμος για το ευρετήριο όταν πληροί δύο πράγματα: Αυτό συνεπάγεται την χρησιμοποίηση της σχετικής συχνότητας με την οποία καθορίζουμε τους όρους που έχουν υψηλή συχνότητα σ' ένα κείμενο αλλά μικρή σχετική συχνότητα στα κείμενα της συλλογής. Σύμφωνα με τα παραπάνω έχουν χρησιμοποιηθεί διάφορες συναρτήσεις απόδοσης βάρους στους όρους τις οποίες θα εξετάσουμε σε επόμενη ενότητα. Πριν όμως από αυτή τη διαδικασία προηγείται η ομαδοποίηση των λέξεων που έχουν κοινή ρίζα.