Σημαντικά Θέματα της Ανάκτησης Πληροφοριών


Για πολλά χρόνια, η έρευνα στην ΑΠ ήταν περιορισμένη σε μια μικρή κοινότητα χωρίς να επηρεάζονται οι εταιρείες. Οι περισσότερες εφαρμογές, όπως είδαμε, ήταν επικεντρωμένες στις βιβλιοθήκες. Οι εφαρμογές αυτές βασίζονταν στο γνωστό Boolean μοντέλο ταιριάσματος όρων χωρίς να λαμβάνονται υπόψη τα αποτελέσματα της έρευνας σε θέματα όπως επεξεργασία ερωτημάτων, απόδοση βαρών στους όρους των κειμένων, ανάδραση σχετικότητας κλπ. Σήμερα η κατάσταση είναι τελείως διαφορετική. Οι τεχνικές ανάκτησης πληροφορίας έχουν χρησιμοποιηθεί σε πολλές εφαρμογές και στον παγκόσμιο ιστό με μηχανές αναζήτησης όπως είναι ο Google, Yahoo!, InfoSeek, Lycos κά. Πολλά χαρακτηριστικά που θεωρούνταν πολύ προχωρημένα όπως για παράδειγμα ερωτήματα σε φυσική γλώσσα, ταξινομημένα αποτελέσματα, βάρη για τους όρους, βοήθεια για την δημιουργία ερωτήματος έχουν γίνει κοινή πρακτική και πολλά εμπορικά πακέτα (PLS, Verity, Fulcrum) είναι διαθέσιμα στην αγορά [5]. Στις επόμενες ενότητες περιγράφουμε μερικά από τα πλέον ενδιαφέροντα και σημαντικά θέματα στη έρευνα και τις εφαρμογές της ανάκτησης πληροφορίας.

Τεχνικές Ανάδρασης

Οι τεχνικές ανάδρασης αναπτύχθηκαν για την βελτίωση ενός αρχικού ερωτήματος ώστε να ανακτηθούν ακόμη περισσότερα σχετικά κείμενα. Με τον όρο ανάδραση σχετικότητας (Relevance Feedback) εννοούμε τη διαδικασία κατά την οποία ο χρήστης καθορίζει τα σχετικά κείμενα σε μια αρχική λίστα ανακτηθέντων κειμένων και το σύστημα δημιουργεί αυτόματα ένα νέο ερώτημα με βάση τα σχετικά κείμενα που δήλωσε ο χρήστης. Όλα τα εμπορικά συστήματα θεωρούν την ανάδραση σχετικότητας ως ένα επιθυμητό χαρακτηριστικό, αλλά υπήρξαν κάποιες πρακτικές δυσκολίες που είτε καθυστέρησαν την υιοθέτησή του ή σε ορισμένες περιπτώσεις δεν χρησιμοποιήθηκε. Ο βασικότερος λόγος ήταν ότι θα έπρεπε ο χρήστης να δει πρώτα ένα ή περισσότερα κείμενα που του επέστρεψε η μηχανή και να αποφασίσει πια από αυτά ικανοποιούν τις πληροφοριακές του ανάγκες. Ο χρήστης όμως συνήθως καθορίζει ένα μόνο σχετικό κείμενο. Μερικές φορές όμως ένα κείμενο αυτό μπορεί να μην σχετίζεται πολύ με το ερώτημα. Αυτό μπορεί να σημαίνει ότι η τεχνική της ανάδρασης είναι μη προβλέψιμη σε πραγματικές εφαρμογές. Ωστόσο υπάρχουν ειδικές εφαρμογές όπως για παράδειγμα είναι η κατασκευή του προφίλ μιας θεματικής ενότητας, το πρόβλημα της δρομολόγησης πληροφορίας (routing) και η ανάκτηση εικόνων στις οποίες η τεχνική της αν΄’αδρασης είναι πολύ σημαντική.

Εξαγωγή Πληροφορίας

Η εξαγωγή πληροφορίας αποτέλεσε ένα μεγάλο πρόγραμμα το οποίο χρηματοδοτήθηκε από το ARPA (Advanced Research Projects Agency), Message Understanding Conferences (MUCs). Το πρόβλημα έγκειται στον εντοπισμό οντοτήτων χαρακτηριστικών και των σχέσεών τους μέσα στα κείμενα. Για παράδειγμα αναγνώριση ονομάτων εταιρειών, προϊόντων, τοποθεσιών, κυρίων ονομάτων κ.ά. Τέτοια στοιχεία έχουν μεγάλη προστιθέμενη αξία σ’ ένα κείμενο και μπορούν να χρησιμεύσουν και να βοηθήσουν στην ανάλυση των δεδομένων, στην εξόρυξη δεδομένων, τη φυλλομέτρηση (browsing), τον εντοπισμό της ακριβούς απάντησης σ’ ένα ερώτημα (Question Answering) κ.λπ.. Τα εργαλεία εξαγωγής πληροφορίας απαιτούν μια μεγάλη επένδυση καθόσον ορισμένοι τύποι πληροφορίας είναι πολύ δύσκολο να εντοπιστούν. Ή εξαγωγή απλών κατηγοριών πληροφορίας είναι ένα πρακτικό πρόβλημα και μπορεί να είναι πολύ σημαντικό μέρος σε ένα σύστημα ανάκτησης πληροφορίας.

Ανάκτηση Πολυμεσικών Κειμένων

Με τον όρο πολυμεσική ανάκτηση εννοούμε στις τεχνικές προσπέλασης σε βάσεις κειμένων, εικόνας, ήχου και video τα οποία δεν συνοδεύονται από κειμενικές περιγραφές. Οι γενικές λύσεις στην ευρετηρίαση πολυμεσικών δεδομένων είναι πολύ δύσκολες και όπου υπάρχουν είναι περιορισμένης χρήσης. Ένα παράδειγμα δημιουργίας ευρετηρίου για ανάκτηση εικόνων είναι στατιστικά στοιχεία της κατανομής των χρωμάτων στην εικόνα.

Επίδοση Συστημάτων Ανάκτησης

Η ανάπτυξη αποτελεσματικών συστημάτων ανάκτησης αποτελεί τη καρδιά της έρευνας στην ανάκτηση πληροφορίας τα τελευταία 30 χρόνια. Ένα πλήθος από μέτρα αποτελεσματικότητας έχουν προταθεί, αλλά αυτά που χρησιμοποιούνται συνήθως είναι η απόκριση (recall) και η ακρίβεια (precision). Η εύρεση των κειμένων που ικανοποιούν τις πληροφοριακές ανάγκες των χρηστών δεν είναι απλό θέμα και από την εποχή του Boolean μοντέλου ανάκτησης έχει γίνει μεγάλη πρόοδος. Οι εταιρείες σε αντίθεση με τους ερευνητές ενδιαφέρονται περισσότερο για την αποτελεσματικότητα. Οι εταιρείες ενδιαφέρονται περισσότερο για σημαντικές βελτιώσεις αντί για μικρές βελτιώσεις στο recall/precision καθώς επίσης και την αποφυγή σοβαρών λαθών. Πράγματι τα λάθη αυτά μπορεί να επηρεάζουν πολύ λίγο τη μέση τιμή των μέτρων recall/precision αλλά επηρεάζουν σημαντικά τους χρήστες. Ένα παράδειγμα τεχνικής που συμβάλλει στη βελτίωση (αν και μικρή), και θεωρείται καλή από τους χρήστες, αλλά ταυτόχρονα είναι η κύρια πηγή μεγάλων λαθών είναι το stemming.

Δρομολόγηση και Φιλτράρισμα Πληροφορίας

Η δρομολόγηση (routing) της πληροφορίας και το φιλτράρισμα θεωρούνται συνώνυμες διαδικασίες και αναφέρονται στη διαδικασία εντοπισμού σχετικών κειμένων σε ακολουθίες κειμένων όπως για παράδειγμα είναι τα άρθρα εφημερίδων. Αντί να συγκρίνουμε ένα απλό ερώτημα με όλα τα κείμενα με τα οποία ποιράζονται κάποιες κοινές λέξεις, όπως συμβαίνει στην ανάκτηση πληροφορίας, μεμονωμένα κείμενα συγκρίνονται με ένα πλήθος από αρχειοθετημένα προφίλ των χρηστών. Τα κείμενα που είναι σχετικά με ένα προφίλ στέλνονται στον χρήστη με το αντίστοιχο προφίλ. Το προφίλ είναι πολύ περισσότερο λεπτομερές απ’ ότι είναι τα ερωτήματα στα συστήματα ανάκτησης. Η αποτελεσματικότητα της δρομολόγησης είναι σημαντική όταν το πλήθος των εισερχομένων κειμένων είναι πολύ μεγάλο καθώς επίσης και το πλήθος των κατηγοριών (profiles). Νέα ευρετήρια και αλγόριθμοι στη μνήμη έχουν υλοποιηθεί για το πρόβλημα αυτό. Οι αλγόριθμοι είναι πανομοιότυποι με τους αλγόριθμους ανάκτησης με την διαφορά ότι αντί να κατατάσσουν τα κείμενα σε μια σειρά ανάλογα με τη σχετικότητά τους προσδιορίζουν οριακές τιμές (thresholds, cutoffs) που ξεχωρίζονται κείμενα σε σχετικά με ένα προφίλ και μη σχετικά. Διάφοροι αλγόριθμοι μάθησης έχουν προταθεί και την αυτόματη κατασκευή των προφίλ με τεχνικές ανάδρασης σχετικότητας.

Επεξεργασία Φυσικής Γλώσσας

Ένας από τους βασικότερους λόγους αποτυχίας των συστημάτων ανάκτησης είναι η γλώσσα. Αυτό σημαίνει ότι ένα ερώτημα συχνά πρέπει να περιγραφτεί με διαφορετικές λέξεις από αυτές που υπάρχουν στα σχετικά κείμενα. Έτσι οι τεχνικές διεύρυνσης του ερωτήματος με νέους όρους είναι πολύ σημαντικές. Αυτό σημαίνει ότι ένα ερώτημα πρέπει να μετασχηματιστεί πριν υποβληθεί στη μηχανή αναζήτησης είτε με τη χρήση θησαυρού είτε με αυτόματες μεθόδους όπως για παράδειγμα είναι η τεχνική της λανθάνουσας σημασιολογικής δεικτοδότησης.

Διεπαφές και Πλοήγηση

Οι διεπαφές στα πληροφοριακά συστήματα που χειρίζονται κείμενα είναι υψηλής προτεραιότητας. Οι διεπαφές αποτελούν σημαντικό μέρος της αξιολόγησης συστημάτων και όσο οι αλγόριθμοι ανάκτησης και δρομολόγησης γίνονται ολοένα και πιο πολύπλοκοι για να βελτιώσουν την ακρίβεια των απαντήσεων, μεγαλύτερη έμφαση έχει δοθεί στις διεπαφές που κάνουν πιο φιλικά τα συστήματα αυτά. Οι διεπαφές πρέπει να υποστηρίζουν διάφορες λειτουργίες όπως για παράδειγμα την δημιουργία ερωτημάτων, την παρουσίαση αποτελεσμάτων, την ανάδραση και φυλλομέτρηση (browsing). Παρόλη τη σημαντικότητα του θέματος, δεν έχει δοθεί η ανάλογη προσοχή και λίγη έρευνα έχει γίνει ακόμη στο θέμα αυτό.

Πολυπλοκότητα Συστημάτων Ανάκτησης

Ένα σημαντικό στοιχείο όλων των αλγορίθμων είναι η απόδοση (efficiency). Ο χρόνος απάντησης σε ένα ερώτημα καθώς και ο χρόνος για το κτίσιμο των ευρετηρίων είναι πολύ σημαντικοί παράγοντες. Προφανώς στο παρελθόν οι παράγοντες αυτοί ήταν λιγότερο σημαντικοί αφού το σημαντικότερο ήταν η αποτελεσματικότητα των αλγορίθμων. Σήμερα όμως με τα τεράστια μεγέθη των βάσεων δεδομένων και τις απαιτήσεις από ένα σύστημα να απαντά σε χιλιάδες ερωτήσεις το δευτερόλεπτο οι παράγοντες αυτοί είναι πολύ σημαντικοί. Για την βελτίωσή τους χρησιμοποιούνται διάφορες τεχνικές συμπίεσης για την εξοικονόμηση χώρου και ελάττωσης του χρόνου για I/O. Επίσης έμφαση απαιτείται σε διεργασίες όπως έλεγχος ταυτόχρονων διεργασιών (concurrency control), ενημέρωσης (update), and στρατηγικές ανάκαμψης (recovery). Ειδικότερα τα προβλήματα αυτά είναι περισσότερο σημαντικά στην ανάκτηση πληροφορίας από τον παγκόσμιο ιστό όπου οι μηχανές αναζήτησης πρέπει να ικανοποιήσουν εκατομμύρια χρηστών ημερησίως. Άλλο σημαντικό στοιχείο είναι πόσα διαφορετικά μορφότυπα για τα κείμενα δέχονται τα συστήματα ανάκτησης για παράδειγμα SGML, HTML, Acrobat, and MS Word, WordPerfect κ.ά.

Κατανεμημένα Συστήματα Ανάκτησης

Μαζί με την τεράστια χρήση του διαδικτύου και την έκρηξη του περιεχομένου του διαδικτύου δημιουργήθηκε η ανάγκη ύπαρξης κατανεμημένων συστημάτων ανάκτησης. Όλες οι διεργασίες ενός συστήματος ανάκτησης στο web θα πρέπει να γίνουν με επικαλυπτικό και κατανεμημένο τρόπο. Σκοπός είναι να παραμείνει μικρός ο χρόνος εξυπηρέτησης των ερωτημάτων, να μπορεί η μηχανή να εξυπηρετήσει όσο το συνατό περισσότερα ερωτήματα ανά sec (throughput) να είναι κλιμακωτή (scalable) τόσο στην αύξηση του πλήθους των χρηστών,όσο και την αύξηση των δεδομένων και όλα αυτά θα πρέπει να επιτευχθούν χωρίς να θυσιαστεί η ποιότητα των αποτελεσμάτων. Η έρευνα που έχει γίνει τα τελευταία χρόνια έχει δείξει ότι η εξόρυξη πληροφορίας από τα ερωτήματα που δέχεται μια μηχανή αναζήτησης (query logs) μπορεί να δώση αποτελεσματικούς κατανεμημένους αλγόριθμους ευρετηρίασης και ανάκτησης.

Ολοκληρωμένα Συστήματα Διαχείρισης Πληροφορίας

Το πλέον σημαντικό πρόβλημα από την πλευρά των εταιρειών είναι η ολοκλήρωση της διαχείρισης πληροφορίας με άλλα συστήματα. Η ανάκτηση πληροφορίας λύνει μερικώς τα προβλήματα ενός οργανισμού. Συνήθως μια ολοκληρωμένη λύση απαιτεί δρομολόγηση και εξαγωγή πληροφορίας, εργαλεία για τον χειρισμό πολυμεσικών δεδομένων σαρωτές, OCR, OMR (Optical Mark Reader), βάσεις δεδομένων για δομημένα δεδομένα, και workflow. Ένα σημαντικό θέμα είναι η σύνδεση των συστημάτων ανάκτησης πληροφορίας με τις βάσεις δεδομένων. Μια τέτοια αποτελεσματική ολοκλήρωση μαζί με πολυμεσικές δυνατότητες, πρέπει να προσφέρει ένα πληροφοριακό σύστημα για την διαχείριση πολλών σημερινών εφαρμογών. Η πραγματική ολοκλήρωση κειμένων με άλλα πολυμεσικά κείμενα απαιτεί σημαντικές αλλαγές στις βάσεις δεδομένων για δεικτοδότηση και βελτιστοποίηση των ερωτημάτων, και πιθανώς απαιτεί ακόμη και νέες γλώσσες ερωτημάτων. Τα παραπάνω θέματα δεν σημαίνει ότι είναι και τα μοναδικά. Υπάρχουν και άλλα σημαντικά θέματα όπως για παράδειγμα πολυγλωσσική ανάκτηση πληροφορίας (multilingual IR), η εξόρυξη δεδομένων από κειμενικές βάσεις δεδομένων, η κατηγοριοποίηση κειμένων.