Η Εποχή πριν το Διαδίκτυο


Η αποστολή το 1950 από τους σοβιετικούς του πρώτου δορυφόρου (Sputnik) ανησύχησε τους αμερικανούς οι οποίοι κατάλαβαν ότι δεν γνώριζαν τις εξέλιξεις της επιστήμης στο ανατολικό μπλοκ. Επειδή οι σοβιετικοί δεν δημοσίευαν στην αγγλική γλώσσα αποφάσισαν να χρηματοδοτήσουν σπουδές στη ρωσική γλώσσα αλλά και έρευνα στην ανάκτηση πληροφορίας και την αυτόματη μετάφραση. Η δεκαετία του 60 σηματοδοτεί τα πειράματα από τα πρώτα συστήματα ανάκτησης πληροφορίας. Πολλά από τα σημερινά εμπορικά συστήματα βιβλιοθηκών όπως τα Dialog και BRS (Bibliographic Retrieval Services) έγιναν την εποχή αυτή. Η δημιουργία ηλεκτρονικών βάσεων δεδομένων έδωσε τη δυνατότητα για την κατασκευή ευρετηρίων κατάλληλων για κείμενα. Έτσι άρχισε η έρευνα στην ανάκτηση πληροφοριών και την αξιολόγηση των συστημάτων ανάκτησης. Χρησιμοποιήθηκαν για πρώτη φορά ευρετήρια στα οποία μπορούσαν να αποθηκεύονται όλες οι λέξεις των κειμένων και όχι μόνο οι λέξεις κλειδιά. Το γεγονός αυτό δημιούργησε νέα προβλήματα, όπως για παράδειγμα, ποιοι όροι θεωρούνται περισσότερο σημαντικοί για ένα κείμενο και πως επιλέγονται; πως επηρεάζεται η ποιότητα της ανάκτησης ελεύθερου κειμένου; υπάρχει τρόπος αυτόματης κατασκευής των ευρετηρίων; Τα ερωτήματα αυτά οδήγησαν σε μία συστηματική μελέτη τεχνικών αξιολόγησης και την δημιουργία των πρώτων πειραματικών συλλογών κειμένων. Η έρευνα έδειξε ότι η αυτόματη κατασκευή ευρετηρίων βελτιώνει την επίδοση των συστημάτων ανάκτησης σε σχέση με τα χειρωνακτικά (ελεγχόμενα) ευρετήρια και το σπουδαιότερο τα αυτόματα ευρετήρια κοστίζουν πολύ λιγότερο. Νέες τεχνικές ανάκτησης προτάθηκαν όπως για παράδειγμα η τεχνική της ανάδρασης σχετικότητας (relevance feedback), μια τεχνική διεύρυνσης του ερωτήματος προσθέτοντας αυτόματα όρους από κείμενα που είναι σχετικά. Η τεχνική αυτή ήταν πολύ σημαντική καθώς οι χρήστες υποβάλλουν συνήθως πολύ μικρά ερωτήματα ενώ τα συστήματα ανάκτησης χρειάζονται περισσότερη πληροφορία. Ένα άλλο πείραμα ήταν η πολυ-γλωσσική (multi-lingual) ανάκτηση, με την χρήση δίγλωσσων θησαυρών και την αντιστοίχηση λέξεων και από τις δύο γλώσσες στον ίδιο όρο (concept) [2]. Την ίδια εποχή ξεκίνησε επίσης η έρευνα στην επεξεργασία φυσικής γλώσσας για συστήματα απάντησης σε ερωτήματα (Question-Answering Systems). Οι μηχανές αναζήτησης επιστρέφουν κείμενα μέσα στα οποία θα πρέπει ο χρήστης να ψάξει μόνος του την απάντηση. Έτσι οι ερευνητές από την Τεχνητή Νοημοσύνη διερωτήθηκαν γιατί ο χρήστης να μην παίρνει άμεσα την απάντηση που ζητά και να χρειάζεται να διαβάσει ένα ολόκληρο κείμενο για να την εντοπίσει. Παράλληλα πολλοί ερευνητές ασχολήθηκαν με την συντακτική ανάλυση κειμένων για την ανάκτηση με χρήση φράσεων. Ωστόσο τα πειράματα την εποχή αυτή ήταν πολύ περιορισμένα ως προς το μέγεθος. Η έλλειψη κειμένων σε ηλεκτρονική μορφή ήταν ένας από τους βασικούς λόγους που δεν είχαν αναπτυχθεί ακόμη εμπορικά συστήματα.

Οι Ηλεκτρονικές Βιβλιοθήκες

Την δεκαετία του 1970 η ανάκτηση πληροφορίας άρχισε να ωριμάζει με την δημιουργία των πρώτων πραγματικών συστημάτων ανάκτησης. Οι βασικότεροι λόγοι ήταν αφενός η ανάπτυξη προγραμμάτων επεξεργασίας κειμένων που είχε ως αποτέλεσμα την παραγωγή πολλών κειμένων σε ηλεκτρονική μορφή και αφετέρου η τεχνολογία των time-sharing συστημάτων. Έτσι αντί τα ερωτήματα να επεξεργάζονται σε ομαδική (batch) μορφή ήταν δυνατόν να υποβληθούν απ’ ευθείας από ένα τερματικό και να έχουμε την απάντηση αμέσως. Αυτό έκανε την ανάκτηση πολύ πιο πρακτική και δημιουργήθηκαν τα πρώτα συστήματα για τις βιβλιοθήκες. Συγχρόνως οι βελτιώσεις στο υλικό και τα μέσα ήταν δραματικές από τη μια δεκαετία στην άλλη. Μεταξύ των πρώτων εμπορικών συστημάτων ήταν τα Dialog, Orbit, BRS και OCLC, (Online Computer Library Center)1 . Το τελευταίο σύστημα χρησιμοποιούσε την έξοδο από το πρόγραμμα της Library of Congress MARC , ένα ηλεκτρονικό σχήμα κατηγοριοποίησης. Όλα αυτά τα συστήματα χρησιμοποιούσαν πολύ απλές και περιορισμένες δυνατότητες αναζήτησης. Στο OCLC η αναζήτηση περιορίζονταν στα πρώτα τέσσερα γράμματα του ονόματος του συγγραφέα και του τίτλου. Τα επιγραμμικά (online) συστήματα ήταν καλύτερα, αλλά περιορίζονταν μόνο σε Boolean αναζήτηση στις λέξεις του κειμένου. Η δεκαετίες 1970 και 1980 είναι η περίοδος όπου οι βάσεις δεδομένων καθώς και η έρευνα σε συστήματα αυτοματισμού γραφείου εξερράγει. Το NSF, χρηματοδότησε αρκετή έρευνα στην ανάκτηση πληροφορίας το ‘60, αλλά ταυτόχρονα άρχισε να σκέφτεται για το ποιος πρέπει να είναι υπεύθυνος για την διαθεσιμότητα επιστημονικής πληροφορίας. Στα τμήματα υπολογιστών στα πανεπιστήμια το αντικείμενο της Ανάκτησης Πληροφορίας είναι σχεδόν άγνωστο καθόσον δεν ήταν θέμα υψηλής σημαντικότητας για τα πανεπιστήμια, και ήταν δύσκολο για ερευνητές να καταλάβουν μια θέση στο Πανεπιστήμιο στο αντικείμενο αυτό. Υπήρχε ωστόσο κάποια έρευνα και ίσως η πλέον σημαντική ήταν η ανάπτυξη του πιθανοτικού μοντέλου ανάκτησης από τον Keith van Rijsbergen. Άρχισαν να εξετάζουν στατιστικά στοιχεία όπως είναι η συχνότητα των λέξεων στα σχετικά και τα μη σχετικά κείμενα, τα οποία χρησιμοποιήθηκαν για την απόδοση βαρών στις λέξεις των κειμένων. Αν και οι αλγόριθμοι αυτοί είχαν προβλήματα υλοποίησης με την τεχνολογία της εποχής εκείνης, η τεχνική αυτή βελτίωσε την επίδοση σε σχέση με τα συστήματα απλού ταιριάσματος λέξεων. Από την πλευρά της Τεχνητής Νοημοσύνης (ΤΝ) οι ερευνητές έθεταν υψηλούς στόχους προσπαθώντας να κάνουν πιο προχωρημένη ανάλυση με αυτόματο τρόπο. Υπήρξε υπερ-ενθουσιασμός όσον αφορά προβλήματα όπως η μηχανική μετάφραση, η υπολογιστική γλωσσολογία, η αναγνώριση φωνής και το ξεκίνημα των έμπειρων συστημάτων. Έτσι την εποχή αυτή πίστευαν ότι με το τέλος της δεκαετίας του ’70 είναι δυνατόν όλοι να τηλεφωνούν με ένα έμπειρο σύστημα όταν θέλουν να πάρουν κάποια συμβουλή ή πληροφορία τεχνική, νομική ή ιατρική. Στη πράξη υπήρξε κάποια διάσταση μεταξύ των ερευνητών της τεχνητής νοημοσύνης και της ανάκτησης πληροφορίας. Οι άνθρωποι της ΤΝ πίστευαν ότι πρέπει να ασχοληθούν με περισσότερο σύνθετα προβλήματα και ότι η προσέγγιση της ανάκτησης πληροφορίας με την αναζήτηση συμβολοσειρών είναι πολύ περιορισμένη προσέγγιση. Οι ερευνητές της τεχνητής νοημοσύνης πίστευαν ότι χωρίς κάποιο είδος κατανόησης της γλώσσας ήταν αδύνατον να αντιμετωπιστούν τα προβλήματα αυτά. Από την άλλη πλευρά οι άνθρωποι της ανάκτησης πληροφορίας αισθάνονταν ότι οι ερευνητές της τεχνητής νοημοσύνης δεν έκαναν πραγματικά πειράματα, και ότι στη πράξη έκαναν μόνο prototypes τα οποία είχαν μεγάλο ρίσκο γενίκευσης. Ωστόσο δικαίως υπήρχαν τα επιχειρήματα αυτά εκατέρωθεν για πολλούς λόγους, βασικότεροι των οποίων ήταν ότι και η τεχνολογία (υλικό) δεν μπορούσε ακόμη να υποστηρίξει μεγαλύτερες εφαρμογές αλλά και δεν υπήρχαν τα δεδομένα εκείνα (www) που θα καθιστούσαν επιτακτική μια λύση .

Η Εποχή των CD-ROMs

Κατά την διάρκεια της δεκαετίας του 1980 η σταθερή αύξηση της επεξεργασίας κειμένων και η σταθερή μείωση των τιμών των δίσκων συνετέλεσαν στη μεγάλη παραγωγή πληροφορίας σε ηλεκτρονική μορφή. Αυτό είχε ως αποτέλεσμα την εμφάνιση και χρήση online συστημάτων ανάκτησης για δύο κυρίως λόγους. Ένας ήταν η διαθεσιμότητα ολόκληρων κειμένων αντί μόνο των τίτλων και των περιλήψεων και ο άλλος ήταν η χρήση των online συστημάτων από μη ειδικούς, καθώς οι βιβλιοθήκες αντικατέστησαν τις κάρτες με online καταλόγους. Εν τω μεταξύ η ανάπτυξη των CD-ROM άνοιξε το δρόμο για τη μεταφορά της πληροφορίας, το οποίο προς στιγμή φάνηκε να καταστρέφει την ιδέα της online συνεργατικότητας. Επίσης υπήρξε τεράστια αύξηση στο πλήθος των βάσεων δεδομένων διαθέσιμων σε online συστήματα. Το OPACS επίσης αναπτύχθηκε κατά την διάρκεια του 80. Πολλές βιβλιοθήκες χάριν στο OCLC, είχαν ηλεκτρονικές εγγραφές από τα μέσα του 70. Με το τέλος της δεκαετίας, διάφορες εμπορικές εταιρείες ανέπτυξαν το λογισμικό OPAC. Οnline επεξεργασία ξεκίνησε την δεκαετία του ‘80. Πολλά περιοδικά και εφημερίδες ήταν τώρα online, μόνο με κείμενο. Στην ερευνητική κοινότητα ξεκίνησαν νέες προσπάθειες, στην ανάκτηση πληροφορίας. Παρουσιάστηκε ενδιαφέρον για νέες μεθόδους ανάκτησης. Για παράδειγμα, έρευνα στο πρόβλημα της αποσαφήνισης των εννοιών των λέξεων (Word Sense Disambiguation) με τη χρήση ηλεκτρονικών λεξικών για τον ξεχωρισμό των εννοιών των λέξεων. Υπήρξε επίσης έρευνα σε δίγλωσση ανάκτηση. Μετά από πολλά χρόνια φάνηκε ότι η υπολογιστική γλωσσολογία (στατιστική ανάλυση) μπορεί να βοηθήσει στην ανάκτηση, περισσότερο απότι η ΤΝ. Τα εμπορικά συστήματα έδιναν περισσότερη έμφαση στο πλήθος των βάσεων δεδομένων που διέθεταν και δευτερευόντως τους ένοιαζε η διεπαφή με τον χρήστη , ή η επίδοση των συστημάτων. Με το τέλος της δεκαετίας οι περισσότερες βιβλιοθήκες είχαν τουλάχιστον ένα CD-ROM drive, και CD-ROM έγινε το μέσο μεταφοράς (φτηνό και εύκολο στη χρήση) πληροφορίας. Το μέγεθός τους (650 Mbytes), και μικρό κόστος) έγινε αφορμή για τη δημιουργία μεγάλων βάσεων δεδομένων, κατάλληλων για την αποθήκευση ολόκληρων κειμένων, πολύ εύκολα να διαχυθούν. Επίσης η ανάπτυξη των δικτύων υπολογιστών τη δεκαετία αυτή συνετέλεσαν στη ταχεία ανάπτυξη των συστημάτων ανάκτησης.