Διάβασμα Κειμένων (reader)


Ένα σύστημα ανάκτησης δέχεται ως είσοδο κείμενα και ερωτήματα. Και οι δύο αυτοί τύποι υπόκεινται σε μια προ-επεξεργασία και ένα μετασχηματισμό πριν αποθηκευτούν στη βάση και χρησιμοποιηθούν από τη μηχανή αναζήτησης. Όσο πιο λεπτομερής είναι ο μετασχηματισμός αυτός (λεξική ανάλυση, συντακτική ανάλυση κ.λπ.) τόσο καλύτερα είναι τα αποτελέσματα που επιστρέφονται από τη μηχανή αναζήτησης. Για να επεξεργαστούν τα κείμενα πρέπει να είναι σε μορφή txt. Ωστόσο τα κείμενα έχουν προέλθει από κάποιο επεξεργαστή κειμένου και περιέχουν εκτός από το καθαρό περιεχόμενό τους και πολλά άλλα στοιχεία όπως επισημειώσεις (tags), γραφικά, εικόνες, πίνακες κά. Για παράδειγμα τα κείμενα εμφανίζονται σε διάφορα μορφότυπα όπως, MS word, Wordperfect, Latex, PDF, XML, HTML. Συνεπώς το σύστημα ανάκτησης θα πρέπει να αναγνωρίζει τον τύπο των εγγράφων και να τα μετατρέπει σε txt, μια καθόλου προφανής διαδικασία. Αν τα κείμενα προέρχονται από το web τότε, τα πράγματα είναι ακόμη χειρότερα. Τα κείμενα αυτά περιέχουν εκτός από καθαρό περιεχόμενο, εικόνες, διαφημίσεις, video, από τα οποία θα πρέπει να απαλλαγούν. Συνεπώς ένα σύστημα ανάκτησης χρειάζεται ένα πολύ ισχυρό και αξιόπιστο αναγνώστη κειμένων (reader) ο οποίος να καλύπτει όλη την γκάμα των πλέον διαδεδομένων μορφότυπων κειμένων.

Πρότυπα Κειμένων

Τα σώματα κειμένων συνήθως υφίστανται είτε ως συλλογές ακατέργαστων κειμένων (raw corpora) είτε ως συλλογές κειμένων επισημειωμένων με πρόσθετη πληροφορία (annotated corpora). Στην τελευταία περίπτωση κάθε συλλογή συνοδεύονται από ένα εγχειρίδιο επισημείωσης. Στο πρότυπο TEI για παράδειγμα, (βλέπε παρακάτω παράγραφο, χχ μεταδεδομένα) στο οποίο για την επισημείωση των κειμένων χρησιμοποιείται η γλώσσα SGML, (Standard Generalized Markup Language) το εγχειρίδιο της επισημείωσης είναι ο ορισμός και η περιγραφή του ορισμού τύπου δεδομένων (Data Type Definition –DTD) της SGML. Στην επισημείωση των κειμένων θα πρέπει να λαμβάνονται υπόψη ειδικές περιπτώσεις, όπως για παράδειγμα η παρεμβολή εικόνων ή άλλης πολυμεσικής πληροφορίας στο κείμενο. Η XML (Extensible Markup Language) αποτελεί υποσύνολο της SGML. Έχει σχεδιαστεί ειδικά για χρήση κειμένων στο διαδίκτυο και όλοι οι φυλλομετρητές (browsers) την υποστηρίζουν. Η XML μοιάζει με την HTML στο ότι και οι δύο περιέχουν markup σύμβολα για να περιγράψουν το περιεχόμενο μιας σελίδας ή ενός αρχείου. Η HTML, ωστόσο, περιγράφει το περιεχόμενο μιας ιστοσελίδας μόνο ως προς το πώς θα εμφανιστεί αυτό. Η XML όμως, περιγράφει τι είναι το περιεχόμενο. Για παράδειγμα το δηλώνει ότι τα δεδομένα που το ακολουθούν είναι το όνομα του συγγραφέα. Αυτό μας δίνει τη δυνατότητα να επεξεργαστούμε ένα XML αρχείο με ένα πρόγραμμα καθώς επίσης καθορίζει και πως θα εμφανιστούν τα δεδομένα αυτά. Η XML αποτελεί «επέκταση» (extensible) της HTML, καθόσον τα markup σύμβολα ορίζονται από τον χρήστη και ως εκ τούτου είναι απεριόριστα. Τέτοια «πλούσια» κείμενα (XML rich text) μπορούν να βοηθήσουν μια μηχανή αναζήτησης να εντοπίσει την ακριβή πληροφορία που σχετίζεται με ένα ερώτημα. Έτσι ο αναγνώστης των κειμένων αφού αγνοήσει το DTD (Data Type Definition) θα μπορούσε να αντιστοιχίσει τα πεδία αναζήτησης με συγκεκριμένα μονοπάτια (tag-paths) τα οποία θα αποθηκευτούν στη βάση δεδομένων και θα ληφθούν υπόψη στην αξιολόγηση των κειμένων κατά την ώρα που υποβάλλεται ένα ερώτημα. Από το παράδειγμα XML κειμένου στο σχήμα 2-3, το οποίο ανήκει στη ιατρική συλλογή OHSUMED, φαίνεται ότι οι κατηγορίες που έχουν εκχωρηθεί στο κείμενο μπορούν να βελτιώσουν τα αποτελέσματα από ένα σύστημα ανάκτησης.

<ohsb:RECORD>
<ohsb:OHSUMED-ID>27</ohsb:OHSUMED-ID>
<ohsb:CATEGORIES>
<ohsb:CATEGORY>calcium <ohsb:CATEGORY>calcium carbonate <ohsb:CATEGORY>female <ohsb:CATEGORY>hemodialysis <ohsb:CATEGORY>human <ohsb:CATEGORY>kidney failure, chronic <ohsb:CATEGORY>male <ohsb:CATEGORY>phosphates <ohsb:CATEGORY>phosphorus </ohsb:CATEGORIES>
<ohsb:TITLE>
Calcium carbonate as a phosphate binder in hemodialysis patients.
</ohsb:TITLE>
<ohsb:ABSTRACT>
Calcium carbonate appears to be as effective as aluminum hydroxide in binding dietary phosphorus in hemodialysis patients. The long-term safety of this medication appears in view of today’s therapeutic options. </ohsb:ABSTRACT>
</ohsb:RECORD>

Σχήμα 3 Παράδειγμα ΧML κειμένου της συλογής OHSUMED