Ασκήσεις


    1. Υποβάλλετε στον Google τα ερωτήματα: to be or not to be και "to be or not to be" Tί παρατηρείτε;
    2. Υποβάλλετε στον Google τα ερωτήματα:
      water
      skiing
      water skiing
      ”water skiing”
      water OR skiing
      skiing OR water
      water AND skiing
      Πως ερμηνεύετε τις μεταβολές ως προς το πλήθος των απαντήσεων στις ερωτήσεις αυτές;
    3. Εξηγείστε τί κάνει ο Google όταν του υποβάλλετε το ερώτημα: 104 34
    4. Τι σημαίνουν οι τελεστές του Google: Inurl, allintitle, intitle, +, -, *, ~ Δώστε από ένα παράδειγμα χρήσης των τελεστών αυτών.
    5. Πως εξηγείται τα αποτελέσματα του Google για τα ερωτήματα:
      Information Retrieval
      Information Retreival
    6. Πως μπορεί να επηρεάσει κανείς την κατάταξη μιας web σελίδας;

  1. Βρείτε ένα ερώτημα Q=(q1, q2) χωρίς εισαγωγικά το οποίο όταν υποβληθεί στον Google, παράγει τουλάχιστον ένα αποτέλεσμα το οποίο είτε δεν περιέχει τον όρο q1 ή δεν περιέχει τον όρο q2. Δηλαδή βρείτε ένα παράδειγμα στο οποίο ο Google δεν υλοποιεί (interpret) το ερώτημα των δύο όρων ως σύζευξη (conjunction). Βρείτε ένα ερώτημα που παράγει πολύ λίγα αποτελέσματα, για παράδειγμα λιγότερα από 20 (i) Τυπώστε τα αποτελέσματα και βαθμολογείστε τα κείμενα με 2 όταν υπάρχουν και οι δύο όροι, με 1 όταν υπάρχει ένας μόνο όρος και 0 όταν δεν υπάρχει κανένας όρος. (ii) Με βάση τα αποτελέσματα αυτά απαντήστε αν Google διερμηνεύει όλα τα ερωτήματα ως λογικές συζεύξεις.

  2. Θεωρείστε τη μηχανή αναζήτησης Google και απαντήστε στα ερωτήματα:
    1. Εφαρμόζει αποκοπή καταλήξεων; Αν ναι ποιον αλγόριθμο χρησιμοποιεί;
    2. Αφαιρεί τις τετριμμένες λέξεις; (δώστε ένα ερώτημα το οποίο περιέχει μόνο τετριμμένες λέξεις)
    3. Γράψτε ένα ερώτημα στο οποίο η πρώτη απάντηση είναι η web σελίδα του instructor σας. Το ερώτημα δεν πρέπει να περιέχει το όνομα του instructor. Τι συμπερένετε;
    4. Εξηγείστε τι γίνεται όταν υποβάλλουμε το ερώτημα 697 4854274
    5. Περιγράψτε τι συμβαίνει όταν υποβάλλετε το ερώτημα: allintitle: athens olympics
    6. Εξηγείστε την διαφορά μεταξύ των ερωτημάτων (α) nonotechnology και (β) nanotechnology
    7. Εξηγείστε τι γίνεται όταν υποβάλλουμε το ερώτημα: miserable failure. Πως εξηγείτε το αποτέλεσμα; Μπορεί το φαινόμενο αυτό να χρησιμοποιηθεί ως ένας τρόπος πριμοδότησης διαφημίσεων;

  3. Τι σημαίνει ο όρος SEO? Πως επιλέγω τις λέξεις σε μια ιστοσελίδα ώστε να την ανακτούν οι μηχανές αναζήτησης υψηλά στη λίστα των αποτελεσμάτων; Διατυπώστε 10 θετικά και 10 αρνητικα στοιχεία που πρέπει να διαθέτει μια ιστοσελίδα για να εμφανίζεται ψηλά από μια μηχανή αναζήτησης. http://www.seogreece.gr/10spot.html

  4. Συγκεντρώστε τις τρεις κατά την άποψή σας πιο σημαντικές ελληνικές μηχανές αναζήτησης. Καταγράψτε μια λίστα κριτηρίων και αξιολογίστε τις μηχανές. Συγκρίνατε τις με τον Google.

  5. Χρησιμοποιείστε τη τάξη StreamTokenizer της java για τον υπολογισμό των tokens σε ένα δοσμένο αρχείο. Η τάξη αυτή μπορεί να χρησιμοποιηθεί για να διαβάσει tokens κατ’ ευθεία από ένα αρχείο. Γράψτε κατάλληλη διεπαφή η οποία εμφανίζει τις λέξεις σε φθίνουσα ή αύξουσα σειρά σε σχέση με την συχνότητα εμφάνισής τους στο αρχείο. Η διεπαφή δοθέντος ενός όρου να επιστρέφει όλες τις προτάσεις που περιέχουν τον όρο. Επιπλέον για ένα δοσμένο όρο να επιστρέφει τις λέξεις με υψηλότερη συχνότητα σε ένα παράθυρο μεγέθους ±k λέξεων δεξιά και αριστερά της δοθείσης λέξης.

  6. Γράψτε ένα πρόγραμμα, HTML2TXT, το οποίο αφαιρεί τα HTML tags από ένα δοσμένο αρχείο.


  7. Προγραμματιστικές εργασίες

  8. Υλοποιείστε μια εφαρμογή η οποία αναγνωρίζει διευθύνσεις email και επιστρέφει μια λίστα η οποία περιέχει δύο στήλες (συμβολοσειρές) σε κάθε γραμμή: η μια έχει το email και η άλλη το όνομα του κατόχου. Οι περιπτώσεις στις οποίες δεν είναι σαφές το όνομα του κατόχου να δίδονται σε ξεχωριστή λίστα. Η δεύτερη συμβολοσειρά να είναι σύνδεσμος στο κείμενο που περιέχει το email.

  9. Να κάνετε μια ανασκόπηση της βιβλιογραφίας για τις μεθοδολογίες αναβάθμισης ιστοσελίδων. Ασχοληθείτε ιδιαίτερα με τη περίπτωση των διαφημιστικών σελίδων των ελληνικών ξενοδοχείων. Περιγράψτε τη τρέχουσα κατάσταση. Διατυπώστε μια ανάλυση ανταγωνισμού (Competition Analysis ), περιγράψτε μεθοδολογία για την επιλογή λέξεων κλειδιών, (Website Optimization) Βελτιώστε τη δομή και το περιεχόμενο ενός ιστοτόπου (website), Περιγράψτε τη θέση που καταλαμβάνει η ιστοσελίδα σε σχέση με διάφορες επιθυμητές λέξεις, Αξιολογίστε τα αποτελέσματά σας.

  10. Γράψτε ένα Tokenization εξειδικευμένο για Ιατρικά κείμενα. Χρησιμοποιείστε μεθόδους μηχανικής μάθησης για την αποσαφήνιση των σημείων στίξεως: Τέλος περιόδου (End of Sentence detector), αποσαφήνιση του Hyphen, αποσαφήνιση των παρενθέσεων «(,)», αγκυλών «[, ]», Τέλος το πρόγραμμα να αναγνωρίζει τα ακρώνυμα και εφαρμόζει κανονικοποίηση των όρων με διαφορετικούς τρόπους γραφής, π.χ. leukemia, leukaemia, leucaemia.

  11. Υποβάλλετε στο Google ένα ερώτημα με τον όρο του οποίου ζητάτε τη σημασιολογία. Εφαρμόστε LSI (Λανθάνουσα Σημασιολογική Ευρετηρίαση) με τις 1000 πρώτες απαντήσεις που επιστρέφει η μηχανή αναζήτησης. Υπολογίστε ομάδες λέξεων που έχουν ειδική σχέση (νόημα) με την δοθείσα. Προγραμματιστική εργασία, 2011-2012