Ασκήσεις


 1. (α) Πόσοι όροι κατ’ εκτίμηση έχουν συχνότητα εμφάνισης πάνω από 10000 φορές και πόσοι πράγματι υπάρχουν στη συλλογή Brown;
  (β) Υπολογίστε το ποσοστό της συλλογής Brown που καταλαμβάνουν οι όροι με συχνότητες εμφάνισης 1, 2, και
  (γ) Υπολογίστε τη πιθανότητα μια λέξη στη συλλογή Brown, να έχει τάξη r=10.

 2. Έστω ότι κατά τη διαδικασία κατασκευής των ευρετηρίων μιας συλλογής κειμένων αγνοούμε όλες τις λέξεις με συχνότητα εμφάνισης μικρότερη του 5. Σύμφωνα με το νόμο του Zipf, τι ποσοστό του συνολικού πλήθους των λέξεων της συλλογής αγνοούμε;

 3. Το κλειδί της επιτυχίας των ανεστραμμένων αρχείων είναι ότι το μέγεθος των ανεστραμμένων λιστών είναι γενικά μικρό σύμφωνα με το νόμο του Zipf. Δείξτε τον ισχυρισμό αυτό και ποσοτικά. Υποθέστε μια συλλογή από 10 εκατ. κείμενα. Υποθέστε ότι το μέγεθος του λεξιλογίου (πλήθος διακριτώνλέξεων) είναι 10000. Χρησιμοποιείστε το νόμο του Zipf και υπολογίστε το μέσο μέγεθος των ανεστραμμένων λιστών της συλλογής (το μέσο πληθος των κειμένων που περιέχουν ένα όρο).

 4. Πολλά δεδομένα μαρτυρούν ότι η χρήση του Web ακολουθεί μια Zipf κατανομή. Δηλαδή η σχέση μεταξύ των επισκέψεων ανά μήνα μιας web σελίδας και της δημοτικότητας της σελίδας ακολουθεί Zipfian κατανομή. Μια δημοφιλής σελίδα θα έχει υψηλό βαθμό επισκεψιμότητας σε ένα συγκεκριμένο χρονικό διάστημα σε σχέση με μια μη δημοφιλή η οποία έχει ένα ελάχιστο πλήθος επισκέξεων το ίδιο χρονικό διάστημα. Επιχειρηματολογίστε κατά πόσο η ιδέα αυτή μπορεί να χρησιμοποιηθεί για την αξιολόγηση των web σελίδων.
  Στο αρχείο δίδονται οι συχνότητες επισκεψιμότητας ενός συνόλου ιστοτόπων. Απεικονίστε σχηματικά τη σχέση μεταξύ επισκεψιμότητας (f) και τάξης (r). Υπολογίστε την Zipfian καμπύλη η οποία προσαρμόζεται βέλτιστα στα παραπάνω σημεία. Κατασκευάστε το διάγραμμα log(f) – log(r). Υπολογίστε πρώτα την καλύτερη ευθεία που προσαρμόζεται στα δοθέντα σημεία με την μέθοδο των ελαχίστων τετραγώνων. Από τον ορισμό της ευθείας υπολογίστε τις παραμέτρους της Zipfian συνάρτησης που προσαρμόζεται στα δοθέντα σημεία.

 5. Προγραμματιστικές Εργασίες
 6. Τα δεδομένα δηλώνουν πόσες φορές παίχτηκε κάθε τραγούδι σε ένα ραδιοφωνικό σταθμό τις τελευταίες 10 μέρες. Χρησιμοποιείστε το Matlab και προσεγγίστε τα σημεία (r, f), r=σειρά τραγουδιού, f=πλήθος φορών που παίχτηκε το τραγούδι. Όμοια να αποτυπώστε σε ένα διάγραμμα τα σημεία (logr,logf) και με το Μatlab φτιάξτε την ευθεία που προσεγγίζει τα σημεία με τη μέθοδο των ελαχίστων τετραγώνων.

 7. Γράψτε μια web εφαρμογή η οποία δέχεται μιά λίστα από διευθύνσεις ιστοτόπων. Το πρόγραμμα συγκεντρώνει τοπικά το περιεχόμενο των διευθύνσεων. Τα κείμενα καθαρίζονται από τυχόν HTML tags και εφαρμόζεται κάποια μορφή κανονικοποίησης. (το πρόγραμμα μπορεί να διαβάζει αρχεία και από τοπικό κατάλογο). Το αποτέλεσμα του προγράμματος είναι ένα λεξικό όρων με συνδέσμους στις προτάσεις που τους περιέχουν (KWIC, KeyWord In Context). Για ένα δοθέντα όρο το πρόγραμμα δίνει επίσης μια λίστα με τους όρους που έχουν υψηλή συχνότητα συνεμφάνισης μρ τον δοθέντα όρο. Τέλος για κάθε ζεύγος όρων το πρόγραμμα δίνει τις προτάσεις που περιέχουν και τους δύο όρους.