Ασκήσεις


  1. Πόσοι όροι κατ’ εκτίμηση έχουν συχνότητα εμφάνισης πάνω από 10000 φορές και πόσοι πράγματι υπάρχουν στη συλλογή Brown;

  2. Υπολογίστε το ποσοστό της συλλογής Brown που καταλαμβάνουν οι όροι με συχνότητες εμφάνισης 1, 2, και

  3. Υπολογίστε τη πιθανότητα μια λέξη στη συλλογή Brown, να έχει τάξη r=10.

  4. Έστω ότι κατά τη διαδικασία κατασκευής των ευρετηρίων μιας συλλογής κειμένων αγνοούμε όλες τις λέξεις με συχνότητα εμφάνισης μικρότερη του 5. Σύμφωνα με το νόμο του Zipf, τι ποσοστό του συνολικού πλήθους των λέξεων της συλλογής αγνοούμε;

  5. Το κλειδί της επιτυχίας των ανεστραμμένων αρχείων είναι ότι το μέγεθος των ανεστραμμένων λιστών είναι γενικά μικρό σύμφωνα με το νόμο του Zipf. Δείξτετονισχυρισμόαυτόκαιποσοτικά. Υποθέστε μια συλλογή από 10 εκατ. κείμενα. Υποθέστε ότι το μέγεθος του λεξιλογίου (πλήθοςδιακριτώνλέξεων) είναι 10000. Χρησιμοποιείστε το νόμο του Zipf και υπολογίστε το μέσο μέγεθος των ανεστραμμένων λιστών της συλλογής (ο μέσο πληθος των κειμένων που περιέχουν ένα όρο).

  6. Πολλά δεδομένα μαρτυρούν ότι η χρήση του Web ακολουθεί μια Zipf κατανομή. Δηλαδή η σχέση μεταξύ των επισκέψεων ανά μήνα μια web σελίδα και της δημοτικότητας της σελίδας ακολουθεί Zipfian κατανομή. Μια δημοφιλής σελίδα θα έχει υψηλό βαθμό επισκεψιμότητας σε ένα συγκεκριμένο χρονικό διάστημα σε σχέση με μια μη δημοφιλή η οποία έχει ένα ελάχιστο πλήθος επισκέξεων το ίδιο χρονικό διάστημα. Επιχειρηματολογίστε κατά πόσο η ιδέα αυτή μπορεί να χρησιμοποιηθεί για την αξιολόγηση των web σελίδων.
    Στο αρχείο δίδονται οι συχνότητες επισκεψιμότητας ενός συνόλου ιστοτόπων.Απεικονίστε σχηματικά τη σχέση μεταξύ επισκεψιμότητας (f) και τάξης (r). Υπολογίστε την Zipfian καμπύλη η οποία προσαρμόζεται βέλτιστα στα παραπάνω σημεία. Κατασκευάστε το διάγραμμα log(f) – log(r). Υπολογίστε πρώτα την καλύτερη ευθεία που προσαρμόζεται στα δοθέντα σημεία με την μέθοδο των ελαχίστων τετραγώνων. Από τον ορισμό της ευθείας υπολογίστε τις παραμέτρους της Zipfian συνάρτησης που προσαρμόζεται στα δοθέντα σημεία.

  7. Προγραμματιστικές Εργασίες
  8. Τα δεδομένα δηλώνουν πόσες φορές παίχτηκε κάθε τραγούδι σε ένα ραδιοφωνικό σταθμό τις τελευταίες 10 μέρες. Χρησιμοποιείστε το Matlabκαι προσεγγίστε τα σημεία (r, f), r=σειρά τραγουδιού, f=πλήθος φορών που παίχτηκε το τραγούδι. Όμοια να αποτυπώστε σε ένα διάγραμμα τα σημεία (logr,logf) και με το Μatlabφτιάξτε την ευθεία που προσεγγίζει τα σημεία με τη μέθοδο των ελαχίστων τετραγώνων.

  9. Γράψτε μια web εφαρμογή η οποία δέχεται μιά λίστα από διευθύνσεις ιστοτόπων. Το πρόγραμμα συγκεντρώνει τοπικά το περιεχομένων των διευθύνσεων. Τα κείμενα καθαρίζονται από τυχόν HTML tags και εφαρμόζει κάποια μορφή κανονικοποίησης. Επίσης το πρόγραμμα μπορεί να διαβάζει αρχεία και από τοπικό κατάλογο. Το αποτέλεσμα του προγράμματος είναι ένα λεξικό όρων με συνδέσμους στις προτάσεις που τους περιέχουν. Για κάθε όρο το πρόγραμμα δίνει μια λίστα με όρων που έχει υψηλή συχνότητα συνεμφάνισης. Για κάθε ζεύγος όρων το πρόγραμμα δίνει τις προτάσεις που περιέχουν τις δύο λέξεις.