Master di II livello in Data science for economics, business and finance (Università degli Studi di Milano)

Lingua

Le lezioni sono in italiano.

Materiale didattico

L'insegnamento è basato sul libro Mining of Massive Datasets (MMD nel resto di questa pagina).

Programma

Il programma riguarda gli argomenti dettagliati nel calendario delle lezioni.

Calendario delle lezioni

Argomento Materiale
07/07/2018 Storage distribuito (HDFS).
07/07/2018 Map-reduce
  • secondo capitolo MMD
  • slide
12/07/2018 Esempi di algoritmi map-reduce.
  • secondo capitolo MMD
  • slide
14/07/2018 Apache Spark.
14/07/2018 Analisi di link.
14/07/2018 Ricerca di elementi simili.
  • terzo capitolo MMD
  • slide
19/07/2018 Ricerca di insiemi frequenti.
  • sesto capitolo MMD
  • slide
19/07/2018 Clustering.
  • settimo capitolo MMD
  • slide
19/07/2018 Sistemi di raccomandazione.
  • nono capitolo MMD
  • slide
20/07/2018 Regressione.

Modalità d'esame

L'esame è congiunto per i corsi di Parallel and distributed computing, Elements of R and python (modulo di python), Databases, data linking and data visualization e Cloud computing, Data Base and Web Scraping Lab (modulo di Cloud computing). Gli studenti possono scaricare un notebook contenente il testo del progetto da realizzare e il file contenente i dati da elaborare. Il progetto va svolto indidualmente o a gruppi di due persone, e inviato tamite mail ai docenti dei corsi coinvolti.