Laurea magistrale in Informatica (Università degli Studi di Milano)


Questo insegnamento introduce le principali tecniche legate all'analisi di grosse moli di dati.

Avvisi

Data Informazione
13/03/2018 Sospensione del ricevimento studenti
A partire dal 14 marzo il ricevimento studenti su base regolare è sospeso. Gli studenti possono contattare il docente per un ricevimento su appuntamento.
09/01/2018 Appello di Analisi dei dati su larga scala di gennaio 2018
L'appello di Analisi dei dati su larga scla di gennaio avrà luogo il 15/1 a partire dalle ore 9:30, nello studio del docente.
20/04/2017 Sospensione del ricevimento studenti del 9 gennaio
Il ricevimento studenti del 9 gennaio è sospeso. Gli studenti possono contattare il docente per un ricevimento su appuntamento.
16/12/2017 Modifica all'orario delle lezioni di Analisi dei dati su larga scala
La lezione del 19 dicembre di Analisi dei dati su larga scala è sospesa. Sarà recuperata l'8/1/2018.
07/12/2017 Modifica all'orario delle lezioni di Analisi dei dati su larga scala
La lezione dell'11 dicembre di Analisi dei dati su larga scala avrà luogo il 12 dicembre.
29/11/2017 Modifica all'orario delle lezioni di Analisi dei dati su larga scala
Le prossime lezioni di Analisi dei dati su larga scala avranno luogo il 4, 11, 18 e 19 dicembre.
02/11/2017 Modifica all'orario delle lezioni di Analisi dei dati su larga scala
La lezione di Analisi dei dati su larga scala del 27/11 avrà luogo alle ore 14:30 in aula 6; quella del 28/11 avrà luogo alle ore 13:30 in aula alfa.
04/10/2017 Container docker per l'insegnamento di Analisi dei dati su larga scala
Gli studenti dell'insegnamento di Analisi dei dati su larga scala possono scaricare un archivio ZIP contenente i file necessari a caricare ed eseguire il container docker utilizzato durante le lezioni.

Lingua

Le lezioni sono in italiano.

Orari del corso

Le lezioni si svolgeranno presso il dipartimento di Informatica, secondo il seguente orario provvisorio:

Giorno Ora Luogo
lunedì 14:30 - 16:30 aula Delta
martedì 14:30 - 16:30 aula Omega

Eventuali variazioni rispetto al calendario pianificato verranno comunicate in aula e pubblicizzate nel paragrafo Avvisi di questa pagina.

Ricevimento studenti

Su appuntamento, stanza 5015 del Dipartimento di Informatica. È possibile contattare il docente tramite posta elettronica, avendo cura di leggere preventivamente la guida predisposta dal Prof. Sebastiano Vigna e di specificare chiaramente nell'oggetto del messaggio il nome dell'insegnamento e l'anno accademico. In particolare, si invitano gli studenti a usare sempre come mittente l'indirizzo fornito loro dall'Ateneo (basato cioè sul dominio studenti.unimi.it) firmando con nome, cognome e matricola e ricordando che i tempi di risposta possono variare in funzione degli impegni del docente.

Materiale didattico

La parte teorica del corso è basata sul seguente libro di testo (indicato come RU nel calendario delle lezioni): Anand Rajaraman and Jeff Ullman, Mining of Massive Datasets, disponibile sia come PDF gratuitamente scaricabile che pubblicato in versione cartacea da Cambridge University Press (ISBN:9781107015357). Per le parti pratiche si consiglia la lettura di Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia, Learning Spark. Lightning-Fast Big Data Analysis, O'Reilly, 2015 (ISBN:978-1-449-35862-4) e di Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills, Advanced Analytics with Spark. Patterns for Learning from Data at Scale, O'Reilly, 2015 (ISBN:978-1-491-91276-8)

Per la parte sui file system distribuiti e il paradigma MapReduce si consiglia, oltre al capitolo 2 del libro di testo, la lettura del tutorial su Hadoop predisposto da Yahoo!

Alcuni laboratori fanno riferimento al programma edX Data Science and Engineering with Spark.

Programma

Il programma riguarda gli argomenti dettagliati nel calendario delle lezioni, che corrisponde al materiale trattato sul libro di testo, oltre che sui restanti documenti elencati tra il materiale didattico.

Calendario delle lezioni

Loading...

Modalità d'esame

L'esame consiste in una prova orale, da svolgersi su appuntamento.