Laurea magistrale in Informatica (Università degli Studi di Milano)
Laurea magistrale in Data science and economics (Università degli Studi di Milano)
L'insegnamento si propone di descrivere il quadro complessivo dei processi per l'elaborazione dei big data, sia per quanto riguarda le metodologie e le tecnologie applicate in tale contesto.
Risultati attesi
Gli studenti:
- saranno in grado di utilizzare le tecnologie per la memorizzazione distribuita dei dati;
- apprenderanno il framework dell'elaborazione distribuita MapReduce e le sue principali estensioni;
- apprenderanno i principali algoritmi utilizzati per problemi classici relativi ai big data, e a implementarli in un ambiente di elaborazione distribuito;
- saranno in grado di scegliere i metodi appropriati per risolvere problemi caratterizzati da big data.
Avvisi
Data | Informazione |
---|---|
14/05/2020 |
Progetti per l'insegnamento di «Algoritmi per dati
su larga scala» Sono disponibili i testi dei progetti per l'insegnamento di «Algoritmi per dati su larga scala», oltre a un progetto congiunto con l'insegnamento di «Metodi statistici per l'apprendimento». |
08/05/2020 |
Libri Springer distribuiti gratuitamente La casa editrice Springer mette a disposizione gratuitamente alcuni libri su argomenti di base e avanzati di informatica. |
04/05/2020 |
Sospensione della lezione di Algoritmi per dati su larga scala del 4/5 La lezione del 4/5 è sospesa e verrà recuperata in seguito. |
28/04/2020 |
Valutazione della didattica È attiva la procedura online per la valutazione della didattica. Si invitano gli studenti a effettuare la valutazione entro il termine delle lezioni. |
20/04/2020 |
Laboratorio di Algoritmi per dati su larga scala (magistrale DSE) Il laboratorio del 23/04 per gli studenti della magistrale DSE sarà accessibile utilizzando Microsoft Zoom, collegandosi tra le 14:30 e le 18:30. Microsoft Zoom può essere installato come estensione di Microsoft Teams. La pagina Web del laboratorio contiene gli esercizi da svolgere. Gli studenti sono invitati a risolverli prima dell'inizio del laboratorio, in modo da poter discutere le loro soluzioni. |
17/03/2020 |
Spostamento delle video lezioni Tra qualche giorno i video delle lezioni saranno spostati nello spazio OneDrive di Ateneo. Si invitano quindi gli studenti a verificare che il loro account accademico legato a Office365 risulti attivato. |
12/03/2020 |
Organizzazione del ricevimento studenti a distanza A partire da oggi il ricevimento studenti avverrà in modalità a distanza. Gli studenti possono collegarsi ogni giovedì a partire dalle ore 17:00 al meeting «ricevimento-malchiodi» organizzato su meet.jit.si, scrivendo il proprio nome e cognome nella chat e attendendo di essere chiamati. Il canale è aperto a tutti i partecipanti, per cui l'esigenza di un ricevimento privato va segnalata, sempre nella chat, quando ci si collega. |
06/03/2020 |
Organizzazione della didattica a distanza Fino a nuove disposizioni, le lezioni degli insegnamenti di «Statistica e analisi dei dati» e di «Algoritmi per dati su larga scala» avverrano a distanza. Nei giorni in cui è calendarizzato un insegnamento, sarà resa disponibile nella pagina Web corrispondente una videoregistrazione della lezione. Gli studenti possono inviare via mail al docente domande su eventuali chiarimenti: il giorno successivo verrà pubblicato un documento contenente la risposta alle domande di interesse generale. |
06/03/2020 |
Registrazione della lezione «Preliminari tecnici» dell'insegnamento di Algoritmi per dati su larga scala È disponibile la registrazione della lezione «Preliminari tecnici» dell'insegnamento di Algoritmi per dati su larga scala. |
05/03/2020 |
Accesso riservato alle registrazioni delle lezioni È cambiata la modalità di accesso ai contenuti riservati. Le pagine dei corsi coinvolti descrivono la nuova modalità nel paragrafo «Materiale didattico». |
04/03/2020 |
Registrazione della lezione «Preliminari matematici» dell'insegnamento di Algoritmi per dati su larga scala È disponibile la registrazione della lezione «Preliminari matematici» dell'insegnamento di Algoritmi per dati su larga scala. |
23/02/2020 |
Annullamento attività didattiche Tutte le attività didattiche sono sospese fino al 29/2. |
13/02/2020 |
Ricevimento del 20 febbraio Il ricevimento studenti del 20 febbraio è sospeso. |
21/01/2020 |
Inizio del corso Algorithms for massive datasets Le lezioni di Algorithms for massive datasets inizieranno mercoledì 26 febbraio alle 14:30 nell'aula alfa del dipartimento di Informatica. A partire dalla settimana successiva le lezioni avranno luogo come indicato negli orari del corso. |
Lingua
Le lezioni sono in inglese.
Orari del corso
Le lezioni si svolgono presso il settore di Città Studi, secondo il seguente orario:
Giorno | Ora | Luogo |
---|---|---|
lunedì | 15:30 - 17:30 (*) | G9 |
mercoledì | 14:30 - 18:30 | G12 |
(*) Le lezioni del lunedì sono rivolte agli studenti della Laurea
magistrale in Informatica e hanno luogo solo nelle settimane indicate
nel calendario sottostante.
Eventuali variazioni rispetto al calendario pianificato verranno
comunicate in aula e pubblicizzate nel paragrafo
Avvisi di questa pagina.
Ricevimento studenti
Su appuntamento, stanza 5015 del Dipartimento di Informatica.
È possibile contattare il docente tramite posta elettronica, avendo cura di leggere preventivamente la guida predisposta dal Prof. Sebastiano Vigna e di specificare chiaramente nell'oggetto del messaggio il nome dell'insegnamento e l'anno accademico. In particolare, si invitano gli studenti a usare sempre come mittente l'indirizzo fornito loro dall'Ateneo (basato cioè sul dominio studenti.unimi.it
) firmando con nome, cognome e matricola e ricordando che i tempi di risposta possono variare in funzione degli impegni del docente.
Materiale didattico
Le lezioni sono basate:
- sul libro Mining of Massive Datasets, scritto da A. Rajaraman e J. Ullman (indicato come RU nel calendario delle lezioni), gratuitamente scaricabile dal sito degli autori e pubblicato in versione cartacea da Cambridge University Press (ISBN:9781107015357);
- sulle dispense e sul codice di esempio pubblicati nel calendario delle lezioni.
La registrazione di alcune lezioni, contrassegnate con (R) nel nel calendario, è resa disponibile fino alla fine del corso. L'accesso avviene utilizzando l'account accademico di Office365.
È inoltre consigliata la lettura del materiale che segue.
- Per le parti pratiche su Spark: H. Karau, A. Konwinski, P. Wendell, M. Zaharia, Learning Spark. Lightning-Fast Big Data Analysis, O'Reilly, 2015 (ISBN:978-1-449-35862-4).
- Per approfondire la conoscenza di Spark: S. Ryza, U. Laserson, S. Owen, J. Wills, Advanced Analytics with Spark. Patterns for Learning from Data at Scale, O'Reilly, 2015 (ISBN:978-1-491-91276-8).
- Per la parte sui file system distribuiti e sul paradigma MapReduce: Yahoo! Hadoop Tutorial (oltre al capitolo 2 di RU).
- Per approfondire le parti pratiche: programma Data Science and Engineering with Spark di edX.
Programma
Il programma riguarda gli argomenti dettagliati nel calendario delle lezioni, che corrisponde al materiale trattato sul libro di testo, oltre che sui restanti documenti elencati tra il materiale didattico.
Propedeuticità
È richiesta la conoscenza degli argomenti principali di programmazione degli elaboratori, analisi matematica e probabilità e statistica al livello considerato in una laurea triennale di area informatica.
Calendario delle lezioni
Modalità d'esame
L'esame consiste di un progetto e di una prova orale, entrambi relativi agli argomenti trattati nell'insegnamento. Il progetto richiede l'elaborazione di un dataset tramite applicazione critica delle tecniche descritte durante le lezioni, ed è riassunto in una relazione scritta. Sono disponibili quattro progetti, oltre a un progetto congiunto con l'insegnamento di «Metodi statistici per l'apprendimento». La valutazione del progetto, espressa in termini approvato/respinto, tiene conto del livello di padronanza degli argomenti e della chiarezza espositiva nella relazione presentata. La prova orale, alla quale si accede dopo che il progetto è stato valutato positivamente, è basata sulla discussione di alcuni argomenti trattati nell'insegnamento e sull'approfondimento di alcuni aspetti del progetto presentato. La valutazione della prova orale, espressa in trentesimi, tiene conto del livello di padronanza degli argomenti, della chiarezza espositiva e della proprietà di linguaggio.
Appelli d'esame
Sessione | Data | |
---|---|---|
giugno | 16/06/2020 | |
luglio | 14/07/2020 | |
settembre | 07/09/2020 11/09/2020 | |
settembre | 24/09/2020 | |
gennaio | 22/01/2021 | |
febbraio | N/A |