Master en Informatique (Università degli Studi di Milano)
Master en Data science and economics (Università degli Studi di Milano)
Le cours vise à décrire le cadre de traitement des mégadonnées, soit en termes de méthodologies que de technologies.
Résultats attendus
Les étudiants:
- sauront utiliser des technologies pour le stockage distribué des données;
- connaîtront le paradigme de calcul distribué MapReduce et ses extensions principales;
- connaîtront les principaux algorithmes pour les problèmes classiques des mégadonnées, ainsi que leurs implémentation à l'aide d'un paradgme de calcul distribué;
- sauront choisir les méthodes appropriées pour résoudre les problèmes caractérisés par mégadonnées.
Infos
Date | Info |
---|---|
14/05/2020 |
Projets pour le cours de «Algorithmes pour mégadonnées» Les descriptions des projets pour le cours de «Algorithmes pour mégadonnées» sont disponibles, ainsi qu'un projet commun avec le cours «Méthodes statistiques pour l'apprentissage automatique». |
08/05/2020 |
Livres Springer disponibles gratuitement La maison d'édition Springer propose des livres gratuits sur sujets informatiques de base et avancés. |
04/05/2020 |
Annulation du cours de Algorithmes pour mégadonnées du 4/5 Le cours du 4/5 est annulé et sera recuperé successivement. |
28/04/2020 |
Évaluation des cours La procédure en ligne pour l'évaluation des cours est disponible. Les étudiants sont invités à faire l'évaluation avant la fin des cours. |
20/04/2020 |
Laboratoire de Algorithmes pour mégadonnées (master DSE) Le laboratoire du 23/04 pour les étudiants du master DSE sera accessible avec Microsoft Zoom, en se connectant entre 14:30 et 18:30. Microsoft Zoom peut être installé comme extension de Microsoft Teams. La page Web du laboratoire contient les exercices assignés. Les étudiants sont invités à apporter leurs propres solutions, qui seront discutées pendant le laboratoire. |
17/03/2020 |
Déplacement des vidéos des cours Dans quelques jours, les vidéos des cours seront déplacés vers l'espace OneDrive de l'Université. Les étudiants sont donc invités à vérifier que leur compte académique lié à Office365 soit activé. |
12/03/2020 |
Organisation des heures de bureau à distance À partir d'aujourd'hui, les heures de bureau auront lieu à distance. Chaque jeudi les étudiants peuvent se connecter à partir de 17h00 à la réunion "ricevimento-malchiodi" organisée sur meet.jit.si , en écrivant leur nom et prénom dans le salon de discussion et en attendant d'être appelés. Le canal est ouvert à tous les participants, donc la nécessité d'heures de bureau privées doit être signalée, toujours dans le salon de discussion, lors de la connexion. |
06/03/2020 |
Organisation de l'enseignement à distance Jusqu'à nouvel ordre, les course de «Statistiques et analyse de données» et «Algorithmes pour mégadonnées» se dérouleront par téléenseignement. Les jours où un cours est prévu, un enregistrement vidéo de la leçon sera disponible sur la page Web correspondante. Les étudiants peuvent envoyer des questions à l'enseignant par e-mail pour toute précision: le lendemain, un document contenant la réponse aux questions d'intérêt général sera publié. |
06/03/2020 |
Enregistrement «Préliminaires techniques» pour le cours Algorithmes pour mégadonnées L'enregistrement «Préliminaires techniques» pour le cours Algorithmes pour mégadonnées est disponible. |
05/03/2020 |
Accès restreint aux enregistrements de cours L'accès aux contenus confidentiel a changé. La section «Matériel bibliographique» dans les pages des cours concernés décrit la nouvelle méthode. |
04/03/2020 |
Enregistrement «Préliminaires mathématiques» pour le cours Algorithmes pour mégadonnées L'enregistrement «Préliminaires mathématiques» pour le cours Algorithmes pour mégadonnées est disponible. |
23/02/2020 |
Annulation des activités didactiques Toutes les activités didactiques sont annulées jusqu'au 29/2. |
13/02/2020 |
Heures de bureau du 20 février Les heures de bureaux du 20 février sont annulées. |
21/01/2020 |
Débout du cours Algorithms for massive datasets Les cours de Algorithms for massive datasets commenceront mercredi 26 février à 14:30 dans la salle alfa du département d'Informatique. À partir de la semains suivante, les cours auront lieu comme indiqué dans le calendrier. |
Langue
Les leçons sont en anglais.
Horaires du cours
Les cours ont lieu au secteur de Città Studi, selon le calendrie provisoire suivant:
Jour | Heure | Lieu |
---|---|---|
lundi | 15:30 - 17:30 (*) | G9 |
mercredi | 14:30 - 18:30 | G12 |
Les cours de lundi, destinés aux étudiants du Master en Informatique,
ont lieu seulement dans les semaines indiquées dans le calendrier
ci-dessous.
Tout changement à l'horaire sera annoncé en classe et publié dans la
section Infos de cette page.
Heures de bureau
Sur rendez-vous, salle 5015 du Département d'Informatique.
Il est possible contacter l'enseignant par e-mail, en prenant soin de lire à l'avance le guide préparé par le professeur Sebastiano Vigna et précisant clairement dans le message le nom du cours et l'année scolaire. En particulier, les étudiants sont encouragés à toujours utiliser leur adresse académique (c'est à dire celui basée sur la domaine studenti.unimi.it
) en signant avec nom et numéro d'identification et rappelant que le temps de réponse peut varier en fonction des engagements de l'enseignant.
Materiel bibliographique
Les cours sont basées:
- sur le livre Mining of Massive Datasets, écrit par A. Rajaraman e J. Ullman (indiqué par RU dans le calendrier des cours), téléchargeable gratuitement sur le site des auteurs et publié en version imprimée par Cambridge University Press (ISBN:9781107015357);
- sur notes de cours et exemples de code publiés dans le calendrier des cours.
L'enregistrement de certaines leçons, marquées avec (R) dans le dans le calendrier, est disponible jusqu'à la fin du cours. L'identification est faite en utilisant le compte académique Office365.
Il est aussi suggéré de lire le matériel suivant.
- Pour la partie pratique sur Spark: H. Karau, A. Konwinski, P. Wendell, M. Zaharia, Learning Spark. Lightning-Fast Big Data Analysis, O'Reilly, 2015 (ISBN:978-1-449-35862-4).
- Pour une étude plus approfondie sur Spark: S. Ryza, U. Laserson, S. Owen, J. Wills, Advanced Analytics with Spark. Patterns for Learning from Data at Scale, O'Reilly, 2015 (ISBN:978-1-491-91276-8).
- Pour la partie sur les systèmes de fihiers distribués et sur le paradigme MapReduce: Yahoo! Hadoop Tutorial (en plus que le 2ème chapitre de RU).
- Pour une étude plus approfondie des partie pratiques: cours Data Science and Engineering with Spark de edX.
Programme
Le programme fait référence aux arguments detaillés dans le calendrier des leçons, qui corresponds au matériel du livre adopté, plus le reste des documents indiqués entre le materiel bibliographique.
Prérequis
Le cours nécessite la connaissance à niveau license des principaux sujets de programmation, d'analyse mathématique, de calcul des probabilités et de statistiques.
Calendrier des leçons
Modalités d'examination
L'examen se compose d'un projet et d'un test oral, liés aux sujets traités dans le cours. Le projet analyse un ou plusieurs jeux de données par l'application critique des techniques affrontées lors des cours, et il est décrit dans un rapport écrit. Quatre projets sont disponibles, ainsi qu'un projet commun avec le cours «Méthodes statistiques pour l'apprentissage automatique». L'évaluation du projet, exprimée par une note de réussite / échec, tient compte du niveau de maîtrise des sujets et de la clarté du rapport. L'épreuve orale, accessible après une évaluation positive du projet, est basée sur la discussion de sujets abordés dans le cours et sur des questions approfondies sur le projet présenté. L'évaluation de l'épreuve orale, exprimée sur une échelle comprise entre 0 et 30, prend en compte le niveau de maîtrise des sujets, la clarté et les compétences linguistiques.
Sessions d'examen
Session | Date | |
---|---|---|
juin | 16/06/2020 | |
juillet | 14/07/2020 | |
septembre | 07/09/2020 11/09/2020 | |
septembre | 24/09/2020 | |
janvier | 22/01/2021 | |
février | N/A |