Thématiques de recherche

Un algorithme pour l'apprentissage d'ensembles flous à partir de données étiquétées avec leur degrés d'appartenance a été proposé dans [Malchiodi et Pedrycz, 2013; Malchiodi, 2019a] . Cet algorithme a été appliqué à la fouille d'axiomes au sein du Web sémantique [Malchiodi et Tettamanzi, 2018] et à la sélection d'exemples negatifs dans le domaine bioinformatique [Frasca et Malchiodi, 2017; Frasca et Malchiodi, 2016] . Cette technique a été adaptée à l'apprentissage simultané de plusieurs ensembles flous [Cermenati et al., 2020] et à l'induction de shadowed sets [Malchiodi et Zanaboni, 2019] .
en collaboration avec Prof. Zanaboni (Università degli Studi di Milano), Prof. Pedrycz (University of Alberta)
La connaissance induite en utilisant techniques d'apprentissage automatique est souvent encodée et stockée de façon distribuée dans des modèles qui ont été appris à partir des données. Ça peut rendre difficile une intérpretation qualitative des resultats qui ont été obtenues, et poser un potentiel problème de capacité de stockage et d'ampleur de bande quand les ressources sont limitées. Une solution possible à ces problèmes consiste en reduire l'espace nécéssaire pour stocker les modèles après qu'ils ont étés appris. Au sein du projet Multicriteria Data Structures and Algorithms: from compressed to learned indexes, and beyond, financé du Ministère Italien de l'Éducation et de la Recherche dans le cadre du programme PRIN, des indexes de compréssion pour réseaux de neurones profondes sont actuellement étudiés.
en collaboration avec Prof. Frasca (Università degli Studi di Milano)
La rechercher d'axiomes potentiels dans un ensemble de fomules est un problème particulièrement lourd. La solution d'induire ces axiomes à partir de formules étiquétées avec une index (précalculé en élaborant une base de connaissance dans le domaine du Web sémantique) a été appliquée en utilisant des algorithmes d'apprentissage pour ensembles flous [Malchiodi et Tettamanzi, 2018] et techniques de régression basées sur noyaux [Malchiodi et al., 2018] . La dépendance de ce problème à l'égard des algorithmes d'apprentissage utilisés et des techniques de réduction de dimensionnalité employées pour encoder les axiomes avec des vecteurs numériques a étée considérée dans [Malchiodi et al., 2020] .
en collaboration avec Prof. Da Costa Pereira, Prof. Tettamanzi (Université de la Côte d'Azur)
L'application de méthodes d'apprentissage automatique supervisés en bioinformatique nécessite de sélectionner parmi les données qui ne sont pas étiquetés positivement ceux qui représentent des exemples negatifs et pas des données sur lesquels aucun experiment n'a été effectué. Dans [Frasca et Malchiodi, 2017; Frasca et Malchiodi, 2016] ce problème de selection des negatifs a été appliqué en utilisant un classement basé sur fonctions d'appartenance à ensembles flous, et [Frasca et al., 2017; Boldi et al., 2018] proposent un codage des données qui aide le processus de selection des negatifs dans le problème de la prévision des fonctions des protéines. Enfin, [Frasca et al., 2019] considère une procédure similaire pour le problème du classement des gènes.
en collaboration avec Prof. Frasca (Università degli Studi di Milano)
Les méthodes d'apprentissage automatique ont comme point de départ un échantillon de données qui sont traités de façon homogène (c'est-à-dire, chaque élément a la même importance). Dans [Malchiodi, 2008] le modèle général d'apprentissage fondé sur la qualité des données a été proposé. Dans ce modèle, il est possible d'associer à chacune des données disponibles une quantification numérique de son importance en se référant aux données restantes. Ce modèle a été appliqué au problème de classification par Machines à Vecteurs de Support linéaires [Apolloni et Malchiodi, 2006] et basées sur méthodes à noyau [Apolloni et al., 2007] . Une première analyse de la performance de ces applications a été entreprise théoriquement [Apolloni et al., 2007] et expérimentalement [Malchiodi, 2009] . Des applications préliminaires dans le domaine de la bioinformatique sont décrites dans [Malchiodi et al., 2010] . Une approche similaire a également été appliquée au problèmes de régression dans [Apolloni et al., 2010; Malchiodi et al., 2009; Apolloni et al., 2005] et à l'apprentissage d'exemples déséquilibrées da s [Malchiodi, 2013b] .
Plusieurs algorithmes d'apprentissage ont étés conçus, mis en œuvre et analysés. En particulier, [Malchiodi et Legnani, 2014] propose une extension des séparateurs à vaste marge qui peut utiliser soit des donnés partiellement etiquettés, soit des sorties incertes, et [Malchiodi et Pedrycz, 2013] introduit un algorithme d'apprentissage pour la fonction d'appartenance à ensembles flous. Ce dernier à été spécialisé dans [Malchiodi et Zanaboni, 2019] aux shadowed set.
Concernant la pédagogie à niveau universitaire, deux ouvrages ont été publiés: un manuel pour l'utilisation d'un logiciel de calcul automatique et un livre d'exercices sur les systèmes d'exploitation [Malchiodi, 2007; Malchiodi, 2015] . Pour ce qui concerne l'audience générale, [Monga et al., 2017] est centré autur de la figure de Alan Turing, et [Malchiodi, 2019a] décris une possible évolution des technolgies basées sur les ensembles flous.
en collaboration avec laboratorio ALaDDIn (Università degli Studi di Milano)
L'approche algomotrique a été introduit dans [Bellettini et al., 2014] avec le but d'enseigner l'informatique comme la science qui étudie l'élaboration automatique de l'information, plutôt que de l'identifier avec la connaissance du fonctionnement de spécifiques instruments technologiques [Lonati et al., 2015; Bellettini et al., 2014] . Cet approche a été évalué dans le contexte de l'habilitation à l'enseignement [Bellettini et al., 2015] , avec une attention spécifique aux perspectives constructivistes [Bellettini et al., 2018; Bellettini et al., 2018] . La rélation entre enseignement et concours liés à la pensée informatique a été étudiée dans [Lonati et al., 2017] , en approfondissant l'impact de la présentation des questions sur leur efficacité [Lonati et al., 2017] .
en collaboration avec laboratorio ALaDDIn (Università degli Studi di Milano)
À partir d'une analyse des modalités d'enseignement de l'informatique dans les écoles italiennes [Bellettini et al., 2014] et d'une critique à l'identification de la programmation avec l'utilisation d'un langage pour traduire un algorithme [Lonati et al., 2015] , la thématique de la pédagogie de la programmation a été étudié en considerant son introduction par projets et outils spécifiques [Bulgheroni et Malchiodi, 2009; Paterson et al., 2015] , en termes interdisciplinaires avec les disciplines musicales [Ludovico et al., 2017; Baraté et al., 2017; Baratè et al., 2017] jusqu'à considérer des sujets avancées [Lonati et al., 2016; Lonati et al., 2017] . Une approche constructioniste pour l'enseignement de la programmation a enfin été analysé dans [Monga et al., 2018; Lodi et al., 2019] .
en collaboration avec laboratorio ALaDDIn (Università degli Studi di Milano)
Au sein de l'organisation de concours sur la pensée informatique à niveau national [Lissoni et al., 2012; Lissoni et al., 2013; Lissoni et al., 2014; Lissoni et al., 2015] et à l'évaluation critique des leurs résultats [Bellettini et al., 2015; Lonati et al., 2017] , une analyse de la possibilité d'exploiter cet outil en tant que ressource pour l'apprentissage dans les écoles primaires et sécondaires à été effectuée [Lonati et al., 2017; Calcagni et al., 2017; Morpurgo et al., 2018] .
en collaboration avec laboratorio ALaDDIn (Università degli Studi di Milano)
L'approche algorithmique introduit dans [Bellettini et al., 2014; Bellettini et al., 2014] a été appliqué à l'introduction des sujets fondamentaux dans l'informatique, comme la répresentation de l'information [Bellettini et al., 2012; Bellettini et al., 2013; Baraté et al., 2017] , les bases de la programmation [Baratè et al., 2017] et les stratégies recursives et gourmandes [Lonati et al., 2016; Lonati et al., 2017; Lonati et al., 2017] .
en collaboration avec laboratorio ALaDDIn (Università degli Studi di Milano)
Le modèle de calcul granulaire, donnant à l'information un sens granulaire et permettant son analyse et son traitement à différents niveaux d'abstraction, est décrit dans [Apolloni et al., 2008] , où les liens avec l'apprentissage automatique sont analysés. Les effets d'une fusion de ces deux modèles ont été étudiés dans le domaine général de la régression, en proposant des nouveaux algorithmes basés sur Machines à Vecteurs de Support [Apolloni et al., 2008; Apolloni et al., 2006] ou sur techniques de recherche locale [Apolloni et al., 2005] .
Les techniques de bootstrap sont basées sur le rééchantillonage des données dans le but d'approximer la distribution d'une population. Une spécialisation de ce type de techniques, initialement proposée dans [Apolloni et al., 2006] et ensuite peaufinée dans [Apolloni et al., 2009; Apolloni et al., 2007] , permet d'obtenir des régions de confiance pour les courbes de régression, en évitant les hypothèses habituelles sur la répartition des erreurs de mesure. L'utilisation de cette technique pour résoudre problèmes de régression linéaire et non linéaire est montrée dans [Apolloni et al., 2008] , tandis que [Apolloni et al., 2007] décrit des applications dans le domaine médical.
Le tâche d'intégrer sous un unique modèle théorique de problèmes d'inférence dans le domaine des statistiques (estimation ponctuelle et par intervalle des paramètres de distribution) et de l'informatique (estimation de l'erreur d'approximation dans l'apprentissage automatique) est étudié dans [Apolloni et al., 2006; Apolloni et al., 2005; Apolloni et al., 2002; Apolloni et al., 2002; Apolloni et Malchiodi, 2001; Malchiodi, 2000] , peaufinant des résultats précédemment obtenus sur la complexité d'échantillon [Apolloni et Malchiodi, 2001] et décrivant le modèle d'inférence algorithmique. Ce modèle a été utilisé dans le but d'estimer le risque de problèmes de classification basés sur Machines à Vecteurs de Support [Apolloni et al., 2007; Apolloni et al., 2005; Apolloni et Malchiodi, 2002; Apolloni et Malchiodi, 2001] , l'apprentissage des régions de confiance pour lignes de régression en écartant l'hypothèse classique nécessitant une distribution gaussienne pour les erreurs de mésure [Apolloni et al., 2005; Apolloni et al., 2002] , et régions de confiance pour la fonction de risque des temps de survenue de pathologies tumorales particulières [Apolloni et al., 2007; Apolloni et al., 2005; Apolloni et al., 2002] .
Les systèmes pour le calcul scientifique peuvent être utilisés pour exécuter des simulations et pour analyser les problèmes mathématiques d'un point de vue interactive et incrémentel; à ce sujet, ces systèmes offrent des occasions intéressantes afin de concevoir des activités éducatives [Bulgheroni et Malchiodi, 2009; Malchiodi, 2008a] . Une version commerciale de ce type de systèmes, décrite en détail dans [Malchiodi, 2007] , a été élargie pour résoudre aucuns aspects purement informatiques associés à l'encodage de l'information [Malchiodi, 2006c] , à l'invocation de méthodes à distance [Malchiodi, 2006b; Malchiodi, 2006] , à la production de documentation scientifique [Malchiodi, 2011] et à la résolution de problèmes d'optimisation [Malchiodi, 2006a] et d'apprentissage automatique basés sur vecteurs de support [Malchiodi et al., 2009; Malchiodi et al., 2009] , ainsi que pour efféctuer validation de logiciels [Malchiodi, 2013a] . Le code relatif a été utilisé pour exécuter les simulations dans [Apolloni et al., 2007; Apolloni et Malchiodi, 2006] . Enfin, [Malchiodi, 2010a] décrit un progiciel pour le traitement des problèmes d'apprentissage au sein d'un système open source de calcul scientifique.
Les systèmes hybrides d'apprentissage sont généralement organisées en couplant modules sous-symboliques (généralement basés sur le paradigme des réseaux de neurones) et modules symboliques (décrits en termes de circuits logiques). Un tel système, qui extrait des données disponibles un ensemble de composantes booléennes indépendantes, est décrit dans [Apolloni et al., 2005; Apolloni et al., 2004] . Ces composantes, interprétées comme valeurs de vérité, sont utilisées afin d'en déduire des formules logiques décrivant de manière symbolique les relations entre les données originales [Apolloni et al., 2006; Apolloni et al., 2003; Apolloni et al., 2002; Apolloni et al., 2000] . Ce système est appliqué dans [Apolloni et al., 2004] au problème de reconnaissance des émotions sur la base des signaux de voix, tandis que [Apolloni et al., 2004; Apolloni et al., 2004; Apolloni et al., 2003; Apolloni et al., 2003; Apolloni et al., 2003] décrivent une application à la surveillance de l'attention à la conduite d'une voiture en fonction des signaux biologiques, dans le projet de recherche IST-2000-26091 ORESTEIA (mOdular hybRid artEfactS wiTh adaptivE functIonAlity, financé entre 2001 et 2003 par la CE au sein du cinquième programme-cadre, dans l'initiative IST-FET). Enfin, [Apolloni et Malchiodi, 2006; Apolloni et al., 2005] étudient deux systèmes hybrides obtenus grâce à l'intégration d'un système flou pour la mesure de la qualité des données disponibles, respectivement, avec une classificateur linéaire à vecteurs de support et avec un modèle de régression linéaire.
Dans la théorie l'apprentissage automatique, le principe de minimisation du risque structurel concerne le problème d'équilibrer la complexité d'un modèle avec sa précision dans la description des données expérimentales. Ce principe a été appliqué aux algorithmes de classification basés sur des expressions logiques construites en termes de formes normales booléenes disjuctives et conjonctives. Un algorithme de simplification pour ces formes a été développée dans [Apolloni et al., 2006; Apolloni et al., 2005; et al., ; Apolloni et al., 2002; Apolloni et al., 2002] , mettant l'accent sur l'optimisation stochastique des paramètres pour des ensembles flous décrivant les formes mentionnées ci-dessus.
Dans ce sujet les activités ont été centrées sur le problème de la modélisation des situations conflictuelles en utilisant une approche alternative à celle de la théorie des jeux classique. En particulier, ces conflits ont été modélisés en termes de l'approximation de la solution à un problème NP-difficile [Apolloni et al., 2006; Apolloni et al., 2003; Apolloni et al., 2002; Apolloni et al., 2002] , en applicant le modèle d'inférence algorithmique afin d'attribuer des ressources computationelles limitées à deux joueurs, et étendant par la suite cette technique aux jeux d'équipe [Apolloni et al., 2006] . Ce modèle est appliqué dans [Apolloni et al., 2007; Apolloni et al., 2005] dans le domaine biologique, tandis que [Apolloni et al., 2010] utilise cette approche dans le but de bien dimensionner le temps d'exécution pour les algorithmes d'apprentissage basées sur minimisation locale d'erreur.
Le projet de recherche ORESTEIA (mOdular hybRid artEfactS wiTh adaptivE functIonAlity, financé entre 2001 et 2003 par la CE au sein du cinquième programme-cadre, dans l'initiative IST-FET) a été fondée sur la conception, la mise en œuvre et l'analyse des systèmes intelligents pour l'informatique diffuse et omniprésente. Ces champs sont caractérisés par des ordinateurs hautement spécialisés, consacrés à exécuter des tâches spécifiques. Ces ordinateurs spéciaux peuvent être produits en réduisant considérablement leur taille et leur coût, êtant donc possible les immerger dans un environnement. Se concentrant spécifiquement sur la détection de l'attention [Kasderidis et al., 2003] , un prototype pour la surveillance à la conduite sur la base de biosignaux [Apolloni et al., 2004; Apolloni et al., 2004; Apolloni et al., 2003; Apolloni et al., 2003; Apolloni et al., 2003] a été développé.
Au sein du projet de recherche PHYSTA (Principled Hybrid Systems: Theory and Applications, financé entre 1998 et 2000 par la CE dans le quatrième programme-cadre, au sein de l'initiative TMR), le modèle d'inférence algorithmique décrit dans [Apolloni et al., 2006; Malchiodi, 2000] a été appliquée au problème de la classification automatique des émotions sur la base de signaux de voix [Apolloni et al., 2004; Apolloni et al., 2002] . Les résultats obtenus ont été présentés dans une école internationale sur l'apprentissage computationel dans le même projet de recherche.
La disponibilité des circuits matériels qui peuvent traiter directement les informations dans le but de les synthétiser en utilisant des estimateurs permet un raccourcissement remarquable du temps machine. Leur utilisation implique pourtant un ensemble de contraintes essentiellement lié à l'architecture des circuits eux-mêmes. Le modèle de inférence-entre-commères, développée dans [Malchiodi, 1996] , a été appliquée dans ce cadre avec le but d'obtenir une famille d'estimateurs pour des populations de Bernoulli directement applicables sur cartes pRAM [Apolloni et al., 1997] . Le même modèle à été appliqué dans [Apolloni et al., 2013] à l'étude des exchanges d'information dans les résaux sociaux.