v1.13.2 (751)

Enseignement scientifique & technique - MDI343 : Apprentissage statistique et fouille de donnees

Domaine > Mathématiques.

Descriptif

Beaucoup d applications modernes (données web, génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données Beaucoup dapplications modernes (données web, génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données sappelle lapprentissage statistique (statistical machine learning). Il sagit, in fine, de produire des outils de prédiction et daide à la décision dédiés à une application spécifique. Lapparition dalgorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqualors par la statistique traditionnelle qui sappuyait en grande partie sur le prétraitement réalisé par lopérateur humain. En sappuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à linterface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à lanalyse de données massives. Dans ce module, on présentera le domaine, ses fondements, les problèmes quil permet daborder (problèmes supervisés et non supervisés), et les méthodes les plus récentes qui sont actuellement étudiées (SVM, Boosting, Lasso, etc.). Lintérêt de ces concepts et techniques sera illustré au travers applications concrètes et variées (données textuelles, images, signaux audio, données génomiques, problèmes industriels, etc.)

nombre d'heure en présentiel

40

nombre de blocs

40

Diplôme(s) concerné(s)

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme Big Data : gestion et analyse des données massives

L'UE est acquise si Note finale >= 10
  • Crédits ECTS acquis : 5 ECTS
  • Crédit Scientifique 2A acquis : 5

La note obtenue rentre dans le calcul de votre GPA.

Programme détaillé

1 Introduction générale du cours. Problèmes de prédiction: classification, régression, détection d'anomalies, ranking et estimation de densité. Le cas de la classification : modèle statistique, mesure de performance, optimalité. 2 - Eléments de la théorie de l'apprentissage. Le cas de la classification: les aspects statistiques, principe de la minimisation du risque empirique. Complément : Inégalités exponentielles, déviation et concentration. 3 - Contrôle de la complexité dans le cas de la classification. Entropie métrique vs. mesures combinatoires. Méthodes de classification standard: classifieurs linéaires, arbres de décision, noyaux, réseaux de neurones 4 - Les méthodes de classification « dernier cri »: boosting, SVM, bagging. Vers des stratégies pragmatiques : minimisation du risque convexifié, aspects statistiques. 5 - Méthodes de régularisation pour le contrôle de la complexité. 6 – Régression. Méthodes de régression linéaire pénalisée vs. Lasso. Performance vs. « Sparsity » 7 - Détection d'anomalies et Ranking. La courbe ROC et l'AUC: critères de performance pour la discrimination. 8 - Problèmes non supervisés. Estimation nonparamétrique de la densité. Clustering. Modèles à variables latentes (analyse en composantes indépendantes, ACP à noyau, modèles markoviens cachés). Aspects algorithmiques (algorithme EM et variantes)

Méthodes pédagogiques

Etude de cas + Challenge
Veuillez patienter