Préambule
Enseignement Distanciel
- Pour le CM
- Zoom :
- TD Groupe 2
- Zoom :
- TD Groupe 1
Les entreprises, les collectivités collectent et stockent de grandes quantités de données. Ces mégabases de données, recèlent d'informations décisives. Pour les exploiter, la Science des Données est née. Le but de cet EC est d'initier les élèves-ingénieurs aux méthodes du Machine Learning pour le traitement des données.
- La première partie du cours aborde les méthodes de représentation de données multidimensionnelles.
- Dans la seconde partie, le cours se concentre sur les méthodes de "clustering", méthodes permettant de regrouper les individus dans des classes homogènes.
- La dernière partie du cours porte sur la notion de discrimination ou classification, i.e. les méthodes permettant de construire une fonction d'association entre un individu et sa classe.
Bibliographie
- T. Hastie, R. Tibshrani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction (Springer Verlag). Pdf disponible ici
- G. James, D. Witten, T. Hastie, R. Tibshrani, An Introduction to Statistical Learning with Application in R (Springer Verlag). Pdf disponible ici
- C.M. Bishop, Pattern Recognition and Machine Learning, (Springer Verlag. Pdf disponible ici
- V. N. Vapnik, The nature of statistical learning theory (Springer-Verlag)
Diagnostiquer votre démarche de Machine Learning
Advice for Applying Machine Learning de Andrew Ng (Stanford)
Data Science Resource
DataCamp (plenty tutorials in R and Python) : https://www.datacamp.com/
Bases de Données en ligne :
-
- Kaggle : plateforme de compétition
- OpenML
- Opendata : regroupe plusieurs types de données (images, vidéos, textes, sons....)
- UCI Machine Learning Repository
- Kaggle : plateforme de compétition
Quelques toolboxes gratuites
Principalement des toolboxes Python, R
-
Outils Statistiques
- Machine learning toolboxes
- Scikit Learn : module Python implémentant les principales méthodes de Machine Learning
- R
- Pour le CM