• Préambule

    Aujourd'hui toutes les entreprises collectent et stockent de grandes quantités de données. Ces mégabases de données, qui ne cessent d'augmenter jour après jour, sont peu exploitées, alors qu'elles cachent de connaissances décisives face au marché et à la concurrence. Pour combler ce besoin, une nouvelle industrie est née : le Data Science (qu'on appellerait en français Science des Données). Le but de cet EC est d'initier les élèves-ingénieurs aux méthodes et algorithmes issues du Machine Learning.
    La première partie du cours aborde les méthodes de représentation de données multidimensionnelles (Analyse en composantes principales, ...) .
    Dans la seconde partie, le cours se concentre sur les méthodes de "clustering", méthodes permettant de regrouper les individus dans des classes homogènes.
    La dernière partie du cours porte sur la notion de discrimination ou classification, i.e. les méthodes permettant de construire une fonction d'association entre un individu et sa classe.

    Bibliographie

    Bases de Données en ligne :

    Quelques toolboxes gratuites

    Principalement des toolboxes Matlab ou interfacées avec Matlab ou Python

    • Outils Statistiques
      • Stixbox : Statistics toolbox for Matlab, Octave, and Matcom/Mideva
      • Statbox : Statistics Toolbox for Matlab
    • Machine learning toolboxes
      • Scikit Learn : module Python implémentant les principales méthodes de Machine Learning
      • Réduction de dimension (méthodes linéaires et non-linéaires de réduction de dimension, LDA)
      • SPRTools
      • Shogun boîte outils comprenant nombre de méthodes du machine learning
      • LibSvm : une toolbox pour des SVM linéaires et non-linéaires avec binding Python et Matlab
      • SVM and Kernel methods ; toolbox Matlab de machine learning du LITIS
      • Le site mloss.org regroupe plein d'excellents outils gratuits pour faire du machine learning
    • Divers (graphiques, ...)
      • Datatool : Data visualization toolbox for Matlab