Introduction à la science des données

Le but est de familiariser les étudiants avec les puissants outils informatiques à leur disposition dans le domaine du traitement des masses de données complexes et des méthodes statistiques associées. Les notions vues en cours seront illustrées en TD par de nombreux exercices pratique sur des vraies données à l’aide de l’ordinateur. Les principaux thèmes abordés sont :

  1. La description des données, leur résumé, leur visualisation et leur validation, variable par variable, par couple de variables et globalement. Les thème abordés iront de la boite à moustache à l’analyse en composante principale. L’accent sera mis sur la formulation variationelle et matricielle des problèmes.
  2. La régression linéaire simple et multiple. L’accent sera mis sur la formulation matricielle, la mise en œuvre pratique et sur le diagnostic (des résidus à la contribution).
  3. Les deux tests les plus utilisés : les test du chi2 et le test de Student avec son application à la régression.