M8 - Introduction à la science des données
Résumé de section
-
Projet M8 - Traitement de données réelles
Deadline : 20 juin
TODO avant le 12 mai : Renseigner groupe et dataset ici : https://nuage.insa-rouen.fr/index.php/s/g9p6kFm5cZBD9fiConsignes:
Par groupe de 3 personnes, vous rendrez un projet constitué d'un rapport de 10 pages en 3 parties:- Description des données (~ 3pages)
- Régression (~3 pages)
- Test(s) statistique(s) (3 pages).
Avant de commencer, il vous faut choisir un jeu de données. Pour cela, j'ai récupéré un ensemble de jeu de données "prêt à l'emploi". Si vous souhaitez chercher par vous même, n'hésitez pas ! Mais attention à ne pas perdre trop de temps et de se retrouver avec un jeu de données inutilisables. N'hésitez pas à m'en parler.La liste des jeu de données que j'ai choisi :- California Housing Price Dataset : https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset
- Wine : http://archive.ics.uci.edu/ml/datasets/Wine
- Breast Cancer : http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
- Titanic Dataset. Jeu de données nettoyé : https://drive.google.com/file/d/1MDbib99bguxKmZfLqdYqmcTmS3TGN_kQ/view]]. Original : [[https://www.kaggle.com/c/titanic
- Données sur le pourcentage de masse graisseuse : http://lib.stat.cmu.edu/datasets/bodyfat / https://drive.google.com/file/d/1VVfCOWxhH28lYTszZYfilAzzwhVYSqYp/view
- Credit Card Approval https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction
- Life Expectancy https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who
- Campus Recruitement https://www.kaggle.com/datasets/benroshan/factors-affecting-campus-placementPour trouver des données intéressantes, voici quelques sites :- http://archive.ics.uci.edu/ml/index.php
- https://github.com/awesomedata/awesome-public-datasets
- https://www.data.gouv.fr/fr/
- https://datasetsearch.research.google.com/
- https://www.kaggle.com/datasets
- https://ourworldindata.org/
Merci de consigner sur ce fichier votre groupe et le jeu de données choisi : https://nuage.insa-rouen.fr/index.php/s/g9p6kFm5cZBD9fiQuelques conseils :
- Le prétraitement d'un dataset peut prendre beaucoup de temps. Favorisez un dataset reconnu.
- Vous pouvez créer vous même vos propres données (peut prendre du temps également)
- Ne plagiez pas : il est assez facile de retrouver quand vous copiez du code et/ou analyse sur le web. Cela arrive chaque année. Vous apprenez rien et ça ne me met pas de bonne humeur. Je préfère un rapport léger qu'une analyse plagiée.
- Idem pour ChatGPT : on reconnait du code généré automatiquement, attention !