Projet M8 - Traitement de données réelles
Consignes:
Par groupe de 3 personnes, vous rendrez un projet constitué d'un rapport de 10 pages en 3 parties:
- Description des
données (~ 3pages)
- Régression (~3 pages)
- Test(s) statistique(s) (3 pages).
Avant de commencer, il vous faut choisir un jeu de données. Pour cela, j'ai récupéré un ensemble de jeu de données "prêt à l'emploi". Si vous souhaitez chercher par vous même, n'hésitez pas ! Mais attention à ne pas perdre trop de temps et de se retrouver avec un jeu de données inutilisables. N'hésitez pas à m'en parler.
La liste des jeu de données que j'ai choisi :
- California Housing Price Dataset [[https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset]]
- Wine [[http://archive.ics.uci.edu/ml/datasets/Wine]]
- Breast Cancer
[[http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)]]
- Titanic Dataset. Jeu de données nettoyé :
[[https://drive.google.com/file/d/1MDbib99bguxKmZfLqdYqmcTmS3TGN_kQ/view]]. Original : [[https://www.kaggle.com/c/titanic]]
- Données sur le pourcentage de masse graisseuse [[http://lib.stat.cmu.edu/datasets/bodyfat]]. [[https://drive.google.com/file/d/1VVfCOWxhH28lYTszZYfilAzzwhVYSqYp/view][Les données]]
- Credit Card Approval [[https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction]]
- Life Expectancy [[https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who]]
- Campus Recruitement [[https://www.kaggle.com/datasets/benroshan/factors-affecting-campus-placement]]
Pour trouver des données intéressantes, voici quelques sites :
- http://archive.ics.uci.edu/ml/index.php
- https://github.com/awesomedata/awesome-public-datasets
- https://www.data.gouv.fr/fr/
- https://datasetsearch.research.google.com/
- https://www.kaggle.com/datasets
- https://ourworldindata.org/
Quelques conseils :
- Le prétraitement d'un dataset peut prendre beaucoup de temps. Favorisez un dataset reconnu.
- Vous pouvez créer vous même vos propres données (peut prendre du temps également)
- Ne plagiez pas : il est assez facile de retrouver quand vous copiez du code et/ou analyse sur le web. Cela arrive chaque année. Vous apprenez rien et ça ne me met pas de bonne humeur. Je préfère un rapport léger qu'une analyse plagiée.