Section : Projet M8 | M8 - Introduction à la science des données

Projet M8 - Traitement de données réelles

Deadline : à déterminer

TODO avant le 12 mai : Renseigner groupe et dataset ici : https://nuage.insa-rouen.fr/index.php/s/g9p6kFm5cZBD9fi

Consignes:

Par groupe de 3 personnes, vous rendrez un projet constitué d'un rapport de 10 pages en 3 parties:

Description des données (~ 3pages)

Régression (~3 pages)

Test(s) statistique(s) (3 pages).

Avant de commencer, il vous faut choisir un jeu de données. Pour cela, j'ai récupéré un ensemble de jeu de données "prêt à l'emploi". Si vous souhaitez chercher par vous même, n'hésitez pas ! Mais attention à ne pas perdre trop de temps et de se retrouver avec un jeu de données inutilisables. N'hésitez pas à m'en parler.

La liste des jeu de données que j'ai choisi :

   - California Housing Price Dataset : https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset
   - Wine : http://archive.ics.uci.edu/ml/datasets/Wine
   - Breast Cancer : http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
   - Titanic Dataset. Jeu de données nettoyé : https://drive.google.com/file/d/1MDbib99bguxKmZfLqdYqmcTmS3TGN_kQ/view]]. Original : [[https://www.kaggle.com/c/titanic
   - Données sur le pourcentage de masse graisseuse : http://lib.stat.cmu.edu/datasets/bodyfat / https://drive.google.com/file/d/1VVfCOWxhH28lYTszZYfilAzzwhVYSqYp/view
   - Credit Card Approval https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction
   - Life Expectancy https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who
   - Campus Recruitement https://www.kaggle.com/datasets/benroshan/factors-affecting-campus-placement

Pour trouver des données intéressantes, voici quelques sites :

http://archive.ics.uci.edu/ml/index.php

https://github.com/awesomedata/awesome-public-datasets

https://www.data.gouv.fr/fr/

https://datasetsearch.research.google.com/

https://www.kaggle.com/datasets

https://ourworldindata.org/

Merci de consigner sur ce fichier votre groupe et le jeu de données choisi : https://nuage.insa-rouen.fr/index.php/s/g9p6kFm5cZBD9fi

Quelques conseils :

Le prétraitement d'un dataset peut prendre beaucoup de temps. Favorisez un dataset reconnu.

Vous pouvez créer vous même vos propres données (peut prendre du temps également)

Ne plagiez pas : il est assez facile de retrouver quand vous copiez du code et/ou analyse sur le web. Cela arrive chaque année. Vous apprenez rien et ça ne me met pas de bonne humeur. Je préfère un rapport léger qu'une analyse plagiée.

Idem pour ChatGPT : on reconnait du code généré automatiquement, attention !
- Sélectionner l’activité Des exemples de bons projets :
  
  Des exemples de bons projets :
- Sélectionner l’activité Exemple de projet
  
  Exemple de projet Fichier
- Sélectionner l’activité Encore un bon projet
  
  Encore un bon projet Fichier
- Sélectionner l’activité encore un autre bon projet
  
  encore un autre bon projet Fichier
- Sélectionner l’activité un projet qui surnage
  
  un projet qui surnage Fichier
- Sélectionner l’activité un projet codé
  
  un projet codé Fichier
- Sélectionner l’activité Déposez ici votre rapport final de projet de M8
  
  Déposez ici votre rapport final de projet de M8 Devoir

Résumé de section

Projet M8 - Traitement de données réelles

Deadline : à déterminer

Consignes:

Quelques conseils :