Aperçu des sections

  • Projet M8 - Traitement de données réelles

    Consignes:

    Par groupe de 3 personnes, vous rendrez un projet constitué d'un rapport de 10 pages en 3 parties:
    1. Description des données (~ 3pages)
    2. Régression (~3 pages)
    3. Test(s) statistique(s) (3 pages). 
    Avant de commencer, il vous faut choisir un jeu de données. Pour cela, j'ai récupéré un ensemble de jeu de données "prêt à l'emploi". Si vous souhaitez chercher par vous même, n'hésitez pas ! Mais attention à ne pas perdre trop de temps et de se retrouver avec un jeu de données inutilisables. N'hésitez pas à m'en parler.

    La liste des jeu de données que j'ai choisi : 
       - California Housing Price Dataset : https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset
       - Wine : http://archive.ics.uci.edu/ml/datasets/Wine
       - Breast Cancer : http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
       - Titanic Dataset. Jeu de données nettoyé : https://drive.google.com/file/d/1MDbib99bguxKmZfLqdYqmcTmS3TGN_kQ/view]]. Original : [[https://www.kaggle.com/c/titanic
       - Données sur le pourcentage de masse graisseuse : http://lib.stat.cmu.edu/datasets/bodyfat / https://drive.google.com/file/d/1VVfCOWxhH28lYTszZYfilAzzwhVYSqYp/view
       - Credit Card Approval https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction
       - Life Expectancy https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who
       - Campus Recruitement https://www.kaggle.com/datasets/benroshan/factors-affecting-campus-placement

    Pour trouver des données intéressantes, voici quelques sites :
    • http://archive.ics.uci.edu/ml/index.php
    • https://github.com/awesomedata/awesome-public-datasets
    • https://www.data.gouv.fr/fr/
    • https://datasetsearch.research.google.com/
    • https://www.kaggle.com/datasets
    • https://ourworldindata.org/
    D'ici le début des vacances, merci de consigner sur ce fichier votre groupe et le jeu de données choisi : https://nuage.insa-rouen.fr/index.php/s/DabTofSKMjgT3bd

    Quelques conseils :

    • Le prétraitement d'un dataset peut prendre beaucoup de temps. Favorisez un dataset reconnu.
    • Vous pouvez créer vous même vos propres données (peut prendre du temps également)
    • Ne plagiez pas : il est assez facile de retrouver quand vous copiez du code et/ou analyse sur le web. Cela arrive chaque année. Vous apprenez rien et ça ne me met pas de bonne humeur. Je préfère un rapport léger qu'une analyse plagiée.
    • Idem pour ChatGPT : on reconnait du code généré automatiquement, attention !