• Projets

    L'objectif de ce projet est :
    • soit de réaliser une petite application (le livrable sera dans ce cas le programme et un mini rapport de moins de 10 pages);
    • soit de faire un état de l'art sur un problème (le livrable sera un mini rapport d'une vingtaine de pages avec au moins une dizaine de références bibliographiques);
    • soit de résumer des articles de recherche ou des extraits de mémoires assez récents dans le domaine du document et du web sémantique. La taille du résumé devra être d'environ 25% du document initial sans copier/coller (nous les rechercherons avec le logiciel d'anti-plagiat Compilatio.net).

    Les projets sont réalisés par groupe. Une présentation de 15 minutes maximum aura lieu durant la dernière semaine de cours.

    Vous rédigez votre rapport en LaTeX en utilisant obligatoirement l'entête suivante :
    \usepackage[utf8]{inputenc}
    \usepackage[T1]{fontenc}
    \usepackage[francais]{babel}
    \usepackage{lmodern}
    \usepackage{ucs}

    Contextes:

    Le projet ASTURIAS

    Le projet de recherche ASTURIAS est un projet regroupant deux laboratoires: le LITIS et le GREYC. Il a pour objectif de classer thématiquement des articles de journaux anciens (XVIII et XIX eme siècle) scannés. L'un des verrous scientifiques de ce projet est la thématisation de texte, et l'hypothèse de recherche est que les entités nommées (EN) de ces articles et les bases de données liées encyclopédiques (Wikidata, DBPédia ou Yago) vont nous permettre une telle thématisation. Le projet ASTURIAS est composé de trois Work Package :

    • WP1 : l'objectif de ce sous projet est d'identifier et de bien distinguer les articles des autres éléments des journaux (publicités, cours de la borse, illustration, etc.) afin de n'OCRiser que les parties textuelles à indexer. C'est l'équipe Apprentissage du LITIS qui travaille sur ce WP;
    • WP2 : l'objectif de ce sous projet est d'identifier les EN des articles identifier par le WP1 et de les désambiguiser en leur attribuant un URI. C'est une des équipes du GREYC qui travaille sur ce WP;
    • WP3 : l'objectif de ce sous projet est de thématiser les articles en n'utilisant que les EN identifiées par le WP2. C'est l'équipe MIND du LITIS qui travaille sur ce WP.

    On voit que les entrées et sorties de chaque WP s'enchainent. Leurs données d'échange sont constituées de fichiers XML qui respectent deux schémas : METS (qui décrit la structure des pages des journaux) et ALTO (qui décrit une page). Ainsi le WP1 produit des fichiers METS et ALTO. Le WP2 modifie les fichiers ALTO. Enfin le WP3 modifie les fichiers METS.

    Le projet Collisions
    Le projet collisions est la réalisation d'une oeuvre artistique réalisée par Sylvain Wavrant qui est en résidence d'artiste sur le site du Madrillet. L'objectif est de faire prendre conscience au public que de nombreux animaux sont tués par la circulation routière. La partie technique de l'oeuvre consite à indiquer sur une carte physique de la Normandie ces accidents en allumant des LED en fonction de données ouverte issues de l'association Mam'route. L'électronique de ce projet a été conçu par des étudiants de l'ESCIGELEC.

    Les sujets :

    1. ASTURIAS: l'objectif de ce projet est travailler pour les WP3  du projet ASTURIAS afin d'extraire toutes les URI des EN des articles d'un journal. L'API python lira les fichiers XML METS et ALTO et produira pour chaque article du journal la liste des URI des EN. (2 étudiants)
      Voici un exemple de fichiers METS/ALTO de l'exemplaire de 5 juillet 1868 du journal le Gaulois : 18680705_1.zip.
    2. ASTURIAS: l'objectif de ce projet est de tester une classification non supervisée des articles en les représentant à l'aide du tf-idf d'URI d'EN. Pour identifier le nombre de classes, une projection t-SNE pourra être utilisée. (2 étudiants)
      Pour commencer, en attedant ce que produira le premier projet, voici une archive proposant les URI d'entité nommés pour un ensemble de journaux récents : Corpus.zip
    3. ASTURIAS: l'objectif de ce projet est de voir si une matrice de similarités entre URI d'EN peut améliorer les résultats du projet précédent. Mais pour construire cette matrice il faut calculer des distances entre URI d'EN fondée sur la longueur du chemin séparant des URI. Les outils du Web des données n'étant pas adaptés à ce type algorithme, il faudra projeter ces données vers une base de donnée graphe tel que Neo4J.  (2 étudiants)
    4. COLLISIONS: l'objectif de ce projet est de contrôler les LED de l’œuvre en fonction des données disponibles sur le web des données et en fonction de scénarios déterminés. (2 étudiants)
    5. COLLISIONS: l'objectif de ce projet est de développer un petit framework permettant de publier des URI déréférencable dont les informations sont stockés dans une base de données RDF. (2 étudiants)


      Vous mettrez dans le forum moodle du cours, avant le vendredi 31 janvier 2020, la constitution des groupes pour chaque projet.

      Votre livrable sera une archive (tar.gz) composée :

      • d'un répertoire "presentation" (sans accent) contenant la source et le PDF de votre présentation (si LaTeX, un fichier Makefile permettra de le compiler)
      • d'un répertoire "rapport" contenant la source et le PDF de votre rapport (si LaTeX, un fichier Makefile permettra de le compiler)
      • d'un répertoire "code" contenant ce que vous avez développé. L'organisation et le contenu de ce répertoire suivront ce que l'on vous a enseigné dans les différentes cours (variant un peu en fonction des langages) : src, test, doc, bin ou classes, Makefile, README, etc.

      Les archives (tar.gz) seront à déposer avec le lien ci dessous avant le mardi 5 mai 2020 23h55. Le nom de l'archive et du répertoire obtenu après décompression seront la concaténation des noms des étudiants du groupe (en CamelCase, en ordre alphabétique, sans accent, sans espace), séparés par des tirets (-), le tout préfixé par le numéro du projet (1 à 5). Par exemple le livrable de Julie Le Cain et Jean Dupont du groupe 2 se nommerait 2-Dupont-Lecain.tar.gz