Aperçu des sections

  • Généralités

    L'objectif de ce cours est d'étudier les documents numériques sous ses différentes formes. Ce cours est composé de trois parties : du document papier au document numérique, les technologies XML et pour finir le Web sémantique.

  • Projets

    L'objectif de ce projet est :
    • soit de réaliser une petite application (le livrable sera dans ce cas le programme et un mini rapport de moins de 10 pages);
    • soit de faire un état de l'art sur un problème (le livrable sera un mini rapport d'une vingtaine de pages avec au moins une dizaine de références bibliographiques);
    • soit de résumer des articles de recherche ou des extraits de mémoires assez récents dans le domaine du document et du web sémantique. La taille du résumé devra être d'environ 25% du document initial sans copier/coller (nous les rechercherons avec le logiciel d'anti-plagiat Compilatio.net).

    Les projets sont réalisés par groupe de 3 à 4 étudiants. Une présentation de 15 minutes maximum aura lieu durant la semaine d'examen.

    Vous rédigez votre rapport en LaTeX en utilisant obligatoirement l'entête suivante :
    \usepackage[utf8]{inputenc}
    \usepackage[T1]{fontenc}
    \usepackage[francais]{babel}
    \usepackage{lmodern}
    \usepackage{ucs}

    Les sujets :

      1. Extraction des entités nommées (4 étudiants)
        L'objectif de ce projet est d'extraire pour chaque document du corpus ci dessous les entités nommées présentes. Pour cela vous utiliserez le logiciel SEM (http://www.lattice.cnrs.fr/sites/itellier/SEM.html). Votre programme python prendra donc en entrée une liste de fichiers textes et produira pour chacun un fichier XML dont la racine sera la balise document et où chaque entité nommée sera encadrée par la balise namedEntity dont l'attribut type permettra d'identifier la catégorie de l'entité reconnue (valeur possible Company, FictionalCharacter, Location, Organization, Person, Product). Dans le rapport vous analyserez les résultats obtenus au regard de ceux attendus.
      2. Désambiguisation sémantique d'entités nommées (4 étudiants)
        L'objectif de ce projet est d'identifier les URI wikidata correspondants aux entités nommées d'un document du corpus ci dessous. Une première version de votre programme python prendra en entrée une liste d'entités nommées avec leur catégorie et produira une liste d'URI. La seconde version utilisera le fichier XML produit par le projet 1 et ajoutera un attribut uri aux balises namedEntity. Dans le rapport vous analyserez les résultats obtenus au regard de ceux attendus.
      3. Thématisation de document à partir d'entités nommées désambiguisées (4 étudiants)
        L'objectif de ce projet est de déterminer la thématique (science, sport, politique, art) des documents du corpus ci dessous à partir des URI des entités nommées du document. Une première version de votre programme python prendra en entrée une liste d'URI représentant des entités nommées désambiguisées. La seconde version utilisera le fichier XML produit par le projet 2 et ajoutera un attribut uri_theme à la balise document. Dans le rapport vous analyserez les résultats obtenus au regard de ceux attendus.
      4. Représentation vectorielle et regroupement de documents (4 étudiants)
        L'objectif de ce projet est de comparer les différentes façons de représenter un document sur le corpus ci dessous. Trois algorithmes de représentation seront testés : tf.idf, LSA et doc2vec. Pour chaque algorithme vous testerez ces représentations à l'aide l'algorithme de classification non supervisée k-means (avec k=4) pour voir si on retrouve les quatre catégories du corpus. Dans le rapport vous analyserez les résultats obtenus au regard de ceux attendus.
      5. SPARQL as a foreign language (3 étudiants)
        En août dernier, Tommaso Soru & al ont publié un article intitulé SPAQRL as a foreign language et ils ont mis à disposition leur code sur GitHub (https://github.com/AKSW/NSpM). L'objectif de ce projet est tout d'abord de valider les résultats présentés dans l'article. Ensuite vous modifierez le programme de façon à interroger wikidata plutôt que DBpédia.
      6. L'INSA et le Web des données (4 étudiants)
        L'objectif de ce projet est de faire un Proof Of Concept de description de l'INSA en Web des données. Les entités décrites seront les personnes, l'organisation de l'établissement (départements, laboratoires, services) et les bâtiments. Les URI suivront une nomenclature (à proposer) et seront déréferençables. Une entrée SPARQL devra être disponible. Le POC sera proposé sous forme d'un conteneur Docker.

      Le corpus des projets 1 à 4 est téléchargeable ici. Il est constitué :

      • des documents du corpus, des fichiers textes .txt au format UTF-8;
      • du fichier classes.csv qui associe à chaque fichier texte un des 4 thèmes (science, sport, politique, art).

      Vous mettrez dans le forum moodle ci dessus, la constitution des groupes pour chaque projet.

      Les PDF des rapports ou les archives (tar.gz) des développements seront à déposer avec le lien ci dessous avant le dimanche 20 mai 2018 23h55. Le nom de l'archive et du répertoire obtenu après décompression seront la concaténation des noms des étudiants du groupe (en CamelCase, en ordre alphabétique, sans accent, sans espace), séparés par des tirets (-), le tout préfixé par le numéro du projet (1 à 6).

    1. Examens

      2014 - 2015 : Sujet, Genealogie.tar.gz