Document et Web Sémantique
Section outline
-
Vidéo de présentation du cours
L'objectif de ce cours est d'acquérir des compétences sur la gestion électronique des documents et la publication d'information dans le Web des données.
Ce cours est composé de trois parties :
- Les technologies XML pour représenter, transformer et valider syntaxiquement l'information;
- Les moteurs de recherche et les métadonnées pour indexer et retrouver l'information;
- Le Web des données, le Web sémantique et la programmation logique pour valider sémantiquement et inférer de l'information.
Évaluation : la note finale est constituée d'une note d'examen pratique (50%) et d'une note de projet (50%). Durant l'examen pratique les supports de cours annotés sont autorisés.-
Forum
-
-
Projet 1 : Catégorisation d’offres d’emploi (3 étudiants)
La Direction des Relations Entreprises de l'INSA est, entre autres, chargée de pré-sélectionner les offres d’emploi envoyées par les entreprises à l’INSA pour embaucher des apprentis. Ce travail est fastidieux et chronophage, d’autant plus que le nombre d’entreprises transmettant ces offres est en constante augmentation. L’objectif du projet est la réalisation d’un POC permettant d’évaluer la pertinence d’une offre d’emploi.
Dans le cadre de ce projet, nous nous intéresserons aux offres d’emploi destinées aux étudiants de Perf-E. Pour cela, nous disposons de 175 offres d’emploi de référence (un document par offre) réparties comme suit :
- 50 offres valides au regard de la formation,
- 114 offres non valides,
- 11 offres incertaines, nécessitant un complément d’information.
Votre objectif est d’utiliser une partie de ce corpus comme corpus d’apprentissage (par exemple, 80 %) et une autre partie comme corpus de test. Votre POC devra fournir, sur le corpus de test, les métriques suivantes : précision, rappel et F-score.
La validation de ce projet sera basée sur :
- La qualité des résultats,
- La rigueur de la démarche scientifique,
- La qualité du code.
Lien pour télécharger le corpus: https://ent.normandie-univ.fr/filex/get?k=xIawM51Y16mtJYdZBmJ
Projet 2 : Un RAG pour ITI (2 étudiants)
Le département ITI a récemment acquis un serveur haute performance équipé, entre autres, de deux GPU H100. Sur ce serveur, des serveurs LLM sont installés.
L’objectif de ce projet est de trouver, installer et paramétrer un RAG pour le département. Chaque enseignant, disposant d’un compte sur ce serveur (authentification unifiée par CAS), aura la possibilité de créer ses propres corpus de documents et de les interroger à l’aide de l’un des LLM actifs.
La validation de ce projet reposera sur :
- Les fonctionnalités du RAG installé,
- La qualité de la documentation d’installation,
- La performance du RAG.
-