english version (under construction)
accueil de LED
accueil du LORIA

  Présentation
  Composition de l'équipe
  Axes de recherche
  Logiciels & ressources
  Actions & collaborations
  Sujets proposés
  Publications
  Séminaires & conférences
  Liens
  Pages pratiques
  Glossaire
Sujets proposés en Informatique-linguistique

Cette page contient un éventail de sujets qui correspondent aux thématiques de l'équipe et aux encadrements envisageables.

Dialogue

>Sujets de type thèse

Sujet de thèse n°1 : Microplanification et jeux d’aventures textuels
sujet de thèse n°2 : Explicitation de buts dans un système de dialogue

sujet de thèse n°3 : Formalisation du modèle des domaines de référence, vers un agent générique de fusion multimodale

>Sujets de type DEA

Sujet 4: Raisonneurs automatiques et Génération de Réponses Coopératives
sujet 5 : Elaboration d'une grammaire commune à la reconnaissance de la parole et à l'analyse syntaxique


Ressources linguistiques

>Sujets de type DEA

Sujet 6 : Vers une structuration des informations lexicales du français à partir de dictionnaires
Sujet 7 : Moteur de recherche sur document libre piloté par ontologie

Equipe LED

L'objectif du projet Langue et Dialogue est de définir des modèles et des techniques permettant de mettre en oeuvre à court, moyen ou long terme des systèmes de dialogue homme machine finalisés reposant sur une forte composante langagière. Dans ce cadre, notre activité se développe dans trois directions complémentaires :

  • l'étude des mécanismes fondamentaux de la communication en langue naturelle seule ou accompagnée d'une désignation gestuelle (dialogue multimodal). Cette recherche s'effectue dans un contexte pluri-disciplinaire alliant linguistique et informatique principalement ;
  • la réalisation de systèmes de dialogue effectifs dans le cadre notamment de collaborations industrielles. Cette activité nous permet par ailleurs de disposer d'une plateforme d'expérimentation pour la validation des différents modèles que nous concevons ;
  • la définition d'outils et de méthodes génériques permettant d'étudier de façon fine des situations de dialogues réels, issus de la transcription d'expériences de simulation ou d'observations directes. Ce travail s'appuie sur une expérience acquise depuis plusieurs années sur la normalisation et la manipulation de ressources linguistiques (en particulier des « corpus »).
Sujet de thèse n°1 : Microplanification et jeux d’aventures textuels

Encadrement : Claire Gardent et Laurent Romary

Sujet de thèse :

En génération de textes, la micro-planification inclut quatre grandes sous-tâches : la génération d'expressions référentielles qui sert à produire des descriptions permettant à l'utilisateur d'identifier les objets décrits; l'agrégation qui factorise l'information et permet d'éviter les descriptions lourdes et peu naturelles; la lexicalisation, qui détermine le choix des mots utilisés; et enfin, la réalisation tactique qui, à partir d'un ensemble de mots permet de construire une phrase bien formée et verbalisant le contenu à communiquer.

Chacune de ces tâches a une combinatoire complexe. On sait en particulier que la réalisation tactique et la génération d'expressions référentielles sont des tâches NP difficiles. On sait aussi que les possibilités de paraphrases offertes par la langue naturelle sont telles que pour un message conceptuel donné, plusieurs milliers de paraphrases sont possibles.

Pourtant, contrairement à ce qui se passe dans le domaine de l'analyse syntaxique, on trouve relativement peu de travaux portant sur l'optimisation de ces processus. On trouve également relativement peu de travaux sur leurs interactions et leur intégration dans un système de génération.

Dans cette perspective, le projet de thèse portera sur l'implantation et l'optimisation d'un système de micro-planification intégrant les quatre sous-tâches identifiées ci-dessus. Le point de départ est un système de génération développé au sein de l'arc INRIA GenI qui intègre lexicalisation et génération tactique. L'objectif sera d'étendre le système pour y inclure génération d'expressions référentielles et agrégation; d'optimiser les différents modules; et d'évaluer le systèmes résultant dans le cadre d'un jeu d'aventures textuels développé par l'Université de Sarrebruck.

Les tâches à accomplir sont :

  • collecter un corpus d'échanges entre jeu et utilisateurs afin d'identifier les besoins en matière d'agrégation, de lexicalisation, d'expressions référentielles et de génération tactique ;
  • intégrer génération d'expressions référentielles et agrégation dans le générateur GenI ;
  • spécifier et évaluer des techniques d'optimisation pour chacune des sous-tâches modélisées.

Bibliographie :

C. Gardent, Generating minimal definite descriptions, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, USA, 2002.
C. Gardent and E. Jacquey, Lexicalisation as a Description Logic Inference Task, Proceedings of the 4th International Workshop on Computational Semantics, Nancy, France.
A. Koller, R. Debusmann, M. Gabsdil et K. Striegnitz, Put my galkmid coin into the dispenser and kick it: Computational Linguistics and Theorem Proving in a Computer Game Language and Computation (1:3).

Profil du candidat :

Connaissances souhaitées :

  • Connaissances en Linguistique Informatique nécessaires. Des connaissances en génération de textes seraient souhaitables.
  • Informatique : bonne connaissance de UNIX (Shell, Perl ...).
  • Programmation : Haskell (ou une expérience des languages fonctionnels). Une connaissance de Oz/MOzart serait un plus.

Cadre de travail (partenariats) : Projet MicroGène, programme TCAN du CNRS, avec l'IRIT de Toulouse et l'Université de Villetaneuse.

top
Sujet de thèse n°2 : Explicitation de buts dans un système de dialogue

Encadrement : Matthieu Quignard, Laurent Romary, Bertrand Gaiffe

Sujet de thèse :

Actuellement, les systèmes de dialogue sont conçus pour prévoir a priori tous les énoncés de l'utilisateur et réagir à ces énoncés en agissant sur une application de commande ou de renseignement. En se plaçant dans une telle hypothèse, ces systèmes sont mal armés pour traiter les différents types d'incompréhension auxquels ils peuvent faire face.

A chaque niveau d'interprétation, des incompréhensions peuvent en effet apparaître :

  • au niveau lexical, un mot peut tout simplement ne pas avoir été prévu ;
  • au niveau syntaxique, une expression de l'utilisateur peut-être soit agrammaticale, soit non prévues ce qui pour le système revient au même
  • enfin, la détection des buts de l'utilisateur peut échouer purement et simplement, ou ne pas pouvoir être mise en correspondance avec des actions possibles dans l'application.

Une autre stratégie que de tout prévoir a priori est envisageable : un système de dialogue doit dialoguer ! On peut par conséquent envisager de résoudre les incompréhensions via une collaboration de l'utilisateur et du système.
Ceci suppose en particulier que le système expose dans le dialogue ses buts non résolus de telle façon que la discussion sur ces buts puisse s'engager.

Cette vision du problème impose une architecture de système de dialogue en modules guidés par des buts. Une solution pour une telle architecture est de s'appuyer sur un modèle multi-agent. Paradoxalement, ceci suppose également que le dialogue ne soit pas purement structuré par les buts : pour qu'un but devienne sujet de dialogue, il faut qu'il soit explicitement mentionné par l'un des partenaires de la communication.

Le sujet vise à proposer et implémenter une telle architecture de système de dialogue. Pour autant, des modules existants peuvent être utilisés, pour autant qu'ils soient intégrés dans des agents explicitant leurs buts.

Références :

Lehuen J., Luzzati D., (2000), Conception des systèmes de dialogue finalisé, méthodologie et modélisation. In: Etudes d'explications dans un corpus de dialogues finalisés, Michaël BAKER, Michelle JOAB, Brigitte SAFAR, Daniel SCHLIENGER (ed.), Psychologie de l'interaction, n°9-10, p. 237-260, Edité par L'Harmattan, ISBN 2-7384-8898-6.

Delorme F., Lehuen J., (2003), Dialog Planning and Domain Knowledge Modeled in terms of Tasks and Methods - A Flexible Framework for Dialog Managing. In: ISMIS'03, 28-31 octobre 2003, Maebashi City (Japan)
Edité par Springer-Verlag.

Balkanski C., Hurault-Plantet M. : " Communicative Actions in a Dialogue Model for Cooperative Discourse: an initial report ".AAAI Fall 1997 Symposium on communicative action in humans and machines, Cambridge, MA, 1997.


Cadre de travail (partenariats) : Le travail s'insère dans le cadre de l'équipe langue et dialogue. Il peut se concrétiser dans le cadre du projet AMIGO.

top
Sujet de thèse n°3 : Formalisation du modèle des domaines de référence, vers un agent générique de fusion multimodale

Encadrement : Laurent Romary

Sujet de thèse:

Le traitement automatique du langage naturel dans un système de dialogue homme-machine peut être vu de manière simplifiée comme une chaîne de traitements comprenant : reconnaissance des mots ; analyse syntaxique ; analyse sémantique ; analyse pragmatique en contexte. C'est lors de la dernière étape que le système identifie les objets dont parle l'utilisateur. Ce processus, appelé résolution de la référence, fait intervenir dans le dialogue à support visuel deux sources contextuelles : le contexte visuel qui inclut la représentation graphique des objets de l'application, et le contexte linguistique qui inclut l'historique des énoncés déjà émis.

Un premier problème consiste à modéliser ces contextes de manière à ce qu'un système soit capable d'en maintenir en temps réel une structuration rendant compte de la progression du dialogue. Ce problème, étudié de longue date dans l'équipe Langue et Dialogue du LORIA, a conduit à la proposition du modèle des domaines de référence qui servira de base à ce projet de recherche.

Un second problème concerne la confrontation des contenus de ces deux sources contextuelles lors d'une interprétation. C'est sur ce point souvent négligé dans les travaux existants (du fait de l'hétérogénéité des informations) que se focalise ce projet de recherche.

Le travail demandé est avant tout un travail d'unification et de formalisation groupée des domaines de référence visuels et des domaines de référence linguistiques. Ce travail s'intègre dans l'amélioration de composants de l'architecture logicielle conçue et maintenue dans le cadre des projets européens IST-MIAMM et IST-OZONE (concernant tous les deux la réalisation d'un système de dialogue homme-machine permettant l'utilisation du langage et du geste - i.e. de la multimodalité - vers les éléments d'une scène visuelle). Le but est d'aboutir à une architecture plus générique qui soit exploitable dans une plate-forme multimodale d'expérimentation et de validation. En plus de la formalisation des domaines de référence, il s'agit de tester les confrontations des sources visuelles et linguistiques à travers un certain nombre de situations de dialogue, en comparant le comportement du système si la primauté est donnée au langage ou à la perception visuelle, et si les ambiguïtés dues à la confrontation sont correctement identifiées et traitées. Une attention particulière sera donnée aux phénomènes propres au langage naturel et à leur ancrage dans un espace visuel partagé par l'utilisateur et le système : références spatiales, prépositions spatiales, espaces mentaux (apport des sciences cognitives). Le travail pourra également inclure des aspects liés au stockage d'informations linguistiques au sein d'un système (ontologies, par le biais de descriptions de type OWL par exemple).


Cadre de travail (partenariats) : Projet européen IST-AMIGO, avec comme partenaires principaux l'INRIA Rocquencourt (équipe ARLES en particulier), Philips et Thomson Multimédia.

top
Sujet n°4 : Raisonneurs automatiques et Génération de Réponses Coopératives

Claire Gardent
LORIA, Bureau B238
Tel. 03 83 59 20 39
http://www.loria.fr/~gardent

Motivations :

   La communication en langue naturelle contient énormément d'implicites. Dans un système interactif Homme-machine, la non prise en compte de cette caractéristique peut rapidement mener à une rupture de la communication, l'utilisateur devenant frustré par l'incapacité de la machine à prendre en compte les hypothèses et informations implicites contenues dans son message.
   Le but de ce DEA est d'étudier de façon systématique les types d'inférences nécessaires pour modéliser le comportement coopératif i.e., la production d'une réponse qui pour des raisons d'ordre pragmatique va au delà du simple oui/non ou de l'énumération. Partant du système de dialogue développé dans le cadre de l'ARC INRIA GenI (génération et inférence), le travail visera à valider et à généraliser le travail théorique développé par Farah Benamara et Patrick Saint-Dizier (IRIT, Toulouse) dans le contexte de l'interrogation du web dans le domaine du tourisme.

Sujet :

   Concrètement, le travail de DEA partira d'un ensemble de cas types prédéfinis et des requêtes d'inférence associées. Il visera à :

  1. Définir un algorithme pour la sélection et l'ordonnancement des requêtes d'inférence possibles étant donnée une question et sa représentation sémantique dans les logiques de description
  2. Implanter une base de connaissance en LDs permettant de tester les différents cas types
  3. item tester et optimiser cet algorithme sur l'ensemble des cas types donnés au départ et par rapport à la base de connaissance implantée

Cadre de Travail :

   Le travail se situe dans le cadre de l'action de recherche concertée INRIA GenI ("Génération et Inférence"', coordonnée par Claire Gardent, http://www.loria.fr/projets/geni/). Les données linguistiques (ensemble de questions/réponses types) et ontologiques (connaissance du domaine) seront fournies au départ. Le travail sur l'inférence dans les logiques de descriptions pourra bénéficier de l'expertise de Carlos Areces (CR1 INRIA LeD).

Extensions possibles :

   Dans l'hypothèse d'une poursuite en thèse de doctorat, le travail de DEA proposé peut être étendu soit dans la direction du raisonnement automatique, soit dans celle du traitement automatique de la langue naturelle. En particulier :

  • en élargissant l'ensemble de tests et en visant l'optimisation sur ces exemples à base linguistique, de raisonneurs tels que Racer qui sont actuellement optimisés sur des données mathématiques
  • en visant l'intégration dans un système de génération du module d'inférence construit pendant le DEA et partant, la production de réponses coopérative
top
Sujet n°5 : Elaboration d'une grammaire commune à la reconnaissance de la parole et à l'analyse syntaxique

Armelle Brun (PAROLE)

Motivations :

   Dans le cadre du traitement du dialogue oral homme-machine, on peut mettre en évidence deux étapes majeures : une étape de reconnaissance et une étape de compréhension. L'étape de reconnaissance de la parole permet d'obtenir tout d'abord la suite de mots correspondant à ce qui a été énoncé. Dans un second temps, celle-ci doit être comprise par le système. Pour cela, sa structure syntaxique est identifiée (exemple : sujet-verbe-complément), puis l'étape de compréhension proprement dite est effectuée.
   Lors de la phase de reconnaissance de la parole, deux modules sont utilisés conjointement : modélisation du langage et traitement du signal acoustique. Pour des raisons de temps de calcul, le module de modélisation du langage se présente sous la forme d'un modèle statistique ou {\sl grammaire statistique}.
   Lors de la phase d'analyse syntaxique, le système s'appuie sur des connaissances linguistiques sur la langue employée, et utilise une {\sl grammaire linguistique}.
   A l'heure actuelle, ces deux types de grammaire sont étudiés et élaborés de manière totalement indépendante. La raison de ce cloisonnement est que les informations manipulées sont de nature différente. Les formalismes pour représenter ces informations sont par conséquent totalement différents. Certaines approches statistiques commencent à intégrer des connaissances linguistiques, certaines approches linguistiques autorisent l'ajout d'informations statistiques, mais aucune véritable intégration n'est actuellement réalisée. Pourtant, une telle intégration ne permettrait-elle pas d'optimiser les deux étapes ?

Sujet :

   Le problème consiste à simplifier le paramétrage des modules de reconnaissance et d'analyse syntaxique en spécifiant une grammaire commune incluant des informations statistiques et linguistiques. Il s'agit en particulier de confronter des formalismes différents.
   Du côté de l'analyse syntaxique, quelques travaux abordent ce problème, par exemple ceux de Johan Bos [gbos] qui choisit un formalisme particulier de grammaire linguistique, à savoir les grammaires d'unification. Nous choisissons pour notre part le formalisme TAG, dont une présentation en français se trouve dans la thèse de Patrice Lopez [lopz].
   Du côté de l'approche statistique, Chelba et Jelinek [chel] se sont intéressés à l'intégration d'informations de nature syntaxique dans les modèles statistiques de langage.
   Il s'agit donc, d'une part d'un travail de synthèse bibliographique et de recherche, d'autre part de proposer des pistes d'intégration des deux approches étudiées. Une étape finale d'implantation informatique pourra être envisagée en exploitant notamment des modules développés par les équipes PAROLE et Langue Et Dialogue.
   L'étudiant prendra ainsi connaissance de deux formalismes syntaxiques fondamentaux, de méthodes statistiques appliquées, et participera à une collaboration entre deux équipes de recherche dont les objectifs sont très différents. Il prendra conscience des principaux problèmes posés par la reconnaissance de la parole et l'analyse syntaxique, et pourra éventuellement orienter une thèse dans l'une ou l'autre branche.

Bibliographie :

[gbos] M. Gabsdil & J. Bos. Combining Acoustic Confidence Scores with Deep Semantic Analysis for Clarification Dialogues. 2003, http://www.coli.uni-sb.de/~gabsdil/papers/iwcs-5.pdf.gz

[lopz] P. Lopez. Analyse d'énoncés oraux pour le dialogue homme-machine à l'aide de grammaires lexicalisées d'arbres. Thèse de doctorat, Université de Nancy 1, 1999 (disponible auprès de Frédéric Landragin).

[chel] C. Chelba & F.Jelinek. Structured language modeling. Computer Speech and Language, vol 14, 2000 (disponible en version papier auprès d'Armelle Brun).

top
Sujet n°6 : Vers une structuration des informations lexicales du français à partir de dictionnaires

Evelyne Jacquey, Jean-Marie Pierrel et Laurent Romary

Mots-clés : structuration d'informations ; XML ; XSL - Base de données ; SQL ; PHP.

Présentation des équipes de recherche :

   L'un des projets importants de l'équipe TAL à l'ATILF est de restructurer la masse d'informations lexicales présentes dans le TLFi (Trésor de la Langue Française Informatisé) pour élaborer une base de données lexicales modulaire, c'est-à-dire que toutes les informations présentes soient autonomes et ne dépendent plus de leurs supérieurs ou descendants hiérarchiques pour être intelligibles (Evelyne Jacquey et Jean-Marie Pierrel). En l'état actuel, les sources du TLFi ont été mises au format XML selon une DTD maison.
   De son côté, l'équipe Langue et Dialogue du LORIA est fortement impliquée dans le consortium TEI et dans le consortium dont l'objectif est de définir les conditions de bonne formation des bases de données lexicales en particulier dans le cadre de la définition de la norme ISO TC37-SC4 (Laurent Romary). De plus, l'équipe LED développe actuellement un projet de constitution d'un lexique syntaxique (informations grammaticales) dont Azim Roussanaly est le porteur.

Motivations :

   Le manque d'une ressource lexicale du français est bien connu, en particulier pour le traitement automatique des langues. De nombreuses techniques apparaissent, mais les données pour les évaluer continuent de faire défaut. Parallèlement à cela, il existe de grandes ressources sur le français que sont les dictionnaires de référence et parmi eux, le TLF (Trésor de la Langue Française) représente un dictionnaire de grande qualité et de grande couverture. Son informatisation dans les années 90 a permis de se rendre compte de la richesse de l'information contenue et de l'intérêt d'une consultation mieux contrôlée. L'idée maintenant est d'aller plus loin : extraire automatique les informations dictionnaires, les restructurer et constituer ainsi une ressource exploitable pour le français à destination, entre autres, du Traitement Automatique de Langues.

Sujet :

   Le sujet proposé a trois objectifs :

  1. une restructuration des données du TLFi à une échelle réduite et correctement définie pour produire une ressource d'informations lexicales sur le français ;
  2. une spécialisation pour constituer à terme un lexique syntaxique pour le TAL dans le cadre du projet d'Azim Roussanaly ;
  3. une contribution à l'élaboration des spécifications sur la modélisation des informations lexicales pour le TAL dans la perspective plus générale de la norme ISO TC37-SC4.

   Le travail de transformation de données dictionnairiques en données exploitables pour le TAL repose d'une part sur une réflexion linguistique permettant de déterminer la nature exacte des informations dont on dispose (cette première tâche sera effectuée par les chercheurs de l'ATILF en collaboration avec Azim Roussanaly) et d'autre part, sur une réflexion informatique permettant d'identifier les structures pertinentes à transformer et la nature des transformations à effectuer. Plus précisément le travail consistera à :

  • Suite à la définition d'un corpus de travail précis, une première étape de programmation permettra d'extraire automatiquement les entrées de dictionnaire correspondant au corpus.
  • Travail bibliographique sur les conditions de bonne formation d'une base de données lexicales, utilisation de la norme ISO TC37-SC4, des résultats du groupe de travail AFNOR Lexiques pour le TAL, etc.
  • Liste des informations nécessaires dans les entrées du corpus de travail et détermination de leur organisation en conformité avec les résultats du travail bibliographique.
  • Seconde phase de programmation pour restructurer l'information
  • des entrées du corpus de travail.
  • Construction d'une base données à partir des informations restructurées et mise en place d'une interface permettant de l'interroger, si possible automatiquement.

Données :

   Le corpus d'entrées du dictionnaire sera conforme aux objectifs du sujet de DEA. Deux pistes sont actuellement envisagées :

  1. Travail en profondeur : une série de verbes représentative d'une des tables du lexique-grammaire du LADL, par exemple la table 5 [grossM75] contenant des verbes dont le sujet peut apparaître sous des formes très variables.
  2. Travail en largeur : une série de verbes appartenant à différentes tables du LADL et si possible sans recouvrement.

Lieu :

   Le stage de DEA se déroulera à l'ATILF afin que l'étudiant puisse disposer des données du laboratoire. Des réunions hebdomadaires seront organisées au LORIA afin d'assurer une bonne coordination et afin de permettre à l'étudiant de bien connaître le laboratoire.

Encadrement :

  • XML + Base de données lexicales : Laurent Romary [romary01] et Evelyne Jacquey [jacquey02].
  • Ressources syntaxiques pour le TAL : Azim Roussanaly et Evelyne Jacquey.
  • XML + TLFi : Evelyne Jacquey et Jean-Marie Pierrel [dendienETal03].

Références :

[dendienETal03] J.Dendien & J.-M. Pierrel. Le trésor de la langue française informatisé : un exemple d'informatisation d'un dictionnaire de langue de référence. Traitement Automatique des Langues}, vol 44(2), 2003.

[grossM75] M. Gross. Méthodes en syntaxe. Régime des constructions complétives. Hermann, Paris, 1975.

[jacquey02] E. Jacquey & D.Seddah. Conceptualisation of a lexical information system. In TKE2002, 2002.

[romary01] L. Romary Towards a representation of terminological data collections. The TMF model. TAMA, Terminology in Advanced Microcomputer Application, 2001.

top
Sujet n°7 : Moteur de recherche sur document libre piloté par ontologie

Philippe Sébire et Laurent Romary

Résumé :

   Etude d'un moteur de recherche par mot clé ou requête en langage naturel sur des documents libres (texte, xml), multilingues. Cette recherche est pilotée par une ontologie pour orienter l'extraction de la sémantique dans les documents. Les avantages du stage sont :

  • composante veille technologique
  • composante travail collaboratif (acacia, ...)
  • composante informatique (intégration de fonctionalité existante)
  • composante recherche :
    • interpréteur de langage naturel piloté par ontologie,
    • outils d'indexation sémantique pilotée par ontologie,
    • multilinguisme (document monolingue dans un premier temps, bilingue si le projet avance -> reconnaissance de la langue).

Déroulement du stage :

  1. Veille technologique sur les outils existants :
    • moteur de recherche sur document libre piloté par ontologie,
    • interprétation du langage naturel,
    • outils pilotés par ontologie,
    • outils de reconnaissance de la langue,
  2. Réflexion et constitution d'un corpus de test et de validation,
  3. Sélection d'outils et évaluation sur un corpus,
  4. Intégration de ces outils et validation du tout,
  5. Généralisation au multilinguisme.
top

Valid HTML 4.01!