Equipe LED
L'objectif du projet Langue et Dialogue est de définir
des modèles et des techniques permettant de mettre
en oeuvre à court, moyen ou long terme des systèmes
de dialogue homme machine finalisés reposant
sur une forte composante langagière. Dans ce
cadre, notre activité se développe dans
trois directions complémentaires :
- l'étude des mécanismes fondamentaux
de la communication en langue naturelle seule ou
accompagnée d'une désignation gestuelle
(dialogue multimodal). Cette recherche s'effectue
dans un contexte pluri-disciplinaire alliant linguistique
et informatique principalement ;
- la réalisation de systèmes de
dialogue effectifs dans le cadre notamment de
collaborations industrielles. Cette activité
nous permet par ailleurs de disposer d'une plateforme
d'expérimentation pour la validation des
différents modèles que nous concevons
;
- la définition d'outils et de méthodes
génériques permettant d'étudier
de façon fine des situations de dialogues
réels, issus de la transcription d'expériences
de simulation ou d'observations directes. Ce travail
s'appuie sur une expérience acquise depuis
plusieurs années sur la normalisation et
la manipulation de ressources linguistiques (en
particulier des « corpus »).
| Sujet
de thèse n°1 : Microplanification
et jeux daventures textuels |
|
Encadrement : Claire
Gardent et Laurent
Romary
Sujet de thèse :
En génération de textes, la micro-planification
inclut quatre grandes sous-tâches : la génération
d'expressions référentielles qui
sert à produire des descriptions permettant
à l'utilisateur d'identifier les objets
décrits; l'agrégation qui factorise
l'information et permet d'éviter les descriptions
lourdes et peu naturelles; la lexicalisation,
qui détermine le choix des mots utilisés;
et enfin, la réalisation tactique qui,
à partir d'un ensemble de mots permet de
construire une phrase bien formée et verbalisant
le contenu à communiquer.
Chacune de ces tâches a une combinatoire
complexe. On sait en particulier que la réalisation
tactique et la génération d'expressions
référentielles sont des tâches
NP difficiles. On sait aussi que les possibilités
de paraphrases offertes par la langue naturelle
sont telles que pour un message conceptuel donné,
plusieurs milliers de paraphrases sont possibles.
Pourtant, contrairement à ce qui se passe
dans le domaine de l'analyse syntaxique, on trouve
relativement peu de travaux portant sur l'optimisation
de ces processus. On trouve également relativement
peu de travaux sur leurs interactions et leur
intégration dans un système de génération.
Dans cette perspective, le projet de thèse
portera sur l'implantation et l'optimisation d'un
système de micro-planification intégrant
les quatre sous-tâches identifiées
ci-dessus. Le point de départ est un système
de génération développé
au sein de l'arc INRIA GenI qui intègre
lexicalisation et génération tactique.
L'objectif sera d'étendre le système
pour y inclure génération d'expressions
référentielles et agrégation;
d'optimiser les différents modules; et
d'évaluer le systèmes résultant
dans le cadre d'un jeu d'aventures textuels développé
par l'Université de Sarrebruck.
Les tâches à accomplir sont :
- collecter un corpus d'échanges entre
jeu et utilisateurs afin d'identifier les besoins
en matière d'agrégation, de lexicalisation,
d'expressions référentielles et
de génération tactique ;
- intégrer génération
d'expressions référentielles et
agrégation dans le générateur
GenI ;
- spécifier et évaluer des
techniques d'optimisation pour chacune des sous-tâches
modélisées.
Bibliographie :
C. Gardent, Generating minimal definite descriptions,
Proceedings of the 40th Annual Meeting of the
Association for Computational Linguistics, Philadelphia,
USA, 2002.
C. Gardent and E. Jacquey, Lexicalisation as
a Description Logic Inference Task, Proceedings
of the 4th International Workshop on Computational
Semantics, Nancy, France.
A. Koller, R. Debusmann, M. Gabsdil et K. Striegnitz,
Put my galkmid coin into the dispenser and
kick it: Computational Linguistics and Theorem
Proving in a Computer Game Language and Computation
(1:3).
Profil du candidat :
Connaissances souhaitées :
- Connaissances en Linguistique Informatique nécessaires.
Des connaissances en génération
de textes seraient souhaitables.
- Informatique : bonne connaissance de UNIX
(Shell, Perl ...).
- Programmation : Haskell (ou une expérience
des languages fonctionnels). Une connaissance
de Oz/MOzart serait un plus.
Cadre de travail (partenariats) : Projet
MicroGène, programme TCAN du CNRS, avec
l'IRIT de Toulouse et l'Université de Villetaneuse.
|
 |
| Sujet
de thèse n°2 : Explicitation de buts
dans un système de dialogue |
|
Encadrement : Matthieu
Quignard, Laurent
Romary, Bertrand
Gaiffe
Sujet de thèse :
Actuellement, les systèmes de dialogue
sont conçus pour prévoir a priori
tous les énoncés de l'utilisateur
et réagir à ces énoncés
en agissant sur une application de commande ou
de renseignement. En se plaçant dans une
telle hypothèse, ces systèmes sont
mal armés pour traiter les différents
types d'incompréhension auxquels ils peuvent
faire face.
A chaque niveau d'interprétation, des
incompréhensions peuvent en effet apparaître
:
- au niveau lexical, un mot peut tout simplement
ne pas avoir été prévu ;
- au niveau syntaxique, une expression de
l'utilisateur peut-être soit agrammaticale,
soit non prévues ce qui pour le système
revient au même
- enfin, la détection des buts de
l'utilisateur peut échouer purement et
simplement, ou ne pas pouvoir être mise
en correspondance avec des actions possibles dans
l'application.
Une autre stratégie que de tout prévoir
a priori est envisageable : un système
de dialogue doit dialoguer ! On peut par conséquent
envisager de résoudre les incompréhensions
via une collaboration de l'utilisateur et du système.
Ceci suppose en particulier que le système
expose dans le dialogue ses buts non résolus
de telle façon que la discussion sur ces
buts puisse s'engager.
Cette vision du problème impose une architecture
de système de dialogue en modules guidés
par des buts. Une solution pour une telle architecture
est de s'appuyer sur un modèle multi-agent.
Paradoxalement, ceci suppose également
que le dialogue ne soit pas purement structuré
par les buts : pour qu'un but devienne sujet de
dialogue, il faut qu'il soit explicitement mentionné
par l'un des partenaires de la communication.
Le sujet vise à proposer et implémenter
une telle architecture de système de dialogue.
Pour autant, des modules existants peuvent être
utilisés, pour autant qu'ils soient intégrés
dans des agents explicitant leurs buts.
Références :
Lehuen J., Luzzati D., (2000), Conception des
systèmes de dialogue finalisé, méthodologie
et modélisation. In: Etudes d'explications
dans un corpus de dialogues finalisés,
Michaël BAKER, Michelle JOAB, Brigitte SAFAR,
Daniel SCHLIENGER (ed.), Psychologie de l'interaction,
n°9-10, p. 237-260, Edité par L'Harmattan,
ISBN 2-7384-8898-6.
Delorme F., Lehuen J., (2003), Dialog Planning
and Domain Knowledge Modeled in terms of Tasks
and Methods - A Flexible Framework for Dialog
Managing. In: ISMIS'03, 28-31 octobre 2003, Maebashi
City (Japan)
Edité par Springer-Verlag.
Balkanski C., Hurault-Plantet M. : " Communicative
Actions in a Dialogue Model for Cooperative Discourse:
an initial report ".AAAI Fall 1997 Symposium
on communicative action in humans and machines,
Cambridge, MA, 1997.
Cadre de travail (partenariats) : Le travail
s'insère dans le cadre de l'équipe
langue et dialogue. Il peut se concrétiser
dans le cadre du projet AMIGO.
|
 |
| Sujet
de thèse n°3 : Formalisation du modèle
des domaines de référence, vers un
agent générique de fusion multimodale |
|
Encadrement : Laurent
Romary
Sujet de thèse:
Le traitement automatique du langage naturel
dans un système de dialogue homme-machine
peut être vu de manière simplifiée
comme une chaîne de traitements comprenant
: reconnaissance des mots ; analyse syntaxique
; analyse sémantique ; analyse pragmatique
en contexte. C'est lors de la dernière
étape que le système identifie les
objets dont parle l'utilisateur. Ce processus,
appelé résolution de la référence,
fait intervenir dans le dialogue à support
visuel deux sources contextuelles : le contexte
visuel qui inclut la représentation graphique
des objets de l'application, et le contexte linguistique
qui inclut l'historique des énoncés
déjà émis.
Un premier problème consiste à
modéliser ces contextes de manière
à ce qu'un système soit capable
d'en maintenir en temps réel une structuration
rendant compte de la progression du dialogue.
Ce problème, étudié de longue
date dans l'équipe Langue et Dialogue du
LORIA, a conduit à la proposition du modèle
des domaines de référence qui servira
de base à ce projet de recherche.
Un second problème concerne la confrontation
des contenus de ces deux sources contextuelles
lors d'une interprétation. C'est sur ce
point souvent négligé dans les travaux
existants (du fait de l'hétérogénéité
des informations) que se focalise ce projet de
recherche.
Le travail demandé est avant tout un travail
d'unification et de formalisation groupée
des domaines de référence visuels
et des domaines de référence linguistiques.
Ce travail s'intègre dans l'amélioration
de composants de l'architecture logicielle conçue
et maintenue dans le cadre des projets européens
IST-MIAMM et IST-OZONE (concernant tous les deux
la réalisation d'un système de dialogue
homme-machine permettant l'utilisation du langage
et du geste - i.e. de la multimodalité
- vers les éléments d'une scène
visuelle). Le but est d'aboutir à une architecture
plus générique qui soit exploitable
dans une plate-forme multimodale d'expérimentation
et de validation. En plus de la formalisation
des domaines de référence, il s'agit
de tester les confrontations des sources visuelles
et linguistiques à travers un certain nombre
de situations de dialogue, en comparant le comportement
du système si la primauté est donnée
au langage ou à la perception visuelle,
et si les ambiguïtés dues à
la confrontation sont correctement identifiées
et traitées. Une attention particulière
sera donnée aux phénomènes
propres au langage naturel et à leur ancrage
dans un espace visuel partagé par l'utilisateur
et le système : références
spatiales, prépositions spatiales, espaces
mentaux (apport des sciences cognitives). Le travail
pourra également inclure des aspects liés
au stockage d'informations linguistiques au sein
d'un système (ontologies, par le biais
de descriptions de type OWL par exemple).
Cadre de travail (partenariats) : Projet
européen IST-AMIGO, avec comme partenaires
principaux l'INRIA Rocquencourt (équipe
ARLES en particulier), Philips et Thomson Multimédia.
|
 |
| Sujet
n°4 : Raisonneurs automatiques et Génération
de Réponses Coopératives |
|
Claire
Gardent
LORIA, Bureau B238
Tel. 03 83 59 20 39
http://www.loria.fr/~gardent
Motivations :
La communication en langue
naturelle contient énormément d'implicites.
Dans un système interactif Homme-machine,
la non prise en compte de cette caractéristique
peut rapidement mener à une rupture de
la communication, l'utilisateur devenant frustré
par l'incapacité de la machine à
prendre en compte les hypothèses et informations
implicites contenues dans son message.
Le but de ce DEA est d'étudier
de façon systématique les types
d'inférences nécessaires pour modéliser
le comportement coopératif i.e., la production
d'une réponse qui pour des raisons d'ordre
pragmatique va au delà du simple oui/non
ou de l'énumération. Partant du
système de dialogue développé
dans le cadre de l'ARC INRIA GenI (génération
et inférence), le travail visera à
valider et à généraliser
le travail théorique développé
par Farah Benamara et Patrick Saint-Dizier (IRIT,
Toulouse) dans le contexte de l'interrogation
du web dans le domaine du tourisme.
Sujet :
Concrètement, le travail
de DEA partira d'un ensemble de cas types prédéfinis
et des requêtes d'inférence associées.
Il visera à :
- Définir un algorithme pour la sélection
et l'ordonnancement des requêtes d'inférence
possibles étant donnée une question
et sa représentation sémantique
dans les logiques de description
- Implanter une base de connaissance en LDs
permettant de tester les différents cas
types
- item tester et optimiser cet algorithme sur
l'ensemble des cas types donnés au départ
et par rapport à la base de connaissance
implantée
Cadre de Travail :
Le travail se situe dans le
cadre de l'action de recherche concertée
INRIA GenI ("Génération et
Inférence"', coordonnée par
Claire Gardent, http://www.loria.fr/projets/geni/).
Les données linguistiques (ensemble de
questions/réponses types) et ontologiques
(connaissance du domaine) seront fournies au départ.
Le travail sur l'inférence dans les logiques
de descriptions pourra bénéficier
de l'expertise de Carlos Areces (CR1 INRIA LeD).
Extensions possibles :
Dans l'hypothèse d'une
poursuite en thèse de doctorat, le travail
de DEA proposé peut être étendu
soit dans la direction du raisonnement automatique,
soit dans celle du traitement automatique de la
langue naturelle. En particulier :
- en élargissant l'ensemble de tests
et en visant l'optimisation sur ces exemples
à base linguistique, de raisonneurs tels
que Racer qui sont actuellement optimisés
sur des données mathématiques
- en visant l'intégration dans un système
de génération du module d'inférence
construit pendant le DEA et partant, la production
de réponses coopérative
|
 |
| Sujet
n°5 : Elaboration d'une grammaire commune
à la reconnaissance de la parole et à
l'analyse syntaxique |
|
Armelle Brun
(PAROLE)
Motivations :
Dans le cadre du traitement
du dialogue oral homme-machine, on peut mettre
en évidence deux étapes majeures
: une étape de reconnaissance et une étape
de compréhension. L'étape de reconnaissance
de la parole permet d'obtenir tout d'abord la
suite de mots correspondant à ce qui a
été énoncé. Dans un
second temps, celle-ci doit être comprise
par le système. Pour cela, sa structure
syntaxique est identifiée (exemple : sujet-verbe-complément),
puis l'étape de compréhension proprement
dite est effectuée.
Lors de la phase de reconnaissance
de la parole, deux modules sont utilisés
conjointement : modélisation du langage
et traitement du signal acoustique. Pour des raisons
de temps de calcul, le module de modélisation
du langage se présente sous la forme d'un
modèle statistique ou {\sl grammaire statistique}.
Lors de la phase d'analyse syntaxique,
le système s'appuie sur des connaissances
linguistiques sur la langue employée, et
utilise une {\sl grammaire linguistique}.
A l'heure actuelle, ces deux
types de grammaire sont étudiés
et élaborés de manière totalement
indépendante. La raison de ce cloisonnement
est que les informations manipulées sont
de nature différente. Les formalismes pour
représenter ces informations sont par conséquent
totalement différents. Certaines approches
statistiques commencent à intégrer
des connaissances linguistiques, certaines approches
linguistiques autorisent l'ajout d'informations
statistiques, mais aucune véritable intégration
n'est actuellement réalisée. Pourtant,
une telle intégration ne permettrait-elle
pas d'optimiser les deux étapes ?
Sujet :
Le problème consiste
à simplifier le paramétrage des
modules de reconnaissance et d'analyse syntaxique
en spécifiant une grammaire commune incluant
des informations statistiques et linguistiques.
Il s'agit en particulier de confronter des formalismes
différents.
Du côté de l'analyse
syntaxique, quelques travaux abordent ce problème,
par exemple ceux de Johan Bos [gbos] qui choisit
un formalisme particulier de grammaire linguistique,
à savoir les grammaires d'unification.
Nous choisissons pour notre part le formalisme
TAG, dont une présentation en français
se trouve dans la thèse de Patrice Lopez
[lopz].
Du côté de l'approche
statistique, Chelba et Jelinek [chel] se sont
intéressés à l'intégration
d'informations de nature syntaxique dans les modèles
statistiques de langage.
Il s'agit donc, d'une part d'un
travail de synthèse bibliographique et
de recherche, d'autre part de proposer des pistes
d'intégration des deux approches étudiées.
Une étape finale d'implantation informatique
pourra être envisagée en exploitant
notamment des modules développés
par les équipes PAROLE et Langue Et Dialogue.
L'étudiant prendra ainsi
connaissance de deux formalismes syntaxiques fondamentaux,
de méthodes statistiques appliquées,
et participera à une collaboration entre
deux équipes de recherche dont les objectifs
sont très différents. Il prendra
conscience des principaux problèmes posés
par la reconnaissance de la parole et l'analyse
syntaxique, et pourra éventuellement orienter
une thèse dans l'une ou l'autre branche.
Bibliographie :
[gbos] M. Gabsdil & J. Bos. Combining
Acoustic Confidence Scores with Deep Semantic
Analysis for Clarification Dialogues. 2003,
http://www.coli.uni-sb.de/~gabsdil/papers/iwcs-5.pdf.gz
[lopz] P. Lopez. Analyse d'énoncés
oraux pour le dialogue homme-machine à
l'aide de grammaires lexicalisées d'arbres.
Thèse de doctorat, Université de
Nancy 1, 1999 (disponible auprès de Frédéric
Landragin).
[chel] C. Chelba & F.Jelinek. Structured
language modeling. Computer Speech and Language,
vol 14, 2000 (disponible en version papier auprès
d'Armelle Brun).
|
 |
| Sujet
n°6 : Vers une structuration des informations
lexicales du français à partir de
dictionnaires |
|
Evelyne Jacquey,
Jean-Marie Pierrel et Laurent Romary
Mots-clés : structuration d'informations
; XML ; XSL - Base de données ; SQL ; PHP.
Présentation des équipes de
recherche :
L'un des projets importants
de l'équipe TAL à l'ATILF est de
restructurer la masse d'informations lexicales
présentes dans le TLFi (Trésor de
la Langue Française Informatisé)
pour élaborer une base de données
lexicales modulaire, c'est-à-dire que toutes
les informations présentes soient autonomes
et ne dépendent plus de leurs supérieurs
ou descendants hiérarchiques pour être
intelligibles (Evelyne Jacquey et Jean-Marie Pierrel).
En l'état actuel, les sources du TLFi ont
été mises au format XML selon une
DTD maison.
De son côté, l'équipe
Langue et Dialogue du LORIA est fortement impliquée
dans le consortium TEI et dans le consortium dont
l'objectif est de définir les conditions
de bonne formation des bases de données
lexicales en particulier dans le cadre de la définition
de la norme ISO TC37-SC4 (Laurent Romary). De
plus, l'équipe LED développe actuellement
un projet de constitution d'un lexique syntaxique
(informations grammaticales) dont Azim Roussanaly
est le porteur.
Motivations :
Le manque d'une ressource lexicale
du français est bien connu, en particulier
pour le traitement automatique des langues. De
nombreuses techniques apparaissent, mais les données
pour les évaluer continuent de faire défaut.
Parallèlement à cela, il existe
de grandes ressources sur le français que
sont les dictionnaires de référence
et parmi eux, le TLF (Trésor de la Langue
Française) représente un dictionnaire
de grande qualité et de grande couverture.
Son informatisation dans les années 90
a permis de se rendre compte de la richesse de
l'information contenue et de l'intérêt
d'une consultation mieux contrôlée.
L'idée maintenant est d'aller plus loin
: extraire automatique les informations dictionnaires,
les restructurer et constituer ainsi une ressource
exploitable pour le français à destination,
entre autres, du Traitement Automatique de Langues.
Sujet :
Le sujet proposé a trois
objectifs :
- une restructuration des données du
TLFi à une échelle réduite
et correctement définie pour produire
une ressource d'informations lexicales sur le
français ;
- une spécialisation pour constituer
à terme un lexique syntaxique pour le
TAL dans le cadre du projet d'Azim Roussanaly
;
- une contribution à l'élaboration
des spécifications sur la modélisation
des informations lexicales pour le TAL dans
la perspective plus générale de
la norme ISO TC37-SC4.
Le travail de transformation
de données dictionnairiques en données
exploitables pour le TAL repose d'une part sur
une réflexion linguistique permettant de
déterminer la nature exacte des informations
dont on dispose (cette première tâche
sera effectuée par les chercheurs de l'ATILF
en collaboration avec Azim Roussanaly) et d'autre
part, sur une réflexion informatique permettant
d'identifier les structures pertinentes à
transformer et la nature des transformations à
effectuer. Plus précisément le travail
consistera à :
- Suite à la définition d'un
corpus de travail précis, une première
étape de programmation permettra d'extraire
automatiquement les entrées de dictionnaire
correspondant au corpus.
- Travail bibliographique sur les conditions
de bonne formation d'une base de données
lexicales, utilisation de la norme ISO TC37-SC4,
des résultats du groupe de travail AFNOR
Lexiques pour le TAL, etc.
- Liste des informations nécessaires
dans les entrées du corpus de travail
et détermination de leur organisation
en conformité avec les résultats
du travail bibliographique.
- Seconde phase de programmation pour restructurer
l'information
des entrées du corpus de travail.
- Construction d'une base données à
partir des informations restructurées
et mise en place d'une interface permettant
de l'interroger, si possible automatiquement.
Données :
Le corpus d'entrées
du dictionnaire sera conforme aux objectifs du
sujet de DEA. Deux pistes sont actuellement envisagées
:
- Travail en profondeur : une série
de verbes représentative d'une des tables
du lexique-grammaire du LADL, par exemple la
table 5 [grossM75] contenant des verbes dont
le sujet peut apparaître sous des formes
très variables.
- Travail en largeur : une série de
verbes appartenant à différentes
tables du LADL et si possible sans recouvrement.
Lieu :
Le stage de DEA se déroulera
à l'ATILF afin que l'étudiant puisse
disposer des données du laboratoire. Des
réunions hebdomadaires seront organisées
au LORIA afin d'assurer une bonne coordination
et afin de permettre à l'étudiant
de bien connaître le laboratoire.
Encadrement :
- XML + Base de données lexicales : Laurent
Romary [romary01] et Evelyne Jacquey [jacquey02].
- Ressources syntaxiques pour le TAL : Azim
Roussanaly et Evelyne Jacquey.
- XML + TLFi : Evelyne Jacquey et Jean-Marie
Pierrel [dendienETal03].
Références :
[dendienETal03] J.Dendien & J.-M. Pierrel.
Le trésor de la langue française
informatisé : un exemple d'informatisation
d'un dictionnaire de langue de référence.
Traitement Automatique des Langues}, vol
44(2), 2003.
[grossM75] M. Gross. Méthodes en syntaxe.
Régime des constructions complétives.
Hermann, Paris, 1975.
[jacquey02] E. Jacquey & D.Seddah. Conceptualisation
of a lexical information system. In TKE2002,
2002.
[romary01] L. Romary Towards a representation
of terminological data collections. The TMF
model. TAMA, Terminology in Advanced Microcomputer
Application, 2001.
|
 |
| Sujet
n°7 : Moteur de recherche sur document libre
piloté par ontologie |
|
Philippe
Sébire et Laurent Romary
Résumé :
Etude d'un moteur de recherche
par mot clé ou requête en langage
naturel sur des documents libres (texte, xml),
multilingues. Cette recherche est pilotée
par une ontologie pour orienter l'extraction de
la sémantique dans les documents. Les avantages
du stage sont :
- composante veille technologique
- composante travail collaboratif (acacia,
...)
- composante informatique (intégration
de fonctionalité existante)
- composante recherche :
- interpréteur de langage naturel
piloté par ontologie,
- outils d'indexation sémantique
pilotée par ontologie,
- multilinguisme (document monolingue dans
un premier temps, bilingue si le projet
avance -> reconnaissance de la langue).
Déroulement du stage :
- Veille technologique sur les outils existants
:
- moteur de recherche sur document libre
piloté par ontologie,
- interprétation du langage naturel,
- outils pilotés par ontologie,
- outils de reconnaissance de la langue,
- Réflexion et constitution d'un corpus
de test et de validation,
- Sélection d'outils et évaluation
sur un corpus,
- Intégration de ces outils et validation
du tout,
- Généralisation au multilinguisme.
|
 |
|