Ecole chercheurs en Biologie Intégrative et Génomique dans le Grand Ouest BIGOU

L’école chercheurs est terminée:
Date : du 7 au 9 Novembre 2011, au manoir de Kerdréan au Bono près d’Auray.
Frais d’inscription : 100 €
Pré-requis: sensibilité vis-à-vis du domaine de la biologie intégrative et de la génomique

Le programme est disponible ici

————————————————————————————————————————-

Séminaires IRISA

Peggy Cellier – Fouille de données séquentielle pour le traitement automatique des langues

Cette présentation vise à montrer l’intérêt d’utiliser les motifs séquentiels (méthode de fouille de données) dans le domaine du traitement automatique des langues (TAL) et plus particulièrement dans les tâches d’extraction d’information.

Dans cet exposé deux types tâches sont traitées : la recherche de patrons linguistiques pour l’extraction de relations entre entités nommées et la découverte de patrons linguistiques pour l’extraction d’expressions de qualification.

Les deux tâches sont traitées via des techniques de recherche de motifs séquentiels pour apprendre des patrons linguistiques.  Une originalité de ce type d’approche est de s’affranchir de l’analyse syntaxique tout en permettant de produire des résultats symboliques qui sont intelligibles pour l’utilisateur. Cette méthode s’écarte des autres approches sans analyse syntaxique qui sont fondées sur des méthodes numériques difficilement interprétables. Elle ne nécessite pas de ressources linguistiques autres que le corpus d’apprentissage.

Nous illustrons ce type d’approche sur deux applications. La première application est la détection d’interactions entre gènes et l’extraction d’informations associées aux interactions découvertes dans les textes de biologie médicale et génétique. La deuxième application est la découverte d’expressions de qualification (par exemple : « En bon père de famille », « Connu pour sa barbarie ») dans les articles de presse.

————————————————————————–

Rokia Bendaoud – Extraction et modélisation de connaissances à partir de ressources hétérogènes appliquées aux domaines de l’astronomie, de la microbiologie et de la e-santé.

Dans le cadre d’une thèse nous avons abordé le problème de la conception d’une méthodologie de construction d’ontologies de domaine à partir de ressources textuelles hétérogènes. Plus précisément, il s’agissait de mettre en oeuvre les processus de fouilles de données : l’Analyse Formelle de Concepts (AFC) et son extension l’Analyse Relationnelle de Concepts (ARC) qui permettent de construire des treillis de concepts à partir de tableaux binaires, d’objets et d’attributs pour l’AFC ; d’objets, d’attributs et de relations entre objets pour l’ARC. Ensuite, les treillis obtenus sont devenus naturellement des supports pour la représentation des connaissances relatives aux domaines et aux ressources étudiés. Ces travaux ont abouti à la mise en place d’une méthodologie originale de construction d’ontologies nommée « Property And Class Characterization from Text to OntoLogy Enrichment» (PACTOLE). Cette approche est caractérisée par deux apports majeurs.

1) Le premier apport de cette thèse est relatif à la description des objets du domaine à partir  desquels sera construite l’ontologie. En fonction des ressources les plus couramment disponibles (corpus de textes, bases de données ou  thésaurus), différents descripteurs d’objets ont été considérés (des classes, des attributs et des liens inter-objets). Ces descripteurs sont extraits par des outils de Traitement Automatique de la Langue Naturelle (TALN) et d’Extraction d’Information (IE).

2) Le second apport de ce travail a consisté à utiliser l’AFC et l’ARC, pour construire des hiérarchies de concepts qui ont servi de schéma d’ontologie (schéma conceptuel). Les treillis finaux obtenus contiennent des concepts où cohabitent à la fois des attributs binaires et relationnels. De cette façon, des définitions étendues sont proposées aux experts du domaine pour être associées aux classes prédéfinies dans ce domaine ainsi que de nouvelles classes inexistantes dans la hiérarchie initiale. Ces nouvelles classes peuvent être considérées pertinentes et ajoutées par les experts en tant que nouvelles « unités de connaissances ». L’ensemble de ces éléments est ensuite représenté dans le cadre d’un langage de représentation des connaissances comme le langage FLE de la famille des logiques de descriptions, puis est implémenté en OWL (Web Ontology Language).
Au niveau de l’expérimentation, celle-ci fut menée dans deux domaines d’application : l’astronomie et la microbiologie. Nous avons pu ainsi évaluer l’apport de la méthodologie à partir de connaissances qu’elle a permis extraire et qui se sont avérées pertinentes d’après le jugement des experts.

Dans le cadre d’un post-doctorat, je participe au projet « e-Health » de la région Wallonne qui vise l’implémentation d’une plateforme intégrée et innovante de composition intelligente et dynamique de services Web. Ce travail s’intègre plus précisément dans l’extraction, la modélisation et la représentation des différents types de ressources dans le domaine médical. Cette partie implique trois problématiques:

1) Extraction d’un schéma conceptuel à partir d’un document Kmehr-Bis en XML afin de comprendre la sémantique d’un message médical ainsi transcrit (Le standard Kmehr-Bis, Kind messages for electronic healthcare record, est le standard belge pour l’échange d’informations clinique). Pour ce faire, nous avons réalisé une rétro-ingénierie des versions 1 et 2 de Kmehr. Il nous reste à valider les résultats avec les experts.

2) Modélisation de Workflow ad hoc (flexibles) qui prennent en charge des patients de la maladie du diabète chez eux. Nous avons proposé une approche qui définit les Workflow sous forme de règles représentées en logique du premier ordre (base de connaissances). Cette approche permet aux patients d’exécuter n’importe quelle activité (sans arrêter le Workflow) tout en signalant les violations des règles (envoie d’alertes).

3) Mise en oeuvre d’un moteur de recherche intelligent pour la recherche de guidelines sur la maladie de Parkinson. Ce moteur de recherche est fondé sur deux ontologies de domaines. La première pour la classification des textes (guidelines) d’après les termes qu’ils contiennent et la deuxième pour la structuration des termes entre eux.

————————————————————————————————————————-

Réunions scientifiques du projet Biologie Intégrative

Ces réunions scientifiques ont pour but d’échanger sur les avancées et les orientations du projet. Elles pourront prendre la forme de séminaires scientifiques ou de groupes de travail sur des thématiques ciblées, suivi de discussions et synthèses générales sur les résultats de ces groupes. Elles auront généralement lieu sur une journée. Le programme sera établi le mois précédent la réunion.