Français Anglais
Accueil Annuaire Plan du site
Accueil > Production scientifique > Thèses et habilitations
Production scientifique
Doctorat de

Doctorat
Equipe : Bioinformatique

"Recherche d'associations séquentielles et alignement d'ontologies biologiques."

Début le 01/10/2005
Direction : FROIDEVAUX, Christine

Ecole doctorale : Paris XI
Etablissement d'inscription : Université Paris-Saclay

Lieu de déroulement : LRI

Soutenue le 28/09/2009 devant le jury composé de :

Activités de recherche :
   - Bioinformatique

Résumé :
Le thème principal de cette thèse est l'annotation fonctionnelle, tâche
qui consiste à associer à une protéine sa ou ses fonctions biologiques. Je
me suis intéressé dans un premier temps à l'étude de ces fonctions en
relation avec l'architecture en domaines des protéines. Dans le cadre
d’une collaboration avec Frédérique Lisacek de l’Institut Suisse de
Bioinformatique (Genève), j'ai testé l'hypothèse biologique selon laquelle
l’ordre des domaines dans une protéine pourrait jouer un rôle dans la
fonction biologique de la protéine.

Pour cela, j’ai introduit la notion de pépite séquentielle de connaissance
comme une association séquentielle entre une séquence d'items (par exemple
les domaines protéiques) et une cible déterminée (par exemple une fonction
moléculaire), association qui peut être rare, mais qui doit être de bonne
qualité : la dépendance entre la séquence et la cible doit être forte. Je
me suis intéressé à la recherche de "signatures minimales", qui sont les
pépites séquentielles de connaissance les plus petites possibles,
caractéristiques d'un ensemble de données. J'ai conçu et implémenté SNK,
un algorithme pour rechercher ces signatures minimales.

Pour répondre à un besoin exprimé par mes collaborateurs biologistes, j'ai
étendu l'algorithme SNK, en lui donnant une nouvelle spécification plus
adaptée à la biologie. J'ai introduit les c-SNoKs et s-SNoKs, deux
extensions des pépites séquentielles de connaissance. L'outil SNK a été
modifié en conséquence pour prendre en compte ces évolutions. Par
ailleurs, afin de l'adapter au mieux aux besoins des utilisateurs, l'outil
SNK a été connecté à la source de données Pfam, référence incontournable
pour les domaines protéiques. J'ai travaillé sur une nouvelle famille de
protéines, regroupées par la présence du domaine protéique « Chromo ».
J'ai pu mettre en évidence un lien non détectable par ailleurs entre
l'ordre des domaines des protéines de la famille « Chromo » et
l'appartenance à une sous-famille protéique.

Le travail sur les domaines protéiques ainsi que les discussions avec les
membres des projets ACI IMPBio RAFALE et ANR Masse de Données
Microbiogenomics ont mis en avant la nécessité d'utiliser un vocabulaire
contrôle et hiérarchisé pour exprimer les fonctions biologiques. Les
annotateurs ont développé pour cela des ontologies biologiques et des
hiérarchies fonctionnelles organisant ces informations. La difficulté
vient du fait que plusieurs équipes ont proposé différentes
classifications, toutes pertinentes et utilisées, chacune reflétant un
point de vue sur l'annotation. Pour permettre de travailler avec
l'ensemble de ces données dans le cadre de travaux de génomique
comparative, il est apparu nécessaire de mettre en correspondance des
ontologies biologiques.

Les techniques existantes de mapping ne permettant pas de prendre en
compte toutes les caractéristiques des ontologies biologiques, j'ai dû en
concevoir une autre. J'ai choisi de développer une méthode de mapping,
O'Browser, basée sur une combinaison de matchers, chacun étant spécialisé
dans l'identification de similarités spécifiques. J'ai introduit un
premier matcher dédié au mapping de deux ontologies biologiques pour
l'annotation, en exploitant les relations d'homologie entre les protéines
annotées par ces deux ontologies. Par ailleurs, j'ai introduit la notion
de pondération adaptative. Dans les méthodes classiques, à chaque matcher
est associé un poids et la similarité globale entre deux concepts des
ontologies est la somme pondérée par ces poids des résultats des matchers.
J'ai introduit l'idée que le poids associé au matcher dépend en partie des
résultats du matcher lui-même. Cette méthode a été utilisée pour
l'alignement de deux hiérarchies fonctionnelles SubtiList et FunCat.

Pour en savoir plus: http://www.lri.fr/~rance