Mise en relation des structures chimiques et de leur activité : aspects algorithmiques
Bertrand Cuissart (GREYC)Mon travail de thèse consiste à élaborer un modèle fiable de prédiction de la biodégradabilité des composés chimiques. La biodégradabilité représente la faculté d’une molécule à être intégrée par les bactéries. Un tel outil s’avérera très utile aux spécialistes de l’environnement, leur permettant d’évaluer rapidement les risques écologiques liés au relargage d’une substance de synthèse. Le problème de construction du modèle de classification à priori entre dans le cadre des “mises en relation des structures chimiques avec leur activité” (Structure Activity Relationship).
La première partie de ce travail de discrimination/classification supervisée consiste à obtenir une description exploitable des données. Les structures chimiques sont fournies sous forme la forme d’un code linéaire, le code SMILES. Après avoir interprété ce code linéaire au moyen d’une grammaire algébrique, nous obtenons une représentation de la molécule sous la forme d’un graphe aux sommets et aux arêtes étiquetés (“la formule développée”). C’est à partir de ces objets, appelés “graphes moléculaires”, que nous bâtissons une description vectorielle de la molécule. A cette fin, il existe deux familles principales de descripteurs :
- les “indices” : ce sont des fonctions numériques calculées à partir du graphe moléculaire,
- le décompte de fragments de graphes importants : les groupes fonctionnels. A priori, ces derniers sont issus du milieu expert (ici les écotoxicologues). Ce sont des motifs de la molécule dont l’importance dans les phénomènes de dégradation microbienne est reconnue.
Pour obtenir ces vecteurs caractéristiques, points de départ des méthodes de classification, il nous a fallu adapter certains problèmes algorithmiques généraux au cadre des graphes moléculaires. Durant le séminaire, je présentarai les différentes étapes de ce traitement de l’information chimique, en mettant l’accent sur l’aspect algorithmique.