Danièle Gardy (David, Univ. Versailles-Saint-Quentin)

Je présente ici des travaux réalisés en collaboration avec deux collègues du Leria à Angers (F. Lardeux et F. Saubion) qui ont à traiter de grandes masses de données. Ces données sont d’origine biovégétale ou médicale, le plus souvent sous forme binaire (gènes présents ou absents), et partagées expérimentalement en deux ou plusieurs groupes (ex : plantes atteintes d’une pathologie). Leur travail se place dans le cadre de l’analyse logique de données (LAD : Logical Analysis of Data). Cette méthode vise à détecter des régularités dans les données afin de fournir à la fois une classification des données en groupes et une justification de cette classification, qui peut par exemple prendre la forme d’une formule logique sur un certain nombre d’attributs des données.

Notre travail vise à fournir des outils de nature mathématique afin d’évaluer la qualité d’un algorithme de classification. Son but ultime est de fournir une réponse rapide à des questions telles que « Quelle est la probabilité que la projection des données sur un sous-groupe d’attributs préserve la classification en groupes? » ou « Quelle est la probabilité qu’un seul motif détermine un groupe? ». Pouvoir répondre à de telles questions permet d’abord d’espérer guider un algorithme dans la recherche d’ensembles d’attributs déterminants afin d’améliorer ses performances. D’autre part, la confrontation des données théoriques aux résultats réellement observés permet de valider ou infirmer les hypothèses de départ, ce qui revient à fournir des informations sur la distribution des données réelles.

Une fois établie la modélisation des données booléennes sous des hypothèses mathématiques assez générales (indépendance entre attributs/équiprobabilité), le calcul des diverses probabilités se fait facilement et efficacement à l’aide de techniques classiques d’analyse d’algorithmes (dénombrement, fonctions génératrices, extraction de coefficients).