Comptage d’occurrences d’un nombre fini de mots: une approche par inclusion-exclusion

Julien Clément (GREYC)

April 17, 2007

Nous considérons le problème de comptage de mots dans un texte aléatoire. Ce problème a des applications par exemple en bioinformatique où l’on cherche à quantifier'' la part de hasard en comparant les statistiques obtenues à partir d'une séquence génomique réelle à celles qu'on attendrait sur une séquence aléatoire suivant un modèle assezproche’’.

Le problème admet plusieurs solutions. Nous comparons, dans le cas d’un mot, la méthode formelle sur les langages de Régnier et Szpankowski, et la méthode d’inclusion-exclusion de Goulden-Jackson. Ces deux approches s’étendent au cas d’un ensemble de mots pourvu qu’aucun mot ne soit facteur d’un autre (l’ensemble est alors dit réduit).

Nous traitons ensuite le cas général (non réduit) de comptage de mots grâce à une approche de type inclusion-exclusion. Ce faisant, nous donnons un cadre plus formel à une approche (non totalement explicitée) déjà utilisée par Noonan et Zeilberger en 1999.

Travail en commun avec: Frédérique Bassino, Julien Fayolle et Pierre Nicodème.