Comptage de mots et de paquets de mots dans des textes aléatoires
Pierre Nicodème (LIX, Polytechnique Palaiseau)Le comptage de mots dans des textes aléatoires fait apparaître des phénomènes qui sont à première vue contreintuitifs et qui dépendent de la manière dont les mots sont auto-corrélés. Nous ferons un peu de mathématiques expérimentales en tirant des chaînes binaires aléatoires pour aborder cette question. Nous présenterons ensuite la décomposition formelle sur les langages de Régnier et Szpankowski (1998) et sa traduction en séries génératrices qui résolvent le problème du comptage de mots. Ceci nous aménera, par une extension de cette méthode au comptage des paquets (clumps en anglais) d’un ensemble de mots dans le cas où cet ensemble est réduit. Enfin nous donnerons une construction par automate qui résout le cas général (non-réduit).
Travail en commun avec Frédérique Bassino, Julien Clément et Julien Fayolle.