Le Fonds franchit le cap des 60 millions de mots

16 décembre 2022

Avez-vous déjà remarqué que le site Web du Fonds de données linguistiques du Québec fournit des statistiques précises pour tous les corpus diffusés sur la plateforme ainsi que pour l'ensemble du Fonds ? Si c'est le cas, vous avez peut-être noté que le Fonds vient de dépasser les 60 millions de mots.

La page de présentation des corpus fournit en effet des informations concernant le nombre de documents disponibles dans les corpus et concernant le nombre de mots que chacun d'entre eux contient. Pour être plus précis, il faudrait plutôt parler de mots-formes. Ce concept technique est utilisé pour désigner des unités linguistiques qui sont isolées à l'écrit par deux espaces. Le mot banc de neige par exemple est composé de trois mots-formes (soit banc, de et neige), chacun comptabilisé dans les statistiques. Cela signifie aussi que les verbes, les noms et les adjectifs peuvent donner lieu à plusieurs mots-formes (comme blanche et blanc pour l'adjectif blanc) qui sont indexés comme tels.

Pour explorer la liste de tous les mots-formes attestés dans le Fonds de données linguistiques du Québec, il suffit de consulter le lexique du Fonds et de cliquer sur les formes qui vous intéressent. Bonne exploration !