Corpus BDTS : banque de données textuelles de Sherbrooke

Vidéo

Accéder à la transcription textuelle de la vidéo

https://www.youtube-nocookie.com/embed/JO342Z_1wMs

Transcription textuelle de la vidéo

[Générique d'ouverture : Logo UdS, en partenariat avec le gouvernement du Québec. En texte apparaît : Corpus BDTS, banque de données textuelles de Sherbrooke, ainsi que les logos du CRIFUQ et du Fonds de données linguistiques du Québec.]

[Hélène Cajolet-Laganière, professeure associée et coauteure du dictionnaire Usito, Université de Sherbrooke] :

Le premier corpus, qui a été constitué de presque 5 millions de mots, était extrait des enquêtes sociolinguistiques qui ont été menées dans la région de l'Estrie et aussi ailleurs au Québec. Et le but était de décrire le français parlé au Québec.

Par la suite, le corpus est évolutif, donc il est passé de 5 millions de mots à 52 millions de mots.

Dans les grandes banques de données francophones, c'est un corpus unique qui a été la base de l'élaboration du dictionnaire Usito.

Les défis étaient énormes parce qu'on était des précurseurs dans l'élaboration de banques de données textuelles et d'exploitation de banques de données textuelles, tant pour des corpus oraux que pour des corpus écrits, donc on était vraiment précurseurs dans ce domaine-là. 

Et l'autre grand défi était d'assurer une certaine représentativité des discours au Québec.

Ce n'est pas une représentativité au sens statistique du terme, mais c’est une représentativité au sens de la diversité, de la variété des textes. La BDTS est unique en ce sens qu'elle est composée de différents types de discours.  

J'ai parlé tantôt du corpus oral à partir des enquêtes sociolinguistiques, mais ensuite on a procédé à un échantillonnage de textes journalistiques, donc dans tous les journaux, magazines, etc., du Québec.

Un corpus aussi de textes scientifiques, donc des textes spécialisés, textes techniques, scientifiques, environnementaux, juridiques et autres, des manuels scolaires et évidemment, un corpus littéraire.

Donc, on avait 5 grands types de discours et le but était d'avoir le plus grand nombre de domaines traités, le plus grand nombre aussi de thèmes qui étaient abordés pour avoir une description de la langue mais qui couvre l'ensemble des usages du français écrit surtout au Québec.

C'est un corpus extraordinaire parce qu'il a permis de voir toutes les caractéristiques du français au Québec.

À l'époque où on a voulu créer le dictionnaire, on disait que le français standard en usage au Québec n'existait pas, qu'on ne trouvait pas de particularités québécoises dans les textes techniques, scientifiques par exemple.

Alors nous, en ayant ce corpus, le plaisir scientifique qu'on a eu, c'est de découvrir qu'il n'y avait pas un seul texte où on ne trouvait pas de marqueur d'usage au Québec.

La BDTS était utilisée essentiellement par des chercheurs, des étudiants qui faisaient leur maîtrise ou doctorat.

Mais depuis que le corpus a intégré le Fonds de données linguistiques, là son utilisation va être beaucoup plus large, et on en est très content.

Description

Entreprise dès la fin des années 1970, l'élaboration de la BDTS est étroitement associée aux travaux de description du français québécois, et notamment de ses ressources lexicales, menés au Centre d'analyse et de traitement informatique du français québécois (CATIFQ) de l'Université de Sherbrooke. L'objectif poursuivi par les responsables du corpus est demeuré le même jusqu'à son achèvement au début des années 2000 : fournir un échantillon représentatif de la langue générale, orale et écrite, utilisée au Québec dans différentes situations de communication.