Banque de données textuelles de Sherbrooke (BDTS)

Auteures, auteurs

Normand Beauchemin

Université de Sherbrooke

CATIFQ (renommé CRIFUQ)

Pierre Martel

Université de Sherbrooke

CATIFQ (renommé CRIFUQ)

Hélène Cajolet-Laganière

Université de Sherbrooke

CATIFQ (renommé CRIFUQ)

Michel Théoret

Université de Sherbrooke

CATIFQ (renommé CRIFUQ)

Description

Entreprise dès la fin des années 1970, l'élaboration de la BDTS est étroitement associée aux travaux de description du français québécois, et notamment de ses ressources lexicales, menés au Centre d'analyse et de traitement informatique du français québécois (CATIFQ) de l'Université de Sherbrooke. L'objectif poursuivi par les responsables du corpus est demeuré le même jusqu'à son achèvement au début des années 2000 : fournir un échantillon représentatif de la langue générale, orale et écrite, utilisée au Québec dans différentes situations de communication. Dans sa composition actuelle, la BDTS comprend cinq sous-ensembles de textes qui se répartissent de la façon suivante :

  • Sous-ensemble de textes spécialisés (environ 43 % du corpus), comprenant des mémoires, des rapports, des documents administratifs, etc.
  • Sous-ensemble de textes littéraires (environ 25 %), constitué de romans, de contes, de poèmes et de pièces de théâtre
  • Sous-ensemble de textes journalistiques (environ 24 %) tirés de quotidiens, magazines et périodiques spécialisés
  • Sous-ensemble de textes didactiques (environ 4 %) provenant de manuels scolaires, logiciels informatiques et manuels techniques
  • Sous-ensemble de transcriptions d'échantillons de langue orale (environ 4 %), incluant des contes, des monologues, des entrevues sociolinguistiques, des téléromans ou encore des extraits de radio et de télévision.

Si ce corpus a d'abord donné lieu à une série de travaux en statistique lexicale (dont Beauchemin et al. 1992), on retiendra surtout l'exploitation qui en a été faite dans le cadre du projet FRANQUS, à l'origine du dictionnaire Usito. La BDTS a notamment servi à l'établissement de la nomenclature de ce dictionnaire ainsi qu'à la rédaction des articles qui le constituent.

Pour citer le corpus

Banque de données textuelles de Sherbrooke, sous la dir. de Normand Beauchemin, Pierre Martel, Hélène Cajolet-Laganière et Michel Théoret (1977-2005). Consulté sur la plateforme FDLQ le 21 mars 2022. [fdlq.usherbrooke.ca]

Ce corpus est identifié par la cote BDTS.

Références bibliographiques

Beauchemin, Normand, Pierre Martel et Michel Théoret (1992), Dictionnaire de fréquence des mots du français parlé au Québec : fréquence, dispersion, usage, écart réduit, New York, Peter Lang.

Cajolet-Laganière, Hélène, Geneviève Labrecque, Pierre Martel, Chantal-Édith Masson, Louis Mercier et Michel Théoret (2008), « Dictionnaires usuels du français et Banque de Données Textuelles de Sherbrooke (BDTS) : convergence et divergence des nomenclatures », dans Brigitte Horion (dir.), Français du Canada – Français de France VII. Actes du septième Colloque international de Lyon, du 16 au 18 juin 2003, Tübingen, Max Niemeyer, p. 9-28.

Labrecque, Geneviève (2005), Les apports et les limites de la Banque de données textuelles de Sherbrooke au regard de la description lexicographique du français en usage au Québec, thèse de doctorat, Université de Sherbrooke.

Martel, Pierre et Hélène Cajolet-Laganière (2004), « L'apport de la Banque de données textuelles de Sherbrooke : des nomenclatures enrichies », dans Louis Mercier (dir.), Français du Canada – Français de France VI. Actes du sixième Colloque international d'Orford, Québec, du 26 au 29 septembre 2000, Tübingen, Max Niemeyer, p. 263-277.

Martel, Pierre et Michel Théoret (1991), « Les bases de données textuelles et linguistiques à Sherbrooke : une banque en développement », Revue québécoise de linguistique, vol. 20, no 2, p. 123-142. Télécharger en PDF. Ce document comporte des obstacles à l'accessibilité.