Composition du fonds

Le Fonds de données linguistiques du Québec comprend une série de corpus, c'est-à-dire des ensembles de documents regroupés dans un but précis. Ainsi, si certains corpus ont été constitués dans le but d'observer comment la langue est utilisée dans tel ou tel type de discours (la langue littéraire ou politique par exemple), d'autres permettent d'étudier les traits qui ont cours dans certaines régions (le français de Montréal ou celui de la Beauce) ou encore à certaines époques (le français utilisé au 19e siècle).

Les corpus réunis sur la plateforme FDLQ sont d'origines et de formats divers. Certains existent depuis plusieurs années et ne sont plus voués à évoluer alors que d'autres sont enrichis ou créés dans le cadre du projet FDLQ. Les différentes fiches de présentation des corpus donnent plus d'information sur les objectifs derrière leur constitution. Tous les corpus diffusés sur la plateforme appartiennent à trois grandes catégories : les corpus textuels, les corpus oraux et les corpus métalinguistiques.

Corpus textuels

Les corpus textuels illustrent l'utilisation de la langue écrite. Selon les cas, il peut s'agir de textes imprimés et parus dans des maisons d'édition, ou encore de textes manuscrits, comme dans le cas de corpus qui réunissent des lettres ou des journaux intimes (ce qu'on appelle aussi des egodocuments).

Le Fonds de données linguistiques du Québec fait la part belle aux textes littéraires. Il inclut notamment un corpus composé des principales œuvres littéraires québécoises parues depuis le 19e siècle (corpus CLIQ), un corpus représentatif de la bande dessinée québécoise (corpus Ébullition) ainsi qu'un corpus consacré à la littérature jeunesse (corpus CLIQ-Jeunesse).

La plateforme intègre par ailleurs la Banque de données textuelles de Sherbrooke, qui a servi de base à la rédaction du dictionnaire Usito.

Corpus oraux

Les corpus oraux témoignent de la langue parlée et permettent d'étudier non seulement le lexique ou les structures grammaticales, comme c'est le cas des corpus textuels, mais aussi la prononciation.

La plupart des corpus oraux versés au FDLQ sont des corpus sociolinguistiques, réalisés sur la base d'entrevues menées auprès de locutrices et de locuteurs francophones du Québec. Depuis les années 1960, de nombreux corpus de ce genre ont été constitués, faisant du français parlé au Québec une des variétés de français les mieux documentées dans sa dimension orale. La plateforme inclura notamment les trois grands corpus de français parlé à Montréal (Montréal 1971, 1984 et 1995) ainsi que toute une série d'autres corpus composés d'enquêtes menées à travers la province.

Par ailleurs, on trouvera dans le Fonds quelques corpus de nature ethnographique d'intérêt pour l'étude de la langue parlée. Les ethnographes du Québec, dont les travaux ont connu un développement extraordinaire dans les années 1970 et 1980, ont en effet réalisé plusieurs enregistrements dans divers milieux sociaux pour documenter des aspects variés de la vie locale.

Corpus métalinguistiques

Les corpus métalinguistiques réunissent des discours tenus à propos du français, comme la qualité de la langue et la norme, la légitimité des québécismes ou encore la question des anglicismes. Ces discours ont été très nombreux dans l'histoire du Québec, et notamment depuis le milieu du 19e siècle. N'a-t-on pas déjà pu dire que « le véritable sport national des Québécois consiste à parler de la langue » (les mots sont de la linguiste Marty Laforest) ?

Le Fonds de données linguistiques du Québec inclut non seulement toute une série d'articles publiés qui traitent de la question linguistique québécoise, mais aussi des entrevues réalisées autour de cette question. La plateforme permet notamment d'interroger des dizaines de chroniques de langage parues dans la presse québécoise depuis les années 1860 (corpus ChroQué, corpus La langue au quotidien) et de consulter des entrevues auprès de journalistes et de professionnelles et professionnels langagiers (corpus JournaLangue2013). On trouvera aussi sur la plateforme un corpus constitué de témoignages anciens sur le français parlé au Canada.

Traitement des corpus et protocole de transcription

Le traitement et l'édition des corpus, peu importe leur catégorie d'appartenance, est pris en charge par l'outil Comète. Cette interface, conçue sur mesure pour le Fonds, permet l'archivage des documents appartenant à chaque corpus, ainsi que la gestion de leurs métadonnées et de leurs identifiants. Les données ainsi prises en charge incluent aussi bien les documents originaux (une oeuvre ou un manuscrit numérisés, par exemple, ou encore un enregistrement audio) que les extractions textuelles (dont le format peut grandement varier). Tous les contenus textuels sont formatés, traités et encodés au format XML-TEI, qui demeure à ce jour le plus important standard utilisé dans le traitement de données numériques et textuelles.

Les protocoles utilisés pour la transcription des documents oraux et textuels varient d'un corpus à l'autre, selon les objectifs poursuivis et selon l'état d'avancement du traitement des données. Dans le cas des corpus déjà transcrits, les transcriptions versées au FDLQ sont conformes au protocole d'origine. Pour les corpus non transcrits, de même que pour les nouveaux corpus actuellement en développement, un protocole a été mis au point pour répondre aux besoins de la plateforme. Les différentes fiches des corpus fournissent de l'information supplémentaire à ce sujet.