Présentation du projet

Le Fonds de données linguistiques du Québec (FDLQ) donne accès à des données de nature variée qui illustrent l’usage que les Québécoises et Québécois font (et ont fait dans le passé) du français, aussi bien à l’oral qu’à l’écrit. Les données réunies sur cette plateforme documentaire datent d'époques différentes et couvrent plusieurs régions du Québec. En tant que témoin de toute la richesse et de la diversité du français du Québec, le FDLQ permet de découvrir des mots, des sens, des expressions (et prochainement des prononciations) utilisés dans la variété québécoise de français. Il permet à toutes les personnes intéressées de trouver des attestations authentiques, tant dans la langue parlée que dans la langue écrite, des emplois répertoriés. Le milieu scientifique y trouvera des données pouvant être exploitées en vue d'analyser le fonctionnement du français au Québec, y compris dans une perspective historique et sociolinguistique, et de le décrire. Les possibilités d'exploitation sont nombreuses.

Le patrimoine linguistique et culturel québécois et l'apport des corpus

Le projet FDLQ est réalisé par le Centre de recherche interuniversitaire sur le français en usage au Québec (CRIFUQ), en collaboration avec le Service des technologies de l'information (STI) de l'Université de Sherbrooke. Son développement a d’abord été motivé par la mise à jour nécessaire de certains corpus constitués au CRIFUQ (anciennement CATIFQ) depuis sa fondation dans les années 1970. Puis, il est rapidement apparu qu'il s'agissait d'une initiative porteuse permettant de préserver d'autres corpus faits au Québec et dont plusieurs ont été réalisés avant l'ère numérique.

Nombreux en effet sont les corpus de français québécois qui ont été constitués depuis les années 1960, lorsque la linguistique de corpus s'est développée au Québec et qu'il est devenu de plus en plus apparent qu'il était nécessaire de disposer de données authentiques pour porter un regard non complaisant, mais plutôt descriptif et objectif, sur le français du Québec. En donnant accès à ces corpus sur une seule et même plateforme numérique, le FDLQ contribue à la valorisation du patrimoine linguistique québécois. Ce patrimoine inclut non seulement les pratiques langagières que la plateforme donne à lire (et, prochainement, à entendre), mais aussi les collectes de données elles-mêmes réalisées par les linguistes du Québec au cours des dernières décennies. Le FDLQ vise à mieux faire connaître leurs entreprises, qui ont marqué l'histoire de la linguistique québécoise, et à assurer leur pérennité.

Le partage et la préservation de l'ensemble de ces corpus pour les générations futures constituent les principales motivations derrière l'initiative de monter cette plateforme documentaire. À cela s'ajoute l'enjeu de la réutilisation des données : la constitution de corpus étant une entreprise chronophage particulièrement exigeante qui mobilise d'importantes ressources, il nous apparaît primordial que les corpus puissent servir plusieurs intérêts, au-delà de leur constitution initiale. Outre sa valeur scientifique, le FDLQ comporte une dimension appliquée dans la mesure où les données réunies sur la plateforme peuvent soutenir le développement d'outils destinés notamment à l'enseignement du français. Enfin, la plateforme contribue à valoriser plusieurs pans de la culture québécoise. Elle permet entre autres d’interroger des œuvres littéraires parues au Québec, de consulter des textes de bandes dessinées québécoises, de découvrir les débats à propos de la langue tenus dans la presse, ou encore d’en apprendre davantage sur certaines traditions et coutumes racontées lors d'entrevues réalisées à travers le Québec.

Les principes guidant le projet

La plateforme FDLQ adhère aux principes de la science ouverte, ce qui signifie que nous encourageons le partage de connaissances et de données auprès de la communauté scientifique et du grand public. Suivant les lignes directrices définies par l'initiative FAIR, le FDLQ favorise ainsi une gestion de données basée sur leur caractère découvrable, accessible, interopérable et réutilisable, toujours dans le respect des limites autorisées par les droits d'auteur. Ce faisant, le FDLQ s'inscrit dans la perspective du web sémantique (aussi appelé web de données) tel que mis de l'avant par le Consortium W3C.

Pour y arriver, tous les corpus diffusés sur la plateforme FDLQ sont dotés de données de référence (métadonnées) riches, structurées et pérennes qui facilitent le repérage des contenus en fonction de divers critères. La plateforme privilégie par ailleurs le recours à des standards ouverts (non propriétaires) dans le traitement et la gestion des données. De plus, le code source des outils développés dans le cadre du projet sera disponible sous forme de logiciel libre.

Le respect des droits d'auteur et la confidentialité des données

Adopter les principes de la science ouverte ne signifie pas que les corpus (ou les documents qui les composent) sont intégralement disponibles dans le FDLQ. La plateforme balise finement les données de façon à assurer que les contenus qui sont libres de droits (et partant accessibles sans limite sur la plateforme) soient clairement distingués de ceux qui ne le sont pas (puisque leur consultation est limitée en fonction des autorisations obtenues). Plus particulièrement, la plateforme réunit les trois types de données suivants :

  • Données libres de droits (domaine public) : les contenus peuvent être interrogés et affichés dans leur intégralité sur la plateforme
  • Données protégées pour lesquelles une licence d'utilisation a été accordée au projet FDLQ : les contenus peuvent être interrogés, mais l'affichage est limité à des extraits dont la longueur est fixée (par défaut 60 mots avant et après le mot recherché)
  • Données protégées dont l'accès est interdit sans autorisation : leur consultation est permise à des fins de recherche seulement et nécessite la signature d'une entente de confidentialité avec les responsables du FDLQ

La plateforme fournit de l'information précise pour chaque corpus et pour chaque document de façon à ce que l'utilisatrice ou l'utilisateur de la plateforme puisse distinguer clairement les modalités d'exploitation et d'utilisation des différents contenus.

Certains corpus nécessitent des précautions particulières. C'est le cas notamment des corpus oraux constitués d'entrevues menées auprès de locutrices et locuteurs vivant au Québec. Il arrive en effet que ces corpus contiennent des données confidentielles qui ne peuvent sous aucun prétexte être consultées ou partagées. Pour préserver la confidentialité, les corpus concernés sont dûment anonymisés, ce qui signifie que toutes les données nominales directes ou indirectes qui permettraient de retracer des personnes sont éliminées (et éventuellement remplacées par des pseudonymes).

Comment citer les données diffusées sur la plateforme FDLQ ?

Les utilisatrices et utilisateurs de la plateforme qui souhaitent se servir des données diffusées par le FDLQ peuvent le faire à condition de citer les sources de la manière suivante :

  • Exemple pour les corpus textuels : Petitclair, Pierre (1865), Une partie de campagne : comédie en deux actes, Québec, Joseph Savard. Cité dans Corpus CLIQ, sous la dir. de Wim Remysen et Hélène Cajolet-Laganière. Consulté sur la plateforme FDLQ le 21 mars 2022. [fdlq.usherbrooke.ca]
  • Exemple pour les corpus oraux : Thibault, Pierrette et Diane Vincent (1984), « Entrevue M84_001 ». Cité dans Corpus Montréal 84. Consulté sur la plateforme FDLQ le 21 mars 2022. [fdlq.usherbrooke.ca].
  • Exemple pour les corpus métalinguistiques : Roy, Camille, « Pourquoi nous aimons notre langue », Le Devoir, 31 mars 1917, p. 3. Cité dans La langue au quotidien : les intellectuels et le français dans la presse québécoise, sous la dir. de Karine Cellard et Karim Larose (2005). Consulté sur la plateforme FDLQ le 21 mars 2022. [fdlq.usherbrooke.ca]

Ces références incluent notamment, en plus de l'auteure ou l'auteur, du titre du document et de son année de publication, le nom du corpus auquel il appartient ainsi que la mention du FDLQ. Pour citer la plateforme elle-même, nous demandons d'utiliser la référence suivante :

  • Centre de recherche interuniversitaire sur le français en usage au Québec (2022-), Fonds de données linguistiques du Québec (FDLQ), disponible en ligne [fdlq.usherbrooke.ca]. Consulté le 21 mars 2022.

Les références bibliographiques servant à citer les différents corpus qui composent le FDLQ sont fournies dans les fiches individuelles consacrées à la présentation des corpus.