Corpus, vous dites ?

24 mars 2022

terminologie corpus

Les contenus diffusés sur la plateforme du Fonds de données linguistiques du Québec sont regroupés sous forme de corpus. Ce mot technique est couramment utilisé par les linguistes (ou par d’autres chercheuses et chercheurs en sciences humaines), mais il est assez peu connu en dehors du milieu de la recherche. Il m’apparaît donc logique de consacrer ce premier billet de la « Zone découverte » à ce mot technique.

Le dictionnaire Usito définit corpus comme un « ensemble de documents, d’objets ramassés à des fins de recherche et d’analyse ». Appliqué à la recherche sur la langue, le mot désigne plus particulièrement un ensemble d’énoncés, réalisés à l’écrit ou à l’oral, qui permettent d’étudier et de décrire des phénomènes linguistiques. C’est par l’analyse de corpus que les linguistes en arrivent à dégager le ou les sens que prend un mot ou une expression, à observer certaines structures grammaticales ou encore à associer des mots à un registre de langue donné. Chaque fois, c’est par l’observation d’exemples authentiques que les linguistes complètent leur description et raffinent leur compréhension d’un phénomène.

Il serait illusoire de penser qu’un seul corpus puisse permettre aux linguistes d’en arriver à des descriptions complètes de la langue. Le choix des documents à mettre dans un corpus dépend largement des objectifs de description que la chercheuse ou le chercheur se donne. S’il s’agit d’étudier la langue orale spontanée, il faudra recueillir des données en contexte informel, par l’enregistrement de conversations entre amies et amis ou encore en famille, par exemple (bien entendu avec l’accord des personnes concernées). Si la recherche s’intéresse davantage à la langue normée, la priorité est généralement donnée à des manifestations écrites de la langue, comme celles qu'on trouve dans un journal, ou encore à des énoncés réalisés en contexte formel, comme la lecture d’un bulletin de nouvelles. Pour rendre les choses encore plus complexes, on pourrait jouer avec d’autres paramètres, en comparant des corpus qui incluent des énoncés datant d’époques différentes par exemple, sachant que la langue évolue à travers le temps et que certains mots couramment utilisés à un moment donné finissent par sortir de l’usage, alors que d'autres apparaissent.

Pour prétendre à une certaine représentativité de la langue, les études faites sur la base de corpus ont intérêt à inclure des données de nature variée. On pourrait par exemple conclure à l’absence d’une structure à partir d’une analyse faite sur la base de textes écrits, mais perdre de vue que la structure est très courante à l’oral. La mise en commun de corpus, comme permet de le faire la plateforme du Fonds de données linguistiques du Québec, offre en ce sens un outil intéressant qui permet d’observer l’utilisation du français au Québec à partir de sources variées, d'époques différentes et reflétant plusieurs régions du Québec.

Ce premier billet inaugure la « Zone découverte » du site de présentation de la plateforme FDLQ. Les billets qui seront publiés dans les semaines et mois à venir ont pour but de démystifier le travail des linguistes, de faire découvrir certains phénomènes linguistiques sur la base des corpus préparés dans le cadre du projet et de susciter de l’intérêt pour l’étude du français au Québec. Bonne lecture !

Wim Remysen