Corpus CLIQ : corpus de littérature québécoise

Vidéo

Accéder à la transcription textuelle de la vidéo

https://www.youtube-nocookie.com/embed/lwEzjGNhXDw

Transcription textuelle de la vidéo

[Générique d'ouverture : Logo UdS, en partenariat avec le gouvernement du Québec. En texte apparaît : Corpus CLIQ, corpus de littérature québécoise, ainsi que les logos du CRIFUQ et du Fonds de données linguistiques du Québec.]

[L'intervention qui suit se déroule à La Livrerie, 1376, rue Ontario Est, Montréal.]

[Wim Remysen, professeur et responsable du Fonds, Université de Sherbrooke] :

Le corpus de littérature québécoise ou corpus CLIQ, c'est un corpus qui est composé de textes écrits par des autrices et des auteurs québécois, on a des textes qui remontent à la fin du XVIIIe siècle.

Pour l'essentiel, les textes commencent, je dirais à partir des années 1830 et ça va jusqu'à aujourd'hui.

Donc on couvre une période d'à peu près 200 ans avec ce corpus-là, alors évidemment, comme on couvre une période relativement large, on a des documents qui sont relativement anciens, parfois déjà numérisés, parfois non, parfois les numérisations qui existent sont de moins bonne qualité.

Donc ce travail de vérification prend énormément de temps parce que le respect du texte original, évidemment c'est un enjeu important pour nous.

On a dans le corpus CLIQ plusieurs genres littéraires différents donc on couvre vraiment une variété assez riche de textes, on a à la fois des textes qui sont plutôt du genre narratif donc romans, contes, nouvelles, récits de voyage aussi.

On a également un certain nombre de recueils de poésie, on a des pièces de théâtre qu'on a inclus dans le corpus.

Et puis on a aussi un certain nombre de textes du genre argumentatif donc des essais par exemple, même certains discours de politiciens ou encore des recueils d'articles journalistiques qu’on a décidé d'inclure dans le corpus.

Les corpus littéraires sont des corpus intéressants parce que souvent, on va considérer la langue qui est utilisée par des auteurs, par des autrices, comme étant une langue modèle.

Souvent les auteurs on va s'y référer comme des références en matière de norme. À preuve, dans les dictionnaires, on a très souvent des citations littéraires, et d'ailleurs, c'est aussi une utilisation qu'on fait du corpus CLIQ, puisqu'on se sert de ce corpus pour ajouter des citations littéraires dans le dictionnaire Usito, qui est élaboré à l'Université de Sherbrooke.

Dans des textes littéraires, on a beaucoup de liberté et donc on trouve aussi, mis à part des usages peut-être un peu plus standardisés, formels de la langue, on trouve bien plus que ça. On a plusieurs auteurs qui mettent aussi en scène des usages plus familiers, plus populaires, on peut vraiment jouer sur tous les registres.

On a essayé dans la mesure du possible, de privilégier des textes qui sont soit mentionnés dans les principales synthèses de l'histoire de la littérature québécoise ou encore des textes qui ont été primés. Donc des textes qui ont reçu des prix littéraires importants au Québec.

Alors évidemment, on veut aussi que la littérature contemporaine soit bien représentée dans le dictionnaire donc c'est très important pour nous d'actualiser le corpus constamment.

Description

Le corpus CLIQ, en chantier depuis 2020 et toujours en développement, permet d'interroger les principales œuvres littéraires québécoises parues depuis la fin du 18e siècle (et surtout depuis le début du 19e) jusqu'à nos jours. Par littérature québécoise, nous entendons des textes littéraires rédigés en français (nous excluons donc les œuvres traduites) par des autrices et auteurs résidant au Québec, incluant des Québécoises et Québécois d'origine étrangère. Nous accordons la priorité aux œuvres signalées dans les principales synthèses de l'histoire littéraire du Québec ainsi qu'aux œuvres primées par des prix littéraires.