Glossaire

Concordance

Liste des résultats d’une requête textuelle où les éléments recherchés sont affichés dans leur contexte.

 

Cooccurrence

Ensemble d'unités lexicales qui apparaissent fréquemment en combinaison dans un énoncé, et qui sont liées par un rapport de proximité syntaxique et de relative dépendance. Définition tirée d'Usito.

 

Corpus

Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire en vue de leur étude linguistique. Définition tirée d'Usito.

 

Document

Unité de base d’un corpus (qui se définit comme une collection de documents), par exemple une œuvre littéraire, une chanson, une bande dessinée, un article de journal, une fiche dialectologique ou encore une entrevue. Dans le cadre du Fonds, une distinction est faite entre le contenu textuel du document (transcription) et le contenu binaire (version numérisée de l’original : image ou enregistrement audio).

 

Joker (métacaractère)

Caractère qui permet de remplacer un ou plusieurs autres caractères dans une commande, une recherche ou une requête. Définition tirée du Grand dictionnaire terminologique.

 

Lemme

Forme canonique d’un mot variable (au masculin singulier pour les noms et les adjectifs, à l’infinitif pour les verbes). Définition tirée d'Usito.

 

Métadonnée

Donnée qui renseigne sur la nature de certaines autres données dans le but d'en faciliter la compréhension et la gestion. Définition tirée du Grand dictionnaire terminologique.

 

Mot

Dans le contexte de la plateforme FDLQ, mot n’est pas utilisé dans le sens d’« unité lexicale » qu’il prend en linguistique, mais plutôt comme synonyme de mot-forme (mot séparé par des espaces) ou encore de token. Les mots faisant partie du lexique d’un document ou d’un corpus correspondent ainsi à l’ensemble des tokens qu’on y trouve; suivant cette logique, pomme de terre correspond à trois tokens.

 

Occurrence

Apparition d'une unité linguistique dans le discours; par métonymie, cette unité. Définition tirée d'Usito.

 

Pivot (mot pivot, KWIC)

Dans une concordance, le mot (ou la suite de mots) choisi pour la recherche, accompagné de son contexte et mis en évidence typographiquement. L’acronyme KWIC signifie KeyWord In Context, littéralement « mot-clé dans son contexte ».

 

Token

Unité textuelle minimale qui résulte de la segmentation automatique du texte d’un document. Il peut s’agir de mots ou de formes de mots (bleuetière, jouaient, vingt-cinq, tire-bouchon, etc.), de chiffres (500.000, 1608, etc.) ou d’abréviations (2e « deuxième », M. « monsieur », av. « avant », etc.).

 

Dernière modification : 27 mai, 2025