Corpus
Signaler ce document
1Habeas corpus ! On est tenté de détourner le sens de cette formule et d’en faire une adresse au linguiste pour l’enjoindre à présenter ses données, tant il est vrai que le corpus joue un rôle de premier plan dans son travail quotidien. Pourtant la banalité et la fréquence d’emploi de ce terme dissimulent à peine des conceptions notablement diversifiées, en liaison avec lesdomaines d’étude et les approches spécifiques des uns et des autres. Nous nous proposons, pour notre part, d’illustrer, à partir d’expériences personnelles, quelques types de corpus en soulignant leur mode de constitution. Nous nous placerons successivement, en l’occurrence, dans la position du dialectologue et du lexicologue. Et nous essaierons, après quelques considérations d’ordre général, demettre en évidence, à propos de cette catégorie de corpus, la dialectique du terrain et de la théorie ou du donné et du construit.
1. Quelques rappels
2Au sens trivial – si sens trivial il y a –, tel, du moins, qu’il est recensé dans les dictionnaires d’usage courant, un corpus est un recueil de pièces ou de documents qui concernent une même matière, discipline ou doctrine. Mais cetteacception large et floue se spécifie dans ses usages et se spécialise dans certains secteurs de la connaissance. En droit, le corpus renvoie par ellipse, au corpus juris, c’est-à-dire au corps de droit romain tandis qu’en physique corpus n’est guère utilisé et corpuscule qui prend le sens de « particule », constituant discret de la matière n’apparaît guère comme son diminutif.
3Dans les sciences dulangage – cette définition apparaît dans les dictionnaires les plus récents – un corpus est un ensemble d’éléments sur lequel se fonde l’étude d’un phénomène linguistique. Le terme a pourtant conservé, en linguistique, un peu de son acception d’origine, d’où une certaine ambivalence. Corpus renvoie effectivement, en un premier sens, à une collection de textes présentant une certaine unité de genre oubien d’époque ; ainsi furent élaborés au XIXème siècle le Corpus inscriptionum graecarum et le Corpus inscriptionum latinarum. Corpus devient même un mot français à part entière dès lors qu’il ne s’inscrit plus dans un syntagme latin, et l’on parle de Corpus des Troubadours ou de Corpus des poètes de la Renaissance.
4Ce type de corpus n’est nullement l’apanage du linguiste : l’historien, lephilologue, le juriste entre autres travaillent de leur côté sur des objets analogues même si leur perspective heuristique se révèle sensiblement différente ou si les matériaux eux-mêmes sont différents. Robert mentionne prudemment « recueil de pièces », et de fait, ce corpus peut être constitué de textes certes, mais aussi de mots, de témoignages oraux (enregistrés ou transcrits), etc.
• 1 On segardera néanmoins d’accorder une importance excessive à des dichotomies qui ne sont qu(…)
5Il est relativement facile de recenser les principaux critères de classification des corpus. On peut distinguer ainsi, selon la nature des matériaux constitutifs, les corpus de textes et les corpus d’unités de langue (entendons par là des phrases, des mots, des phonèmes…). On gagne à dissocier égalementparmi ces derniers, compte tenu notamment des méthodologies induites et de la pesanteur des traditions, ceux qui relèvent de l’écrit et ceux qui relèvent de l’oralité. Une autre division est opérée entre les corpus conçus comme des échantillons représentatifs des faits linguistiques et ceux qui se veulent exhaustifs dans un champ donné. Sont à prendre en compte également le caractère clos ounon-clos d’une part, brut ou traité de l’autre, des data constitutives du corpus. Les combinaisons multiples de ces choix binaires1 engendrent évidemment, en définitive, une palette assez riche de corpus.
6Reste une distinction fondamentale sur laquelle on reviendra dans ce qui suit : le corpus est-il de l’ordre du donné ou du construit ? Et, question partiellement attachée à ce qui précède, la…