Homepage | Rapcor

Le corpus RapCor est un corpus spécialisé de taille plutôt petite, orienté majoritairement sur la langue française. Il est développé au Département des Langues et Littératures romanes de la Faculté des Lettres de l’Université Masaryk de Brno, sous la direction d’Alena Podhorná-Polická (maître de conférences).

Il s’agit d’un corpus du français parlé, en l’occurrence du français des chansons de rap, qui a été conçu pour les objectifs d’une analyse socio-lexicale. Le caractère spécifique des textes de rap permet d’obtenir les informations complexes à propos du français substandard, notamment par rapport à la dynamique des innovations lexicales conditionnées générationnellement et ethno-socio-géographiquement. Il permet également de mieux comprendre le lien de la néologie avec la lexicographie française actuelle. Le corpus peut également servir aux chercheurs en poétique moderne ou en sociolinguistique (notamment en relation avec les banlieues multiethniques).

Introduction : Qu’est-ce qu’un corpus ?

Le mot corpus renvoie à un ensemble de textes analysés. Avec l’extension de la capacité des ordinateurs, son sens se restreint de plus en plus souvent vers le corpus électronique, c’est-à-dire un corpus de textes (éventuellement des transcriptions des enregistrements sonores) stockés et traités automatiquement par les ordinateurs afin d’être analysés par des outils d’analyse linguistique. Grâce à la facilité de recherche et de traitement des résultats, il est désormais possible d’obtenir des informations beaucoup plus complexes et des statistiques plus représentatives que jadis, à l’époque des classeurs papier.

Les corpus de langues électroniques ont vu le jour avec le développement de la technique computationnelle, dans les dernières décennies du 20e siècle. Aujourd’hui, la plupart des grandes langues du monde possède toute une gamme des petits ou plus grands corpus dont les plus étendus décrivent la totalité de la langue nationale et atteignent plusieurs centaines de millions de formes verbales. Par exemple, pour la langue tchèque, l’Institut du Corpus national tchèque, abrité par la Faculté des Lettres de l’Université Charles de Prague, crée de façon dynamique un corpus de la langue tchèque (Český Národní Korpus, abrégé en ČNK), un corpus qui comporte plusieurs sub-corpus écrits et oraux (voir www.korpus.cz). Pour la langue française, le plus grand corpus de textes, majoritairement littéraires, le Frantext (voir www.frantext.fr) a été créé à l’Université de Nancy. En outre, il existe plusieurs petits corpus dont mentionnons notamment les corpus du français parlé, par exemple l’ESLO (voir http://eslo.huma-num.fr/) ou bien le Clapi (voir http://clapi.ish-lyon.cnrs.fr/), entre autres.

Au sujet du Corpus RapCor

Le RapCor est créé depuis 2009 dans le cadre d’un projet postdoctoral, financé par l’agence Grantová agentura České republiky : L’expressivité dans l’argot des jeunes sur fond de problématiques autour de la quête de l’identité individuelle et groupale (GP405/09/P307). La collecte et la préparation primaire du matériel source se font en coopération avec des étudiants en langue française qui puisent les textes des chansons de rap choisies soit dans les transcriptions faites par des fans, disponibles sur Internet, soit (actuellement en priorité) directement dans les textes originaux sur les livrets des CD, s’ils y sont présentés.