Présentation

Informations

Présentation et état de la base CLME

Caractéristiques principales

La base de données textuelle CLME (Catégorisation des langues minoritaires en Europe), également « base CLME » ou « base », rassemble et gère en interaction des extraits de texte qui contextualisent des notions catégorisant les langues minoritaires ou en situation minoritaire telles que « langue régionale », « minorité linguistique », « langue propre », « créole », « langue de migrants », etc. Le champ géographique concerné est au départ celui de l'Europe au sens large, y compris outre-mer. Cette base a résulté d'une collaboration entre linguistes du CNRS, de l'Université Bordeaux Montaigne (UMR 5478 Iker, CNRS-UBM-UPPA) et de l’Université Russe de l’Amitié des Peuples (RUDN University, Moscou), et juristes de l'Université de Bordeaux (Faculté de Droit).
La base CLME a été mise en place et développée dans le cadre des deux projets de recherche « Langues minoritaires et marges linguistiques en Europe » (Région Aquitaine / MSHA, 2009 - 2013) et « Typologie des langues minoritaires historiques en Europe (Région Aquitaine / MSHA, 2014 - 2019). Elle s'est inscrite dans la continuité d'activités de recherche et de publication de la MSHA (Maison des sciences de l'homme d'Aquitaine) dans le domaine des langues minoritaires. Depuis 2022, elle se présente comme une ressource pour l'axe de recherche « Territoires plurilingues/ multilingual spaces » de la nouvelle MSH de Bordeaux, UAR 2004 (Unité d’appui et de recherche CNRS-UBM-UB) qui a succédé à la MSHA. Elle prend place dans un contexte qui comprend également la collection « Diglossi@, Multilinguisme et langues en situation minoritaire » de cette UAR.
Les principes et le fonctionnement de la base de données ont procédé d'un travail collectif conçu et coordonné par Alain Viaut (CNRS, UMR 5478 Iker) et Antoine Pascaud (Université Bordeaux Montaigne, Iker), en collaboration avec Bruno Biguey (Service des systèmes d'informatique et du numérique, MSHA), dans le cadre des deux projets de recherche précités. Depuis 2022, Véronique Bertile (Faculté de droit de l’Université de Bordeaux, CERCCLE) en exerce désormais la responsabilité avec la collaboration d'A. Pascaud et A. Viaut. La MSHA en a assuré la gestion numérique avec son Service des Systèmes d'information et du numérique. Ce suivi informatique est assuré depuis 2022 par la Direction du Système d’information et du numérique de l'Université Bordeaux Montaigne aux termes d'un accord avec la MSH de Bordeaux. Cette base est un outil de recherche en Sciences du langage, principalement en Sociolinguistique, et en Droit sur les langues minoritaires, d'où des relations avec des équipes de recherche dans ces domaines (UMR 5478 Iker ; EA 739 DIPRALANG, Université Paul-Valéry Montpellier 3 ; Laboratoire « Dynamiques des langues en situation minoritaire », RUDN University, Moscou).
Conformément aux dispositions d'un protocole détaillé d'alimentation sous Word, les extraits (300 à 1500 caractères) proviennent de documents écrits et publiés sous forme papier ou numérique dont le contenu est à caractère linguistique ou juridique. Les corpora de ces données, après avoir été saisis sous Word, sont ensuite introduits dans la base une fois encodés selon un protocole qui a été élaboré au départ par A. Pascaud et S. Platon (Faculté de Droit de l’Université de Bordeaux, CRDEI).
La langue de travail de la base CLME est le français. Les données traduites d'autres langues vers le français sont accessibles et interactives à partir du français et des différentes sources linguistiques des extraits. Les données en russe sont présentées à l'aide de l'alphabet cyrillique et les notions catégorisantes qu'elles comportent le sont également au moyen de la translittération ISO 9. Les correspondances terminologiques entre notions exprimées dans les différentes langues des extraits sont de suite accessibles en effectuant des recherches sur la base. Sont ainsi proposés en accès libre des extraits en français et en russe principalement. Viennent ensuite des corpora en allemand, anglais, basque, catalan, espagnol, italien. D'autres extraits et d'autres langues sont toujours susceptibles de continuer à alimenter la base. Ces différentes données peuvent en outre être copiées sous Word.
Depuis 2022, la Base CLME, désormais liée à l'UAR 2004 MSH de Bordeaux, est hébergée par la DSIN (Direction du système d'information et du numérique de l’Université Bordeaux Montaigne), elle est librement accessible à partir de l’adresse https://baseclme.u-bordeaux-montaigne.fr et cette URL est la seule valable.

Maintenance et développement de la Base CLME

La maintenance technique de la base est assurée par le service informatique de l’UBM. L'encodage des corpora est coordonné par V. Bertile, avec la collaboration d’A. Viaut et d’A. Pascaud.
La base comprend à ce jour un total de 1702 extraits, répartis en deux ensembles d'extraits à caractère linguistique et à caractère juridique. Les données actuellement disponibles en 9 langues se répartissent come suit :

	nombre d'extraits	linguistique	juridique
français	589	370	219
allemand	6	6	0
anglais	136	136	0
basque	157	150	7
catalan	27	27	0
espagnol	89	89	0
italien	81	81	0
russe	614	483	131
serbe	3	1	2
total	1702	1343	359

Coordination

Véronique Bertile coordinatrice de la base ;
Antoine Pascaud et Alain Viaut, collaborateurs.

Gestion, tout contact

Courriel : Suivi scientifique et général
Courriel : Suivi informatique

Mise à jour : (July 2025)