1. MATÉRIEL LINGUISTIQUE ET RECENSEMENT DES TERMES

Le but de ce chapitre est de décrire le matériel linguistique qui sera analysé dans les chapitres suivants ainsi que d'exposer les méthodes élaborées au cours de la création des banques de données et des listes des termes. Pour démontrer en quoi ma recherche est différente des autres études lexicologiques, ainsi que pour exposer certains concepts hérités d'autres travaux, je commencerai le chapitre par retracer une présentation des études précédentes qui ont joué un rôle dans le développement de ma thèse.

1.0. Introduction : études précédentes des vocabulaires spécialisés

La plupart des recherches consacrées à l'étude des vocabulaires spécialisés (banalisés ou non) ont été effectuées pendant la deuxième moitié du vingtième siècle et exploitaient la forme écrite du langage étudié. Je ne me pencherai ici que sur des études du lexique vestimentaire et des recherches de lexicologie descriptive qui sont importantes pour ma présente recherche du point de vue de la méthodologie.

Dans la première partie de ce chapitre, je présenterai trois grandes études du lexique vestimentaire français, celles d'Algirdas Julien Greimas (1948, édition de 2000), de Roland Barthes (1967), et de Marie-Thérèse Duflos-Priot, Philippe Richard et Patrice Bekus du Musée national des arts et traditions populaires (1988). J'y ajouterai une brève description du travail de Cleland (2005) qui est le plus récent dans le domaine mais étudie des descriptions vestimentaires du grec attique et non du français moderne. En ce qui concerne les travaux lexicologiques qui sont importants du point de vue de la méthodologie, comme ceux de Wexler (1955), de Galisson (1978), de Lyne (1985), de Boswell (1982), ils ne seront retracés que très brièvement. Les concepts que j'ai empruntés à ces travaux seront expliqués là où ils sont employés dans ma recherche. Ci-dessous, je rassemble les points principaux de tous ces travaux sous forme de tableau, et plus bas, je les retrace avec plus de précision. Au dernier rang du tableau, je caractérise ma propre thèse selon les mêmes points pour particulariser sa place parmi les recherches du domaine.

1.0.1. Études précédentes des vocabulaires vestimentaires

Chaque étude vestimentaire est décrite ci-dessous avec une attention particulière à trois points principaux : le corpus et le système de références, le but de la recherche et les concepts importants du point de vue du développement de ma thèse.

1.0.1.1. Greimas et son étude de la mode en 1830

Dans sa thèse de doctorat écrite en 1948, Algirdas Greimas a fait une étude détaillée des termes vestimentaires du dix-neuvième siècle. Sa thèse « La mode en 1830. Essai de description du vocabulaire vestimentaire d'après les journaux de mode de l'époque » représentait, en effet, une description très complète de la mode de la Restauration : une centaine de pages est consacrée à l'explication des particularités du sens des termes groupés selon leur appartenance à la toilette masculine ou féminine, aux coiffures, aux matières de confection ou aux soins de corps. Cependant les renseignements utiles pour ma recherche sont concentrés dans les dix pages de conclusion où Greimas parle des particularités linguistiques du vocabulaire vestimentaire étudié. [1]

Corpus, système de références :
Greimas examine les termes extraits des sources écrites, principalement des journaux de mode qui représentent « une coupure plus ou moins étroite dans le temps » (Greimas 2000 : 6) des années 1824-1925 jusqu'à 1830. Chaque terme vestimentaire est mis en italique et doté d'une note documentant son recensement (e.g. JDM, 5 juillet 1829, 290). Pour mieux comprendre le sens des termes relevés dans les journaux, Greimas a dû se servir des manuels de diverses techniques, des ouvrages littéraires (le Traité de la vie élégante de Balzac 1830), et des notes explicatives des gravures de l'époque. [2]

Le but de la recherche :
Greimas cherchait à réaliser une « description statique d'un état de langue donné » (Greimas 2000 : 7). Pour cela il s'est fixé deux objectifs : « constituer une documentation suffisante sur un vocabulaire déterminé et à une époque donnée, en vue de comparaisons ultérieures avec des états antérieurs et postérieurs du même vocabulaire, et ensuite, faire ressortir les traits les plus caractéristiques de ce vocabulaire de manière à aider à la compréhension des faits de langue similaires » (Greimas 2000 : 8). [3]

Concepts importants :
Greimas a anticipé la notion de banalisation en parlant des « intergroupes sociaux » qui peuvent utiliser le vocabulaire placé « à mi-chemin entre la langue commune et plusieurs langues de groupes professionnels » (Greimas 2000 : 5). Greimas (2000 : 6) mentionne aussi la possibilité que ces intergroupes puissent jouer un rôle dans la formation des néologismes et dans la diffusion des termes techniques. Broden décrit la « charpente globale » de la thèse de Greimas comme organisée « sous la forme d'un plan rationnel arboriforme implicite » (Broden 2000 : XXXIX).

L'idée d'un plan rationnel arboriforme même si il n'était qu'implicite chez Greimas, confirme pour moi la possibilité d'étude de la terminologie vestimentaire de ce point de vue. Je créerai un système arboriforme explicite pour étudier les particularités linguistiques de mon corpus.

1.0.1.2. Barthes et son système de la mode

L'objet de la recherche de Barthes est « l'analyse structurale du vêtement féminin tel qu'il est aujourd'hui décrit par les journaux de Mode » (Barthes 1967 : 7). Du point de vue de la méthode, il s'agit d'un projet plutôt sémiologique : malgré le fait que Barthes ait décidé de se limiter à l'étude du « vêtement écrit » (et non du « vêtement réel » ou « vêtement-image »), cette partie du langage de la Mode n'est pas étudiée « du point de vue de la langue, mais seulement du point de vue de la structure du vêtement qu'elle vise » (Barthes 1967 : 7). En d'autres termes, ce n'est pas « une partie d'un sous-code du français » qui fait l'objet de l'analyse de Barthes mais « le sur-code imposé au vêtement réel par les mots » (Barthes 1967 : 7). [4]

Corpus, système de références :
Le corpus de Barthes a été constitué des journaux de mode d'une année (1958-59, de juin à juin). Barthes a dépouillé de façon exhaustive deux journaux Elle et le Jardin des Modes « sans s'interdire de puiser dans d'autres publications » (Barthes 1967 : 21) et sans retenir « ni le maquillage ni la chevelure » pour ne pas alourdir « l'inventaire du vêtement proprement dit » (Barthes 1967 : 22). Les listes et le système de référence de Barthes sont commentés dans le chapitre 2. [5]

Le but de la recherche :
Il n'y a pas de rubrique « but » dans le livre de Barthes. D'après le titre du livre, l'avant-propos, le contenu et la conclusion, il est pourtant possible de déduire que son but principal était d'étudier la Mode comme système sémiotique : de découvrir sa structure interne qui « obéit à des contraintes universelles, qui sont celles de tout système de signes » (Barthes 1967 : 10), ainsi que ses relations avec d'autres systèmes, comme le système rhétorique, par exemple. Cependant, il paraît que, avant tout, le but de Barthes était de proposer une méthode pour ce genre d'étude. [6]

Concepts importants :
Barthes distingue trois structures différentes : celle du « vêtement réel », celle du « vêtement-image » et celle du « vêtement écrit » et introduit une notion de shifters qui effectuent des translations entre ces trois structures. D'après Barthes, les shifters suivants font les translations suivantes :
- du réel à l'image (du substrat technique à une apparence) - le patron de couture ;
- du réel à l'écrit (de la technique à sa description) - la recette (le programme) de couture ;
- de l'image à l'écrit (de la structure iconique à sa description) - « les anaphoriques de la langue, donnés soit sous le degré plein (« ce » tailleur, « la » robe en shetland), soit sous le degré zéro (rose piquée dans la ceinture) » (Barthes 1967 : 16-17).

Ce que je considère important pour ma recherche, c'est la différence entre deux possibilités de description de vêtement : une description complète basée sur la réalité technique et une description elliptique basée sur l'apparence. Si j'essaie de représenter l'interaction des trois structures de Barthes et si je représente les structures comme des têtes de triangle et leurs trois shifters comme des flèches qui les rejoignent en montrant la direction de translation, je devrai distinguer deux types de « vêtement écrit » :

Cette représentation montre clairement que l'objet de mon étude est le vêtement écrit 2 et que deux types de vêtement écrit sont des projections verbales des structures différentes qui utilisent des shifters différents. Cependant, cela ne veut pas dire qu'il n'y a pas de relation entre le vêtement réel et le vêtement écrit 2. Au contraire, le triangle ci-dessus montre que le vêtement réel est aussi reflété par le vêtement écrit 2 mais à travers le vêtement-image, ce qui devient plus évident si je réarrange une partie du dessin : Une des tâches de mon travail sera d'investiguer le degré de réflexion de la réalité vestimentaire (Vêtement réel) dans les dénominations (Vêtement écrit 2) des items représentés (Vêtement-image) dans les catalogues.

D'après Barthes, qui a choisi pour son étude du système de la mode le vêtement écrit (et je peux maintenant préciser : le vêtement écrit 2), le vêtement réel est embarrassé de « finalités pratiques (protection, pudeur, parure) », le vêtement-image de « sa plastique » et « seul le vêtement écrit n'a aucune fonction pratique ni esthétique : il est tout entier constitué en vue d'une signification […] l'être du vêtement écrit est tout entier dans son sens » (Barthes 1967 : 18). Si le sens du vêtement écrit a permis à Barthes d'étudier le système de la mode, il doit m'aider à étudier le phénomène de dénomination.

1.0.1.3. Système descriptif du costume traditionnel

Le travail d'élaboration du système descriptif du costume traditionnel a été inspiré par un projet (1977) mené par le Musée national des arts et traditions populaires. Ce projet a systématisé quatorze mille objets domestiques conservés au musée en forme de base de donnée interrogeable. Le système descriptif du costume est, en fait, un système descriptif des vêtements au sens de « pièces de costumes » où chaque vêtement est classifié selon ses aspects matériels et culturels et doté d'informations muséographiques.

En bref, le système représente deux typologies (des vêtements et des couvre-chefs) dont chacune inclut un diagramme de description et un lexique raisonné, ainsi que quatre lexiques raisonnés et alphabétiques de quatre types de caractéristiques des vêtements et couvre-chefs. [7]

Corpus, système de références :
Le corpus de cette recherche englobait toutes les pièces vestimentaires du Musée, leurs noms, et les mots nécessaires pour leur description typologique.

Le but de la recherche :
Le but de la recherche du Musée était plutôt pratique : la création du système descriptif visait à l'informatisation des collections vestimentaires du musée.

Concepts importants :
Pour la construction du diagramme de description des pièces du costume, l'équipe de Duflos-Priot a établi des critères obligatoires basés sur le rapport du vêtement avec le corps. Les lexiques raisonnés pour chaque grande classe d'habillement (dont une est « vêtements-proprement-dits ») résultent des structures arborescentes créées selon ces critères. Les lexiques alphabétiques procurent des descriptions précises et unifiées des items listés.

Ce travail a confirmé la possibilité de création d'une structure arborescente pour la terminologie vestimentaire et fourni quelques critères importants pour la conceptualisation des notions relatives à l'habillement contemporain. De plus, ma notion des vêtements-proprement-dits est basée sur les données de ce Système descriptif : elle n'inclut que les vêtements-d'extérieur, les vêtements-d'extérieur-et-d'intérieur et les vêtements-d'intérieur sans inclure les sous-vêtements, les plastique-du-corps, le chaussage, la ganterie ou les supports-attaches-liens (Duflos-Priot 1988 : 41).

1.0.1.4. Cleland et son étude des catalogues Brauron

Le travail de Liza Cleland (2005) est la seule recherche contemporaine qui étudie le côté linguistique du domaine vestimentaire. La plupart des travaux récents consacrés au vêtement se concentrent surtout sur la fonction du vêtement dans le texte littéraire ou dans la vie sociale. Par exemple, Marzel (2005) étudie le vêtement dans le roman français du dix-neuvième siècle, Batchelor (2005) travaille sur le vêtement dans la littérature du dix-huitième, Monneyron (2001, a et b) parle des approches sémiologique, sociologique, psychanalytique, et, finalement, littéraire aussi.

Cleland qui s'intéressait initialement à l'étude du vêtement grec ancien a dû « décoder » les sections vestimentaires (IG II2 1514-1530) des catalogues vestimentaires Brauron. Ces catalogues fragmentaires, inventaires de trésoriers, paraissaient tellement complexes et inaccessibles et, en même temps, tellement importants, qu'ils méritaient une étude spécialisée.

Corpus, système de références :
Les descriptions des vêtements des catalogues Brauron représentent le corpus de l'étude de Cleland. Ces descriptions sont organisées sous formes de tableaux, traduites dans l'appendice des traductions, expliquées dans le glossaire assez complet (90 entrées environ) mais pas exhaustif : l'explication de tous les items des catalogues demandera des années supplémentaires de recherche.

Le but de la recherche :
Le but principal était de rendre les catalogues plus accessibles pour toutes sortes de recherche. Pour atteindre ce but le travail comprend trois directions :
- édition compréhensive des sections vestimentaires 
- analyse des descriptions des vêtements ;
- création du glossaire des termes vestimentaires des catalogues.

Concepts importants :
En analysant les données des catalogues, Cleland les organise sous forme de tableaux (tableau 5 : 1, Cleland 2005 : 84-90) qui procurent une colonne séparée pour chaque caractéristique de vêtement : type, décoration, couleur, couleur de décoration, matériel, forme. Bien que les caractéristiques ne soient pas les mêmes pour les vêtements de nos jours, l'approche de Cleland et son interprétation des données confirme que les caractéristiques qui ne sont pas spécifiées représentent des traits non-marqués ou prototypiques.

J'ai découvert l'étude de Cleland, publiée en 2005, au moment ou ma propre recherche était presque terminée. Cependant, je considère cette étude importante parce qu'elle a confirmé certains points méthodologiques et logiques de ma démarche. Le concept de caractéristique principale de Cleland (Cleland 2005 : 63) soutient l'idée de ce concept dans mon étude de la place de traits terminogéniques dans le chapitre 3.

1.0.2. Autres études de vocabulaires spécialisés

Il faut avouer que les études des vocabulaires vestimentaires décrites ci-dessus n'étaient pas profitables du point de vue de la méthode de constitution du corpus. Greimas mentionne seulement que son étude de « La mode en 1830 » est basée sur les journaux de mode des années 1824-1830. Barthes précise qu'il n'a dépouillé que deux journaux (Elle et le Jardin des Modes) d'une façon exhaustive sans s'interdire de puiser dans d'autres publications, en ajoutant que ce qui importe par rapport à son projet sémiotique c'est de « constituer un corpus raisonnablement saturé de toutes les différences possibles de signes vestimentaires », puisque son objectif est « de distinguer des unités, non de les compter » (Barthes 1967 : 21). Les corpus de Duflos-Priot, collection des costumes du Musée des arts et traditions populaires, et le corpus de Cleland, textes des catalogues Brauron, étaient délimités par des considérations extralinguistiques.

D'autres lexicologues ne mentionnent que les sources de leur matériel linguistique sans décrire ni leurs raisons pour le choix de ces sources ni leurs méthodes d'extraction des vocables, mais ils offrent occasionnellement des conseils importants pour la constitution du corpus. Ci-dessous, je parlerai des idées qui ont influencé mon approche de la constitution du corpus.

1.0.2.1. Wexler et la formation du vocabulaire du chemin de fer

Wexler, par exemple, n'a pas décrit sa méthode de dépouillement ou de constitution de son corpus pour l'investigation du « vocabulaire du chemin de fer » mais il a fait une remarque importante concernant la méthode de travail sur le vocabulaire spécialisé en général : son étude ne part pas « des mots individuels mais d'une situation » (Wexler 1955 : 9) Il oppose sa méthode de travail aux « théories classificatoires » qui prennent « pour le point de départ le mot moderne, la réussite enregistrée par les dictionnaires » (Wexler 1955 : 9) sans faire attention aux noms « concurrents » existant à l'époque de la dénomination.

Puisque le but du travail de Wexler - « étudier au microscope l'acte de dénomination d'un objet nouveau » - coïncide avec le but de ma recherche, j'ai adopté son principe d'enregistrement de tous les noms concurrents à ma méthode de recensement des termes. Cependant Wexler a fait une recherche historique diachronique tandis que ma recherche est synchronique : j'étudie l'acte de dénomination des vêtements d'aujourd'hui à l'aide du matériel linguistique d'aujourd'hui. Cela veut dire que je dois prendre en considération toutes les dénominations coexistantes pour chaque item dans les catalogues dépouillés. C'est après avoir étudié le travail de Wexler que j'ai décidé d'inclure tous les noms de vêtements sans exception au lieu de « piquer » les termes les plus « intéressants » sur les pages des catalogues.

L'« Index des mots » de Wexler (Wexler 1955 : 133-137) contient non seulement des mots isolés mais aussi des groupes de mots, par exemple pour « la locomotive » on trouve les groupes de mots suivants :

Chez Wexler ces groupes de mots ne sont pas vraiment considérés comme des items lexicaux mais comme des « noms concurrents » du nom enregistré par les dictionnaires. Il semble que dans la linguistique de corpus, on a commencé à considérer une possibilité d'inclure une collocation dans la notion d'item lexical à partir du projet « English lexical studies » effectué dans les années soixante sous la direction de John Sinclair (Sinclair, Jones, Daley 2004).

1.0.2.2. Galisson et le vocabulaire banalisé du football

Galisson (1978), qui caractérise son approche comme lexicologie descriptive, étudie le phénomène de la banalisation lexicale sur l'exemple du vocabulaire footballistique.

C'est la recherche de Galisson qui a fourni le concept de banalisation lexicale et procuré les principes de constitution d'un corpus convenable pour une étude des règles de dénomination. Cependant, puisque le corpus de Galisson était extrait de la presse écrite tandis que mon corpus est tiré des catalogues électroniques, j'ai dû considérablement changer la partie pratique de la méthode de constitution de corpus que je décris dans 1.3.

La nature des listes résultant du corpus de Galisson est aussi différente en comparaison avec les listes qui sont créées à partir de mon corpus électronique pour trois raisons. Premièrement, mes listes ont été créées par un logiciel de traitement automatique de texte et non par attribution des mots aux listes différentes au cours de la lecture du texte. Deuxièmement, mon corpus était plus homogène que le corpus de Galisson : dans le cas des catalogues il ne s'agit que des noms des objets, ce qui veut dire que les listes séparées, comme chez Galisson, des substantifs, des verbes et des adjectifs ne sont pas nécessaires. Troisièmement, le but de l'étude de Galisson diffère beaucoup du but de mon étude : Galisson étudiait le phénomène de la banalisation et pour cela il a dû faire la répartition des mots relevés en trois index, banalisé, technique et argotique ; dans le cas des catalogues de vente je considère tous les termes recueillis comme banalisés et j'étudie le processus de dénomination à l'intérieur de ce langage banalisé.

Même si je ne pouvais pas m'empêcher de parcourir la page web que j'étais en train de copier, ma lecture n'influençait pas le recensement : tous les termes sans exception se trouvaient copiés dans les banques de données. En fait, à cette étape il ne s'agissait pas de recensement proprement dit mais de collecte non sélective. Cependant, à cette étape, j'ai créé (sans en avoir l'intention initialement) un autre type de corpus, que j'appellerai « échantillon de référence ou de référence » : je copiais l'image et le nom du vêtement dans un fichier PPT chaque fois que je rencontrais un terme dont le sens n'était pas absolument clair en soi ou en comparaison avec un terme synonymique.

1.0.2.3. Boswell et la conversion dans le vocabulaire sportif

Le but du travail de Boswell (1982), l'étude de la productivité de la conversion sur l'exemple du vocabulaire sportif français, est très proche de mon but de l'étude de la dénomination. Malgré le fait que dans ce travail Boswell se concentre sur un seul procédé de dénomination, il doit investiguer les autres procédés pour pouvoir comparer la productivité de la conversion à celle des autres moyens de dénomination. Il faut dire que les termes linguistiques nommant les moyens de dénomination varient souvent selon le chercheur.

Puisque le contexte du travail de Boswell est très proche du contexte de mon travail, j'ai adapté sa terminologie de dénomination (en 0.1.). La recherche de Boswell m'a aussi montré l'importance de liste des exemples de différents types de dénomination, ainsi que la possibilité de comparer la productivité des moyens de dénomination différents par simple comparaison de la quantité des exemples recueillis.

1.0.2.4. Lyne et le vocabulaire de la correspondance commerciale

Dans la recherche sociolinguistique de Lyne (1985), l'analyse quantitative joue un grand rôle puisque le but de son travail est la description du langage de la correspondance commerciale et de ses items fréquents. Ce travail m'a présenté non seulement les possibilités de l'analyse quantitative, mais aussi l'importance de la représentativité thématique du corpus dans le cas de travail avec les fréquences.

L'idée de choisir consciemment les lettres d'affaire selon leur type (commande, plainte etc.) pour que tous les types principaux soient représentés dans le corpus, m'a paru très importante. Dans le cas du corpus vestimentaire, j'ai fait une recherche basée sur les tables des matières des catalogues pour choisir des types de vêtements principaux et pour faire attention à leur représentativité dans les données copiées de chaque catalogue.

1.1. Matériel linguistique de la recherche

Par matériel linguistique j'entends tous les vocables et les groupes de mots recensés dans le corpus. En fait, il s'agit plutôt de la collection des noms des vêtements.

1.1.1. Limitations du matériel linguistique de la recherche

Le matériel linguistique est limité par la forme, le contenu et le type de langage. La forme est électronique, ce qui veut dire que les termes étudiés sont extraits de l'Internet. Le choix du matériel linguistique est aussi limité par le contenu ou le sens des termes : les termes inclus dans la recherche ne décrivent que des vêtements courants de nos jours, et donc, les habillements professionnels ou spécifiques comme « vêtements de grossesse » ou « vêtement de bébé » sont exclus de la recherche. Les modèles de la Haute Couture ne sont pas considérés comme vêtements ordinaires non plus. En ce qui concerne le type de langage, les termes étudiés appartiennent au langage dit « banalisé » et non pas au langage des professionnels de l'industrie de la mode.

1.1.2. Terminologie « banalisée »

Pour formuler la notion de terminologie « banalisée », j'utiliserai le concept de langage « banalisé » proposé par Robert Galisson. Galisson entend par langage « banalisé » « un langage second, greffé sur un langage « technique » (ou scientifique, professionnel, spécialisé), pour assurer une diffusion plus large aux informations relevant du domaine d'expérience couvert par le langage technique en question. » (Galisson 1978 : 9) J'entendrai, pour ma part, par terminologie « banalisée » une terminologie « greffée » sur une terminologie spécialisée de professionnels et constituant une base linguistique du langage qui sert à assurer une diffusion plus large des informations du domaine d'expérience couvert par la terminologie technique.

1.1.3. Terminologie « banalisée » de la mode

La terminologie vestimentaire des catalogues de vente en ligne est, en fait, une nomenclature qui ne contient que des noms de produits tandis que le langage « banalisé » comprendrait des verbes et d'autres parties du discours nécessaires à la communication dans le domaine d'expérience. C'est surtout le caractère dénominatif de la terminologie des catalogues qui la distingue du langage dans lequel elle est utilisée. Les verbes et les locutions verbales qui sont utilisés dans les catalogues de vente en ligne, comme « rechercher (un produit) » ou « ajouter à mon panier », sont plus ou moins les mêmes pour n'importe quel domaine de spécialisation et sont laissés hors de la présente recherche.

La terminologie-nomenclature de la mode vestimentaire peut être représentée comme un signe complexe dont le signifié est le système des notions du domaine de la mode et dont le signifiant est l'inventaire linguistique décrivant ce domaine. Si cet inventaire linguistique est technique, on parle de terminologie spécialisée de la mode, qui est à la base du langage technique utilisé par des spécialistes - créateurs de la mode ou d'articles vestimentaires. Si cet inventaire est banalisé, on parle de terminologie vestimentaire banalisée qui sert de base au langage banalisé utilisé par les journalistes qui décrivent le monde de la mode et qui en font la publicité, aussi bien que par des vendeurs et des consommateurs d'articles vestimentaires.

1.2. Sources de la terminologie vestimentaire banalisée

La presse de la mode, la publicité et d'autres outils de vente constituent donc les sources possibles de matériel linguistique convenable pour la recherche en terminologie vestimentaire banalisée. Cependant, puisque la plupart des chercheurs qui travaillent sur corpus spécialisés préfèrent travailler avec les sources « concentrées », une de mes tâches a été de trouver des sources dans lesquelles la concentration de termes vestimentaires banalisés soit la plus grande possible.

1.2.1. Formes des langages de la mode

La forme des deux langages de la mode - technique et banalisé - peut être orale ou écrite. Il est difficile d'attribuer à chacun de ces langages une forme typique comme Galisson l'a fait pour les langages du football. Le langage technique est utilisé dans le travail des professionnels de la mode sous sa forme orale, mais aussi dans de nombreux manuels de couture et dans la documentation technique des sociétés fabricantes sous sa forme écrite. Le langage banalisé est représenté dans les catalogues, dans les revues de mode, sur les enseignes et les étiquettes sous sa forme écrite, mais aussi à la télévision, à la radio, dans les commentaires des défilés, et dans les conversations des vendeurs et des consommateurs sous sa forme orale.

La forme « électronique » semble être propre surtout au langage banalisé. Cette forme se rapproche le plus de la forme écrite quand il s'agit de catalogues ou d'articles en ligne. Cependant, elle a des traits en commun avec la forme orale quand il s'agit de groupes de discussion et d'annonces privées où l'expression semble être assez spontanée et peu normalisée.

Cette dernière forme du langage banalisé de la mode représente le plus d'intérêt pour la présente recherche pour deux raisons principales : pratique et conceptuelle. Du point de vue pratique, les sources électroniques sont plus accessibles, plus faciles à traiter et elles manifestent moins de retardement que les sources imprimées. Du point de vue conceptuel pour une recherche linguistique, le langage moins normalisé et plus spontané que le langage écrit doit offrir plus de possibilités pour l'étude du fonctionnement et du développement des termes.

1.2.1.1. Sources électroniques des termes vestimentaires

Puisque la forme électronique du langage vestimentaire offre du matériel linguistique plus « vivant » ou au moins plus changeant et plus récent que la forme imprimée j'ai décidé de choisir l'Internet comme source unique pour la création de la liste des termes vestimentaires à étudier.

Pour évaluer la possibilité de constituer la liste de termes extraits des sources électroniques uniquement, une recherche préliminaire a été effectuée. Pour cette recherche expérimentale un seul domaine de la mode vestimentaire, celui de la chaussure, a été choisi, la liste des noms de chaussures a été créée et, ensuite, comparée à la liste de termes constituée à partir de catalogues imprimés. Cette tentative de création d'une liste exhaustive des termes entreprise sur l'exemple du domaine de la chaussure a confirmé la grande utilité de l'Internet pour une recherche en terminologie banalisée. La commercialisation des réseaux a rendu un grand service pour la présente recherche : les catalogues de vente en ligne se sont avérés comme des sources concentrées sur les descriptions des chaussures et, comme telles, ont formé le matériel le plus représentatif et le plus commode à exploiter.

L'apport de l'Internet s'est trouvé précieux pour des raisons qui avaient été évidentes dès le début de cette expérience - les données les plus récentes, la possibilité d'interroger des sources de nature diverse en même temps - mais aussi à cause des trouvailles inattendues faites « chemin faisant ». Ces trouvailles ont conduit à la création de corpus complémentaires qui seront utiles pour la présente recherche ainsi que pour son développement dans le futur.

Du point de vue technique, le travail de création de la liste des termes est apparu facile et fascinant grâce aux moteurs de recherche et au logiciel de traitement automatique de textes TACT (cf. 1.4). Les moteurs proposent des réponses abondantes aux questions posées et permettent un accès immédiat aux sources procurant le matériel sous sa forme électronique, ce qui permettait de le copier directement dans le fichier du journal de travail. Ce fichier est facile à traiter par TACT, qui effectue un tri du matériel copié en vrac et le présente sous forme de listes commodes à manier.

1.2.1.2. Question d'exhaustivité de la liste « électronique »

Deux ans de recensement des termes vestimentaires ont montré qu'on ne peut pas parler de l'exhaustivité de la liste des termes extraits de l'Internet. Le travail avec le corpus vestimentaire plus large que celui de la recherche préliminaire a prouvé que pendant le temps nécessaire à créer des échantillons de base et de saturation et à les traiter, le contenu des sites choisis change considérablement. En travaillant avec une terminologie tellement changeante on ne peut pas espérer obtenir une liste plus ou moins exhaustive des « termes électroniques » même pour une période de temps limitée.

D'autre part, au cours de la recherche expérimentale dans le domaine de la chaussure, la comparaison des données extraites des sources électroniques avec les données des sources textuelles a prouvé une exhaustivité relative des « listes électroniques » comparées aux « listes imprimées ». Non seulement le dépouillement des catalogues imprimés de Palais de la Chaussure, Quelle et La Redoute n'a rien ajouté à la liste reçue des sources électroniques mais la liste des « termes imprimés » s'est affirmée plus pauvre et plus traditionnelle. Les catalogues imprimés donnent l'impression d'être plus soignés en comparaison avec leurs équivalents électroniques. Toutefois, une certaine nonchalance orthographique ou grammaticale des sources électroniques peut être profitable pour une recherche lexicologique : elle met en relief toutes les nouveautés en démontrant l'oscillation de la forme des termes non-lexicalisés. De plus, les auteurs français des catalogues en-ligne semblent être beaucoup moins puristes que ceux des catalogues imprimés et ils utilisent plus d'emprunts, ce qui reflète mieux, peut-on penser, l'état actuel de la langue.

La prise en compte des deux tendances décrites ci-dessus me permet de baser la recherche sur la liste des termes extraits des sources électroniques. Même sans prétendre à être exhaustive, cette liste étant plus complète, plus riche et plus récente que la liste des « termes imprimés », elle sera suffisante pour réaliser une recherche sur le fonctionnement et le développement de la terminologie vestimentaire contemporaine.

1.2.2. Exhaustivité et échantillonnage

Le corpus exhaustif électronique pour l'étude de la terminologie vestimentaire française devrait être représenté par tous les sites sur lesquels des termes français désignant des vêtements sont mentionnés. Un tel corpus exhaustif ne semble pas possible à examiner à cause de son énormité. Par exemple, le 10 août 2003 le moteur de recherche Google a trouvé 396 000 pages où le mot « veste » était mentionné (4 330 000 pages francophones le 21 août 2006). La tentative de limiter la quantité des résultats par le placement du mot « veste » dans le contexte de la mode vestimentaire n'a pas abouti à des chiffres plus rassurants. Pour les mots « veste » et « vêtement » recherchés ensemble, Google découvre 12 700 mentions (2 330 000 en 2006), pour les trois « veste + vêtement + mode » il en propose 5 100 (1 370 000 en 2006).

L'abondance des données électroniques impose la constitution d'un corpus-échantillon. Pour son analyse des données de la presse écrite, Galisson a créé un corpus d'échantillon qui était composé de deux parties : corpus échantillon de base et corpus échantillon de saturation. J'ai décidé de procéder de la même façon pour m'assurer d'un échantillon représentatif.

1.2.3. Aspects qualitatifs du choix de sources

Pour constituer l'échantillon de base, il m'a fallu trouver des sources capables de fournir des informations concentrées sur le domaine étudié. De telles sources devaient être consacrées entièrement aux vêtements et les traiter dans le contexte de la mode vestimentaire. Tous les sites francophones ayant ces qualités et étant facilement accessibles pouvaient être choisis pour constituer l'échantillon de base.

En exploitant des méthodes de recherche différentes j'ai trouvé plusieurs sites de qualité appropriée pour l'échantillon de base : des revues de modes en ligne, des sites de magasins de vêtements, des catalogues de vente en ligne. Cependant, j'ai dû reconnaître que, comme pour les chaussures, les catalogues de vente en ligne représentaient sûrement le corpus le plus concentré qui couvre le mieux le domaine de la mode vestimentaire au niveau banalisé : ils ne donnent que des informations qui sont en rapport direct avec les vêtements. En effet, des pages entières de ces catalogues ne contiennent que des noms de vêtements accompagnés d'images.

La première observation des catalogues a révélé un problème important pour des recherches terminologiques dans le domaine de la mode - le caractère saisonnier des informations figurant en ligne à un moment donné. Logiquement, si on fait une interrogation du Net au mois d'avril, on ne découvre que des versions « printemps - été ». Il est évident que pour équilibrer les données des recherches lexicologiques dans les domaines qui dépendent des saisons il faut entreprendre des recherches sur le Net autant de fois que nécessaire. Pour le domaine de la mode il existe deux saisons principales où de nouvelles collections sont créées, présentées et vendues : printemps et automne. Conséquemment, il semble nécessaire de recueillir les données deux fois par an pour englober les termes des deux collections existantes : « Printemps - Été » et « Automne - Hiver ».

Contrairement à cette logique et à l'existence de deux saisons pour les collections de la mode, il est apparu que la réalité des ventes en ligne est assez différente : la plupart des catalogues vendent tous les types de vêtements pendant toute l'année. Ce qui veut dire qu'en plein hiver, on peut acheter en ligne toutes sortes de vêtements d'été, ou, dans le cas de recherche terminologique, recueillir leurs noms. En fait, les mots « Collection Automne - Hiver 2006 » n'annoncent que la date de la création des modèles de vêtements en vente, ils ne correspondent pas aux vêtements normalement portés pendant cette saison. Cela veut dire que pour avoir un échantillon représentatif de tous les sous-domaines vestimentaires, on n'a pas besoin de dépouiller tous les catalogues deux fois par an. Pour la plupart des catalogues un seul dépouillement est suffisant.

1.3. Corpus

Ci-dessous je décris le processus de constitution et les caractéristiques de mon corpus des termes vestimentaires banalisés.

1.3.1. Échantillon de base

Puisque la recherche préliminaire sur l'exemple du domaine de la chaussure a justifié l'utilisation des catalogues électroniques comme des sources idéales pour créer le corpus-échantillon, la nouvelle investigation a commencé par la prospection des catalogues convenables en utilisant les méthodes élaborées en l'an 2000. [8]

Finalement, pour le corpus-échantillon de base j'ai choisi les catalogues en ligne qui offraient les meilleures potentialités pour le travail de dépouillement. Ce choix résulte en une liste de six catalogues électroniques français :

Le corpus échantillon de base a été créé à partir des catalogues en ligne cités ci-dessus : ce corpus se compose du dossier spécial pour les termes génériques et des dossiers séparés pour chaque sous-domaine de la terminologie vestimentaire. Ces dossiers séparés permettent d'étudier séparément et de comparer des régularités caractéristiques pour les sous-domaines différents. Parmi les catalogues ci-dessus, le seul catalogue qui a manifesté une dépendance saisonnière était Saint James. Les collections de ce catalogue ont été copiées deux fois : la collection « automne - hiver » en janvier et la collection « printemps - été » en avril.

1.3.2. Dossier des termes génériques

Un dossier des termes génériques comprend un journal de travail, une liste des fréquences et un fichier des contextes créés par TACT (cf. 1.4.)

Le journal de travail des termes génériques contient des termes copiés des tables des matières des catalogues. Par exemple, le catalogue Damart propose trois tables des matières principales qui sont pertinentes pour la recherche en terminologie vestimentaire : Femme, Homme, Enfant. Ci-dessous, la table des matières « Femme : Prêt-à-porter » est donnée à titre d'exemple.

Dans certains catalogues, les articles sont classés par catégorie plus précise à l'intérieur de chaque rubrique mais la division n'est pas toujours constante. Par exemple La Redoute propose les catégories suivantes dans la table des matières « Femme » : Sous « Homme » la présentation est différente : Le 26 janvier 2006 :
http://www.laredoute.fr/category.aspx?categoryID=8358330
http://www.laredoute.fr/category.aspx?categoryID=14891243
http://www.laredoute.fr/category.aspx?categoryID=8359401
http://www.laredoute.fr/category.aspx?categoryID=8359582
pantalon - femme - 407
pantacourt - femme - 77
jean - femme - 149
short bermuda -femme - 25

Naturellement, le classement par catégorie représente le plus d'intérêt pour créer le fichier des termes génériques. Les mots nommant les catégories de chaque type de vêtement ont été copiés dans ce fichier.

1.3.3. Dossiers séparés pour chaque sous-domaine terminologique

La création des dossiers séparés pour chaque type de vêtement était possible grâce à l'existence des rubriques spécialisées pour des vêtements principaux dans la plupart des catalogues électroniques. Tout d'abord, il a fallu grouper des types de vêtement selon un archétype principal. A cette étape, j'ai comparé les fréquences des termes copiés des tables des matières de tous les six catalogues. Les termes les plus fréquents étaient normalement les plus généraux et, donc, représentaient les noms des types principaux des vêtements. Certains types principaux pouvaient être regroupés comme appartenant au même archétype. Le terme le plus fréquent du regroupement était choisi pour nommer l'archétype de ce groupement. Par exemple, le terme « pantalon » est le plus fréquent parmi les termes de son groupement, donc il est choisi pour désigner l'archétype des vêtements de ce type.

Finalement, j'ai choisi dix archétypes de vêtements qui correspondaient aux rubriques présentes dans presque tous les catalogues. Les regroupements des types de vêtements principaux ci-dessous sont cités en l'ordre décroissant de fréquence dans le fichier des termes génériques. Les archétypes sont en caractères gras :

On peut dire qu'en gros, chacun des dix archétypes correspond à un sous-domaine terminologique. Puisque pour limiter le matériel de la recherche, j'ai décidé de travailler avec les vêtements proprement dits seulement, les dossiers séparés n'ont été constitués que pour les sous-domaines correspondant à un type de vêtement (mis en gras ci-dessus). Chacun des huit dossiers comprend :

1. Journaux de travail : cinq fichiers spécifiques contenant des termes copiés en vrac de cinq catalogues [9], ainsi qu'un fichier intégral englobant tous les termes provenant de tous les cinq catalogues du sous-domaine en question.

2. Liste de fréquence : fichier fait par TACT à partir du fichier intégral pour considérer la fréquence des termes (cf. 1.4.)

3. Liste des contextes pour chaque type de vêtement du sous-domaine : fichiers faits par TACT à partir du fichier intégral, balisé pour observer la distribution.

4. Liste de termes reconnus selon leur fréquence (au moins trois occurences) et distribution (au moins deux catalogues)

1.3.4. Aspects quantitatifs du matériel linguistique

Ci-dessous la quantité d'items linguistiques du corpus est discutée en comparaison à d'autres corpus.

1.3.4.1. Quantité de termes génériques

Le dépouillement des six catalogues français a donné 24 courtes listes des mots utilisés pour nommer des « rayons » virtuels des ventes. Chacun des catalogues utilisables de ce point de vue en a donné au moins trois : un pour les vêtements de femme, un pour les vêtements d'homme et un pour les vêtements d'enfant. Toutes ces tables des matières ont été copiées dans le journal de travail. Ce journal de travail traité par TACT a résulté en une liste de fréquence de 281 items.

1.3.4.2. Quantité de termes à étudier

Les catalogues constituant l'échantillon de base procurent une grande quantité de noms de différents modèles de vêtement pour chaque archétype. Par exemple, La Redoute peut proposer de 50 à 250 modèles spécifiques pour chaque rubrique de sa table des matières. Cependant, cela ne correspond pas à la quantité de termes différents extraits de ce catalogue. Premièrement, les noms des modèles se répètent souvent; deuxièmement, plusieurs articles ne sont décrits que selon leur couleur ou matériel ; troisièmement, parfois les items ne reçoivent aucun nom spécifique - ils ne sont représentés qu'avec un nom générique et un nom de marque.

À titre d'exemple : Le 26 janvier 2006, sous différentes rubriques correspondant au sous-domaine 'Pantalons', La Redoute offrait 658 articles pour les femmes et 373 pour les hommes :

Un des cinq journaux de travail du sous-domaine 'Pantalon' « Pantalon - La Redoute » inclut donc 658 + 373 = 1031 noms ou descriptions de modèles de pantalons. Cette liste se trouve bien réduite au moment de sélection des unités terminologiques, ce qui veut dire après l'élimination des répétitions et des descriptions non pertinentes. Cependant, il faut déjà remarquer que toutes les descriptions (terminologique ou non) sont analysées dans le chapitre 3, où il s'agit de termes oscillants.

1.3.4.3. Nombre et type d'items recensés

Dans la linguistique de corpus, il existe une tendance générale à travailler sur des corpus de plus en plus grands mais la quantité d'items dépend chaque fois du but principal de l'étude et encore plus du type d'items recueillis. Quand on parle des grands corpus non-spécialisés, on les appelle plutôt « bases textuelles » ou « fonds de mots ». À titre d'exemple (cités d'après Habert, Nazarenko, Salem 1997 : 7-18), Le British National Corpus (BNC) comprend 100 millions de mots, il est constitué des échantillons d'une grande diversité de situations langagières mais sans organisation par thèmes ou registre ; Frantext, constitué à l'Institut National de la Langue Française, est un fonds de 160 millions de mots qui a servi à la rédaction des dix-sept volumes du Trésor de la Langue Française. Cependant, quand il s'agit des corpus spécialisés, les chiffres sont beaucoup moins grands ; le corpus Menelas (maladie coronariennes) ne contient que 84 839 occurrences et seulement 6 191 formes.

Pour comparer, voici les chiffres des deux corpus spécialisés qui ont été décrits en 1.0.2.2. et 1.0.2.4. Galisson (1978 : 117) n'a recueilli que 1 729 vocables banalisés, dont seulement 66 appartenaient au vocabulaire spécialisé du football, et 735 au vocabulaire sportif proprement dit. Tout le reste était des vocables de la langue courante, y compris 796 qui n'ont pas changé de sens. Le corpus de Lyne (1985 : 9) comprenait 670 lettres d'affaires et 80 000 vocables. Il faut souligner qu'il ne s'agissait que de « running words » ce qui veut dire toutes les occurrences de tous les mots y compris des prépositions, des pronoms etc., tandis que dans le cas d'étude de Galisson les vocables - et seulement substantifs, verbes et adjectifs - ont été extraits manuellement des articles de la presse sportive.

Fleury (1997), en 1992-1997, a constitué son corpus de groupes nominaux « moulin à N2 » différemment. Au lieu de rechercher des sources spécialisées et d'en constituer un corpus de textes où il s'agit des moulins, il a exécuté une requête sur « moulin » dans les bases textuelles Frantext. Ces bases textuelles sont disponibles en ligne (http://www.frantext.fr/) et le 27 août 2006 elles contenaient 3 665 documents. Fleury a donc utilisé les sources hétérogènes d'un grand corpus de bases textuelles pour en extraire des exemples spécifiques nécessaires pour sa recherche.

Le corpus de Fleury a été extrait de bases textuelles hétérogènes. Le corpus de Galisson et le corpus de Lyne étaient homogènes originellement : celui-ci n'incluait que des lettres, celui-là ne comprenait que les articles de la presse écrite. Chacun des deux corpus homogènes représentait un ensemble de textes extraits de sources concentrées d'un vocabulaire spécialisé qui était l'objet de la recherche : le vocabulaire du football et le vocabulaire de la correspondance des affaires. Ces deux corpus représentent un exemple de la tendance opposée à ce que Habert appelle « gigantisme » ou « gros c'est beau » (Habert 2000 : 15, 17). D'après Habert, cette tendance opposée consiste en la constitution d'ensembles « plus nettement définis et corrélés à leur caractéristiques langagières » (Habert 2000 : 18).

Étant un corpus de langage spécialisé, mon corpus est homogène et composé de sources concentrées puisqu'il n'embrasse que des catalogues de vente en ligne. La différence principale entre les deux corpus spécialisés mentionnés ci-dessus et le mien consiste en ce que mon corpus ne contient presque pas d'items qui ne soient pas des représentants du vocabulaire étudié : toutes les unités recensées sont des noms des vêtements. Un item comptable de mon corpus est un nom de vêtement : quand je dis que mon corpus de base contient 7 158 items cela veut dire qu'il contient 7 158 dénominations de vêtements. Le fait que les catalogues ne contiennent rien d'autre que des dénominations en fait un corpus idéal, « super-concentré » pour l'étude de dénomination dans le domaine vestimentaire.

Il faut noter que la quantité d'items est loin d'être égale dans les neuf dossiers des sous-domaines vestimentaires. Cela se doit partiellement au fait qu'un vêtement puisse être porté par les deux sexes ('Jupe' et 'Robe' manifestent les nombres les plus modestes) et pendant les deux saisons ('Manteaux' ne sont pas nombreux non plus) et partiellement aux critères moins tangibles comme la popularité du type de vêtement représenté. Le corpus contient les nombres suivants d'items pour chaque sous-domaine :

1.3.5. Échantillon de saturation

Les quantités numériques ne sont pas suffisantes pour décider si l'échantillon de base représente un matériel suffisant pour entreprendre une étude de la terminologie vestimentaire. Pour s'assurer de la quasi-exhaustivité des données de l'échantillon de base, Galisson proposait d'utiliser un deuxième corpus - un échantillon de saturation.

L'échantillon de saturation dans la méthode de Galisson est constitué de textes supplémentaires du même genre que les textes de l'échantillon de base. Dans ma méthode « électronique » l'échantillon de saturation est constitué des données du catalogue Quelle (http://www.quelle.fr) qui ne convenait pas à la constitution des journaux de travail des sous-domaines. Ce catalogue est très profitable du point de vue du recensement de termes par la méthode « copier - coller » parce qu'il permet de copier à la fois plus de 60 descriptions de vêtements mais les vêtements ne sont pas classés par le produit mais plutôt par le style ou par l'usage : Détente, Maternité, Ville, Lingerie-Nuit, Soirée, etc. Cela rend ce catalogue inutilisable pour la création des fichiers séparés pour chaque sous-domaine, mais permet de créer un fichier énorme joignant toutes les rubriques qui promettent de contenir beaucoup de termes vestimentaires proprement dits.

Des cinq catalogues déjà dépouillés, les rubriques qui réunissent plusieurs produits sans les différencier comme, par exemple, « Vous avez aimé » chez Trois Suisses, ont été copiées dans les fichiers séparés qui, eux aussi, peuvent servir à vérifier la suffisance des données du corpus échantillon de base. En totalité, la quantité d'items dans l'échantillon de saturation est 973 noms de vêtements. Le tableau (1.b) ci-dessous illustre la composition de l'échantillon de saturation.

Presque tous les termes relevés dans Quelle étaient ou bien déjà présents dans les listes des termes extraits des six catalogues de l'échantillon de base (en gras) ou bien représentaient des descriptions plus appréciatives que terminologiques : Même si les données de Quelle ont confirmé la suffisance de l'échantillon de base, j'ai décidé de garder l'échantillon de saturation dans le corpus de ma recherche tout simplement pour être sûre d'avoir tous les noms vestimentaires figurant dans les catalogues choisis pendant la période choisie (janvier-fevrier 2006 + avril 2006 pour Saint-James), au cas où j'aurais une nécessité de vérifier ou de complémenter les résultats de mes analyses.

1.3.6. Échantillon de référence

« Échantillon de référence » est une notion inventée au cours du dépouillement des catalogues et de la constitution de la liste des termes.

À l'étape du dépouillement des catalogues, je copiais les images des vêtements dont les noms m'étaient inconnus ou posaient un problème d'interprétation. Ce fichier avec les images et les noms correspondant (et parfois les descriptions explicatives) m'a beaucoup aidée au moment de l'interprétation sémantique de termes comme « jupe boule » ou « robe parachute ». Ce fichier « image-nom » peut être considéré mon échantillon de référence.

A l'étape du travail avec les listes, le problème le plus fréquent était le statut terminologique des termes : il y avait toujours des cas douteux comme, par exemple, des termes manifestant une fréquence élevée mais dans un seul catalogue, ou des termes rencontrés dans deux catalogues mais une fois seulement dans chacun. De plus, il y avait parfois des doutes concernant le sens des termes comme, par exemple, la différence entre « pantalon-jupe » et « jupe-culotte », et les informations du corpus n'étaient pas suffisantes dans ces cas.

Dans ces cas douteux, je pouvais toujours m'adresser au corpus que Galisson caractériserait comme dilué sur des descriptions « vagues et innombrables » en utilisant des moteurs de recherche de l'Internet. Sans l'existence de ces outils, il aurait fallu me limiter au corpus concentré sur des descriptions « précises et dénombrables » comme Galisson l'avait fait, il y a vingt ans. Ce sont les sources du corpus « dilué » qui peuvent constituer le « corpus de référence ouvert » qui sert à vérifier et à enrichir les résultats obtenus par le dépouillement du corpus « concentré » de base. Cette possibilité de travailler avec le « corpus dilué » est une nouveauté profitable dans le travail avec les corpus. (voir, par exemple, 1.4.3. et 4.3.3.1.2). Habert (2000 : 13) parle des corpus ouverts ou des corpus de suivi (« monitor corpus » en anglais, par exemple, chez Martelli (2003 : 17) mais on entend par corpus de suivi des corpus auxquels on peut constamment rajouter des textes pour les réinterroger. Puisque je ne recours aux autres sites que dans la situation de doute, j'ajoute le mot « de référence » à la notion de « corpus ouvert ». En fait, je considère tous les sites « vestimentaires » de l'Internet comme bases textuelles qui peuvent servir de « corpus de référence ouvert ».

La quantité de sources « diluées » à examiner ne peut pas être déterminée d'avance. On ne peut dire que pour chaque terme « douteux » relevé au cours du dépouillement de l'échantillon de base on peut toujours interroger un moteur de recherche. Tous les sites traitant le vêtement dans le contexte de la mode qui seraient découverts pendant cette enquête supplémentaire constitueront le corpus ouvert de référence. Tous les nouveaux contextes et groupes de mots serviront à préciser la liste des termes à étudier. [10]

Pour avoir plus de fiabilité du point de vue de la synchronie, j'ai refait en 2006 toutes mes bases de données initiales constituées en 2002-2003. Cela m'a permis d'utiliser l'Internet comme « corpus de référence ouvert » pendant la révision de l'ensemble de la thèse en 2006 puisque la mode reste plus ou moins la même pendant une année. Ces nouvelles données de 2006 n'ont pas changé la logique des analyses précédentes mais ont permis d'augmenter la quantité d'exemples. À titre de comparaison : en 2003, sous la rubrique « Femme : Pantalons » le catalogue La Redoute ne proposait que 234 articles pour toutes les catégories ; en 2006, le même catalogue proposait 407 articles sous la même rubrique et ajoutait d'autres rubriques pour d'autres catégories de pantalons (pantacourt - 77 articles, jean - 149 articles, short / bermuda - 25 articles).

1.4. Traitement des fichiers par TACT

Puisque dans ma recherche il s'agit de sources de matériel linguistique homogène - purement nominatif et banalisé - la plupart du travail mécanique, comme la création de listes, pouvait être confiée à la machine sans risque de mal interpréter les données. À la différence des corpus « écrits » et plus hétérogènes dont il s'agit dans 1.0., mon corpus électronique ne demande pas plusieurs lectures pour relever les items linguistiques à étudier.

TACT est un logiciel d'indexation et d'interrogation interactive de données textuelles [11] qui peut transformer les items mélangés des fichiers appelés « journaux de travail » en une liste alphabétique ou en une liste de tous les contextes d'un terme dans le fichier.

1.4.1. Traitement des fichiers des termes génériques

Comme décrit en 1.3.2., les tables des matières des catalogues en-ligne qui classifient leurs marchandises par produit ont été copiées-collées dans le journal de travail des termes génériques (GENERI.TXT) Ce fichier traité par TACT a permis de qualifier certains termes comme génériques et d'autres comme utilisés occasionnellement comme tels. Deux critères principaux ont été utilisés : fréquences et distribution. Si un terme se rencontre dans les tables des matières de deux catalogues différents au moins, il peut être reconnu générique pour le groupement des catalogues choisis, et, puisque ces catalogues sont considérés comme corpus-échantillon pour la terminologie vestimentaire contemporaine, pour cette terminologie en général.

Après avoir été soumis à l'opération de TACT procurant une liste de mots complète [complete word-list], le fichier contenant des courts inventaires a été transformé en longs répertoires (GENERI.LST) avec les fréquences affichées à droite. L'interprétation de ces répertoires est exposée ci-dessous.

1.4.1.1. Termes fréquents

Dans le cas des termes génériques copiés des tables des matières, la fréquence seule est très souvent suffisante pour juger du statut terminologique d'un nom vestimentaire. Par exemple, les termes affirmant une fréquence plus haute que 3 peuvent être reconnus comme génériques immédiatement puisque évidemment ils ont été utilisés dans les tables de matière de plus d'un catalogue. Ce sont les termes cités en 1.3.3. comme types principaux et archétypes de vêtements. Cependant, la liste des termes en 1.3.3. représente le résultat du travail de lemmatisation et de groupement effectué sur une liste alphabétique procuré par TACT. Ci-dessous, je présente le résultat du premier tri de la liste alphabétique selon la fréquence; cette liste ne comprend que des items dont la fréquence est au moins 3 (si on prévoit l'opération de lemmatisation) : La fréquence affichée à droite a été très utile par la suite pour la création des dossiers séparés pour chaque archétype de vêtement. Elle montrait combien de rubriques contenant des descriptions des modèles concrets de chaque type de vêtement il fallait chercher dans les catalogues. Par exemple, puisque le terme « veste(s) » montre la fréquence 8 (veste) + 12 (vestes) = 20 il faut que son dossier contienne les résultats du dépouillement de 20 rubriques, et cela ne vaut pas la peine d'en chercher plus dans les catalogues choisis.

1.4.1.2. Termes complexes et mots « suspects »

Certains termes de la liste de fréquences apparaissaient douteux : ils semblaient être déplacés parmi les prétendants au statut générique ou paraissaient être composants de termes complexes. Il fallait bien vérifier les contextes des mots fréquents comme « bain », « nuit », « ville » qui sont définitivement des parties de termes complexes, ainsi que des mots évidemment déplacés dans la liste de termes génériques français comme « coats » ou « shirts ». Chaque terme « suspect » a été interrogé à l'aide de TACT du point de vue de ses contextes - opération facile et immédiate - le simple appui sur les touches 'insérer' et 'entrer' pendant le parcours de la liste des fréquences. Cette opération offre instantanément toutes les distributions du terme en question. Les anglicismes « coats » et « shirt » ont été expliqués par leurs contextes immédiatement : il s'agissait des termes « duffle coats » et « tee shirt » écrits sans trait d'union.

Une astuce inventée au cours de la recherche permet de vérifier la totalité de la liste des termes génériques complexes encore une fois. Pour repérer tous les termes complexes formés à l'aide de la préposition « de » il suffit de demander à TACT d'afficher tous les contextes de « de ».

1.4.1.3. Termes peu fréquents

Les items qui nomment un vêtement et affichent la fréquence 2 ont été examinés du point de vue de leurs contextes et de leur distribution. Les items qui ne ressemblaient pas à des termes vestimentaires ont été soumis au même examen. Voici la liste des items « douteux » : Ci-dessous est le recensement des contextes des termes « douteux » de la liste ci-dessus. Je ne cite que les termes qui commencent par les lettre « b » et « c » à titre d'exemple : le chiffre entre parenthèses correspond à la fréquence; le mot entre parenthèses qui commence chaque ligne correspond au nom du catalogue de provenance. TACT fournit cette référence parce que, au moment de la constitution, les fichiers ont été balisés selon le catalogue (Lancashire 1996 ; A TACT Exemplar 1991). Parfois les contextes identiques des deux ou trois occurrences du terme montrent que tous les deux ou tous les trois proviennent du même catalogue. Dans ce cas le mot se trouve éliminé des prétendants à la liste des termes génériques où je ne gardais que les termes qui ont été mentionnés dans au moins deux catalogues différents.

Les contextes réaffirment le fait que les catalogues en-ligne ne sont pas trop soignés du point de vue de l'orthographe ou de l'uniformité. Par exemple, les deux variantes de « shirt », « Tee shirt » et « Tee Shirts », proviennent du catalogue la Redoute qui dans treize autres contextes utilisait la forme « t-shirt ».

Les catalogues ne sont pas très puristes non plus. Le fait que les anglicismes « casual », « sportswear », « tops » et « zippé » ont été utilisés pour nommer les rubriques des catalogues peut être suffisant pour reconnaître leur statut terminologique ou lexicalisé, puisque cela veut dire qu'ils sont considérés comme absolument compréhensibles pour tous les acheteurs francophones. Cependant, puisque dans le fichier chacun de ces anglicismes ne se rencontre que dans un seul catalogue, ils ne peuvent pas recevoir le statut de terme générique.

Finalement, la liste ci-dessus a été réduite à une liste plus courte des termes qui peuvent être inclus dans la liste des termes génériques puisqu'ils désignent des types de vêtements et se rencontrent dans deux catalogues au moins :

Les contextes ont fait remarquer quelques termes complexes non génériques mais importants pour de futures analyses : L'utilisation des mots « casual », « sportswear » et « ville » pour former des groupements de vêtement selon le style a été bien notée, ainsi que « shirt. . 2 » et « shirts. . 1 » ont augmenté le nombre d'occurrences du terme « T-shirt ». Le terme « cardigan » a échappé au premier tri par la fréquence, mais finalement a été récupéré avec son statut générique confirmé.

1.4.2. Traitement des dossiers des sous-domaines

Tout d'abord, les journaux de travail des sous-domaines séparés ont été traités par TACT de la même manière que le journal de travail des termes génériques : TACT a créé les listes alphabétiques des mots avec leurs fréquences. Cependant, les fichiers des sous-domaines posaient plus de problèmes : ils étaient constitués de termes complexes qui ne pouvaient pas être listés par TACT. Cela veut dire que leurs listes de fréquences servaient plutôt à repérer les types de vêtements principaux à l'intérieur du domaine, ainsi que les déterminants les plus répandus. Par exemple, dans le fichier « pantalon/Redoute.lst » dans les trois premières lettres alphabétiques, a - b - c, les mots suivants attirent l'attention : Pour le traitement des fichiers séparés de chaque sous-domaine l'opération de contextualisation a été la plus importante : elle permettait de repérer des termes complexes qui décrivent des modèles concrets de vêtements et constituent la plupart des termes de la mode. Malheureusement, les contextes ne peuvent pas être alphabétisés et comptés par TACT comme les listes de mots. Plusieurs déterminants forment des groupes avec des déterminés différents (par exemple, « bi-extensible » peut correspondre à « jean /ou pantalon /ou caleçon/ bi-extensible »), ce qui demande une considération particulière à chaque contexte.

Puisque les mêmes descriptions peuvent se répéter plusieurs fois dans un seul catalogue [12], le balisage des fichiers intégraux selon le catalogue a joué un rôle important. Puisque chaque contexte est accompagné par le nom du catalogue de provenance, il est très facile de repérer des termes complexes qui se rencontrent dans deux catalogues au moins.

1.4.3. Utilisation des moteurs de recherche pour vérifications

Dans ce travail je considère comme néologisme tout terme vestimentaire qui est apparu récemment et qui n'est listé ni dans les dictionnaires ni dans les programmes de correction automatique. Les néologismes qui s'écrivent comme un seul mot sont faciles à repérer : dès que les données des catalogues en ligne sont copiées dans un fichier de Word, ces nouveautés linguistiques se trouvent soulignées de rouge.

Les néologismes français - comme « pantacourt » ou « pantailleur » - ont été examinés du point de vue de leur terminologisation à l'aide des moteurs de recherche (Google, Yahoo) et cette épreuve basée sur le matériel « dilué » a permis de reconnaître pour certains termes leur caractère terminologique confirmé par un grand nombre d'occurrences dans des documents de nature différente. Par exemple, « pantacourt » est un terme parce que les moteurs de recherche donnent un grand nombre de résultats : le 28 janvier 2002, Google - 518, Yahoo - 144 [13]. Pantailleur ne peut être considéré que comme un canadianisme pas encore terminologisé, parce que les résultats de recherche sont beaucoup plus modestes : Google et Yahoo - 2 (les deux viennent de sites canadiens : une page d'un magazine de mode québécois et l'autre d'une société de vente canadienne -
http://www.multimania.com/dodue/mode/additionelle.htm ;
http://www.finds-stores.com/lauracanada/fr/inthespotlight/Holiday_2001.pdf)

Ces néologismes français ont été parmi les premiers examinés par cette méthode. A cette époque, il semblait que l'utilisation de deux moteurs de recherche au moins fût nécessaire pour rendre la recherche plus objective. Cependant, ces premières investigations ont montré que l'utilisation du deuxième moteur n'ajoute rien au résultat. L'interrogation de Google est normalement suffisante.

1.5. Conclusion du chapitre 1

Le corpus échantillon constitué pour cette recherche correspond exactement à la définition de corpus que Habert, Nazarenko, Salem (1997 : 11) ont empruntée à Sinclair (1996 : 4) : « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon de langage. »

Les données langagières choisies font partie du vocabulaire vestimentaire. La limitation du matériel linguistique vestimentaire par la forme électronique, le contenu commun et la forme du langage banalisé l'a considérablement réduit. En fait, je n'étudie que l'inventaire lexical des catalogues en-ligne consacrés aux ventes des vêtements courants proprement dits.

L'Internet s'est montré très pratique pour la constitution du corpus échantillon des termes de la mode et pour l'organisation adéquate de ce corpus - les sources électroniques sont plus faciles à trouver et le corpus électronique est plus commode à traiter que leurs équivalents imprimés. Les noms vestimentaires ont été copiés de six catalogues de vente en ligne français qui ont été sélectionnés comme sources « super-concentrées » des informations de ce langage spécialisé. L'organisation des tables des matières des catalogues selon le produit a facilité non seulement le dépouillement mais aussi la structuration du corpus : les fichiers contenant les items copiés sont organisés selon les sous-domaines (selon le type de produit) vestimentaires et balisés selon les catalogues de leur provenance. Ces fichiers organisés selon le critère sémantique, complétés par le fichier de termes génériques et l'échantillon de référence, ont constitué le corpus qui peut servir d'échantillon de nomenclature vestimentaire banalisée.

Le logiciel TACT a beaucoup facilité le traitement de ce corpus électronique pour créer les listes de termes à étudier. Deux opérations de TACT se sont montrées les plus importantes pour la création de la liste : l'une, Complete Word-List, donne la liste alphabétique des termes avec leur fréquence, l'autre, Query, cite toutes les occurrences du terme en question avec ses contextes.

Les listes alphabétiques ont été utilisées pour recenser des termes simples génériques. Les fichiers contenant des tables des matières des catalogues copiées-collées en vrac, ont été transformés en une colonne de mots avec leurs fréquences affichées à droite. Ce qui a permis de choisir 66 termes génériques en se basant sur leur fréquence et leur distribution.

Les listes des mots « contextualisés » étaient nécessaires pour recenser des termes complexes. Les fichiers contenant des descriptions de vêtements d'un archétype comme, par exemple, « pantalon », ont été modifiés par TACT en un document dont le centre est occupé par une colonne qui répète sur chaque ligne l'hyperonyme « pantalon » et dont les cotés gauche et droit sont remplis des contextes de cet hyperonyme - 5 mots de chaque coté (avec le nom du catalogue de provenance à gauche dans les parenthèses). Ce type de document a beaucoup facilité le travail de repérage et de recensement des termes complexes et permis de créer les listes des termes à étudier. Ces listes contenant les 7 158 noms de vêtements du corpus échantillon de base constituent le matériel linguistique de la présente recherche.

Le corpus possède les trois qualités indispensables - « representativeness, finite size, machine-readable form » - énumérées par McEnery et Wilson (1996 : 21) : sa représentativité de la terminologie vestimentaire banalisée est assurée par les fichiers des sous-domaines correspondants à tous les archétypes principaux de vêtements proprement dits ; son ampleur est limitée par la quantité maniable d'items - 7 158 ; et sa forme électronique est parfaitement lisible par un logiciel de traitement de texte.