Combiner proximité distributionnelle et patrons linguistiques pour

de définition du profil des patrons (c'est-à-dire la nature des résultats rapportés selon le ..... Toutefois, il est ici difficile de juger si la cooccurrence de avoir du mal.
1MB taille 0 téléchargements 73 vues
Département de Sciences du Langage

2007/2008

Combiner proximité distributionnelle et patrons linguistiques pour repérer l'antonymie

Mémoire de Master 1 de Sciences du Langage Mention Traitement Automatique des Langues Université de Toulouse II - Le Mirail

François Morlane-Hondère, en collaboration avec Marjorie Raufast Sous la direction de Cécile Fabre

2

«Le 24 mai la vendange sera bonne si le temps est clair et serein. Le contraire arrivera s'il est obscur et pluvieux.»

Proverbe de vigneron

3

4

Remerciements Mes remerciements vont tout d'abord à Cécile Fabre pour m'avoir guidé tout le long de ce mémoire et pour avoir eu l'idée de cette collaboration avec Marjorie, avec qui j'ai eu beaucoup de plaisir à travailler (même quand elle s'est acharnée à saccager, soi-disant involontairement, des heures de mises en page réalisées avec amour). Je remercie également Ludovic Tanguy, pour avoir accepté de faire partie du jury, Didier Bourigault pour m'avoir suggéré de nouvelles pistes à explorer, et Franck Sajous pour m'avoir fourni le corpus et la base des voisins, ainsi que pour avoir répondu à mes questions avec beaucoup de sympathie.

5

Index Introduction........................................................................................................................................8 Chap. 1 - Le phénomène d'antonymie : des propriétés logiques aux réalisations en contexte..10 (en collaboration avec M. Raufast) 1.1. Propriétés psycholinguistiques et universaux..............................................................................12 1.1.1. L'universalité...................................................................................................................12 1.1.2. La productivité................................................................................................................13 1.1.3. Prototypicalité et canonicité............................................................................................13 1.1.3.1. La prototypicalité................................................................................................14 1.1.3.2. La canonicité.......................................................................................................16 1.2. Les typologies traditionnelles......................................................................................................18 1.2.1. Les contraires/gradables/scalaires...................................................................................19 1.2.2. Les contradictoires/complémentaires..............................................................................21 1.2.3. Les converses/réciproques..............................................................................................22 1.2.4. Autres types d'antonymes................................................................................................23 1.2.4.1. Les oppositions directionnelles..........................................................................23 1.2.4.1. Les contrastes non binaires.................................................................................24 1.2.4.1. Les oppositions contrastives...............................................................................25 Conclusion..........................................................................................................................................25 1.3. L'antonymie en contexte..............................................................................................................26 1.3.1. Des tests d'association aux patrons syntaxiques.............................................................27 1.3.1.1. James Deese (1964)............................................................................................27 1.3.1.2. Charles et Miller (1989).....................................................................................28 1.3.1.3. Justeson et Katz (1991).......................................................................................30 1.3.1.4. Fellbaum (1995).................................................................................................31 1.3.2. Une nouvelle approche de l'antonymie en corpus...........................................................34 1.3.2.1. Méthodologie......................................................................................................34 1.3.2.1.1. Le corpus................................................................................................35 1.3.2.1.2. Les paires antonymes de départ.............................................................35 1.3.2.1.3. La constitution du sous-corpus...............................................................37 1.3.2.2. Typologie de l'antonymie en contexte................................................................37 1.3.2.2.1. L'antonymie auxiliaire............................................................................38 1.3.2.2.2. L'antonymie coordonnée........................................................................40 1.3.2.2.3. L'antonymie comparative.......................................................................43 1.3.2.2.4. L'antonymie distinctive..........................................................................44 1.3.2.2.5. L'antonymie transitionnelle ...................................................................45 1.3.2.2.6. L'antonymie négative.............................................................................45 1.3.2.2.7. L’antonymie extrême..............................................................................46 1.3.2.2.8. L’antonymie idiomatique.......................................................................47 1.3.2.3. Observations complémentaires : classe grammaticale et antonymie..................47 Conclusion..........................................................................................................................................48 6

Chap. 2 - Analyse distributionnelle et extraction de relations sémantiques................................50 2.1. Les principes de la théorie distributionnelle......................................................................51 2.1.1. L'analyse en constituants immédiats......................................................................51 2.1.2. Les trois contraintes harrissiennes.........................................................................51 2.1.3. La dichotomie langue générale vs. sous-langage..................................................54 2.2. L'analyse distributionnelle automatique.............................................................................55 2.2.1. SEXTANT.............................................................................................................55 2.2.2. ZELLIG.................................................................................................................57 2.2.3. UPERY..................................................................................................................60 2.2.3.1. Le pré-traitement syntaxique.....................................................................60 2.2.3.2. La construction des paires prédicat-argument...........................................60 2.2.3.3. La méthode de rapprochement..................................................................62 2.2.3.4. Exemples de mise en oeuvre.....................................................................63 Conclusion..........................................................................................................................................67 Chap. 3 - Expérimentation de la méthode de filtrage des voisins par projection de patrons ...68 3.1. Ressources..........................................................................................................................69 3.1.1. Le corpus................................................................................................................69 3.1.2. Les voisins..............................................................................................................70 3.1.3. Les patrons.............................................................................................................70 3.1.3.1. Présentation...............................................................................................70 3.1.3.2. Patrons et catégories grammaticales..........................................................75 3.1.3.3. Patrons et antonymie.................................................................................80 3.2. Étude préliminaire..............................................................................................................83 3.2.1. Bon (adj.)...............................................................................................................84 3.2.2. Vie (nom)...............................................................................................................86 3.2.3. Adorer (ver.)...........................................................................................................87 3.3. Expérimentation et évaluation............................................................................................88 Conclusion..........................................................................................................................................98 Conclusion générale........................................................................................................................101 Bibliographie....................................................................................................................................103 Annexes............................................................................................................................................109

7

Introduction

8

Dans le cadre de ce mémoire, nous nous intéressons à l'antonymie afin de mettre au point une méthode permettant d'extraire automatiquement les mots liés par cette relation. Nous mobilisons pour cela deux types d'approches, à savoir l'analyse distributionnelle et la projection de patrons lexico-syntaxiques. La présente étude pose les bases théoriques d'une telle entreprise et décrit les résultats rapportés par une mise en pratique sur un corpus de langue générale. Le premier chapitre constitue un état de l'art sur la notion d'antonymie. Nous nous sommes dans un premier temps penchés sur ses aspects psycholinguistiques, et nous avons comparé les différentes classifications qui en ont été établies. Nous avons ensuite observé les manifestations de cette relation au sein des textes et nous avons pu constater que les classifications établies in abstracto ne résistent pas au contexte. Le deuxième chapitre expose les principes de l'analyse distributionnelle et, à travers la description de trois systèmes qui la mettent en oeuvre, tente de répondre à la question de savoir dans quelle mesure cette approche permet de faire émerger des relations lexicales et d'aboutir, à terme, à la création d'ontologies. Le troisième et dernier chapitre constitue la partie pratique du mémoire, puisqu'il décrit et fait l'évaluation du protocole que nous avons mis en place en vue du filtrage des antonymes ainsi que des différents types de ressources mobilisées.

9

Chapitre 1 Le phénomène d'antonymie : des propriétés logiques aux réalisations en contexte (en collaboration avec M. Raufast)

10

L'antonymie est l'une des relations sémantiques qui, aux côtés de l'hyponymie/hypéronymie, de l'holonymie/méronymie et de la synonymie, organisent la structure du lexique. Elle est instinctivement perçue comme la relation contraire à celle de synonymie, dans le sens où cette dernière rapproche des termes alors que l'antonymie les oppose. Toutefois, si le propre de l'antonymie est effectivement de mettre deux termes en opposition, nous verrons que la condition préalable à une telle comparaison est l'existence d'un axe de symétrie, d'une dimension, d'un domaine commun aux deux termes antagonistes (la dénomination varie selon le champ d'application de la théorie : axe de symétrie est utilisé par D. Schwab dans le cadre de la modélisation vectorielle [SCH 01], domaine relève de la sémantique componentielle). Deux mots doivent avant tout se ressembler pour qu'on puisse les différencier. C'est la raison pour laquelle on peut difficilement opposer des noms comme ubiquité et lamantin, qui sont trop différents pour être comparés : ils n'ont rien en commun et trouver une dimension dans laquelle ces mots s'opposeraient relèverait du tour de force. L'observation d'un mot polysémique comme frais permet de mettre en exergue cette notion de dimension (exemples extraits de [BRA 07]) :



des boissons fraîches vs. chaudes



un teint frais vs. terne, fatigué



de la peinture fraîche vs. sèche



du pain frais vs. dur, rassis



des pâtes fraîches vs. sèches



des traces fraîches vs. anciennes



des nouvelles fraîches vs. connues, dépassées

Chaque acception mobilise un domaine différent dans lequel s'articulent les antonymes : dans le domaine de la température, frais s'oppose à chaud alors qu'il exprime la nouveauté quand il s'oppose à ancien. Cette démarche de réunir deux termes dans un même domaine pour ensuite les opposer est à la base de la relation d'antonymie. Toutefois, nous verrons que les mots ne s'opposent pas tous de la même manière et, après avoir présenté quelques caractéristiques de la relation d'antonymie, nous distinguerons ses principales déclinaisons, à savoir la contradiction, la contrariété et la réciprocité (auxquelles nous adjoindrons une quatrième catégorie regroupant les variétés plus marginales que sont les oppositions directionnelles, non binaires et contrastives).

11

1.1. Propriétés psycholinguistiques et universaux Dans cette partie nous présentons quelques propriétés qui caractérisent la relation d'antonymie. L. Murphy [MUR 03] définit huit propriétés communes aux différentes relations sémantiques (que nous citerons dans la langue d'origine) : productivity, binarity, variability, prototypicallity and canonicity, semi-semanticity, uncountability, predictability, universality. Nous ne nous intéressons ici qu'à celles que nous jugeons pertinentes pour l'analyse de l'antonymie.

1.1.1. L'universalité L'antonymie, à l'instar des autres relations sémantiques, est présente dans toutes les langues naturelles et est utilisée par tout locuteur. De nombreuses études, s'appuyant notamment sur des résultats de tâches d'association de mots, sont venues renforcer cette théorie de l'universalité. Le test d'association est une technique très employée en psycholinguistique. Il consiste à placer un sujet dans une situation où il est soumis à un stimulus auquel il doit répondre spontanément. Murphy présente l'une de ces tâches menées par D. Raybeck et D. Herrmann [RAY 96] qui souhaitaient mettre à l'épreuve le caractère universel des relations sémantiques. Les sujets sont des locuteurs de huit langues différentes à qui l'on soumet des paires de mots. S'ils jugent que certaines paires partagent des caractéristiques communes alors ils doivent les classer dans un même groupe. Les résultats de cette expérience sont très significatifs : Raybeck et Herrmann observent par exemple que la paire male/female est classée dans le même groupe que remember/forget alors que la paire car/tire se trouve placée dans une autre catégorie. À partir de ce classement, ils établissent cinq relations sémantiques : l'opposition, la similarité, la méronymie, l'hypéronymie et la représentativité. Murphy remarque ensuite qu'alors que certaines paires d'antonymes sont universelles comme chaud/froid, d'autres peuvent être dépendantes de facteurs culturels. Ainsi, elle note qu'une même opposition peut être classée différemment selon la langue. Par exemple good et bad sont considérés comme des antonymes polaires en allemand, privatifs en arabe égyptien et asymétriques en anglais (nous reviendrons en détail sur ces classifications dans la deuxième partie). Mais ces différences culturelles et taxonomiques n'altèrent en rien le caractère universel de l'antonymie.

12

1.1.2. La productivité La tendance d'une relation sémantique à créer de nouvelles unités lexicales inscrites dans cette relation en détermine la productivité. Selon Murphy, cette notion de productivité expliquerait en partie le fait que les relations sémantiques ne sont pas des informations arbitraires contenues dans le lexique. Si elles étaient arbitraires, le locuteur ne serait pas capable de prévoir si un mot peut être mis en relation avec un autre, or c'est ce mécanisme qui intervient lors de la création de nouvelles unités lexicales. L'antonymie est une relation que l'on peut juger productive par sa propension à générer de nouvelles unités lexicales. La dérivation morphologique joue un rôle prépondérant dans cette production et l'on voit apparaître des préfixes récurrents mis en oeuvre pour former ces antonymes. C'est le cas des préfixes dis- et de- qui, en anglais, forment sur des bases verbales des antonymes réversibles comme par exemple disendanger ou defuzzy. De nombreux verbes français forment également leur antonyme par préfixation : décroître, dépolluer, contre-attaquer, etc. Par exemple en anglais, le préfixe non- est très productif puisqu'il permet de créer n'importe quel antonyme nominal ou adjectival. Mais il présente un inconvénient de taille que Murphy illustre à travers cette exemple: The winner is happy and the loser unhappy. The winner is happy and the loser non-happy. Ces deux phrases sont en apparence sémantiquement similaires. Et pourtant non-happy ne renseigne pas sur les sentiments du perdant, dans quel état il est mais informe plutôt sur ce qu'il n'est pas. Alors que unhappy est plus précis et donne une vision plus concrète sur l'état d'esprit du perdant. En fait le préfixe non- implique uniquement la négation de l'unité à laquelle il est associé et n'exprime pas réellement le contraire de cette unité. Ces constructions en non- sont d'ailleurs peu appréciées des locuteurs qui leurs préfèrent des paires d'antonymes lexicalisées comme hot/cold.

1.1.3. Prototypicalité et canonicité Les notions de prototypicalité et de canonicité sont des notions centrales lorsque l'on évoque 13

l'antonymie. Le fait que certaines paires de termes opposés sont considérées plus représentatives de la relation d'antonymie que d'autres a fait l'objet de nombreux travaux.

1.1.3.1. La prototypicalité Afin d'illustrer cette tendance des locuteurs à porter un jugement sur les relations sémantiques, Murphy rend compte des travaux menés par Hermann et al. [HER 86] à ce sujet. Une de ces études consistait à demander aux locuteurs d'attribuer une note de 1 à 5 à des paires d'antonymes, selon le degré d'opposition qu'elles étaient censées exprimer (5 étant la valeur d'opposition maximale). Voici un extrait des résultats obtenus : Note

4,60- 4,74

4,75- 4,89

≥ 4,9

attribuée Paires

cruel/kind (4,71)

good/bad (4,86)

maximize/minimize (5)

emacited/obese (4,67)

huge/tiny (4,81)

love/hate (4,95)

immaculate/filthy (4,62)

big/little (4,76)

night/day (4,9)

d'antonymes

En observant les valeurs moyennes qui sont attribuées à chaque paire d'antonymes, il apparaît clairement que certaines sont jugées plus pertinentes que d'autres : les mots ne sont donc pas égaux devant l'antonymie. Ce constat est corroboré par les travaux du psychologue J. Deese (rapportés par V. Muehleisen dans [MUE 97]), qui s'est lui aussi intéressé à la question de savoir pourquoi certains mots sont ressentis comme de meilleurs antonymes que d'autres (l'effet clang [DEE 65]). Toujours à l'aide de tests d'association (où il est cette fois demandé au locuteur de répondre à un mot qui lui est présenté par le premier mot qui lui vient à l'esprit), il établit, à partir d'un ensemble de 278 adjectifs, une liste de 39 paires d'antonymes prototypiques (c'est-à-dire qui sont immédiatement reconnus par la plupart des personnes interrogées) comme big/little, cold/hot, fast/slow, new/old etc. Les autres paires comme good/terrible qui sont en opposition mais qui ne sont pourtant pas reconnues par les locuteurs sont appelées near-opposites (nous proposons la traduction quasi-antonymes, sur le modèle de quasi-synonyme). Selon lui, l'antonymie est à la base de l'organisation des adjectifs dans le lexique mental : les quasi-antonymes ne se définiraient que par rapport à un petit nombre de 14

paires d'antonymes prototypiques (qui sont les plus fréquentes en langue). Cette théorie est reprise par G. Miller pour l'organisation des adjectifs dans WordNet [MIL 90] (antonymes directs vs. indirects).

Ainsi, dans le schéma ci-dessus (extrait de [HRI 02]), wet et dry sont représentés comme des antonymes directs. La relation qu'il peut y avoir entre soggy, humid, moist, etc. et dry, parched, arid, anhydrous, etc. devra forcément se faire via au moins un des deux antonymes directs, et c'est la raison pour laquelle on parle d'antonymie indirecte. La question des quasi-antonymes a également été abordée par D. A. Cruse [CRU 95]. Il distingue trois caractéristiques qui les séparent des vrais antonymes :



certains couples sont formés sur une opposition élémentaire : giant et dwarf s'opposent car ils renferment l'opposition large/small. Il en va de même pour shout/whisper (loud/soft) et criticize/praise (bad/good). Ces oppositions élémentaires n'épuisent pas le sens des quasiantonymes, alors que c'est le cas des vrais antonymes.



sont également qualifiées de quasi-antonymes les paires de termes comme work/play et town/country, pour lesquels il est difficile de définir une dimension commune (mais qui présentent toutefois une opposition manifeste).



les non-propositionnal meanings (≈connotations) des termes opposés ne correspondent pas dans le cas d'une quasi-antonymie : grassouillet et émacié ne sont pas de purs antonymes car 15

le premier des deux termes est informel et plutôt plaisant alors que le second véhicule une idée de danger et se retrouve surtout dans le domaine médical. A. et K. Lehrer [LEH 82] (cités dans [MUE 97]) ont également dégagé plusieurs conditions nécessaires à la prototypicalité d'une paire antonymique :



les deux antonymes doivent se trouver à égale distance de la valeur neutre de l'axe sur lequel ils s'articulent. C'est la raison pour laquelle les couples chaud/froid et glacial/brûlant sont perçus comme prototypiques, alors que ce n'est pas le cas pour frais/brûlant, par exemple, dont les termes varient en intensité. C'est également le cas de l'opposition good/terrible, que nous avons vue plus haut, dont les termes forment respectivement des paires prototypiques avec bad et excellent.



les antonymes authentiques ont des distributions similaires : big et little, en plus d'exprimer la notion de taille, peuvent référer à l'âge dans des constructions comme big brother ou little sister, ce qui n'est pas le cas de large, quasi-antonyme de little.



pour un même concept, les antonymes doivent référer à une dimension identique. Pour le concept intelligence, on trouve tout une liste d'antonymes de clever qui sont plus ou moins synonymes (dull, stupid, inintelligent, unskillfull, slow, dense, simple), comme c'est le cas pour les antonymes de stupid (smart, able, intelligent, skillful). Cependant, la plupart des couples que l'on peut former à partir de ces deux listes ne sont que des quasi-antonymes, comme dans les couples clever/unskillful ou ingenious/dense. Cela vient du fait que des termes comme smart et intelligent renvoient à une certaine façon d'être intelligent à laquelle ne correspond pas skillful, par exemple. Malgré le fait que tous ces mots expriment un degré d'intelligence, les nuances de sens véhiculées impliquent la prise en compte d'un certain nombre de dimensions : les antonymes prototypiques partagent la même dimension alors que les relations qu'entretiennent les quasi-antonymes sont transdimensionnelles.

1.1.3.2. La canonicité La notion de canonicité est fortement liée à celle de prototypicalité. Des antonymes sont dits

16

canoniques si, lors de tâches d'association de mots, à l'évocation d'un des membres d'une paire d'antonymes supposée représentative, le sujet répond spontanément et quasi systématiquement par l'autre membre de la paire. Les antonymes non canoniques sont quant à eux plus dépendants du contexte (le contexte des tâches d'associations de mots étant neutre). Murphy se demande alors quels facteurs déterminent ces associations constantes. Selon elle, ce phénomène pourrait, dans un premier temps, être expliqué par la forte cooccurrence de ces paires d'antonymes notamment à l'intérieur d'expressions figées comme souffler le chaud et le froid : les locuteurs auraient été, au cours de leur apprentissage, influencés par ces associations récurrentes et reproduiraient ces associations à leur tour. Des études plus anciennes menées notamment par Charles et Miller [CHA 89] (rapportées dans [MUE 97]) sur la relation entre cooccurrence et antonymie aboutissent à la même conclusion : les paires d'antonymes canoniques ne doivent ce statut qu'au fait que leurs membres ont tendance à apparaître ensemble en contexte, et c'est la raison pour laquelle les locuteurs ont tendance à les associer. En s'appuyant sur le Brown Corpus, ils prennent l'exemple de strong et weak, qui apparaissent à cinq reprises dans la même phrase alors qu'il n'y en a aucune avec à la fois strong et faint, weak et powerful, ou faint et powerful. La principale faille de ce raisonnement est qu'il est circulaire : le fait que certains mots sont particulièrement associés dans le Brown Corpus démontre empiriquement l'instabilité de la relation d'antonymie mais n'en explique en rien la raison. Toutefois, nous verrons que l'argument de la cooccurrence, même s'il ne suffit pas à définir les caractéristiques des antonymes canoniques, constitue un début d'explication de certains phénomènes comme les oppositions contrastives (cf. 1.2.4.3.). Dans un second temps, Murphy définit une relation spécifique dite relation par contraste qui apporte des éléments de réponse : pour que deux termes soient en opposition ils doivent se trouver sur un même axe, dans une même dimension mais en même temps être suffisamment différents pour être considérés comme antonymes. Lorsque deux antonymes partagent toutes leurs propriétés sauf une, ils sont, selon Murphy, en relation par contraste. La majorité des antonymes canoniques sont soumis à cette relation. Malgré ces deux éléments, la cooccurrence et la relation par contraste, qui caractérisent la canonicité, il est parfois difficile de déterminer avec certitude si deux antonymes sont canoniques. En outre, Murphy note que lorsque deux antonymes sont canoniques dans un contexte neutre, ils peuvent être importés dans une autre dimension où ils seront également considérés comme 17

canoniques. Lehrer [LEH 02] illustre cela à travers cet exemple : He traded in his hot car for a cold one Ici, a hot car désigne une voiture volée et comme dans un contexte neutre, cold est l'opposé de hot, par analogie il le devient également dans cette dimension et a cold car signifie alors une voiture légalement acquise. Enfin, revenons à l'étude d'Herrmann et al [HER 86]. À quels facteurs sont dues ces différences de jugement ? Nous avons vu que la canonicité n'était pas une notion suffisante pour expliquer ces différences. Selon Murphy, elles seraient dues à des éléments non sémantiques qui, inconsciemment, influent sur la considération qu'ont les locuteurs des antonymes. Avoir une base, une racine commune est l'un de ces facteurs et par exemple edible/inedible sont jugés meilleurs que edible/uneatable. Un autre facteur est la structure morphologique, c'est-à-dire que plus deux termes contraires sont morphologiquement similaires, plus ils seront considérés comme des bons antonymes. Par exemple, awake/asleep sont de meilleurs antonymes que up/asleep. Cette morphologie similaire induit souvent des structures phonétiques semblables qui présentent notamment des allitérations (awake/asleep) ou des rimes (ascend/descend). Ceci expliquerait pourquoi maximize/minimize se trouve en tête du tableau d'Herrmann et al., puisque la paire présente une structure morphologique et phonétique analogue. Cette influence de facteurs non sémantiques démontre que, pour mettre deux termes en opposition, les locuteurs ne se contentent pas de considérer uniquement les propriétés sémantiques des termes mais élargissent leurs critères à des éléments annexes.

1.2. Les typologies traditionnelles Cette partie fait l'inventaire des différentes classes d'antonymes que des auteurs comme Cruse et Lyons ont décrites, avec souvent des terminologies différentes. Nous avons établi une représentation arborescente de ces catégories en annexe (Fig. 1).

18

1.2.1. Les contraires/gradables/scalaires Deux termes contraires constituent les pôles d'une échelle de valeurs donnée (la température pour chaud/froid). Ils sont gradables et l'on peut ainsi désigner des points intermédiaires sur l'échelle en les situant par rapport à ces pôles :



en utilisant des adverbes intensificateurs : assez chaud, un peu froid.



en niant les deux termes d'une opposition portant sur un même sujet : Pierre n'est ni riche ni pauvre.

Quelquefois, ces valeurs intermédiaires sont lexicalisées, et si l'on associe deux d'entre elles dont la distance au point neutre de l'échelle est égale et dont la polarité est inverse, on peut former de nouveaux couples d'antonymes (tiède/frais). Les pôles ne constituent, en quelque sorte, que des valeurs de l'échelle lexicalisées, et ne définissent en rien des frontières : très chaud/très froid, brûlant/glacial. Lyons distingue trois types de gradation [LYO 78] :



la gradation est explicite dans des phrases comme Notre maison est plus grande que la vôtre.



elle est semi-explicite dans Notre maison est plus grande : l'étalon de comparaison n'est pas mentionné.



elle est implicite dans Notre maison est grande : on n'applique pas la propriété d'être grand dans l'absolu (comme c'est le cas pour Ce livre est rouge), mais l'on attribue à l'objet une valeur sur un axe (la taille) par rapport à un autre point de l'axe qui est ici implicite et qui correspond à la norme en vigueur dans une culture donnée : Notre maison est grande pourrait être reformulé Notre maison a une taille plus élevée que la moyenne des maisons. C'est la raison pour laquelle on pourra qualifier de grande une maison qui ferait un mètre de hauteur dans un village de Schtroumpfs : le point de référence varie selon les connaissances encyclopédiques des locuteurs. Quand on dit d'une maison qu'elle est grande, on dit qu'elle est d'une taille plus élevée que, et on peut sans problème utiliser grand et son antonyme

19

petit pour qualifier un même objet : Ma maison est grande, mais elle est plus petite que la vôtre. Ainsi, les antonymes de ce type, qualifiés de pseudo-comparatifs, sont opposés aux comparatifs véritables (true comparatives) comme triste/joyeux : ?Pierre est joyeux mais il est plus triste que Paul. Cruse distingue ainsi trois sous-classes d'antonymes gradables :



les antonymes polaires ne portent pas de jugements de valeur affective et l'échelle sur laquelle ils s'articulent (vitesse, poids, taille...) peut être généralement mesurée à l'aide d'unités conventionnelles. Chaque terme du couple est un pseudo-comparatif : étroit/large, lent/rapide, lourd/léger...

Ce ruban est court mais il est plus long que celui-là. Ce ruban est long mais il est plus court que celui-là.



les asymétriques (overlapping) sont composés d'un terme à connotation positive et d'un autre à connotation négative. Un des membres de la paire est un pseudo-comparatif, l'autre est authentique : bon/mauvais, poli/grossier, beau/laid... Pierre est sale mais il est plus propre que Paul. ?Pierre est propre mais il est plus sale que Paul.



les équipollents réfèrent à des sensations subjectives ou à une évaluation basée sur une réaction subjective. Ils se composent de deux vrais comparatifs : agréable/désagréable, doux/amer... ?Pierre est gentil mais il est plus méchant que Paul. ?Pierre est méchant mais il est plus gentil que Paul.

20

gai/triste,

1.2.2. Les contradictoires/complémentaires Contrairement aux scalaires, les complémentaires ne peuvent pas être nuancés (nous verrons plus tard qu'il y a des exceptions). Selon J. Picoche [PIC 92] (citée par Amsili [AMS 03]), la relation d'antonymie complémentaire est « la forme binaire de l'incompatibilité ». Les antonymes contradictoires/complémentaires ont pour propriété de diviser un domaine en deux parties mutuellement exclusives : la négation de l'une implique l'affirmation de l'autre (principe du tiers exclu, de la disjonction exclusive), et les deux termes ne peuvent être ni niés ni affirmés en même temps. Pour tout être animé : Il est mort ► Il n'est pas vivant Il est vivant ► Il n'est pas mort * Il est vivant, cependant il est mort. * Il n'est ni vivant ni mort. Cette relation étant binaire, elle n'accepte, dans la plupart des cas, aucune gradabilité. *Il est très/peu mort. En revanche : a) Il est de moins en moins vivant depuis qu'il se drogue. b) Une voyelle mi-fermée. Le premier exemple se distingue du deuxième par le fait que l'acception de vivant qui est ici utilisée diffère de celle qui entretient une relation d'antonymie complémentaire avec mort : dans l'exemple (a), vivant renvoie à des propriétés comme fort ou vif (cf. Le Robert), qui sont culturellement associées à vivant, qui serait plutôt ici en opposition (contraire) avec apathique. On peut également observer le phénomène inverse avec hot et cold, qui passent du statut d'antonymes contraires à celui de contradictoires quand ils sont utilisés pour désigner un mode d'acquisition : dans une de ses acceptions argotiques, hot est synonyme de stolen et signifie donc volé, par opposition à cold qui renvoie à acquis légalement (cf. 1.1.3.2.).

21

On peut noter l'existence d'un autre type de négation qui permet la construction d'énoncés comme Le Père Goriot n'est pas mort, il n'a jamais existé (exemple tiré de [NYK 98]). La première partie de la phrase n'implique pas que le Père Goriot est vivant mais nie le fait que cette propriété puisse s'appliquer à ce personnage (puisqu'il est fictionnel) : on parle alors de négation métalinguistique.

1.2.3. Les converses/réciproques La plupart des auteurs s'accordent à classer les converses dans la catégorie des antonymes et à affirmer qu'ils n'ont rien à y faire. Au niveau logique, ils se différencient des contradictoires par le fait que Pierre n'est pas le père de Paul n'implique pas Pierre est le fils de Paul. Sont qualifiés de réciproques les couples de noms ou de verbes exprimant des rôles sociaux (maître/serviteur), une relation de parenté (oncle/neveu), un lien spatio-temporel (avant/après, dessus/dessous) ou une transaction (vendre/acheter, prêter/emprunter). Leur assimilation à la catégorie des antonymes est sujette à discussion : il est en effet difficile de mettre au même plan ces différentes relations, dans le sens où, selon F. Labelle [LAB 04], « un réciproque est une relation entre deux entités (X est le fils de Y) alors que chaud/froid sont des propriétés d'une même entité (*X est le chaud de Y) » La réciprocité passe en effet par l'inversion des arguments syntaxiques : La Toussaint est avant Noël.

Le lion est un prédateur de la gazelle.

Noël est après la Toussaint.

La gazelle est une proie du lion.

Dans le cas des constructions ditransitives, Cruse parle de converses indirects : dans les constructions comme Pierre a acheté un croissant à la boulangère ► La boulangère a vendu un croissant à Pierre, la relation porte surtout sur le sujet et l'objet direct, l'objet indirect étant facultatif. La forme comparative de deux antonymes contraires peut être assimilée à de la réciprocité :

22

Pierre est plus petit que Paul ► Paul est plus grand que Pierre C'est également le cas de l'opposition actif/passif : Le dentiste a soigné ma dent ► Ma dent a été soignée par le dentiste. Il est intéressant de constater que les énantiosèmes (homonymes ayant des sens opposés) entretiennent tous entre eux une relation de réciprocité : L'aubergiste est l'hôte du voyageur ► Le voyageur est l'hôte de l'aubergiste Toutefois, à notre connaissance, seuls le substantif hôte et le verbe louer possèdent ces propriétés en français.

1.2.4. Autres types d'antonymes Il existe d'autres relations qui relèvent de l'antonymie et que nous classerons dans trois parties distinctes : les oppositions directionnelles, les contrastes non binaires (ces deux parties sont tirées de [LYO 78]) et les oppositions contrastives.

1.2.4.1. Les oppositions directionnelles Cette catégorie inclut les termes désignant des directions vers des points situés de part et d'autre d'un même axe : Nord/Sud, haut/bas, droite/gauche... Le choix de Cruse, plutôt étonnant au premier abord, de classer les converses dans cette catégorie peut s'expliquer par le fait que les directionnels expriment par nature la notion de réciprocité : Pierre est à la gauche de Paul implique Paul est à la droite de Pierre. Il fait également cohabiter dans la catégorie des directionnels trois autres types d'antonymes :



les réversibles sont définis par le fait que dans une paire, l'un des membres exprime un changement d'un point A vers un point B alors que l'autre exprime un changement du point 23

B vers le point A. On peut classer dans cette catégorie des couples comme arriver/partir, apparaître/disparaître, chauffer/refroidir... La présence dans cette catégorie d'antonymes comme améliorer/détériorer peut apparaître moins légitime que celle de monter/descendre si l'on considère que la définition des directionnels implique un mouvement dans l'espace. Or, il n'en est rien : la catégorie des directionnels englobe également les antonymes qui expriment toute métaphore de l'idée de mouvements inverses. On remarque dans cette catégorie un certain nombre de couples formés du verbe nu et de sa forme dérivée en dé- ou dis- (attacher/détacher, visser/dévisser, joindre/disjoindre). Certains sont basés sur des couples de complémentaires : allonger/raccourcir ► rendre plus long/court chauffer/refroidir ► rendre plus chaud/froid



les antipodaux sont formés de deux termes représentant chacun les extrémités de l'axe sur lequel ils s'articulent : haut/bas pour la verticalité, début/fin pour la dimension temporelle. On peut retrouver ces oppositions élémentaires dans des paires de quasi-antonymes comme cave/grenier, tête/pied ou berceau/tombe.



les irrégularités expriment une déviation sur une surface uniforme et sa contrepartie : colline/vallée, concave/convexe...

1.2.4.2. Les contrastes non binaires Ils désignent la relation qu'entretiennent deux éléments d'un ensemble lexical fini (même si ce n'est pas le cas pour les numéraux, qui peuvent se combiner à l'infini) de type hiérarchique (grades), cyclique (saisons, jours de la semaine, mois) ou taxonomique (relation entre deux cohyponymes). Lyons préfère parler d'incompatibilité plutôt que d'opposition, dans le sens où la négation de l'un des termes implique l'affirmation d'un autre terme de l'ensemble (et pas d'un terme en particulier) : si une fleur n'est pas une rose, alors c'est forcément une tulipe/marguerite/pivoine, etc.

24

1.2.4.3. Les oppositions contrastives Nous classons dans cette catégorie les paires antonymiques que les locuteurs considèrent comme canoniques malgré le fait qu'elles ne respectent pas les critères établis pas Cruse et Lehrer. Ce sont par exemple deux éléments d'un ensemble comme blanc/noir ou eau/feu qui sont ressentis comme diamétralement opposés pour des raisons qui peuvent relever de l'extralinguistique (l'eau éteint le feu et le feu fait s'évaporer l'eau) ou de la présence en langue de locutions comme c'est le jour et la nuit qui favoriseraient, par une cooccurrence accrue, l'association de deux unités lexicales particulières dans une paire antonymique (jour et nuit plutôt que matin et soir ou aube et crépuscule, par exemple).

Conclusion Si le caractère universel de la relation d'antonymie et le rôle prépondérant qu'elle joue dans l'organisation du lexique mental ont été clairement démontrés par la psycholinguistique, un point essentiel la concernant reste sujet à débat : dans quelle mesure est-elle à proprement parler une relation lexicale ? Cette question, posée dans [MUR 06], fait suite aux études sur corpus développées dans la partie 1.1.3.2. qui démontrent que la fréquence d'apparition de certains termes opposés dans une même structure favorise la constitution de paires canoniques. Ainsi, le jugement que portent les locuteurs sur cette relation sémantique dépend de nombreux critères. L'antonymie ne se résume pas uniquement à des facteurs sémantiques mais est soumise à d'autres éléments parfois extralinguistiques. Cette variabilité est également présente dans la classification des antonymes présentée dans la seconde partie. En effet, la typologie est différemment organisée selon les points de vue et il est parfois difficile d'assigner une catégorie à certaines paires d'antonymes (Murphy définit même une catégorie qu'elle nomme inclassables où se retrouvent, par exemple, des paires comme ask/answer qui ne se trouvent dans aucune classe définie par Cruse du fait que leur association relève plus de la consécutivité que de l'antonymie, sauf bien sûr si l'on considère chacune de ces actions liées à l'opposition locuteur/interlocuteur) : la diversité des critères qui concourent à l'établissement de la définition de la relation d'antonymie sera sans nul doute le principal obstacle qu'il nous faudra surmonter lors du traitement automatique.

25

1.3. L'antonymie en contexte La notion d'antonymie recouvre un ensemble de relations lexicales pour le moins disparate : de l'opposition gradable vs. non-gradable naît une multitude de sous-catégories dont l'organisation a été maintes fois discutée (ce fut notamment le cas de la relation de réciprocité qui, pour certains auteurs, ne relève pas de l'antonymie). Nous avons vu que les différentes typologies qui ont été établies se sont quasi-exclusivement basées sur les travaux de Leech [LEE 74], Lyons [LYO 78] et Cruse [CRU 95] eux-mêmes orientés vers une définition purement logique du phénomène, où le critère de validation des catégories dégagées est l'intuition du linguiste (appuyée par des exemples construits pour les besoins de la démonstration, donc artificiels). À cette approche s'oppose l'analyse en corpus. L'utilisation de ressources textuelles dans le cadre de l'étude de l'antonymie est apparue dans le domaine de la psychologie en 1989 avec les travaux de Charles et Miller [CHA 89] visant à vérifier à l'aide du Brown Corpus l'hypothèse de Deese selon laquelle deux adjectifs de sens opposés sont considérés comme des antonymes quand ils sont interchangeables dans la plupart des contextes [DEE 65]. La même démarche sera adoptée par Justeson et Katz, qui se serviront également du Brown Corpus dans une approche légèrement différente : alors que dans les travaux de Charles et Miller le corpus ne servait qu'à la validation d'une hypothèse définie a priori, Justeson et Katz en extraient des patrons qui leur permettront d'affirmer l'existence de constructions parallèles [JUS 91]. Fellbaum poursuivra dans cette voie en testant les théories de la substituabilité et de la cooccurrence sur les noms, verbes, et adverbes [FEL 95] . Nous consacrerons la première partie de ce chapitre au développement des travaux sus-cités. La seconde partie abordera les travaux de Steven Jones [JON 02]. Nous avons décidé d'y consacrer un chapitre à part entière afin de marquer la distinction qu'il y a entre les travaux de Jones et ceux décrits dans la première partie : des travaux de Deese à ceux de Fellbaum on peut en effet observer une certaine continuité qu'il nous est apparu maladroit de briser, alors que l'étude de Jones, même si elle est évidemment tributaire des travaux précédents, aborde l'antonymie sous un angle nouveau. À partir d'une liste de 56 paires de mots de sens opposés, il extrait huit types de relations antonymiques qu'il confronte avec les classifications logiques traditionnelles : nous verrons que les typologies établies in abstracto sont bien éloignées des réalités du corpus.

26

1.3.1. Des tests d'association aux patrons syntaxiques Nous abordons ici une série d'études menées de 1964 à 1995 ayant pour point de départ la théorie de la substituabilité, utilisée par le psychologue James Deese dans ses travaux sur le rôle de la relation d'antonymie dans l'organisation du lexique mental.

1.3.1.1. Deese (1964) Son étude est basée sur des tests d'association où il était demandé à un locuteur de répondre à un mot qui lui était présenté par le premier mot qui lui venait à l'esprit. Les résultats ont montré qu'un grand nombre d'adjectifs étaient directement associés à un autre adjectif de sens opposé, ce qui entraînera Deese à formuler l'hypothèse que c'est la relation d'antonymie qui organise l'ensemble des adjectifs dans le lexique mental. À la suite d'une nouvelle série de tests d'association où n'étaient cette fois présentés aux locuteurs que des adjectifs, il dressa une liste de 39 paires d'antonymes considérés comme représentatifs (chaque paire étant construite de telle sorte que l'adjectif 1 correspondait à la réponse la plus fréquente apportée par les locuteurs quand le stimulus était l'adjectif 2, et réciproquement). Il s'est attaché à découvrir les raisons de ces rapprochements et a remarqué que les contextes dans lesquels apparaissaient les adjectifs conditionnaient leur regroupement en paires antonymiques (il parle de contiguïté) : « Even the apparently synonymous pairs, big/little and large/small, have different uses in the language [...]. Think of the difficulty, for example, of substituting large for big in “He opened his big mouth”. Therefore, it is not surprising that much of the meaning of one of these pairs, as the meaning is described by linguistic context, cannot be determined from the other. » [DEE 65] p. 127 « We have argued that the schemata underlying associative distributions grow out of equivalences within linguistic contexts. If this notion is correct and if the relations between contrasting pairs of adjectives are as they have been described here, there is implied a particular pattern to the contexts in which these adjectives appear in ordinary discourse. » [DEE 65] p. 138

27

Cette affirmation préfigure l'hypothèse de la substituabilité formulée par Charles et Miller dans [CHA 89].

1.3.1.2. Charles et Miller (1989) Dans le cadre du projet WordNet, ils se sont intéressés à la théorie de Deese selon laquelle c'est la relation d'antonymie qui organiserait les adjectifs dans le lexique mental. Ils poursuivirent également ses recherches en utilisant le Brown Corpus pour tenter de trouver les raisons qui font que deux termes sont considérés comme antonymes. Pour cela, ils formulèrent deux hypothèses. La première, paradigmatique, reprend les observations de Deese sur la similarité des contextes dans lesquels apparaissent deux adjectifs d'une même paire antonymique : si deux adjectifs sont interchangeables dans la plupart des contextes dans lesquels ils apparaissent, alors ils sont antonymes. C'est la théorie de la substituabilité. La seconde, syntagmatique, propose que si deux mots sont considérés comme des antonymes, c'est parce qu'ils apparaissent fréquemment ensemble dans la même phrase. C'est l'hypothèse de la cooccurrence. Afin d'éprouver leurs théories, ils procédèrent à une série de tests rapportés dans [MUE 97]. Le premier visait à vérifier si le contexte était à lui seul capable de discriminer les termes d'une paire antonymique : Charles et Miller décidèrent d'extraire du Brown Corpus cent phrases où apparaissaient soit l'un des adjectifs de la paire antonymique strong/weak, soit l'un de leurs synonymes respectifs, à savoir powerful et faint (à hauteur de 25 phrases par adjectif). Pour chacune de ces phrases, ils laissèrent un blanc à la place de l'adjectif et demandèrent à un ensemble de locuteurs de les regrouper selon le mot manquant. Si la théorie de la substituabilité s'avérait exacte, alors les contextes de la paire strong/weak seraient confondus, ce qui ne serait pas le cas avec les contextes des paires d'antonymes indirects strong/faint et powerful/weak. Les résultats montrèrent que les locuteurs ne confondent les contextes qu'à de rares occasions. La même expérience fut menée avec les antonymes public/private et leurs synonymes open et secret : les résultats furent identiques. Charles et Miller essayèrent à nouveau en réduisant les contextes à des phrases nominales de type the

eye, many

sources, ou a very

government en faisant

l'hypothèse qu'un contexte plus restreint aurait moins de chance d'orienter les sujets dans le choix des adjectifs manquants, dont la liste (strong, weak, public et private) leur avait cette fois été communiquée. Les résultats se sont montrés un peu plus probants, mais le faible taux de confusion

28

entre les contextes des paires antonymiques poussa Charles et Miller à conclure que tous les noms modifiables par un adjectif donné ne le sont pas forcément par son antonyme (certaines associations sont plus ou moins figées : une recherche sur internet nous montre que le SN soirée privée a une fréquence beaucoup plus élevée que soirée publique, alors que la différence est beaucoup moins importante entre droit privé et droit public, par exemple). D'après leurs expériences, la théorie de la substituabilité ne se vérifie donc pas. Charles et Miller se tournèrent alors vers l'hypothèse de la cooccurrence, qu'ils testèrent en comparant le nombre de phrases du Brown Corpus contenant les deux membres de la paire d'antonymes directs strong/weak et celles contenant les paires d'antonymes indirects strong/faint, weak/powerful et faint/powerful : strong et weak apparaissent ensemble cinq fois alors que les autres paires ne se rencontrent jamais dans la même phrase. Ils renouvelèrent l'expérience avec des paires plus fréquentes (big/little et large/small), ce qui donna les résultats suivants :

Paire

Occurrence

Occurrence

effective

théorique*

Rapport

Antonymes

big/little

12

1,6

7,5

directs

large/small

26

3,2

8

Antonymes

large/little

3

1,7

1,8

indirects

big/small

4

2,9

1,4

Les résultats montrent clairement que les termes considérés a priori comme antonymes directs apparaissent ensemble beaucoup plus fréquemment que les antonymes indirects, ce qui va dans le sens de la théorie de la cooccurrence. « It seems reasonable to suppose that the antonymous pairings –the clang association between direct antonyms– is a consequence of frequently perceiving and using these words together in the same syntactic structures. » [CHA 89] cité dans [MUE 97] p. 42 Il serait intéressant de chercher à définir ce que recouvre le terme syntactic structure : est-il utilisé au sens large pour désigner la phrase, ou bien Charles et Miller avaient-ils déjà remarqué l'existence de structures propices à l'apparition de termes antonymes ? * Cet indicateur correspond au nombre d'occurrences prévues de la paire si les mots étaient distribués au hasard dans le corpus (il se base sur la fréquence de chacun des deux mots du couple).

29

1.3.1.3. Justeson et Katz (1991) À l'aide d'un corpus de 25 millions de mots, ils décidèrent d'approfondir la théorie de la cooccurrence en testant, avec un protocole identique à celui de Charles et Miller, trois listes d'antonymes :



les 39 paires antonymiques de Deese.



un ensemble de 22 paires d'adjectifs antonymes n'apparaissant pas dans la liste précédente et dont l'un des membres apparaissait au minimum à cinquante reprises dans le Brown Corpus.



une liste de paires d'antonymes composées d'un adjectif et de son dérivé morphologique.

Avec des taux de cooccurrence de 1/14,7* en moyenne pour les antonymes de Deese et 1/18,2 pour la liste des antonymes fréquents, la théorie est largement confirmée puisque des mots distribués aléatoirement n'auraient pas pu apparaître dans les même phrases à une fréquence aussi élevée (les résultats de la liste des adjectifs morphologiquement liés sont difficilement interprétables étant donnés les faibles taux d'apparition des adjectifs dérivés : 45 % n'apparaissent qu'à une seule occasion dans le corpus). Dans un deuxième temps, ils se sont penchés sur les contextes syntaxiques d'apparition des adjectifs antonymes et ont repéré des régularités : « [...] the antonymic adjectives are usually syntactically paired, and in these cases they are commonly found in conjoined phrases that are identical or nearly identical, word for word, except for one antonym for the other [...] They appear in syntactically parallel and usually lexically identical structures. » [JUS 91] p. 10 On constate que Justeson et Katz n'adoptent pas une position aussi radicale que Charles et Miller à l'encontre de la théorie de la substituabilité : ils ne rejettent pas en bloc l'hypothèse des contextes partagés car leurs observations les ont menés à constater que des facteurs paradigmatiques entraient en ligne de compte dans la constitution des paires antonymiques : * « Rate (1/n) indicates that one sentence out of n sentences with the less frequent adjective will contain its antonym as well. » [WIL 01] p. 63

30

« Co-occurrence takes place via substitution, substitution yields antonym alignment, and alignment leads to association. » [JUS 91] cité dans [WIL 01] p. 63

1.3.1.4. Fellbaum (1995) Depuis les tests d'association de Deese, les recherches sur l'antonymie se sont confinées à la classe des adjectifs : il s'est en effet avéré que les locuteurs étaient plus enclins à produire des antonymes lorsque le stimulus était un adjectif plutôt qu'un nom, un verbe ou un adverbe. C. Fellbaum s'est attachée à vérifier si les hypothèses émises concernant les adjectifs antonymiques s'appliquaient également aux autres classes dites majeures, et si cette distinction en catégories syntaxiques était vraiment pertinente dans le cadre de l'étude de l'antonymie. Dans un premier temps, elle a testé la théorie de la cooccurrence sur les noms et les verbes en prenant le Brown Corpus pour référence. Les paires lose/gain, start/finish et increase/decrease ont été sélectionnées (leur caractère antonymique est incontestable et leur fréquence est élevée) et confrontées au Brown Corpus. L'expérience a donné les résultats suivants (les formes fléchies ont été prises en compte) :

Mots

Occurrences individuelles

Cooccurrences

mot1

mot2

n1

n2

Effectives

Théoriques*

Rapport

lose(V)

gain(V)

273

77

5

0,384

13

loss(N)

gain(N)

130

63

4

0,14

28,5

start(V)

finish(V)

385

119

3

0,837

3,5

start(N)

finish(N)

60

16

2

0,017

117,6

increase(V)

decrease(V)

326

31

10

0,184

54,3

increase(N)

decrease(N)

154

6

3

0,017

176,6

increase(V)

decrease(N)

326

6

1

0,035

28,5

increase(V)

decrement(N)

326

2

1

0,011

90,9

On peut constater que même si le nombre d'occurrences est plutôt faible (le Brown Corpus est relativement restreint), les deux membres de chaque paire se retrouvent de 3,5 à 176,6 fois plus * Le nombre d'occurrences théoriques est calculé en divisant le produit de la fréquence de chacun des mots du couple (n1 et n2) par le nombre de phrases que contient le corpus (54 717).

31

souvent dans le même phrase que si les mots étaient distribués au hasard. On remarque deux occurrences de phrases contenant chacun des membres de la paire d'antonymes sous leurs formes verbale (increase) et nominale (decrease, decrement ; ce dernier figure dans le tableau car il a la même base que decrease et partage une grande partie de sons sens). Ce constat a amené Fellbaum à approfondir l'étude de l'antonymie intercatégorielle : elle part du constat qu'un même concept peut être exprimé par des mots relevant de parties du discours différentes en prenant pour exemple les phrases suivantes :



The goldfish died.



The goldfish is dead.



The dead goldfish. « There is a difference between the words from different categories, of course, in that nouns like death refer to an event, while adjectives like dead and verbs like die refer to a property and a change of state, respectively. But the concepts underlying these words, and for which the semantic opposition holds, are the same, and the underlying conceptual opposition exists independently of the syntactic category of the particular words that express it. » [FEL 95] p. 285

Cette approche purement sémantique est nécessaire à une considération intercatégorielle de l'antonymie. La cooccurrence d'antonymes appartenant à des parties du discours différentes a été mesurée à partir des paires dark/light (les cas d'homonymie, comme ici avec light qui peut également s'opposer à heavy, ont été discriminés), general/specific, public/private, begin/end, wet/dry et live/die. Les dérivés ont ensuite été relevés et soumis au corpus. On obtient, pour les paires de base begin/end et dark/light, les combinaisons suivates :

32

Mots

Occurrences individuelles

Cooccurrences

mot1

mot2

n1

n2

Effectives

Théoriques

Rapport

beginning(N)

end(N)

92

413

14

0,694

20,1

begin(V)

end(V)

583

139

11

1,481

7,4

begin(V)

end(N)

583

413

6

4,4

1,3

begin(V)

endless(A)

583

20

1

0,213

4,6

beginning(N)

end(V)

92

139

1

0,233

4,2

darkness(N)

light(N)

43

299

6

0,234

25,6

dark(N)

light(N)

22

299

5

0,12

41,6

dark(A)

light(A)

149

61

5

0,166

30,1

dark(A)

light(N)

149

299

8

0,814

9,8

dark(A)

light(V)

149

71

4

0,193

20,7

darken(V)

light(N)

11

299

1

0,06

16,6

dark(N)

light(V)

22

71

1

0,028

35,7

Fellbaum a recensé et confronté les différentes réalisations de chaque terme de la paire de base : begin se décline en begin (N) et beginning (N) et end en end (N et V) et endless (ADJ); dark se trouve sous les formes dark (N et A), darkness (N) et darken (N), et light, lui, garde la même forme quand il apparaît sous ses formes verbales, nominales ou adjectivales. Il est à noter que le fait que light et end peuvent ne pas marquer morphologiquement le changement de classe justifie ici pleinement l'utilisation du Brown Corpus, puisque même si en 1995 des bases plus volumineuses étaient disponibles, ce dernier présentait l'avantage d'être morphosyntaxiquement étiqueté. Si le nombre de dérivés pour ces paires est plutôt restreint, des mots comme live sont beaucoup plus productifs et peuvent présenter plusieurs dérivés différents pour une même classe grammaticale, comme live, lively et alive pour la classe des adjectifs. Les résultats ont montré que la théorie de la cooccurrence s'appliquait non seulement aux couples de termes relevant de parties du discours autres que les adjectifs, mais également aux paires hétérocatégorielles (pour lesquelles la théorie de la substituabilité ne s'applique pas puisque, par définition, des mots appartenant à des catégories syntaxiques différentes ne peuvent pas apparaître dans les mêmes contextes). Cependant, l'observation des contextes d'apparition des cooccurrents appartenant à des classes grammaticales différentes n'a pas permis de définir des patrons spécifiques, ce qui poussa Fellbaum à s'interroger sur le rôle des patrons tels qu'ils ont été décrits dans [JUS 91] : puisqu'ils n'apparaissent pas dans le cas des cooccurrences hétérocatégorielles (et ne sont, par conséquent, aucunement nécessaire à l'opposition de deux termes antonymiques dans une même phrase), dans quel but les locuteurs les font-ils intervenir ? 33

Après analyse des différentes structures, elle dégagea diverses utilisations qui peuvent en être faites, comme l'englobement d'une échelle de valeurs (X and Y alike ; from X to Y), ou la redondance (X, not Y ; X rather than Y). C'est cette démarche empirique de construction d'une typologie des patrons plutôt que des antonymes in abstracto qu'adoptera Steven Jones dans [JON 02].

1.3.2. Une nouvelle approche de l'antonymie en corpus Comme nous l'avons vu, l'avènement des données textuelles numérisées dans le cadre de l'analyse linguistique a été particulièrement bénéfique au domaine de l'étude des relations lexicales, et notamment de l'antonymie. D'abord utilisés dans le but d'éprouver la validité d'hypothèses formulées sur la base de l'intuition, les corpus sont devenus un objet d'étude à part entière (cf. la dichotomie des approches corpus-based vs. corpus-driven évoquée dans [MAY 05]). Les travaux de Jones illustrent bien le dernier stade de cette évolution, puisque son objectif est de prendre du recul par rapport à la typologie classique de l'antonymie pour établir sa propre classification basée uniquement sur les données textuelles, puis la confronter aux conceptions traditionnelles (nous comprenons le sous-titre de [JON 02], « A corpus-based perspective », comme une simple mention de l'utilisation d'un corpus, car si l'on s'en tient à la dichotomie mentionnée ci-dessus, l'étude de Jones s'inscrit clairement dans une démarche corpus-driven).

1.3.2.1. Méthodologie L'approche de Jones étant essentiellement empirique, la sélection des données constitue une étape particulièrement sensible. Ses travaux marquent une certaine rupture avec les études précédentes, dans le sens où il remet en cause la validité des ressources utilisées jusque-là et préfère, dans le cas de la liste des paires antonymiques de départ, constituer ses propres données.

34

1.3.2.1.1. Le corpus Jones rompt avec la tradition en abandonnant le Brown Corpus, dont les limites en termes de volume ont été ressenties comme un obstacle à la recherche d'un nombre satisfaisant de patrons (et ce depuis les travaux de Fellbaum). Le corpus qu'il utilise contient environ 280 millions de mots issus d'articles parus dans le journal The Independent, prélevés entre le 1/10/88 et le 31/12/96. Le choix d'un corpus uniquement journalistique peut être discuté : la variété thématique est certes importante (ce qui ne serait pas le cas du Financial Times, par exemple), mais les variables liées au fait de se cantonner au genre journalistique ne pourront être mises au jour que si les patrons dégagés sont testés sur un corpus de genre différent. Ce dernier point est brièvement évoqué par Jones : « Thus, an overview of how antonymy is used in the field of broadsheet newspaper journalism is possible, although it should be acknowledged that antonymy might be found to function differently in other corpora. » [JON 02] p. 26

1.3.2.1.2. Les paires antonymes de départ La sélection des paires qui serviront à l'extraction des patrons a amené Jones à reconsidérer les ressources existantes :



les antonymes de Deese (cf. 2.1.1.) ont été utilisés dans de nombreux travaux. Malgré le fait que la plupart des paires sont effectivement reconnues comme de bons antonymes, Jones émet quelques réserves sur des paires comme alone/together. De plus, il remarque que certains couples ont été retenus malgré une mesure d'interdépendance relativement basse : seulement 6 % des sujets ont répondu alone au stimulus together, et 10 % ont répondu together au stimulus alone. Même si un tel score suffit à faire de la paire alone/together l'un des quarante couples les mieux reconnus, on peut se demander si elle mérite vraiment d'apparaître aux côtés de paires plus consensuelles comme good/bad. Jones fait d'ailleurs remarquer qu'un seul des 278 adjectifs testés a été associé à son antonyme plus d'une fois sur deux (left, pour lequel 51 % des locuteurs ont répondu right).



le Roget's Thesaurus, utilisé dans les travaux de Mettinger [MET 94], a pour principal défaut d'être basé sur des intuitions vieilles de 150 ans : on y trouve ainsi des paires comme 35

fetor/fragrance (≈puanteur/parfum) qui ne seraient plus reconnues à l'heure actuelle. Jones décide alors de constituer sa propre liste. Le principal critère de sélection a été sa propre intuition de ce qu'il considère comme une paire de bons antonymes, ce qui peut paraître paradoxal, lui-même ayant justifié le recours aux corpus par le fait qu'ils pallient l'instabilité des « shifting sands of human intuition » ([JON 02] p. 21) : « However, corpus data helps to eliminate the element of chance by tapping into not one mental lexicon, but thousands. » Ibid. Quoi qu'il en soit, son ensemble de paires a été composé de telle sorte que les différents critères qui caractérisent les antonymes puissent être observés :



les contradictoires étant plutôt rares par rapport aux contraires, il a rajouté quelques paires comme male/female ou false/true. Les réciproques, de par l'ambiguïté de leur statut, ont été ignorés.



l'étude de l'antonymie s'étant longtemps cantonnée à la classe des adjectifs, il ajoute des couples de verbes (lose/win, hate/love), d'adverbes (rightly/wrongly, badly/well) et de noms (fact/fiction, peace/war).



il rajoute également un sous-ensemble d'antonymes dont l'un des membres est un dérivé morphologique de l'autre (correct/incorrect, advantage/disadvantage).



le critère de la fréquence a été ignoré : on pourra ainsi comparer le comportement de paires comme honest/dishonest et new/old, qui cooccurrent respectivement à 12 et 254 reprises dans le corpus.

Il obtient ainsi une liste de 56 paires dont voici un extrait : bad/good

active/passive

fail/succeed

right/wrong

alive/dead

large/small

agree/disagreee

guilt/innocence

confirm/deny

hard/soft

high/low

attack/defend

rural/urban

boom/recession

drunk/sober

permanent/temporary

36

1.3.2.1.3. La constitution du sous-corpus L'étape suivante consiste à extraire du corpus un ensemble de phrases contenant les paires antonymiques afin de s'en servir comme d'une base propice au repérage des patrons. Sur 55 411 phrases rapportées, Jones décide d'en sélectionner 3000 en respectant certaines contraintes visant à équilibrer le sous-corpus (les proportions suivantes, définies par Jones, sont censées refléter la répartition des utilisations de l'antonymie dans la langue commune) :



environ 60 % des phrases contiennent un couple d'adjectifs, le reste étant partagé entre les autres parties du discours,



au moins 250 phrases incluent un couple de contradictoires,



au moins 250 phrases contiennent une paire d'antonymes morphologiquement liés,



le nombre de phrases contenant une paire donnée, doit, si possible, refléter sa fréquence dans le corpus d'origine.

Les phrases ont ensuite été analysées une par une et regroupées en huit catégories (plus celle des inclassables) selon l'utilisation qui est faite de la paire antonymique.

1.3.2.2. Typologie de l'antonymie en contexte Les résultats apportent bon nombre d'éléments de réponse quant aux fonctions que peut avoir la cooccurrence d'antonymes à l'intérieur d'une phrase. En effet, Jones observe que certaines structures où apparaissent deux antonymes présentent d'évidentes similarités et semblent jouer des rôles analogues au sein de la phrase. Partant de ce constat, il met au jour une typologie de l'antonymie en contexte que nous exposerons ci dessous, et qui se révèle être très différente des classifications d'antonymes établies auparavant par des auteurs tels que Cruse ou Lyons qui ne prenaient en considération que les antonymes eux mêmes sans tenir compte de leurs contextes d'apparition.

37

L'étude de Jones a permis de dégager huit nouvelles classes d'antonymes, qualifiées de majeures ou mineures selon le nombre de leurs manifestations en corpus. Les classes dites majeures sont l'antonymie auxiliaire et coordonnée : elles partagent à elles seules 77,1 % des paires antonymiques du corpus. Le reste se partage entre les classes mineures que sont l'antonymie comparative, distinctive, transitionnelle, négative, extrême et idiomatique.

1.3.2.2.1. L'antonymie auxiliaire La fonction auxiliaire ou ancillary antonymy est la plus répandue dans le corpus et représente 38,7 % des phrases où deux antonymes cooccurrent. On dit que deux antonymes jouent une fonction auxiliaire lorsqu'ils permettent de mettre en opposition, à l'intérieur de la phrase, deux mots ou groupes de mots qui n'ont pas toujours, voire jamais, une interprétation antonymique. Dans les phrases où apparaît ce type de fonction, on observe donc deux contrastes : l'un qui est automatiquement reconnu comme tel, autrement dit la paire d'antonymes, et un autre, généré par le premier, et qui ne l'est pas toujours. Afin de mieux illustrer nos propos prenons quelques exemples : a) I love to cook but I hate doing the dishes - so i'd have a dishwasher or a family of gypsies to do the washing up. b) Eighty five per cent of "firm Tories" agree that "a Labour government would wreck the economy" : only six per cent disagree. c) As the governor of Kumomoto province told me, "This is a rich country, with poor people". Les antonymes présents dans les exemples ci-dessus ont tous une fonction auxiliaire. Prenons l'exemple (a). La paire d'antonymes love/hate permet de mettre en opposition les deux propositions to cook et doing the dishes, qui sorties de ce contexte ont un faible degré d'opposition. La paire d'antonymes agree/disagree de l'exemple (b) permet d'opposer les deux quantités eigty five per cent et six per cent. Enfin dans le dernier exemple country et people sont contrastés au moyen de la paire d'antonymes rich/poor. Chacun de ces exemples contient donc deux paires d'oppositions : Jones

38

nomme la paire d'antonymes la paire A (en gras dans le texte), et les termes ou syntagmes qu'elle permet d'opposer la paire B (soulignée dans le texte). Deux contrastes étant présents dans la phrase, il se demande qui de la paire A ou B représente l'opposition qui doit retenir l'attention du lecteur. On sait qu'une paire d'antonymes est identifiable comme telle d'une façon intuitive, c'est ce que Jones appelle une « opposition familière ». Au contraire, la paire B relève d'une opposition plus spécifique, car moins reconnaissable comme telle, et c'est cette spécificité qui pousse Jones à la considérer comme l'opposition la plus importante (la paire A étant là pour renforcer voire générer le contraste).

Facteurs de la mise en opposition Jones se penche ensuite sur les moyens mis en oeuvre pour mettre en opposition deux unités qui ne sont pas systématiquement contrastives. En effet, on est en mesure de se demander quels facteurs poussent le lecteur à interpréter de façon contrastive deux unités qui, prises isolément, ne bénéficient pas toujours de cette interprétation. Le premier facteur est la nature de la paire B : si elle n'est pas du tout contrastive, alors la paire A crée de toutes pièces l'opposition. Si elle possède des éléments contrastifs mais qui sont à l'état latent, alors la paire A aide à activer ces éléments. Enfin si elle présente un contraste a priori, alors la paire A vient renforcer cette opposition. Voici un exemple pour chacun de ces cas. Respectivement : a) The new edition appeared in the united States about two weeks ago; when I

heard the

news of the coup it seemed bad news for democracy, but very good news for the book. b) It is as the moment illegal to buy a bible on Sunday, even from a cathedral shop,but perfectly legal to buy pornographic magazines. c) As the old adage put it, oppositions do not win elections; government lose them. L'autre facteur permettant une interprétation contrastive est la structure syntaxique où apparaissent les deux oppositions. Jones distingue deux types structures selon qu'elles marquent ou non la coordination entre les oppositions. Dans ces deux cas on observe un certain parallélisme 39

syntaxique entre les structures. Dans le cas où les oppositions ne sont pas coordonnées, on observe que le parallélisme est une condition suffisante pour que le lecteur ait une interprétation contrastive. Afin d'illustrer cela, prenons cet exemple, présenté sous forme de tableau, que nous propose Jones : There is praise for success, condemnation for failure.

Paire B

Paire A

Proposition 1

there is

praise

for

success

Proposition 2

(there is)

condemnation

for

failure

On note que there is, qui débute la phrase et la première proposition, est sous entendu au début de la seconde ne semble pas avoir d'influence sur notre interprétation : le parallélisme quasi parfait de ces propositions entraîne sans nul doute leur mise en opposition. Néanmoins une conjonction de coordination peut être insérée à l'intérieur de ces structures parallèles. Mais puisque le parallélisme suffit à la mise opposition de la paire B, quels éléments nouveaux apporte cette conjonction ? Plusieurs conjonctions sont observées mais nous présenterons ci dessous le cas particulier de la conjonction but qui joue un rôle effectif à un niveau sémantique : Bofors might indicate failure, but Venus and Saturn spell success. Pour Jones, bien que but soit facultatif, l'auteur choisit délibérément de l'inclure dans la structure afin de créer un effet de surprise. Il suppose que ce qui suit le but soit Venus and Saturn spell success est l'élément surprise de la phrase, celui auquel le lecteur ne s'attend pas, et ce qui précède but soit Bofors might indicate failure sont des informations que l'auteur suppose connues par le lecteur. L'intention de l'auteur, en insérant une conjonction, est donc de créer un effet rhétorique. Nous verrons par la suite que la création d'effets rhétoriques est la principale raison qui pousse un auteur à la variation des patrons.

1.3.2.2.2. L'antonymie coordonnée

Comme son nom l'indique, l'antonymie coordonnée met en relation une paire d'antonymes au moyen d'une conjonction de coordination. Cette relation représente 38,4 % des phrases 40

sélectionnées par Jones soit 1151 sur 3000. Des patrons syntaxiques récurrents sont mis en oeuvre dans la coordination des antonymes. Les plus fréquents se présentent sous la forme X and Y et X or Y où X et Y représentent les antonymes (le premier signale une inclusion et le second une exhaustivité). Nous présentons ci dessous des exemples de ces patrons et verrons l'effet sémantique qu'ils produisent. X and Y a) Both pictures are attributed to Ambrogio Lorenzetti, one of the foremost painters in Siena in the first hall of the fourteenth century, who is better known for his massive frescos on good and bad government in the Palazzo Publico, the city Hall. b) He took success and failure in his stride. c) A frank exposé of the oldest profession -male and female- in Budapest. Dans l'exemple (a), la paire d'antonymes good/bad se place avant le nom qu'elle modifie et marque l'inclusion : government est à la fois good et bad. Ces antonymes sont gradables et sont chacun les extrémités de l'échelle sur laquelle ils se situent. Les coordonner ainsi incite le lecteur à assigner à l'élément que modifie les antonymes non pas une mais les deux extrémités de l'échelle. L'exemple (b) est similaire au précédent si ce n'est que dans ce cas les antonymes sont des noms. Jones précise qu'en effet les paires d'antonymes en relation coordonnée peuvent faire partie de catégories grammaticales diverses. L'exemple (c), quant à lui, se distingue des deux précédents. Tout d'abord, la paire d'antonymes male/female se trouve après l'élément qu'elle modifie c'est-à-dire the oldest profession. En outre, Jones observe que l'inclusion n'est pas ici la seule fonction des antonymes. Si dans l'exemple (a) les antonymes étaient gradables, ici ils sont complémentaires et leur présence peut créer un effet redondant puisque, sauf cas exceptionnel, nous sommes tous soit mâle soit femelle. L'auteur décide volontairement d'inclure la paire d'antonymes afin que le lecteur ne se fie pas à ses préjugés, c'est-à-dire dans ce cas que the oldest profession, autrement dit la prostitution, n'est pas l'apanage de la gent féminine mais concerne également l'autre sexe. Cette vision de la prostitution va à l'encontre du cliché que l'on s'en fait. Jones en arrive à cette conclusion : « Thus the antonymous pair of Coordinated Antonymy sentences can be said to fulfill two related functions: to signal inclusiveness of scale and, sometimes, to defy our expectations 41

about a given noun head. » [JON 02] p. 65

X or Y Contrairement au patron précédent, celui ci marque l'exhaustivité mais à part cela, les deux patrons ont des fonctions relativement similaires. Alors que le patron X and Y pousse le lecteur à prendre en compte les deux extrémités de l'échelle où se trouvent les antonymes, X or Y implique une considération de la totalité des valeurs de l'échelle. a) But assuming no scandals, old or new, precipitate presidential disgrace, what is he to do if a triumphal place in history is to be assured? b) He showed no disloyalty, publicy or privately, to Virginia Bottomley though it must have irked him that she was in the Cabinet and he was not. c) When the parents return, they shall not make the siter listen to an account of how good or bad their evening out was. L'exhaustivité est clairement marquée dans tous ces exemples parfois de façon différente. Les exemples (a) et (b) sont assez similaires, la seule différence réside dans la catégorie grammaticale des antonymes : les premiers old/new sont des adjectifs, les seconds publicy/privately des adverbes. L'exemple (c) présente une variation du patron : how est ajouté devant X or Y. L'exhaustivité demeure néanmoins mais est signalée d'une façon différente. Si l'auteur n'avait inséré qu'un seul antonyme, il aurait orienté le jugement du lecteur : how good aurait impliqué que evening était effectivement good et là l'exhaustivité disparaît. L'inclusion du deuxième antonyme évite cette orientation et favorise l'exhaustivité. Autres constructions Les deux patrons présentés ci dessus sont les plus fréquents mais Jones observe d'autres constructions de la relation coordonnée. Nous présenterons brièvement quelques unes de ces constructions et verrons que ces variations servent avant tout la rhétorique de l'auteur.

42

a) He played numerous cameo roles both on the large and the small screen. b) If a school with bad exam results says it is, nevertheless, producing fine people, we can neither agree nor disagree. c) Cantona postured, Chris Eubank-like, relishing the moment, and another few thousand learned to hate as well as love him.

On observe dans l'exemple (a) une répétition du déterminant the dans the large and the small screen. L'absence du second the n'aurait rendu en rien la phrase agrammaticale. Pour Jones, si l'auteur ne fait pas d'ellipse, c'est principalement pour des raisons prosodiques, la phrase étant plus rythmique avec le deuxième the. L'exemple (b) présente une structure du type neither X nor Y qui apparaît à 23 reprises dans le corpus. Cette construction est relativement équivalente à X and Y mis à part que là il y a une négation de la paire d'antonymes mais cela n'altère pas l'inclusion. Enfin l'exemple (c) est également inclusif et présente une construction sous la forme as well as. Là encore, une telle construction crée un effet rhétorique : pour Jones le premier antonyme hate est celui que le lecteur n'attend pas, l'auteur voulant créer un effet de surprise. Il le nomme antonyme surprise.

1.3.2.2.3. L'antonymie comparative L'antonymie comparative établit une comparaison entre les deux antonymes : elle peut être directe, indirecte, préférentielle ou égale. Voici respectivement un exemple pour chacune de ces sous catégories: a) Although one has to be more pessimistic than optimistic in the Third World when it comes to liberation movements and democracy, it is hard not to notice some special characteristics of the Palestinian revolution in general and the PLO in particular. b) The new bills are more colourful than the old ones, with designs in green, yellow, blue, orange, red and blue instead of just green and brown.

43

c) Wanting to be happy rather than sad, I accepted - then realized I had nothing to wear. d) However, the educated are just likely to sanction discrimination in the workplace and social life as the uneducated. L'exemple (a) contient une comparaison directe : pessimistic est comparé à optimistic. Jones observe que ce type de comparaison fait appel à un patron du type more X than Y. Dans cet exemple, les antonymes sont gradables, et lorsque l'auteur spécifie que ce dont il parle est plus pessimistic que optimistic, le lecteur doit trouver le point de l'échelle sémantique auquel ce dernier fait référence. Cet exemple se distingue de l'exemple (b) car si l'exemple (a) compare les antonymes d'une façon directe, l'exemple (b) quant à lui les compare par rapport à un point de référence. Ici ce point de référence est colourful. Un patron syntaxique est également présent dans l'exemple (c) qui se présente sous la forme X rather than Y. Celui ci induit une préférence pour l'un des antonymes, un choix à faire entre les deux. L'exemple (c) diffère des deux précédents car aucune distinction n'est faite entre les antonymes. Ils sont comparés mais de façon égale, aucune préférence n'est faite : les antonymes educated et uneducated sont mis en parallèle.

1.3.2.2.4. L'antonymie distinctive L'antonymie est dite distinctive lorsque l'accent est mis sur le contraste entre les antonymes. Jones observe deux sous catégories de distinction : l'une métalinguistique, l'autre métaphorique. Prenons deux exemples de ces catégories : a) But it made the point that the division between gay and straight is one of many rifts in our society. b) "The gap between the successful and the unsuccessful must be narrowed", he said, "by ensuring that education provides a ladder upon which everyone can find a foothold." Un patron du type between X and Y est mis en oeuvre dans l'exemple (a). Voici ce que Jones avance pour expliquer que cet exemple est métalinguistique : « This reference is metalinguistic because the writer presupposes our familiarity with 44

'opposites' in order to make a more general statement. » [JON 02] p. 81 L'exemple (b) utilise une métaphore illustrée ici par the gap. Mais elle peut être incarnée par des termes tels que difference, distinction, division etc autrement dit ce que Jones nomme "the d'word". Dans tous les cas, la métaphore est présente afin de marquer la distinction entre les deux antonymes.

1.3.2.2.5. L'antonymie transitionnelle L'antonymie est dite transitionnelle lorsqu'elle traduit le changement d'un état à un autre, plus précisément d'un antonyme à un autre. Jones observe trois patrons récurrents dans cette relation: from X to Y, turning X to Y, X gives way to Y. a) Her film career similarly has lurched from success to failure, with enormous period out of work. b) Just as the Princess has grown, turning weakness to strength, so, surely must this country's economy continue to grow. c) Economic optimism has given way to economic pessimism since the great tax-cutting Budget in March. Ces trois exemples traduisent tous un changement d'un état à un autre à travers différents patrons. L'exemple (a) et le patron qui y est associé from X to Y signale une transition entre success et failure. Jones note qu'à ce type de patron est souvent associée une forme verbale métaphorique comme dans ce cas lurched. Les deux exemples suivants ne diffèrent que dans la structure du patron, l'effet sémantique restant similaire. On peut néanmoins noter que l'exemple (c) présente un certain parallélisme entre economic optimism et economic pessimism.

1.3.2.2.6. L'antonymie négative Ce type d'antonymie consiste en la négation de l'un de deux antonymes. Là encore des patrons syntaxiques sont récurrents (X not Y, X instead of Y, X as opposed to Y) : 45

a) Well, without the combination of an arms race and a network of treaties designed for war, not peace, it would not have started. b) Certainly the whole concept of managing by punishment instead of reward has become part of our culture. c) Being young and keen, as opposed to being old and keen, Stewart wanted to bowl CD out twice and win by an innings. On note dans l’exemple (a) que l’antonyme sur lequel se porte la négation se trouve entre virgules ce qui est le cas pour tous les autres exemples cités par Jones et qui présentent ce type de patron. Les deux autres exemples font appel à des constructions différentes mais l’effet sémantique est analogue.

1.3.2.2.7. L’antonymie extrême La particularité de l’antonymie extrême est qu’elle coordonne les valeurs les plus extrêmes des antonymes, souvent au moyen d’adverbes. Voici quelques patrons observés par Jones: a) No-one can afford to go to law except the very rich and the very poor and it can’t possibly get any worse. b) Nothing, it seemed, was too large or too small for Mr Al-Fayed: opening hours, music, uniforms, design, retailing theory. c) Freud maintained in Civilization and its Discontents that human beings feel a deep hate and a deep love for civilization. L’antonymie extrême présente un grand nombre de similarités avec l’antonymie coordonnée car comme on peut l’observer, tous les antonymes de ces exemples sont coordonnées. Néanmoins Jones met un point d’honneur à les distinguer :

46

« Extreme antonyms are fundamentally different because their function is to represent the outer reaches of a semantic scale only, not the entirety of that scale. » [JON 02] p. 92

1.3.2.2.8. L’antonymie idiomatique

Cette antonymie représente en fait les expressions figées comme les dictons, proverbes ou certains clichés. L’antonymie idiomatique est propre à chaque langue. Voici quelques exemples : a) They evidently knew they could teach this old dog a few new tricks. b) The long and the short of it is that height counts. c) Whoever said the female of the species was more deadly than the male hadn’t met Lord William Whitelaw.

1.3.2.3. Observations complémentaires : classe grammaticale et antonymie En marge de l'établissement de la typologie décrite ci-dessus, la constitution de données pour l'analyse de l'antonymie a servi à apporter des éléments de réponses aux questions que se sont posées certains linguistes bien avant Jones, notamment concernant le rôle des propriétés logiques et de la classe grammaticale des antonymes dans leur utilisation en contexte. La conclusion de Fellbaum selon laquelle la partie du discours des antonymes n'affecte en rien leur capacité à s'opposer est mise à l'épreuve : il s'avère que la moitié des classes (l'antonymie coordonnée, auxiliaire, comparative et négative) peuvent se construire indifféremment avec des couples adjectivaux, nominaux, verbaux ou adverbiaux. Toutefois, la distribution n'est pas équivalente, et certaines parties du discours se retrouvent dans des proportions plus ou moins élevées dans certains types d'antonymie, comme les adverbes et les verbes, qui se retrouvent fréquemment dans des structures coordonnées. Jones explique le fait que certaines parties du discours ne se retrouvent jamais dans la moitié des structures par le fait que leurs profils textuels sont incompatibles : c'est la raison pour laquelle on ne trouve aucun couple de verbes ou d'adverbes dans la catégorie des antonymes distingués et transitionnels. La notion de profil textuel n'est

47

malheureusement pas explicitée, mais l'on peut supposer qu'elle correspond à ce à quoi fait référence Jones quand il explique le manque de verbes et d'adverbes dans les structures distinguées par le fait qu'il est plus facile de comparer des choses que des actions. « Therefore, antonymy is not only a phenomenon which crosses word classes, it is (to some degree, and especially in the case of the two major classes) a phenomenon which functions the same irrespective of word class. » [JON 02] p. 148 « When antonyms are used, semantics takes precedence over grammar. » Ibid. p. 153 L'opposition gradable vs. non gradable a été considérée comme le critère fondamental de toute classification des termes antonymiques. En contexte, les deux types d'antonymes se retrouvent dans toutes les structures définies par Jones. Ici aussi on peut observer certaines tendances, comme celle qu'ont les contradictoires à s'employer dans des structures coordonnées, mais au final, on ne peut que relativiser l'importance du critère de gradabilité dans l'utilisation qui est faite des antonymes en contexte. « Antonyms are antonyms, regardless of word class, regardless of gradability. » [JON 02] p. 153

Conclusion Cet état des lieux des différentes études menées sur l'antonymie en contexte nous donne une idée de ce qu'il conviendra de faire pour notre propre analyse. Dans un premier temps il s'agira de déterminer le type de corpus sur lequel nous allons travailler. Certains des travaux présentés portant sur des corpus journalistiques, il sera intéressant de tester les résultats obtenus sur le corpus Le Monde et d'observer le comportement des patrons repérés en anglais sur des textes en français. Néanmoins, Jones a démontré que la variation des patrons syntaxiques induisait souvent un effet rhétorique dans le texte, on pourrait donc envisager de sélectionner en outre un corpus littéraire tel que Frantext. Ensuite, il faudra déterminer quelles paires d'antonymes nous allons utiliser pour l'analyse. Il conviendra de prendre en compte le fait que certaines paires d'antonymes sont plus représentatives que d'autres. Nous envisagerons également de faire varier les classes grammaticales. 48

Enfin, nous déterminerons quel type de technique nous utiliserons pour l'exploitation du ou des corpus : automatique, semi-automatique, par apprentissage... De plus, comme nous l'avons vu dans ce chapitre, les manifestations textuelles des paires antonymes entraînent l'apparition de patrons caractéristiques. Ces derniers permettent de déduire des informations sur les antonymes qu'ils mobilisent, et c'est en cela qu'ils nous intéresseront dans le cadre de ce mémoire. Nous aborderons en parallèle un autre moyen de repérage des paires antonymes basé sur l'analyse distributionnelle : se posera alors la question de la façon dont seront combinées ces deux approches afin d'obtenir le meilleur rapport précision/rappel.

49

Chapitre 2 Analyse distributionnelle et extraction de relations sémantiques

50

Nous ferons dans ce chapitre une description de la méthode distributionnelle harrissienne et nous nous intéresserons à trois systèmes qui la mettent en oeuvre, à savoir SEXTANT, ZELLIG et UPERY.

2.1. Les principes de la théorie distributionnelle Issue du courant structuraliste, elle voit le jour aux États-Unis vers 1930 avec Leonard Bloomfield. Elle reprend le postulat selon lequel les entités du langage sont articulées de façon non arbitraire et propose d'accéder au système sous-jacent par une analyse qui ne ferait pas intervenir le sens mais se baserait uniquement sur les contextes d'apparition des mots pour dégager des classes dites distributionnelles et mettre au jour les relations qu'elles entretiennent [HAR 70], [HAR 91].

2.1.1. L'analyse en constituants immédiats La première étape de cette analyse est de réunir un corpus d'énoncés qui sera jugé représentatif de la langue observée (le fait que le distributionnalisme ait recours au corpus, par nature fini, sera critiqué par Chomsky). À partir de là, on prend un énoncé que l'on essaiera de découper en segments, les constituants immédiats, jusqu'à aboutir au niveau du mot. Soit la phrase Le chat boit du lait. Après observation des données du corpus, on trouve Pierre boit du lait, qui nous permet de distinguer deux constituants dans la première phrase, à savoir Le chat et boit du lait. Si l'on trouve Mon chat, alors on pourra scinder Le chat en Le et chat, etc. Le corpus ne possédant évidemment pas assez de phrases pour permettre de comparer tous les énoncés de cette manière, on observe les régularités dans les contextes d'apparition des mots et on les regroupe selon leurs similarités combinatoires pour former des classes distributionnelles. C'est de l'analyse de ces classes que naîtra la grammaire de la langue.

2.1.2. Les trois contraintes harrissiennes Zellig Sabbetai Harris, élève de Bloomfield, avance le fait que la combinaison des éléments 51

des classes distributionnelles est soumise à trois contraintes. La première, d'ordre syntaxique, implique que tous les mots de la phrase entrent dans une relation opérateur-argument : chaque mot dépend d'un ou de plusieurs autres mots de la phrase et ne peut apparaître dans des contextes qui ne seraient pas compatibles avec sa structure argumentale. Ainsi, dans la phrase Marie dort, dort ne nécessite qu'un argument (le sujet). Si l'on prend Le voisin donne une lettre à Marie, donne nécessite trois arguments, qui eux n'en nécessitent aucun. Dort, dont on a vu qu'il se construisait avec un argument, ne peut donc pas être lui-même argument de donne : *Dort donne une lettre à Marie. *Le voisin donne dort à Marie. *Le voisin donne une lettre à dort. Alors que : Pierre donne un chat au bébé. Il veut que tu dormes. (veut admet, en position objet, les arguments qui peuvent eux-mêmes avoir des arguments... comme ceux qui n'en ont pas : Il veut du chocolat) La probabilité qu'un locuteur produise un énoncé qui ne respecterait pas la structure argumentale des mots est égale à zéro (sauf évidemment dans un but illustratif comme c'est le cas pour les trois énoncés impossibles ci-dessus). Et c'est là le seul critère de grammaticalité défini par Harris. À travers ce dernier postulat, Harris reprend l'un des grands principes du courant distributionnaliste, à savoir la scission sens/syntaxe, que Chomsky a illustré par le célèbre D'incolores idées vertes dorment furieusement. Cet énoncé met en exergue la nécessité de prendre en compte la dimension sémantique dans l'étude des combinaisons des mots d'une langue. Harris énoncera ainsi sa deuxième contrainte, qui tient plus du constat, puisqu'elle ne fait qu'observer que certains opérateurs ont tendance à prendre certains mots en arguments plutôt que d'autres. Ainsi, la probabilité que voiture apparaisse en argument de roule est plus importante que pour nuit, par exemple (le fait que cette contrainte s'applique en aval de la contrainte syntaxique vue au paragraphe précédent exclut de fait la probabilité que croire ou vraiment apparaissent en tant qu'arguments de roule). Toutefois, cette probabilité n'est pas égale à zéro : Harris avance le fait que toute séquence de mots constitue un énoncé possible à partir du moment où elle respecte la relation opérateur-argument. Le facteur sémantique véhicule ici une idée de gradabilité : la probabilité que 52

deux mots soient utilisés dans la relation opérateur-argument peut se mesurer sur une échelle qui va d'un nombre supérieur à zéro à x, alors que le critère syntaxique est binaire (une structure est correctement formée ou elle ne l'est pas). La notion de probabilité va également permettre de définir la distribution d'un mot (et non plus d'une classe de mots) : on définit la sélection d'un mot donné par l'ensemble des mots qui apparaissent avec lui dans une relation opérateur-argument un nombre de fois plus élevé que la moyenne des mots de la même classe. Ces « higher-than-chance-frequency members » ([HAR 91] p. 76) jouent un rôle très important dans la construction du sens des mots, ils permettent notamment de distinguer les homonymes et même les diverses acceptions d'un terme polysémique. Par exemple, dans la base Les voisins de Le Monde*, on peut distinguer les diverses acceptions de bouton en observant ses prédicats :



cliquer_sur, appuyer_sur, presser_obj, tourner_obj, etc. font référence à bouton en tant que dispositif.



recoudre_obj, veste_à, orner_de, guerre_de, etc. s'utilisent avec l'acception petite pièce le plus souvent circulaire servant à la fermeture d'un vêtement ou à son ornementation (définition du TLFi).

Le sens de excroissance cutanée n'est pas ici décelable par des contextes qui lui seraient caractéristiques. « The meaning is in the words, but the precision for each occurrence often comes with the combination. » [HAR 91] p. 326 L'importance des contextes d'apparition dans leur rapport au sens peut s'observer à travers les phénomènes de lapsus où un locuteur produit un énoncé où un mot est remplacé par son antonyme : les contextes dans lesquels se trouvent les mots de sens opposés sont souvent similaires, et ces derniers partagent une grande partie de leur sens. La troisième contrainte s'applique aux séquences composées de mots qui ont de fortes probabilités d'apparaître dans une relation de dépendance : elle consiste à effacer les éléments qui n'apportent pas d'information, dont la suppression n'influera pas sur le sens de la phrase. Par * Constituée de dix ans d'articles du journal Le Monde analysés par le système UPERY dont nous expliquons le fonctionnement en 3.2.3. Elle est accessible sur http://www.irit.fr:8080/voisinsdelemonde/index.jsp

53

exemple, J'attends que Pierre arrive peut être réduit en J'attends Pierre. Pierre connaît Marie et Pierre connaît Paul se résume en Pierre connaît Marie et Paul. La perte d'information est nulle, la réduction est une paraphrase de l'énoncé d'origine.

2.1.3. La dichotomie langue générale vs. sous-langage Cette distinction naît d'un ensemble de différences dans la formation des énoncés portant sur des sujets tout-venant, la langue générale, et les productions restreintes à un domaine de spécialité, les sous-langages. Ces derniers sont des sous-ensembles d'une langue formés selon des règles combinatoires en nombre restreint et dont certaines sont étrangères à la langue générale. Leur lexique est plus limité, moins ouvert que celui de la langue générale, et les relations opérateurargument sont soumises à une contrainte binaire (possible vs. impossible). Ainsi, l'ensemble des mots avec lesquels un terme peut entretenir une relation de dépendance n'est plus ouvert à tous les mots du lexique appartenant à la classe adéquate (contrainte n°1), mais il est clairement délimité : la rigidité combinatoire propre aux langues de spécialité fait que pour une structure comme N1 dilater N2, N1 sera forcément un élément de la classe des médecins et N2 appartiendra à celle des artères (exemple extrait de [HAB 98]). Contrairement à la langue générale, la métaphore et la polysémie sont exclues. On peut également observer des restrictions différentes pour un même mot selon les sous-domaines, ce qui permet d'avancer le fait que chaque sous-langage peut se caractériser par les restrictions sélectionnelles qu'il impose à ses opérateurs. R. Kittredge [KIT 03] compare ainsi les structures dans lesquelles peut apparaître le verbe to sweep dans le sous-langage du base-ball et dans celui de l'entomologie. Compte-rendu de match de base-ball : sweep The Redbirds swept Laval 10-4 and 12-5. Article d'entomologie : sweep over Males swept hind legs over vegetation. Cette propriété des sous-langages va permettre de rendre compte d'une certaine homogénéité

54

sémantique des mots partageant les mêmes opérateurs ou arguments.

2.2. L'analyse distributionnelle automatique Les analyseurs présentés ci-après tirent pleinement parti de cette caractéristique pour la construction d'ontologies dans les domaines de spécialité. En effet, nous verrons que si l'analyse des relations opérateur-argument permet d'aboutir à l'extraction de catégories conceptuelles relativement fiables dans le cas des sous-langages, les résultats sont bien moins concluants sur des corpus de langue générale.

2.2.1. SEXTANT SEXTANT [GRE 92] mobilise l'analyse syntaxique pour repérer les similarités qu'il peut y avoir dans les distributions des mots d'un corpus donné, afin d'en faire émerger des relations sémantiques. Le développement d'un tel système s'est avéré nécessaire dans la mesure où la méthode utilisée jusqu'alors, la cooccurrence, présentait le défaut de ne pas pouvoir rapprocher des mots comme tumour et tumor qui, bien qu'ils partagent les mêmes contextes, ont peu de chance de se retrouver ensemble dans les mêmes textes. Nous verrons que le rapprochement des contextes syntaxiques permet de pallier cette lacune. Les corpus que prend SEXTANT en entrée sont exclusivement en anglais et ne nécessitent aucun pré-traitement. Les différentes étapes de l'analyse seront illustrées en prenant pour exemple la phrase suivante, issue d'un corpus médical : Cyclophosphamide markedly prolonged induction time and suppressed peak titer irrespective of the time of antigen administration. Dans un premier temps, le programme assigne à chaque mot sa partie du discours. Après désambiguïsation, il découpe les phrases en syntagmes nominaux et verbaux : NP

cyclophosphamide (sn) 55

--

markedly (adv)

VP

prolong (vt-past)

NP

induction (sn) time (sn)

--

and (cnj)

VP

suppress (vt-past)

NP

peak (sn) titer (sn) irrespective-of (prep) the (d) time (sn) of (prep) antigen (sn) administration (sn)

Il reconstitue ensuite les relations syntaxiques entre et à l'intérieur des syntagmes : les SN sont analysés de gauche à droite afin de raccrocher les articles, adjectifs et noms modifieurs au nom duquel ils dépendent, puis de droite à gauche pour connecter les noms séparés par une préposition. Puis, SEXTANT analyse les syntagmes qui précèdent chaque SV afin de trouver leur sujet, et cherche leurs éventuels objets dans les syntagmes qui les suivent. cyclophosphamide , prolong < SUBJ time , induction < NN prolong , time < DOBJ cyclophosphamide , suppress < SUBJ titer , peak < NN suppress , titer < DOBJ titer , time < NNPREP administration , antigen < NN etc. À partir de là, le programme forme des couples nom/modifieur (quand ce dernier est un verbe, on lui associe le type de relation qu'il entretient avec le modifié, à savoir sujet, objet direct ou objet indirect, notés respectivement SUBJ, DOBJ et IOBJ), comme par exemple : cyclophosphamide prolong-SUBJ time induction time prolong-DOBJ cyclophosphamide suppress-SUBJ titer peak 56

titer suppress-DOBJ titer time administration antigen time administration Ici, time est modifié par induction, prolong-DOBJ et administration. La dernière étape consiste à comparer les contextes dans lesquels un mot donné apparaît avec les contextes des autres mots du corpus. Ainsi, administration est rapproché de injection, treatment, therapy, infusion, dose et response car tous sont modifiés par acid, treat-IOBJ, antigen, aortic, etc. Il est intéressant de constater que si l'on soumet cette même requête à un corpus d'extraits d'articles en science et gestion des bibliothèques, les termes qui partagent les mêmes contextes que administration sont graduate, office, campus, education et director, qui renvoient à une autre acception de administration. Un des atouts majeurs de SEXTANT est qu'il ne nécessite aucune connaissance a priori sur le domaine du corpus à traiter : il permet par la seule analyse des contextes syntaxiques de rapprocher des termes qui entretiennent entre eux des relations de sens, ce qui pourrait être une aide précieuse dans l'optique de l'établissement d'une ontologie d'un domaine de spécialité (il convient toutefois de signaler que le type de relation entretenu entre les termes rapportés reste encore difficilement définissable sur la seule base des contextes communs).

2.2.2. ZELLIG ZELLIG est un outil qui utilise l'analyse distributionnelle pour la construction semiautomatique d'ontologies (dans le domaine médical [BOU 97]). Il se base sur le postulat énoncé par Harris selon lequel le recoupement des contextes où apparaissent les mots d'un corpus de spécialité permet de dégager les concepts majeurs du domaine. L'analyse syntaxique qu'il mobilise ne porte que sur les syntagmes nominaux (« [Noun phrases] are generally assumed to express the main notions of a domain » [NAZ 97] p. 1). Ces derniers sont extraits par les analyseurs AlethIPGN et LEXTER [BOU 07] dont la capacité à détecter les relations de dépendance permet de traiter les SN complexes et de rapprocher les paires tête/modifieur non contiguës. Ces paires prennent la forme de

57

séquences N-N, N-Adj ou N-Prep-N. Ainsi, après repérage du syntagme maximal stenose serre de le tronc commun gauche* LEXTER en extraira les SN stenose serre, stenose de tronc, tronc commun et tronc gauche. Cette analyse est entièrement endogène, ce qui permet à ZELLIG de pouvoir s'appliquer sur toute sorte de corpus de spécialité sans avoir à mobiliser de ressources particulières à chaque domaine. À partir de là, on peut déjà repérer les mots qui apparaissent dans les mêmes contextes, comme artere, branche et diagonale qui peuvent commuter avec tronc dans tronc gauche, ou bien artere et stenose, qui partagent les même contextes angioplastie de ~, ~ a segment, ~ proximal, etc. Ces rapprochements sont effectués pour chaque terme du corpus. Les résultats sont ensuite représentés sous forme de graphes où les mots régis sont reliés par les recteurs qu'ils ont en commun (le nombre de contextes nécessaire pour que ce lien puisse être établi est fixé par l'utilisateur selon le degré de cohésion désiré : plus le seuil est élevé, plus les mots reliés ont des chances d'être sémantiquement proches). Ces derniers font apparaître des agrégats de deux types :



une partie de graphe qui se définit par le fait qu'il y a un chemin entre deux noeuds quelconques est appelée composante connexe (CC).



une partie de graphe où chaque terme partage au moins un contexte avec tous les autres est appelée une k-clique (KC).

Par exemple, on peut distinguer dans la CC représentée à la Fig. 2 (en annexe) la clique [lateral, inferieur, apical, posterieur, anterieur], dont les membres expriment tous l'idée de localisation. Cette CC prend place dans la CC de la Fig. 3, de taille plus importante. La validité des regroupements effectués dans ce dernier graphe a été vérifiée par rapport à l'ontologie SNOMED : 937 lemmes sur les 994 que compte le corpus ont été manuellement étiquetés conformément à la typologie de SNOMED, qui s'organise en onze catégories de haut niveau comme celle des qualificatifs et termes relationnels (notés G), ou celles qui expriment la morphologie (M) ou encore la topographie (T). On constate dans un premier temps que les quatre CC délimitées dans la CC de la Fig. 3 sont parfaitement homogènes. Pour ce qui est des termes non étiquetés, ils vont permettre de mettre à l'épreuve l'hypothèse selon laquelle on peut inférer la catégorie sémantique d'un terme en fonction de celle de ses voisins (ce qui permettrait de catégoriser automatiquement les néologismes et termes non répertoriés d'un domaine). Voici les résultats pour les termes non catégorisés de la CC de la * Les mots ont été lemmatisés et désaccentués, les amalgames comme du ont été décomposés (en de le).

58

Fig. 3 :



étant majoritairement liés à des termes catégorisés G, apical, postero-inferieur, distale et recent ont été correctement identifiés comme entrant dans cette même catégorie (les qualificatifs et termes relationnels).



arteriel ayant pour voisins deux termes de catégories différentes, il n'a pas été catégorisé.

Avec cette méthode et un seuil de 2, la précision est de 55,3 % (contre 9 % avec une catégorisation aléatoire). Ainsi, le rapprochement de termes sur la base d'équivalences distributionnelles a permis de faire émerger des ensembles sémantiquement cohérents validés par une ontologie manuellement construite, et d'attribuer automatiquement des propriétés sémantiques à des mots inconnus du système. Toutefois, la confrontation de ZELLIG avec un corpus de langue générale a donné des résultats plus mitigés. Dans [FAB 97], le corpus utilisé se compose de 68 transcriptions d'allocutions, d'entrevues et de conférences de presse de François Mitterrand produites entre 1981 et 1988. Il compte 305 134 occurrences pour 14 362 formes graphiques et 7700 lemmes différents. Le premier constat est que les ensembles dégagés sont extrêmement vastes. Le corpus laisse apparaître trois regroupements majeurs relativement disparates : l'un porte sur le vocabulaire géopolitique et institutionnel (gouvernement, ministre, France, Europe), le second est constitué d'adjectifs décrivant des strates de la réalité (économique, social, politique, industriel), et le dernier rassemble des noms généraux centrés autour du mot politique et de ses modes d'application (plan, décision, situation, problème). Les cliques de taille plus modeste permettent toutefois de mettre en évidence des ensembles plus homogènes regroupant des termes comme temps, année, mois ou million et millier. L'analyse des résultats obtenus nécessite un retour au contexte : ce dernier permet d'apporter des précisions sur la raison pour laquelle deux mots ont été rapprochés ou éloignés, comme majorité et opposition, qui ne sont antonymes que dans le contexte politique (un tel antagonisme ne se retrouve pas dans des expressions comme la grande majorité de ou être en opposition à).

59

2.2.3. UPERY La spécificité d'UPERY [BOU 02a] tient au fait qu'il étend le repérage des relations de dépendance aux syntagmes verbaux et adjectivaux (et non plus seulement aux noms). Il repose en effet sur un pré-traitement du corpus réalisé par l'analyseur syntaxique SYNTEX [BOU 07], successeur de LEXTER, dont nous décrivons le fonctionnement ci-dessous.

2.2.3.1. Le pré-traitement syntaxique Alors que LEXTER procédait à une analyse en constituants (la délimitation des SN se faisait par le repérage de marqueurs de frontières), SYNTEX mobilise l'analyse en dépendance : chaque mot du texte va dépendre d'un autre mot (le premier sera qualifié de dépendant, le second de gouverneur). La méthode de construction de la structure des phrases est dite ascendante, dans le sens où c'est la connexion consécutive de chaque paire de mots, étiquetés au préalable par TreeTagger*, qui va permettre de remonter au niveau de la phrase. Les relations gouverneurdépendant sont établies de façon séquentielle par des modules spécialisés : par exemple, le module qui traite la relation sujet parcourra le corpus puis passera le relais au module consacré à la relation objet, etc. Il est à noter que la désambiguïsation est entièrement endogène : dans un cas d'ambiguïté du rattachement adjectival dans un syntagme comme strate de roche poreuse, SYNTEX recherchera dans le corpus même des occurrences non ambiguës de strate poreuse et roche poreuse afin d'attribuer le lien de dépendance au couple qui apparaîtra le plus grand nombre de fois.

2.2.3.2. La construction des paires prédicat-argument À partir du réseau construit par SYNTEX, UPERY extrait les triplets (gouverneur, relation, dépendant). Par exemple, le triplet correspondant à l'énoncé Jean dort sera (dormir, suj, Jean). À ce stade, UPERY procède à un ensemble de normalisations qui permettront de récupérer un maximum de relations de dépendance :



*

dans le cas d'une coordination, un triplet sera construit pour chaque élément coordonné :

Université de Stuttgart (disponible sur http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/)

60

Pierre connaît Paul et Marie ► (connaître, obj, Marie), (connaître, obj, Paul) (en plus de (connaître, suj, Pierre)) Cette normalisation correspond en quelque sorte à l'inverse de l'opération de réduction qui constitue la troisième contrainte harrissienne (cf. 2.1.2.).



dans le cas où la relation se fait par une préposition, cette dernière s'intercale entre le gouverneur et le dépendant au sein du triplet, elle devient le nom de la relation. Pierre marche sur le trottoir ► (marcher, sur, trottoir)

Le triplet regroupe ainsi deux relations de dépendance : celle qui unit marche et sur, et celle qui relie sur et trottoir.



les passifs sont traités comme des constructions actives La pomme a été mangée ► (manger, obj, pomme)



les structures contenant une antécédence relative sont ramenées à un seul triplet Jean qui dort ► (dormir, suj, Jean)



les relations de dépendance qui passent par un verbe à contrôle sont également traitées Jean décide de nager ► (nager, suj, Jean)



dans le cas où le dépendant est un syntagme complexe (N-Adj, N Prep N), UPERY construit deux triplets : un pour relier la tête du syntagme au gouverneur, et un autre pour lier au gouverneur le syntagme dans son ensemble Il mange une pomme rouge ► (manger, obj, pomme), (manger, obj, pomme rouge)



les participes passés épithètes sont également représentés sous la forme de triplets Le logiciel installé ► (logiciel, mod, installer)

Si le participe passé est suivi d'un complément prépositionnel, on mobilise la relation objet Le logiciel installé sur l'ordinateur ► (installer, obj, logiciel) Les triplets sont ensuite ramenés sous la forme de couples (prédicat, argument) où le prédicat correspond au gouverneur auquel on accole la relation, et où l'argument est le dépendant. Il mange une pomme ► (manger, obj, pomme) ► (manger_obj, pomme)

61

2.2.3.3. La méthode de rapprochement Le regroupement du gouverneur et de la relation dans le prédicat va permettre d'opérer un double rapprochement : celui des prédicats partageant les mêmes arguments, mais aussi celui des arguments partageant les mêmes prédicats. Le nombre de prédicats différents que peut prendre un argument et le nombre d'arguments différents que peut prendre un prédicat s'appelle la productivité. Cette variable, couplée au nombre d'arguments ou de prédicats communs aux deux termes comparés, va servir à calculer la proximité distributionnelle de deux arguments ou prédicats grâce au coefficient de Jaccard. Soient deux prédicats p1 et p2, leurs productivités respectives n1 et n2 et a le nombre d'arguments qu'ils ont en commun :

prox jacc  p 1 , p2 =

a n1n2−a

NB : il existe une variante de ce calcul, le Jaccard pondéré, qui prend en compte la fréquence des contextes partagés. Exemple : calcul de la proximité distributionnelle des prédicats scanner_mod et échographie_mod. Arguments de p1 scanner_mod

Arguments de p2 échographie_mod

abdominal

abdominal

cérébral

hépatique

cervical

normal

hélicoïdal

thoracique

hépatique



négatif

n2 = 4

spiralé thoracique ▼ n1 = 8

62

Arguments en commun : abdominal, hépatique, thoracique ► a = 3

prox jacc=

3 =0,33 84−3

Deux termes ayant des distributions strictement identiques auront un score de 1 (si n1 = n2 = 9, alors 9/(9+9-9) = 9/9 = 1). Cette mesure exprime la similarité des distributions de deux termes, et l'on suppose que plus elle est élevée, plus les deux termes rapprochés ont de chances de partager des éléments de sens. Une autre façon d'opérer des rapprochements de termes, la construction de cliques, a été vue au 2.2.3. lors de la description du fonctionnement de ZELLIG. On retrouve un concept similaire dans UPERY, la double clique, qui est un ensemble de prédicats et d'arguments caractérisé par le fait que (presque) tous les prédicats peuvent entretenir une relation de dépendance avec (presque) tous les arguments. Voici un exemple de double clique extraite d'un corpus du Code civil :

Prédicats :

Arguments :

profits_de

époux

faveur_de

donateur

héritier_de

débiteur

s'obliger_suj

créancier

On peut définir le degré de cohésion de la double clique en utilisant le Jaccard pour comparer chaque prédicat à un prédicat fictif qui n'aurait pour distribution que les arguments de la double clique. Puis on fait de même pour les arguments et on calcule la moyenne des proximités qui nous donnera le degré de cohésion de la double clique.

2.2.3.4. Exemples de mise en oeuvre À l'instar des systèmes décrits plus haut, UPERY se destine avant tout à la construction

63

d'ontologies dans des domaines spécialisés. Il a ainsi été utilisé sur un corpus de comptes-rendus d'hospitalisations en réanimation chirurgicale [LE 02] dans le but « de dégager les termes et les associations de termes les plus représentatifs du domaine » (p. 4) et permettre ainsi de fournir à un expert non linguiste un matériau exploitable pour la constitution de bases de connaissance. L'analyse manuelle des couples partageant le plus de contextes a permis à l'expert de délimiter, dans un premier temps, les catégories de haut niveau de la hiérarchie comme les verbes d'état (présenter, montrer, etc.) et les verbes d'action (réaliser, indiquer, etc.). Ces catégories ont ensuite été affinées selon les distributions des verbes : l'argument d'un verbe d'action peut être une action générale, diagnostique ou thérapeutique, un état peut être pathologique ou physiologique. Une deuxième étape a consisté à valider des ensembles de couples « clés » définis par le fait qu'ils sont caractéristiques d'une classe pertinente dans le domaine, comme administration et introduction, qui permettent de dégager la classe des produits pharmaceutiques. Ainsi, pour chaque couple, l'expert analyse les contextes d'apparition de chacun des termes et définit si ces derniers peuvent être affectés à une classe existante ou s'il faut en créer une nouvelle. Voici quelques exemples de classes que l'analyse distributionnelle a permis de rapprocher :



la classe de niveau d'importance (important, sévère, modéré, discret, etc.) est associée à la classe des états pathologiques locaux (lésions, signes cliniques et paracliniques) et à celle des dysfonctionnements (insuffisance)



la classe de niveau d'évaluation (élevé, correct, bon, satisfaisant) est associée à celle des concepts de mesure clinique (diurèse, saturation, etc.) et des actes diagnostiques



la classe des adjectifs exprimant la situation géométrique (droit, gauche, antérieur, postérieur, etc.) est associée à celle des objets anatomiques (poumon), des états pathologiques locaux (épanchement), et aux processus pathologiques (traumatisme)

Les éléments de ces classes sont finalement structurés par un lien is-a (une hiérarchie pour les concepts, une autre pour les relations). L'évaluation de l'ontologie ainsi construite s'est faite par la comparaison avec un thésaurus de spécialité : les résultats sont plus que satisfaisants puisque certaines sous-parties du thésaurus sont couvertes à 100 %. Le couple SYNTEX-UPERY a également servi à construire une ontologie du Droit [BOU 02b] destinée à apporter à un moteur de recherche juridique de nouvelles fonctionnalités comme 64

l'expansion de requêtes ou la catégorisation de document. Le matériau de départ a consisté en un corpus constitué de douze des 68 Codes du Droit français (le Code civil, pénal, le Code du Travail, du Commerce, de l'Environnement, etc). Chacun des Codes a ensuite été indépendamment traité par SYNTEX, puis par UPERY. Le fait de ne pas mélanger les sous-corpus a permis de mettre en exergue les différences de distribution d'un terme donné au sein d'un même sous-langage. Par exemple, les contextes dans lesquels apparaît le nom enfant dans le Code civil sont demande_de, droit_de, intérêt_de, bien_de, dû_à, alors que dans le Code du Travail, enfant est argument de employer_obj, absence_de, emploi_de, et travaux_de. Ainsi, enfant aura pour voisins mineur dans le Code civil et apprenti dans le Code du Travail. C'est ce genre de rapprochements entre les mots de la requête et leurs voisins distributionnels qui permettront au moteur de recherche de suggérer à l'utilisateur des termes susceptibles de l'aider dans sa recherche. NB : l'étape d'évaluation des résultats (basée sur les retours d'utilisateurs spécialistes) n'étant pas arrivée à son terme à la date de publication de l'article, la question de la validité des regroupements opérés reste en suspens. À l'instar de ZELLIG, UPERY a été testé sur des corpus de langue générale : le corpus LM10, composé de 100 000 articles du journal Le Monde (soit environ 200 millions de mots), et le corpus Frantext20, composé de 515 romans du 20e siècle (environ trente millions de mots). On pourrait remettre en question la pertinence de l'utilisation de ces deux ressources pour l'étude de la langue générale dans la mesure où elles s'inscrivent toutes les deux dans un domaine particulier, à savoir le texte journalistique et le roman. Toutefois, leur variété thématique et leur non orientation en direction de destinataires spécialistes suffiront à faire de ces corpus des ressources satisfaisantes pour les deux études qui vont suivre. La première [BOU 05] s'est orientée vers le repérage de la relation de synonymie : après analyse des corpus, la liste des termes rapprochés a été comparée avec celle du Dictionnaire Électronique des Synonymes (DES). Le corpus LM10 a permis de rapporter 22 % des synonymes du DES contre 10 % pour le corpus Frantext20. Ces chiffres correspondent respectivement à 1% et 3 % des voisins rapportés par UPERY pour chaque corpus. C'est peu comparé aux résultats obtenus sur corpus spécialisés. Le concept de voisins présente cependant un avantage certain par rapport aux synonymes du DES : l'analyse distributionnelle permet de définir les contextes dans lesquels deux mots sont synonymes. Ainsi, le format des prédicats apporte des précisions sur les critères syntaxiques des mots rapprochés et permet de mettre au jour des dissymétries comme dans le cas des synonymes souligner et insister : leur présentation in abstracto dans le DES laisse supposer 65

qu'ils sont immédiatement substituables et occulte le fait que les contextes partagés entretiennent une relation objet avec souligner (souligner_obj) alors qu'ils sont précédés de la préposition sur avec insister (insister_sur). Une étude sur le repérage des relations sémantiques intercatégorielles [FAB 06] a été menée sur le corpus LM10. Elle a notamment porté sur les reformulations nom/verbe du type anniversaire du Débarquement/célébrer le Débarquement, dont la prise en compte dans les ressources comme EuroWordNet s'est limitée aux mots dérivés (célébrer/célébration par exemple). Le lien morphologique est ici ignoré et seules sont prises en compte la proximité distributionnelle et la cooccurrence : parmi les couples de voisins nom/verbe dégagés par UPERY, ne sont retenus que ceux qui apparaissent employés avec un même argument au sein d'au moins un paragraphe du corpus. Ce dernier critère de sélection permet à la fois d'obtenir des résultats plus pertinents et d'avoir accès à une fenêtre suffisamment restreinte pour permettre une vérification en contexte de la validité des paires. Les arguments communs prennent la forme d'objets pour le verbe (écourter le mandat ► (écourter_obj, mandat)) et de têtes de compléments prépositionnels pour le nom (raccourcissement du mandat ► (raccourcissement_de, mandat)). Les résultats obtenus sont de deux types :



on a d'un côté les couples qui apparaissent dans le même paragraphe avec chacun une occurrence différente d'un argument donné (cooccurrence disjointe) (adepte_de, marche), (pratiquer_obj, marche) « Les Finlandais et les Suédois sont en effet de fervents adeptes de la marche à pied. [...] 76% et 74% des plus de 55 ans notamment, pratiquent la marche au moins une fois tous les quinze jours »



et d'un autre côté, on obtient des couples partageant la même occurrence du même argument (cooccurrence liée) (signature_de, accord), (conclure_obj, accord) « La signature de cet accord de paix, conclu à Estoril, est de bon augure »

Les cooccurrences liées ne correspondant pas à une quelconque reformulation, elle sont exclues de l'analyse. Sur les 1141 couples ainsi obtenus, plus des 2/3 ne sont pas liés morphologiquement. Et parmi ces 2/3, 38 % expriment la synonymie, une activité typique (responsable_de, diriger_obj) ou une succession temporelle (restitution_de, confisquer_obj). Ces derniers seulement seront en 66

mesure de contribuer au repérage des zones de reformulation : les autres couples se répartissent dans l'antonymie (reprise_de, suspendre_obj), la catégorisation (entrée_de, situer_obj*), les expressions figées ou les erreurs.

Synonymie

15 %

Antonymie

15 %

Activité

Succession

typique

temporelle

10 %

13 %

Catégorisation

Expressions

Erreurs

figées

8%

20 %

19 %

Conclusion L'efficacité de l'analyse distributionnelle pour l'extraction de relations sémantiques sur corpus spécialisés n'est plus à prouver. Nous avons vu que cette méthode pouvait s'utiliser avec succès sur des textes relevant de domaines différents comme la médecine ou le droit. L'expérimentation des outils d'analyse distributionnelle automatique sur des corpus de langue générale s'est révélée cependant bien moins satisfaisante : les différences qu'avait relevées Harris entre langue générale et sous-langage ont apparu dans toute leur splendeur. Les ensembles dégagés n'ont pu être délimités que de façon approximative, et la vérification des rapprochements effectués nécessite des allers-retours perpétuels au contexte. Il conviendra donc de développer des stratégies adaptées à ces types de corpus en faisant par exemple appel à des ressources extérieures, comme nous planifions de le faire dans ce mémoire : les relations sémantiques étant pour le moins incertaines, nous prévoyons d'avoir recours à des patrons syntaxiques qui permettront, du moins on l'espère, de filtrer les segments dans lesquels se manifeste la relation d'antonymie.

*Les deux prédicats s'emploient avec des arguments relevant d'un domaine particulier, ici le bâtiment. 67

Chapitre 3 Expérimentation de la méthode de filtrage des voisins par projection de patrons

68

Comme nous venons de le voir au point 2.2.3.4., l'analyse distributionnelle permet de mettre au jour des relations lexicales comme l'antonymie entre un mot et ses voisins, ce qui corrobore l'hypothèse de la substituabilité discutée au 1.3. Toutefois, la notion de distribution excluant tout recours à la sémantique, il est impossible de filtrer de façon automatique une relation lexicale particulière parmi les voisins d'un mot. Ce chapitre décrit la méthode que nous avons employée pour aller au-delà de cette limite inhérente à l'approche paradigmatique, à savoir la combinaison de la méthode distributionnelle avec une approche syntagmatique se basant sur le principe de cooccurrence. Selon cette théorie (qui a notamment été démontrée dans [JUS 91] et [FEL 95], cf. 1.3.1.3. et 1.3.1.4.), deux mots qui entretiennent une relation d'antonymie ont tendance à apparaître ensemble plus souvent que des mots à la distribution aléatoire. De plus, il ressort de l'analyse des contextes d'apparition de couples d'antonymes un ensemble de structures figées (ou patrons) comme X ou Y, plutôt X que Y, etc. que nous allons utiliser en complément des voisins dans une démarche de filtrage mutuel. La complémentarité de ces deux approches sera donc ici mise à l'épreuve selon un protocole décomposable en trois étapes :



un terme t est inséré dans un patron en position X ou Y (on le qualifie alors d'amorce).



le patron est projeté sur un corpus.



on récupère les voisins de t qui apparaissent dans un patron où figure t.

La première partie de ce travail est consacrée à la description des ressources mobilisées, à savoir le corpus, les voisins et les patrons. La deuxième rapporte une étude préliminaire menée avant la mise en place du protocole final, et la troisième consiste en l'expérience elle-même.

3.1. Ressources* 3.1.1. Le corpus * Merci à Franck Sajous (CLLE-ERSS) pour nous avoir fourni le corpus ainsi que la base de voisins.

69

Il est constitué de l'intégralité des articles de la version francophone de l'encyclopédie en ligne Wikipédia*, soit plus de 470 000 articles pour environ 194 millions de mots **. Le style des articles se veut encyclopédique : chaque rédacteur se doit de respecter un cahier des charges définissant des critères portant aussi bien sur le fond (neutralité, citation des sources, etc.) que sur la forme (orthographe et syntaxe correctes, style impersonnel, clarté, etc.). Tout article contrevenant à ces règles est généralement repéré et modifié de telle sorte que malgré la multitude de rédacteurs qui oeuvrent sur Wikipédia, une cohérence stylistique est maintenue tout le long des articles, et donc du corpus. La diversité thématique est assurée par la nature encyclopédique du corpus : l'éventail des domaines abordés est extrêmement large, ce qui nous permettra éventuellement de repérer des cas où une opposition n'a lieu que dans un domaine de spécialité. Le texte a par la suite été traité par l'analyseur syntaxique SYNTEX (cf. 1.4.2.3.1.) afin que soient attachés à chaque mot des informations comme le lemme et la catégorie syntaxique, qui nous seront utiles lors de la projection des patrons. Les autres informations comme les numéros de mots et les relations de dépendances ont été effacées dans le but de pouvoir disposer du corpus le plus léger possible : nous avons en effet considéré que le nombre suffisamment important de résultats rapportés par les patrons ne rendait pas nécessaire la prise en compte des liens relationnels obtenus grâce à l'analyse syntaxique proposée par SYNTEX.

3.1.2. Les voisins La liste des voisins que nous avons utilisée résulte du traitement par le module UPERY (cf. 1.4.2.3.) du corpus Wikipédia syntexisé. Nous ne nous intéresserons ici qu'aux couples dont les membres appartiennent à la même catégorie grammaticale : on en compte 4514 pour les adjectifs, 24 678 pour les noms et 24 334 pour les verbes.

3.1.3. Les patrons 3.1.3.1. Présentation

* http://fr.wikipedia.org/wiki/Accueil ** Le corpus a été recueilli courant avril 2007. Le nombre d'articles de l'encyclopédie est aujourd'hui (06/2008) d'environ 674 000.

70

Ils se présentent sous la forme de deux éléments X et Y séparés ou encadrés par des prépositions (de X à Y), des conjonctions (X ou Y) ou des locutions adverbiales (X contrairement à Y). Ceux qui nous ont servi pour cette expérience ont été recueillis chez [JON 02] et [FEL 95] puis traduits en français. En voici la liste exhaustive : En anglais : (both) X and Y

the difference between X and Y

X as well as Y

separating X and Y

X and Y alike

a gap between X and Y

neither X nor Y

turning X into Y

(either) X or Y

X gives way to Y

X rather than Y

X not Y

whether X or Y

X instead of Y

now X, now Y

X as opposed to Y

from X to Y

the very X and the very Y

how X or Y

either too X or too Y

more X than Y

deeply X and deeply Y

X is more ADJ than Y En français : X ou Y

ni X ni Y

« diurne ou nocturne »

« ni implicitement ni explicitement »

soit X soit Y

aussi bien X que Y

« soit constante, soit croissante »

« aussi bien physiquement que mentalement »

à la fois X et Y

X plutôt que Y

« à la fois offensives et défensives »

« comprendre plutôt que juger »

entre X et Y

X comme Y

« entre exigences et besoins »

« parisiens comme provinciaux »

de/depuis X à/jusqu'à Y « depuis les racines jusqu'aux feuilles »

71

plus/moins/aussi X que Y « plus symbolique que réel »

La différence entre le nombre de patrons qui ont été dégagés par Fellbaum et Jones et ceux que nous avons retenus est due à plusieurs facteurs, comme le fait que certains se sont avérés difficilement traduisibles (par exemple how X or Y : « Is it how well or badly a person plays a game ») ou trop spécifiques. En effet, le fait que la projection d'expressions régulières sur un corpus volumineux comme celui dont nous disposons prenne un temps relativement important nous a poussé à limiter notre ensemble de patrons à ceux que nous avons considéré comme étant les plus productifs. Ce choix exclut malheureusement des patrons comme différence entre X et Y, dont la complexité du contexte (par rapport à des patrons comme X ou Y) pourrait réduire les chances de ramener du bruit. Ces patrons ont ensuite été modifiés pour qu'ils puissent prendre en compte des éléments de variation comme les articles (dans le cas où X et Y sont des noms), les virgules ou l'élision : aussi bien X que Y ► aussi bien défensif qu'offensif soit X soit Y ► soit les réels, soit les quaternions Le corpus étant assez volumineux pour nous permettre de disposer d'un ensemble généralement satisfaisant de résultats, nous n'avons pas jugé utile de pousser plus loin le traitement de la variation des structures. Cela aurait de plus entraîné une complexification des expressions régulières, et de par là même une augmentation des temps de calcul, déjà relativement élevés (une projection des patrons sur le corpus pour une amorce donnée prend environ vingt minutes). Des regroupements ont été opérés au niveau de certains patrons, puisque certaines structures se sont avérées tellement proches du point de vue sémantique que nous les avons confondues :



plus/moins/aussi X que Y implique une comparaison. Le fait que X possède une propriété en quantité supérieure, inférieure ou égale à Y ne nous est pas apparu suffisamment pertinent pour maintenir les trois patrons séparés.



de/depuis X à/jusqu'à Y peut être utilisé pour mentionner deux points aux extrémités d'une échelle afin d'en exprimer l'intégralité (l'ensemble du système fluvial [...], depuis les bactéries jusqu'aux poissons). Le fait que de X à Y, de X jusqu'à Y et depuis X jusqu'à Y soient, à notre avis, employés dans les mêmes contextes, nous a poussé à les mélanger.

72

Il a également été ajouté une contrainte qui impose que X et Y soient de la même classe grammaticale afin d'augmenter les chances que la relation entre les deux mots relève de l'antonymie : [FEL 95] a en effet conclu que la cooccurrence d'antonymes appartenant à des catégories grammaticales différentes ne se faisait jamais dans des structures figées. La première remarque que l'on peut faire sur ces structures est que certaines ont l'air plus caractéristiques de la relation d'antonymie que d'autres : les contextes mobilisés pour chacune d'elles sont plus ou moins complexes et l'on peut supposer que ce sont les patrons les plus simples, et par conséquent les plus fréquents, qui seront les plus susceptibles de ramener des couples liés par une relation autre que l'antonymie. Dans l'idéal, ces patrons permettraient effectivement de ramener tous les antonymes d'un mot donné et ne ramèneraient rien d'autre, mais ce n'est évidemment pas le cas, et ce pour plusieurs raisons :



certains mots n'ont pas d'antonyme (lexicalisé)



plusieurs relations peuvent s'exprimer à travers le même patron :



l'antonymie : le pire comme le meilleur peut surgir en chaque être humain



l'hypéronymie : D'autres félins comme le tigre y sont aussi sensibles. les fêtes et les cérémonies comme les mariages



le corpus peut contenir des erreurs d'étiquetage : On parle alors de génératrice asynchrone ou génératrice hypersynchrone. (génératrice est ici considéré à tort comme un adjectif, au même titre que asynchrone) servant comme commandant de l'École des Enfants de Troupe à Saint-Louis du Sénégal. (soit servant et commandant sont tous les deux identifiés comme des noms, soit comme des participes présents)



un des membres de la paire peut faire partie d'un syntagme (signalés ci-dessous par des parenthèses), auquel cas il ne sera qu'en partie rapporté et nécessitera un retour au contexte : (Homme de cabinet) plutôt que guerrier 73

Si le défunt mari régnait ou (portait un titre), on parlera d'impératrice douairière Des instruments s’effacent, d’autres apparaissent ou (prennent leur forme) définitive



des éléments du patron peuvent être absorbés dans des syntagmes ou des structures syntaxiques : Chenilles de (ver à soie), âgées de 21 jours. (patron de X à Y) réaffirmant le statut de Région (à part entière) pour la région de Bruxelles-Capitale (id.) Nous venons juste de commencer à utiliser cette arme contre votre patrie. (id.) dont la finalité n'est pas de servir à améliorer et compléter l'encyclopédie (id.) Le fait de chercher à profiter des différences de rémunérations (id.)



la limitation inhérente à tout corpus fait que même sur un très grand ensemble de données, il sera impossible d'obtenir tous les antonymes d'un mot.

Tous ces facteurs font que les résultats ramenés par les patrons, à l'instar des voisins distributionnels, ne sont pas directement exploitables. C'est la raison pour laquelle nous avons parlé de filtrage mutuel en introduction de ce chapitre : le fait de croiser les résultats rapportés par deux types de ressources permettra, ou du moins on l'espère, de neutraliser le bruit généré par les deux méthodes pour ne récupérer que les résultats communs. Toutefois, certaines erreurs listées ci-dessus pourraient être corrigées par une sophistication des patrons : dans le cas des séquences comme de commencer à utiliser qui apparaissent dans la structure de X à Y, il suffirait d'ajouter au programme de projection des patrons un dictionnaire des verbes dont l'infinitif peut être suivi de la préposition à (réussir à, continuer à, etc.). La nature de l'amorce (outre sa catégorie grammaticale, comme nous le verrons plus loin) a également une influence sur le type et le nombre de résultats ramenés par un patron, puisque, par exemple, si l'on en croit les propriétés logiques des antonymes exposées en 1.1., un patron comme plus/moins/aussi X que Y ne sera productif qu'avec une amorce gradable puisque sa structure implique une idée de gradation et exclut de fait les antonymes contradictoires. Toutefois, nous avons vu que ce genre de limitation était souvent transgressé dans le but de produire des effets de style (de telles exceptions risquent de se révéler quasi-inexistantes dans notre corpus). À propos des patrons dégagés dans [FEL 95] (à partir desquels nous avons constitué la liste 74

ci-dessus), C. Fellbaum fait la remarque suivante : « [these] frames [...] can accommodate any noun, verb or adjective pair, and the pair may be semantically opposed. » [FEL 95] p. 295 Cette citation évoque deux aspects auxquels nous nous intéresserons dans le cadre d'une tentative de définition du profil des patrons (c'est-à-dire la nature des résultats rapportés selon le type de patrons), et dont nous essaierons de mesurer la portée :



la compatibilité de ces structures avec les différentes catégories grammaticales (cf. 3.1.3.2.).



la probabilité que les mots qui apparaissent dans ces structures entretiennent une relation d'antonymie (cf. 3.1.3.3.).

3.1.3.2. Patrons et catégories grammaticales Le premier de ces deux aspects a été mesuré en projetant chaque patron sur le corpus sans spécifier d'amorce et avec pour seule contrainte que X et Y devaient appartenir à la même catégorie grammaticale. Nous avons ensuite calculé, pour chaque patron, la proportion des différentes catégories grammaticales qui y sont apparues. Les résultats sont les suivants :

Freq. totale du patron

94 433

Nom

32 673

Adj

31 685

NomPr

14 736

V

4445

NomXXNum

3081

Autres

9813

X ou Y (Fig. 4)

75

Freq. totale du patron

508

Adj

284

Nom

79

Adv

57

NomPr

24

V

23

Autres

41

soit X soit Y (Fig. 5)

Freq. totale du patron

1729

Adj

1054

Nom

567

NomPr

39

Adv

19

V

19

Autres

31

à la fois X et Y (Fig. 6)

Freq. totale du patron

43 071

NomXXNum

10 861

NomPr

9914

NomXXDate

9499

Nom

7679

DetNum

3703

Autres

1415

entre X et Y (Fig. 7) 76

Freq. totale du patron

105 793

NomXXDate

33 022

NomXXNum

31 580

Nom

22 678

NomPr

16 446

V

1178

Autres

889

de/depuis X à/jusqu'à Y (Fig. 8)

Freq. totale du patron

2557

Nom

1222

Adj

646

Pro

182

NomPr

147

Adv

144

Autres

216

ni X ni Y (Fig. 9) Freq. totale du patron

371

Adj

200

Nom

122

Adv

41

NomXXDate

5

V

3

aussi bien X que Y (Fig. 10)

77

Freq. totale du patron

329

Nom

135

Adj

111

NomPr

34

V

24

Adv

9

Autres

16

X plutôt que Y (Fig. 11)

Freq. totale du patron

8964

Nom

6466

Adj

940

NomPr

488

Adv

386

V

378

Autres

306

X comme Y (Fig. 12) Freq. totale du patron

1338

Adj

1123

Adv

159

Nom

24

Pro

15

Typo

10

Autres

7

plus/moins/aussi X que Y (Fig. 13)

78

NB : nous n'avons retenu que les cinq catégories les plus fréquentes, les autres étant regroupées dans la catégorie Autres. De même, les participes passés ont été comptés comme des adjectifs et les catégories annotées Inc (NomPrXXInc, NomInc, etc.) ont été regroupées avec les catégories non inconnues correspondantes. On peut distinguer trois groupes de patrons :



un premier groupe rassemble les structures X ou Y (Fig. 4), soit X soit Y (Fig. 5), à la fois X et Y (Fig. 6), ni X ni Y (Fig. 9), aussi bien X que Y (Fig. 10), X plutôt que Y (Fig. 11) et X comme Y (Fig. 12), soit sept des dix structures. Il apparaît que pour ces dernières, les deux catégories les plus fréquentes sont les noms et les adjectifs. Certains patrons ramènent ces catégories dans des proportions quasi équivalentes (X ou Y ► 33 % d'adjectifs contre 34 % de noms), d'autres sont plus orientés (X comme Y ► 72 % de noms et 11 % d'adjectifs).



entre X et Y (Fig. 7) et de/depuis X à/jusqu'à Y (Fig. 8) peuvent être regroupés par le fait qu'ils font apparaître dans d'importantes proportions des catégories quasiment absentes dans les résultats rapportés par le reste des patrons, à savoir NomXXDate et NomXXNum. Comme leurs noms le laissent suggérer, elles correspondent respectivement à des dates et des valeurs numériques (cependant les valeurs numériques correspondent souvent à des dates ► de 1931 à 1946). L'utilisation de ces patrons vise en effet à désigner un intervalle entre deux points situés dans l'espace ou dans le temps, alors que l'utilisation qui nous intéresse ici (l'opposition de deux points sur une échelle de valeurs pour en désigner l'intégralité) apparaît comme secondaire. Il ne fait aucun doute que la nature encyclopédique du corpus favorise l'expression d'intervalles spatio-temporels (chronologies, biographies, etc.).



le dernier patron, plus/moins/aussi X que Y (Fig. 13), s'avère beaucoup plus marqué que les autres puisqu'il ramène des adjectifs dans 86 % des cas, puis des adverbes (12 %). La catégorie des noms, qui est pourtant la plus fréquente, n'apparaît que dans 2 % des cas.

Le tableau ci-dessous reprend le nombre d'occurrences des patrons constitués avec les trois catégories auxquelles vont appartenir nos amorces (adjectifs, noms et verbes).

79

Nom

71 645

27,4 %

Adj

36 043

13,8 %

Ver

6078

2,3 %

TOTAL

261 093 100 %

Il apparaît que l'ensemble de patrons, tel que nous le projetterons sur le corpus, est clairement biaisé puisque le nombre de cooccurrents rapporté sera radicalement différent selon que l'amorce est un nom, un adjectif ou un verbe. [FEL 95] a démontré que toutes les catégories grammaticales n'avaient pas les mêmes dispositions à apparaître dans des structures pré-définies, il aurait donc été difficile d'orienter les patrons de telle sorte que le nombre de résultats soit égal quelle que soit la nature de l'amorce. Toutefois, on ne peut s'empêcher de penser que les écarts entre les nombres de résultats de chacune de ces trois catégories auraient pu être réduits si nous avions poussé plus loin le traitement de la variation des structures. Cela présuppose cependant que ces variations présentent des régularités formalisables et que cette extension de la portée des patrons ne nuise pas à la pertinence des résultats rapportés. Ce problème se pose notamment pour les verbes, qui apparaissent à de nombreuses reprises dans des structures auxiliaires (cf. 1.2.2.2.1.) trop variables pour être traitées.

3.1.3.3. Patrons et antonymie Les patrons ci-dessus ont été sélectionnés parce qu'on suppose qu'ils ont la propriété de ramener, entre autres, les antonymes d'une amorce donnée. Ce sont ces patrons qui constitueront le filtre auquel seront soumis les voisins, il est donc important de s'assurer qu'une amorce et ses cooccurrents entretiendront majoritairement des rapports d'opposition. Afin de tester cette propriété, nous avons encore une fois projeté les patrons sur le corpus sans amorce, puis nous avons relevé pour chacun d'eux cinquante séquences que nous avons ensuite analysées dans la synthèse cidessous (nous avons préféré procéder à une étude illustrative plutôt que quantitative afin d'éviter d'avoir à classer l'intégralité des séquences, dont la nature antonymique est souvent à débattre). On peut distinguer trois principaux types de relations dans les résultats obtenus :



l'antonymie à proprement parler (cf. 1.1.2.1. à 1.1.2.3.), dans le sens où pour un mot donné, son cooccurrent apparaît intuitivement comme un antonyme évident (nous verrons que ce 80

critère de l'intuition n'est naturellement pas infaillible mais il va nous servir à classer des couples de mots dont les propriétés logiques sont difficilement définissables). soit hétérosexuels, soit homosexuels

ni dieux ni démons aussi bien civils que militaires

aussi bien théoriques que pratiques

sous ou sur

à la fois simple et complexe

soit directement, soit indirectement

vice ou péché

qualité plutôt que quantité



la relation que nous avons appelée quasi-antonymie dans la partie 1.1. Pour rappel, elle englobe les couples de mots qui présentent une opposition manifeste sans que ne soit pour autant ressentie chez le locuteur le sentiment d'une relation aussi forte que dans les exemples ci-dessus (l'effet clang de J. Deese, cf. 1.1.1.3.1.). C'est le cas notamment des contrastes non binaires (cf. 1.1.2.4.2.) et des oppositions contrastives (cf. 1.1.2.4.3.) pour lesquels certains auteurs préfèrent parler de relation d'incompatibilité plutôt que d'antonymie : les cooccurrents sont deux éléments opposés au sein d'un ensemble non binaire (souvent crée par le contexte). Ils apparaissent donc plutôt comme des co-hyponymes que comme des antonymes (les co-hyponymes d'ensembles à deux éléments étant considérés comme des antonymes).

sabre ou couteau

soit rouge soit noire

ni poutres, ni chevrons

ni Bush ni Saddam

aussi bien musulmans qu' hindous 250 ou 330

docker ou goudronneur

Danois ou Français

parlées plutôt que chantées

La difficulté de classer certaines séquences dans une catégorie plutôt que dans l'autre en se basant sur les propriétés logiques des antonymes est d'ailleurs la raison pour laquelle nous avons renoncé à une analyse quantitative. Le problème se pose par exemple avec soit 1, soit 0 : nous avons illustré ci-dessus le phénomène d'incompatibilité avec 250 ou 330 et en 1.1.2.4.2. nous avons avions classé les nombres comme des éléments d'un ensemble lexical infini (donc non binaire). Cependant, l'opposition soit 1, soit 0 peut faire référence aux valeurs du système de numérotation binaire, ce qui impliquerait alors que 1 et 0 sont ici des antonymes (contradictoires). La question de la nature binaire ou multiple de l'ensemble dans lequel prennent place deux mots de sens opposés est particulièrement problématique quand les connaissances pour déterminer la nature de la dimension où a lieu l'opposition relèvent d'un domaine de spécialité :

81

somatiques ou tumorales



cataplasmes ou sinapismes soit hexagonal soit rhomboédrique

la relation d'hypéronymie, uniquement présente dans les patrons X comme Y : Il considérait la maladie comme une épreuve destinée à former le caractère. Les Jingpos ramassent aussi des herbes sauvages et des fruits comme aliments. [...] dès le début d’un projet en alternative à l’acier comme matériau de précontrainte. La racine, qui renferme de l'inuline comme substance de réserve [...]

D'autres oppositions peuvent être dégagées comme celle qui oppose construits ou dessinés, qui est différente de la simple incompatibilité car même si l'on peut classer construire et dessiner comme des éléments d'un processus CONSTRUCTION, il y a ici une relation d'implication absente dans le concept de co-hyponymie. On peut également repérer quelques cas qui pourraient s'apparenter à de la synonymie, comme dans masculin ou mâle (article ♂ « le genre masculin ou mâle »), mais qui relève plus d'une opposition au niveau métalinguistique, à l'instar de Lakour ou Solitary, qui correspond aux pseudonymes d'une même personne (« Blacko aka Tikaf Lakour ou Solitary Lion »). La plupart des patrons ramènent en grande partie des couples de quasi-antonymes de type contraste non binaire ou opposition contrastive (il est à noter que, dans ce dernier cas, on peut trouver certains exemples où un facteur extralinguistique a clairement joué un rôle dans le rapprochement de deux mots, comme dans ni liberté, ni égalité, qui fait écho à la devise de la République française). Les antonymes véritables se montrent en revanche plus rares, et ce quel que soit le patron. Au final, les seules structures qui se démarquent de par la singularité des séquences rapportées sont les suivantes :



entre X et Y et de X à Y, qui ramènent principalement des noms de lieux et de personnes et des dates (ce que nous avions déjà constaté plus haut).



X comme Y, qui ne rapporte quasiment que des cas d'hypéronymie.



plus/moins/aussi X que Y qui rapporte un nombre important d'antonymes gradables alors que ces derniers sont plutôt rares dans les résultats des autres patrons (même si, ici aussi, il est parfois difficile de faire la distinction entre gradable et non-gradable). Le phénomène 82

n'est pas étonnant outre mesure sachant que nous considérons la notion de gradabilité comme propre aux adjectifs et que nous avons constaté en 2.1.3.2. que les mots de cette catégorie prennent place dans 86 % des occurrences de la structure plus/moins/aussi X que Y. Cela confirme de plus l'hypothèse émise en 2.1.3.1. selon laquelle les adjectifs nongradables seraient quasi-absents des résultats pour ce patron : parmi les résultats rapportés, l'exemple d'opposition complémentaire la plus flagrante se trouve être, à notre avis, la séquence plus irréelle que réelle, qui prend place dans une citation (d'où le fait que le style encyclopédique ne soit pas respecté au profit d'un effet stylistique) : ce souvenir obsédant et diffus que l'on garde parfois d'un rêve, d'une épopée plus irréelle que réelle Toutefois, malgré les résultats obtenus sur les deux premiers types de structures, nous avons considéré que les échantillons étaient trop limités pour pouvoir les écarter d'emblée et nous les avons maintenues dans le corpus de patrons qui seront projetés lors de l'évaluation de la méthode sur les voisins.

3.2. Étude préliminaire Cette étude a été menée avant la mise en place du protocole définitif sur un corpus d'environ 3 330 000 mots et a consisté en une première observation des résultats ramenés par la confrontation des patrons avec les voisins, puis avec un dictionnaire d'antonymes, DicoSyn* (dont le rôle était de nous aider à distinguer les antonymes assez ancrés pour avoir été rapportés par les lexicographes de ceux qui relèvent d'une opposition contextuelle). Cette ressource a finalement été abandonnée dans le protocole final car la liste des antonymes proposés pour un mot donné s'est révélée bien trop importante pour l'utilisation qui nous intéresse : nous ne visons pas l'exhaustivité, étant donné que c'est à notre avis un but impossible à atteindre (puisque le contexte peut créer des oppositions à partir de n'importe quels mots), mais nous essayons de ne garder que les antonymes les plus à même d'être reconnus comme tels par les locuteurs (ce point est développé plus loin dans le chapitre). Les ressources décrites en 2.1. n'étant pas encore disponibles au moment de la mise en place de cette étude, le corpus utilisé a consisté en un ensemble de corpus tout-venant non étiquetés (romans,

*

Université de Caen (accessible sur http://elsap1.unicaen.fr/.html)

83

discours politiques, critiques de films*...) et nous nous sommes servi des Voisins de le monde** comme base de voisins distributionnels. L'intérêt de ce travail est qu'il se situe plus dans une démarche d'observation que d'évaluation : la taille du corpus a permis une approche au cas par cas des résultats rapportés (ce qui aurait été impossible avec le corpus Wikipédia) et rendu possible la mise au jour de quelques phénomènes comme des cas d'antonymie auxiliaire. L'étude a porté sur trois des mots parmi les plus fréquents du corpus, à savoir l'adjectif bon, le nom vie et le verbe adorer (la fréquence de ce mot étant amplifiée par le nombre important de critiques de films dans le corpus).

3.2.1. Bon (adj) La fréquence de cet adjectif (dont l'équivalent anglais, good, avait également été utilisé par Jones lors de son expérience) a fait qu'on l'a retrouvé dans plusieurs patrons différents comme X ou Y, ni Y ni Y, X comme Y, entre X et Y, de X à Y. Sur 249 résultats, nous avons relevé 19 séquences que nous considérons comme valides quand X et Y sont tous les deux de la même catégorie grammaticale*** (un important nombre d'erreurs est dû aux occurrences de bon en tant que marqueur discursif dans les retranscriptions de discours oral du corpus). Onze de ces séquences mettent bon en opposition avec mauvais, avec parfois des adverbes d'intensité : cette médium terriblement humaine (donc ni toute mauvaise, ni toute bonne) cette série me fait sourire et rire dans les bons comme les mauvais jours chacun peut avoir son opinion qu'elle soit bonne ou mauvaise ces oscillations entre le bon et le très mauvais On peut observer la même opposition avec la forme nominale de bon : ici pas de bons ou de mauvais mais juste beaucoup de raisons d'agir On trouve également deux occurrences d'oppositions de cette forme nominale avec méchant * Recueillies par N. Tulechki. ** http://www.irit.fr:8080/voisinsdelemonde/ *** Nous rappelons que dans cette étude, le corpus n'a pas été annoté et qu'il a donc fallu trier manuellement les séquences analysables.

84

(opposition que ne présente pas la forme adjectivale) : il n'y pas de bons ou de méchants selon moi une bataille entre les bons et les méchants Bon s'oppose également avec con : de la connerie de (sic) plus conne à la bonne vanne On peut observer un cas d'antonymie auxiliaire, puisqu'ici, une autre paire est mise en opposition, à savoir connerie et vanne. De plus, le fait que bonne et conne ne se distinguent que d'un phonème peut être considéré comme un motif de rapprochement. En plus de s'opposer à des termes de polarité contraire, bon peut également être modifié par un adverbe de degré et entrer en contradiction avec des valeurs plus élevées que la sienne : ce sont des acteurs, ni meilleurs ni moins bons que la moyenne une série très drôle, qui alterne le très bon comme le moins bon ! Les deux dernières séquences font intervenir des formules figées : à regarder quand on est triste ou de bonne humeur Triste ne s'oppose pas directement à bon, mais à de bonne humeur (on ne peut pas conclure de cet exemple que triste et bon sont des antonymes). c'est un ami qui a du mal à être un bon référent Ici non plus il n'y a pas d'opposition manifeste avec bon, puisque l'on a affaire à l'expression figée avoir du mal à. Toutefois, il est ici difficile de juger si la cooccurrence de avoir du mal à et être un bon est purement fortuite ou si elle relève d'un effet de style. Parmi les adjectifs qui cooccurrent dans nos patrons avec bon (mauvais, méchant, con, meilleur et peut-être mal), seuls mauvais et meilleur sont présents parmi ses voisins. Selon le 85

classement des mots qui ont le plus grand coefficient de proximité avec bon, ils occupent respectivement la deuxième et première place. Toutefois, meilleur n'est pas référencé dans Dicosyn comme étant un antonyme de bon, ce qui n'étonne pas outre mesure étant donné que les oppositions de bon et de meilleur soit passent par une inversion de la valeur de bon (moins bon), soit sont mobilisées afin de créer un effet de style (Jones a également constaté ce phénomène d'opposition d'un terme positif avec un super positif ([JON 02] p. 159)). Con n'est pas non plus référencé comme un voisin de bon : le fait que ce mot relève du registre grossier empêche toute comparaison puisqu'il est exclu du domaine journalistique (donc du corpus Le Monde) et que par conséquent, sa forme adjectivale n'a aucun voisin dans la base. L'absence de méchant est plus remarquable. Bon et méchant se situent en effet sur des pôles opposés de l'échelle bien vs. mal et sont signalés en tant qu'antonymes dans notre dictionnaire. Il est probable que l'explication se situe ici aussi au niveau du registre du corpus : les deux occurrences que nous avons rencontré se situent en effet dans le corpus de critiques de films et séries, domaine dans lequel on retrouve les types du gentil et du méchant.

3.2.2. Vie (nom) Comme l'on pouvait s'y attendre, le mot qui revient le plus parmi les onze séquences valides rapportées est mort, avec six occurrences dans trois patrons différents : les sujets traités sont très variés, on passe de la mort à la vie etc. entre la vie et la mort, il ne faisait pas de différence comme si le sommeil, ou l'éveil, avaient été, véritablement, la mort ou la vie Il est à noter que la structure du dernier exemple relève de l'antonymie auxiliaire et laisse apparaître l'opposition sommeil et éveil (qui est l'opposition principale de cette séquence, la paire A cf. 1.2.2.2.1.). Il est étonnant de constater que mort est loin d'apparaître en première position dans les voisins de vie : il apparaît en 84e place (sur 399) avec un coefficient Jaccard de 0,198 contre 0,402 pour histoire, qui a le plus haut score. Nous retrouvons effectivement une séquence où vie cooccurre avec histoire : chacun peut choisir le centre de son histoire et de sa vie

86

Le fait que ces deux termes soient en opposition est toutefois douteux. De plus, selon Dicosyn, ils entretiennent une relation de synonymie et non d'antonymie. Le reste des résultats mobilise vie dans des syntagmes : entre son adolescence et sa vie de femme rien ne saurait être expliqué ni compris de leur vie sentimentale ou politique le trait d'union entre le noyau familial et la vie euh la vie en société dans le rôle d'harley, tourmentée entre son travail et sa vie personnelle avec leurs problèmes quotidiens, que ce soit dans leur vie privée ou au travail Vie est ici employé au sens de « part de l'activité humaine, de l'existence d'une personne ou d'une collectivité envisagée du point de vue de l'activité exercée, des occupations » (définition du TLFi). Les syntagmes s'opposent soit à d'autres syntagmes contenant ou non vie (noyau familial, (vie) politique), soit à des mots seuls (travail, adolescence). Les termes formés à partir de vie étant complexes, il nous est impossible d'observer leurs voisins ou leurs synonymes/antonymes dans le dictionnaire. Toutefois, vie personnelle et vie privée étant tous deux opposés à travail, il est possible qu'ils entretiennent une relation de synonymie.

3.2.3. Adorer (verbe) Dans cinq séquences sur les six rapportées, adorer s'oppose à détester : on adore ou on déteste car ce n'est pas du tout-public un seul épisode suffira pour que vous sachiez si vous détestez ou si vous adorez Comme dans certaines occurrences de vie et de mort, l'amorce peut figurer soit en position X soit en position Y. Au niveau de la distribution, détester est le mot qui a le second plus haut coefficient Jaccard avec adorer_obj (après amour). L'autre séquence rapportée exprime une opposition avec abhorrer, qui, à l'instar de détester, est recensé comme antonyme de adorer. Abhorrer est toutefois absent des voisins de adorer.

87

soit on abhorre, soit on adore, moi j'adhère La suite abhorre/adore/adhère nous laisse penser que le critère phonétique a joué un rôle important dans le choix des antonymes abhorre et adore.

Conclusion Cette première étude nous a permis de mettre en lumière le problème des syntagmes (de bonne humeur, avoir du mal à, vie sentimentale, vie de famille...) et a démontré la nécessité de travailler sur un corpus étiqueté de plus grande taille : le faible nombre de résultats ne nous a pas permis de faire des généralisations sur la méthode de filtrage.

3.3. Expérimentation et évaluation En vue de l'évaluation de la méthode de filtrage, nous avons construit trois ensembles de quarante amorces adjectivales, nominales, et verbales (cf. Fig. 14 à 16, en annexe) provenant de la liste des voisins de Wikipédia (afin de s'assurer que chaque amorce ait au moins un voisin). Nous avons choisi de constituer ces ensembles de façon aléatoire afin d'observer les résultats de notre méthode sur un échantillon non biaisé par notre intuition de ce que nous considérons comme des couples de bons antonymes. L'intérêt est d'observer les résultats ramenés par certains mots qui n'ont a priori aucun antonyme mais pour lesquels le contexte fait naître une opposition par la mise en relief de certains traits inhérents à l'amorce. Si l'on prend l'exemple du verbe recevoir, les antonymes qui nous viennent à l'esprit sont donner, offrir, envoyer, etc. Parmi les voisins de recevoir qui ont été filtrés par les patrons apparaissent également passer et émettre, qui s'opposent avec lui dans le cas où l'objet est un appel. Certaines oppositions sont cependant plus subtiles : recevoir s'oppose à choisir à travers la notion de contrainte qui est mise en relief par la contiguïté des deux verbes dans l'exemple suivant : Les familles Van Cleef ou Van Kleef de l'Overijssel sont d'origine juive et peuvent avoir choisi ou reçu ce surnom en raison de leur origine géographique.

88

Il convient toutefois de s'interroger sur la nature des oppositions que notre méthode vise à filtrer : le contexte permet en effet de faire naître toute sorte d'oppositions entre des mots qui n'ont à priori aucun lien entre eux, comme dans l'exemple ci-dessus ou dans les suivants : La soutenance de thèse est souvent suivie d'une collation (pot de thèse). Mais cela est plus traditionnel qu'obligatoire ! L'ouvrage français part d'une main habile, et est écrit d'une manière aussi solide que méthodique. Si elles ne sont ni chassées, ni dérangées elles s'éloignent peu des rives pour aller pâturer (quelques centaines de mètres). Certaines de ces oppositions relèvent de l'hapax, elles nécessitent un contexte bien particulier et ont une portée quasi nulle : si traditionnel et obligatoire figuraient dans une liste d'adjectifs, ils ne seraient probablement pas reconnus par un locuteur comme des antonymes. Il conviendrait alors de définir un indice de dépendance au contexte et de fixer un seuil à partir duquel on pourrait considérer qu'une opposition est suffisamment autonome pour être prise en compte. De telles mesures ont été effectuées dans le domaine de la psycholinguistique en sollicitant l'intuition d'un ensemble de locuteurs (cf. 1.2.1.). Le critère que nous pourrions utiliser ici est celui de la fréquence : plus une opposition est fréquente, plus il y a de chances qu'elle soit reconnue par les locuteurs. « In other words, speakers have strong intuitions about antonym pairs that they frequently encounter, but when they are asked to judge whether two less frequently occurring words are antonyms or not, they do not have such strong intuitions. » [MUE 97] p. 50 Nous nous heurtons toutefois ici au problème de la taille du corpus que nécessiterait une telle démarche : sur un corpus d'une taille relativement importante comme celui dont nous disposons (pour rappel, environ 194 millions de mots), certaines oppositions clairement antonymiques n'apparaissent qu'une seule fois (échec/réussite, démarrer/arrêter). Un deuxième critère pourrait être le nombre de patrons différents dans lesquels l'opposition apparaît : plus les contextes sont variés et plus la portée de l'opposition est étendue. 89

Ce problème est d'autant plus important qu'il s'avère que la grande majorité des 120 amorces recueillies ne présentent aucun antonyme clairement définissable. Ainsi, ce choix de ne pas sélectionner les amorces est à double tranchant : il permet de mettre au jour des oppositions contextuelles particulièrement intéressantes à étudier sur le plan linguistique mais complique considérablement l'évaluation du filtrage. En effet, si nous ne pouvons juger du caractère antonymique d'un couple de mots, il est impossible de mesurer l'efficacité de notre méthode. On reconnaît parmi les voisins filtrés de ces 120 amorces les différentes relations identifiées plus haut en 2.1.3.3. :



l'antonymie : révéler/cacher, interne/externe



la quasi-antonymie : sociologue/écrivain, sculpture/peinture



l'hypéronymie : communauté/individu, véhicule/moteur

Mais aussi la synonymie, qui apparaît à de nombreuses reprises : communauté/groupe, mouvement/ courant/genre,

tournoi/compétition,

hypothèse/théorie,

important/historique,

véritable/vrai,

illégal/illicite... Toutefois, comme nous l'avions remarqué, il est probable qu'un certain nombre de ces cas de synonymie soient en fait des oppositions de niveau métalinguistique : les patrons sont profilés pour rapporter des mots qui s'opposent, or on ne peut pas opposer des synonymes sur le plan sémantique. Ainsi, soit que les mots opposés sont utilisés en mention, de telle sorte que ce sont leurs formes qui sont opposées (cf. 3.1.3.3., « le genre masculin ou mâle »), soit que le contexte fait surgir des différences de sens qui brisent la synonymie ; dans tous les cas, deux mots qui apparaissent ensemble dans un de nos patrons ne peuvent pas être synonymes. une hypothèse ou une théorie qui se confirmera un rôle important ou historique généralement reconnu On peut distinguer parmi ces amorces un sous-ensemble de noms, adjectifs ou verbes pour lesquels on peut instantanément identifier au moins un antonyme. Nous avons reporté ci-dessous les résultats obtenus pour quinze des 120 amorces, toutes catégories confondues, que nous avons considéré comme les plus susceptibles d'avoir au moins un antonyme (cette liste se base sur notre propre intuition et il est probable qu'elle aurait été différente si elle avait été établie par un autre locuteur). Afin d'avoir plus de données à analyser, nous avons ajouté à cette liste les résultats 90

obtenus pour quinze autres amorces (cinq noms, adjectifs et verbes) ayant un antonyme immédiatement identifiable sélectionnées dans la base des voisins. NB : nous avons mis en gras le ou les antonymes que nous nous attendions à voir apparaître pour chaque amorce. Les numéros entre parenthèses après chaque voisin rapporté renvoient aux patrons dans lesquels le voisin est apparu.

N° du patron

Patron correspondant

1

X ou Y

2

soit X soit Y

3

à la fois X et Y

4

entre X et Y

5

de/depuis X à/jusqu'à Y

6

ni X ni Y

7

aussi bien X que Y

8

X plutôt que Y

9

X comme Y

10

plus/moins/aussi X que Y

Nombre de voisins ami (29 030)

apparaître (36 153)

28

91

Nombre de

Nombre

cooccurrents de voisins différents 37

17

rapportés 6

6

Proportion de voisins

Voisins rapportés

rapportés 21,4 %

6,6 %

acteur (9)

membre (1)

frère (6)

parent (1)

maître (1,3)

élève (1,3)

disparaître (1)

remplacer (1)

exister (1)

retrouver (1)

prendre (1)

suivre (9)

Du point de vue de Gaïa, notre planète apparaît ou disparaît du ciel selon les moments. comédie (11 308)

3

17

3

91

100 %

drame (1,4)

tragédie

opéra (1)

(1,3,4,7,9)

La scène provoque l'hilarité du public, partagé tout au cours du film entre drame et comédie. Hernani allie à la fois comédie et tragédie.

construire (43 191)

37

57

9

24,3 %

commencer (1,5)

remanier (1)

détruire (1)

restaurer (1)

développer (1)

transformer (1)

faire (1)

utiliser (1)

reconstruire (1) Elles travaillent directement sur les atomes, pour construire ou détruire des molécules, des objets. démarrer (2386)

4

4

1

25 %

arrêter (1)

un écran de contrôle qui permet de démarrer ou arrêter un ou plusieurs services dernier (93 766)

17

9

2

11,8 %

actuel (1)

premier (4,6,9)

Apprenez-le : il n'y a ni premier ni dernier car tout est le Nombre Unique désordre (1476)

2

5

0

-

différent (85 920)

33

37

3

9%

diminuer (6557)

10

34

2

20 %

actuel (1)

unique (1)

meilleur (1) accroître (1)

augmenter (1,2,6)

En général, lorsqu'un gaz subit une expansion adiabatique, sa température peut soit augmenter, soit diminuer échec (7090)

7

10

1

14,3 %

réussite (1)

Le dénouement et certains moments clés varieront en fonction des performances (échec ou réussite). enfant (55 622)

18

106

4

22,2 %

exporter (1889)

40

4

1

2,5 %

femme (1,6)

homme (1,2,9)

gens (1)

personne (1)

importer (1,3,6,7)

un pays peut à la fois importer et exporter une même catégorie de produit faible (26 474)

6

24

3

50 %

égal (1)

moyen (1,4)

fort (1,4,5,9)

en montrant que chacun a sa place dans la société, le petit comme le grand, le faible comme le fort favorable (5733)

3

2

1

33,3 %

défavorable (1,6)

Cette expérience, indiquée depuis le début comme telle, n'a pas reçue d'écho, ni favorable ni défavorable.

forme (54 219)

23

127

10

92

47,8 %

langue (9)

nom (1,6)

méthode (4)

objet (5)

fonction (4,5,7)

terme (1)

mouvement (1)

style (6)

modèle (1,5)

structure (3,4)

homosexuel (2902)

2

17

0

-

-

illégal (2373)

1

15

1

100 %

illicite (1)

maître (25 266) maximal (10 084)

27 6

67 5

6 2

22,2 % 33,3 %

ami (1,3)

empereur (9)

artiste (1)

professeur (1)

chef (1,9)

père (1)

minimal (1)

moyen (1)

ce n'est pas là que l'on enregistre les plus fortes températures minimales ou maximales nouveau (65 309)

8

26

1

12,5 %

ancien (1,3,4)

En effet, la région est un espace charnière entre anciens et nouveaux Länder ouvrir (33 342)

41

9

1

2,4 %

fermer (1)

En s'éloignant ou s'approchant mutuellement, les lèvres ouvriront ou fermeront la bouche. partir (73 325)

51

9

3

5,9 %

arriver (1)

se suicider (1)

rester (1)

la totalité des services de bus à longue distance qui partent ou arrivent à Buenos Aires Ce film [...] soulève cette question que beaucoup se posent (faut-il partir ou rester malgré tout en Albanie ?) perpendiculaire (1117)

1

3

1

100 %

parallèle (1)

le champ électrique peut être parallèle ou perpendiculaire au champ magnétique présence (17 779)

27

17

1

3,7 %

absence (1,4)

Le capteur ouvre ou ferme un contact [...] selon la présence ou absence d'eau à un certain niveau d'une cuve. propre (32 959)

39

11

1

2,6 %

réalité (8850)

2

51

0

-

refuser (18 009)

35

33

4

11,4 %

national (1) accepter (1)

imposer (1)

accorder (1)

signer (1)

Aucune règle n’a été établie sur les genres de musique acceptés ou refusés au club. terminer (21 029)

9

14

1

11,1 %

commencer (1)

La situation est identique à une cataplexie mais ici elle commence ou termine un sommeil. véritable (14 648)

vivre (40 626)

12

88

18

35

1

7

8,3 %

8%

vrai (9) connaître (6)

servir (1)

continuer (5)

subir (9)

créer (1)

travailler (1)

mourir (1,4) l'adolescence se révèle être pour eux l'âge où il faut choisir entre vivre et mourir Parmi ces trente amorces, onze n'ont pas ramené les antonymes que nous indiquait notre intuition, à savoir identique pour différent, adulte pour enfant, fond pour forme, sale pour propre, ennemi pour 93

ami, esclave pour maître, faux pour véritable, rêve ou fiction pour réalité, hétérosexuel pour homosexuel, légal pour illégal, ordre pour désordre. Il est à noter que pour 9 des 19 amorces rapportant l'antonyme espéré, un seul voisin a été filtré : cette situation se rapproche du résultat idéal pour ce type de filtrage puisque le taux de précision est égal à 100 %.

démarrer (2386)

4

4

1

25 %

arrêter (1)

un écran de contrôle qui permet de démarrer ou arrêter un ou plusieurs services échec (7090)

7

10

1

14,3 %

réussite (1)

Le dénouement et certains moments clés varieront en fonction des performances (échec ou réussite). exporter (1889)

40

4

1

2,5 %

importer (1,3,6,7)

un pays peut à la fois importer et exporter une même catégorie de produit favorable (5733)

3

2

1

33,3 %

défavorable (1,6)

Cette expérience, indiquée depuis le début comme telle, n'a pas reçue d'écho, ni favorable ni défavorable. nouveau (65 309)

8

26

1

12,5 %

ancien (1,3,4)

En effet, la région est un espace charnière entre anciens et nouveaux Länder ouvrir (33 342)

41

9

1

2,4 %

fermer (1)

En s'éloignant ou s'approchant mutuellement, les lèvres ouvriront ou fermeront la bouche. perpendiculaire (1117)

1

3

1

100 %

parallèle (1)

le champ électrique peut être parallèle ou perpendiculaire au champ magnétique présence (17 779)

27

17

1

3,7 %

absence (1,4)

Le capteur ouvre ou ferme un contact [...] selon la présence ou absence d'eau à un certain niveau d'une cuve. terminer (21 029)

9

14

1

11,1 %

commencer (1)

La situation est identique à une cataplexie mais ici elle commence ou termine un sommeil. Le calcul du taux de rappel nécessiterait d'avoir la liste exhaustive de tous les mots que l'on pourrait considérer comme les antonymes d'une amorce. Nous avons exclu l'éventualité d'utiliser DicoSyn

94

pour nous fournir ce genre de liste : tous les mots n'y figurent pas (comme homosexuel et perpendiculaire, parmi nos amorces) et le spectre des antonymes rapportés est bien trop large. Pour un mot comme commencer, DicoSyn rapporte 18 antonymes dont une majorité sont contre-intuitifs (aboutir, clore, couronner, disparaître, expirer, parachever, s'évanouir, etc.) soit parce qu'ils appartiennent à des registres peu usités, soit parce qu'ils sont trop attachés à un contexte. Nous avons donc décidé de ne pas nous aventurer à mesurer le rappel de notre méthode de filtrage. Il est difficile de trouver des point communs entre les amorces rapportant les résultats escomptés. La fréquence de l'amorce ne semble pas influer, tout comme les différents facteurs que nous avons mesurés ici : les amorces pour lesquelles l'antonyme est rapporté se trouvent aussi bien être les plus rares que les plus fréquentes, quel que soit le nombre de voisins, de cooccurrents ou de voisins filtrés. La nature morphologique des amorces ne paraît pas influer non plus puisque homosexuel, illégal et désordre ne rapportent pas hétérosexuel, légal et ordre alors que favorable ramène défavorable, exporter importer, etc. En revanche, le nombre de patrons qui rapportent un même voisin pourrait être une piste intéressante. En effet, il s'avère que sur huit voisins filtrés par au moins trois patrons différents, six ont été identifiés comme de parfaits antonymes.

comédie (11 308)

3

17

3

100 %

drame (1,4)

tragédie

opéra (1)

(1,3,4,7,9)

actuel (1)

premier (4,6,9)

Hernani allie à la fois comédie et tragédie. dernier (93 766)

17

9

2

11,8 %

Apprenez-le : il n'y a ni premier ni dernier car tout est le Nombre Unique

diminuer (6557)

10

34

2

20 %

accroître (1)

augmenter (1,2,6)

En général, lorsqu'un gaz subit une expansion adiabatique, sa température peut soit augmenter, soit diminuer exporter (1889)

40

4

1

2,5 %

importer (1,3,6,7)

un pays peut à la fois importer et exporter une même catégorie de produit

faible (26 474)

6

24

3

50 %

égal (1)

moyen (1,4)

fort (1,4,5,9)

en montrant que chacun a sa place dans la société, le petit comme le grand, le faible comme le fort 95

nouveau (65 309)

8

26

1

12,5 %

ancien (1,3,4)

En effet, la région est un espace charnière entre anciens et nouveaux Länder Les deux voisins filtrés par au moins trois patrons que nous n'avons pas considéré comme aussi antonymiques que les six ci-dessus sont les suivants :

enfant (55 622)

18

106

4

22,2 %

femme (1,6)

homme (1,2,9)

gens (1)

personne (1)

L'opposition à laquelle nous nous attendions était enfant/adulte, mais enfant/homme constitue toutefois un couple antonyme satisfaisant, dans le sens où il serait probablement reconnu comme tel par des locuteurs.

forme (54 219)

23

127

10

47,8 %

langue (9)

nom (1,6)

méthode (4)

objet (5)

fonction (4,5,7)

terme (1)

mouvement (1)

style (6)

modèle (1,5)

structure (3,4)

En revanche, l'opposition forme/fonction nous apparaît beaucoup moins naturelle, puisqu'il nous a fallu retourner au contexte pour essayer d'identifier les cas dans lesquels ces mots pouvaient s'opposer. Les Sages ont enseigné qu'il y a trois degrés de création [dont] la assi'a, finition, passage de la forme à la fonction. Le design pédagogique est la traduction du terme instructional design dans son sens rudimentaire (sans génie), s'axant d'avantage sur le lien entre forme et fonction pédagogique. [...] on lui apportera certaines modifications concernant aussi bien la forme que la fonction.

96

Il est logique de constater que plus une paire de mots opposés est ancrée, plus elle est indépendante du contexte, et plus elle se retrouve dans des patrons différents. Cette méthode de discrimination se heurte toutefois au problème déjà évoqué de la taille du corpus, qui ne laisse pas apparaître cette variété de contextes pour les mots les moins fréquents. En effet, si nous essayons de vérifier cette hypothèse sur l'amorce la moins fréquente de notre ensemble, perpendiculaire, qui n'apparaît avec son antonyme parallèle que dans la structure X ou Y, il va nous falloir une énorme masse de données. Et si l'on se sert d'internet comme d'un corpus et que l'on soumet perpendiculaire et parallèle en position X et Y de chaque patron dans un moteur de recherche, on s'aperçoit que le couple apparaît à plusieurs reprises pour chacune des dix structures (contre une seule dans notre corpus). À titre de comparaison, illégal et illicite, la paire non-antonymique la moins fréquente de notre ensemble, n'apparaît que dans quatre patrons différents. Le nombre de résultats pour chacune de ces requêtes est également révélateur : nous avons rapporté ci-dessous le nombre de résultats que ramène Google* pour les couples illégal/illicite et perpendiculaire/parallèle placés dans les quatre seuls patrons compatibles avec la paire illégal/illicite (les deux mots étant passés au pluriel puis inversés dans le patron, le calcul de la fréquence de chaque structure a donné lieu à quatre requêtes : illégal ou illicite, illégaux ou illicites, illicite ou illégal, illicites ou illégaux).

X ou Y

à la fois X et Y

entre X et Y

ni X ni Y

illégal/illicite

189

1

4

4

perpendiculaire/parallèle

6027

14

11

128

La différence n'est pas frappante pour tous les patrons, mais l'on remarque que les structures avec perpendiculaire/parallèle apparaissent dans tous les cas plus fréquemment que les structures avec illégal/illicite, et ce bien que les amorces à la base de ces oppositions aient des fréquences allant du simple au double dans notre corpus : 2373 occurrences de illégal contre 1117 de perpendiculaire. Cette différence est encore plus frappante dans le moteur de recherche puisque illégal et perpendiculaire (et leurs flexions) s'opposent respectivement avec 138 millions d'occurrences contre 917 000. Cette petite digression googlesque nous permet de confirmer le fait que notre ensemble de patrons peut se révéler un filtre efficace si l'on prend en compte la variété des structures dans lesquelles un couple peut apparaître ainsi que la fréquence de ses occurrences. L'expérience n'a ici * http://www.google.fr

97

été menée que sur deux paires, mais il y a fort à parier que cette piste peut s'avérer payante pour la mesure d'un indice de dépendance au contexte que nous évoquions plus haut : plus une opposition se réalise fréquemment dans des contextes différents et plus elle a de chances d'être reconnue comme proprement antonymique par les locuteurs.

Conclusion La tâche de filtrage des antonymes d'un mot parmi ses voisins distributionnels à l'aide de patrons suppose plusieurs pré-requis :



le mot doit avoir au moins un antonyme.



l'antonyme doit être présent parmi ses voisins.



le mot doit se trouver dans une structure d'opposition avec son antonyme dans le corpus de référence.



l'ensemble de patrons doit être en mesure de repérer cette cooccurrence.

Le premier de ces points est le seul sur lequel nous ne pouvons intervenir : si un mot n'a pas d'antonyme, alors le filtrage est voué à l'échec. Les trois autres mobilisent les différentes ressources dont il a été question dans cette étude, à savoir la base de voisins distributionnels, le corpus Wikipédia et l'ensemble de patrons. Cette dernière ressource est celle sur laquelle nous avons eu le plus d'influence puisque c'est nous qui avons modelé les patrons de telle sorte qu'ils puissent capter le plus grand nombre d'oppositions antonymiques sans pour autant rapporter trop de séquences erronées, ce qui, sur un corpus de la taille de celui dont nous disposons, aurait pu s'avérer difficile à gérer. Les choix que nous avons effectués sur ces patrons nous ont conduits à constater leur inégalité face aux différentes catégories grammaticales, et notamment les verbes, qui sont un peu le parent pauvre de cette étude (et des études sur l'antonymie en général). Ces patrons nous ont toutefois permis de constater que le croisement des contextes et de la distribution d'un même mot permettent de faire émerger des relations lexicales bien spécifiques : nos patrons ayant été choisis pour leur inclination à rapporter des couples de mots mis en opposition, c'est tout naturellement que nous avons ramené une majorité d'antonymes, mais nous avons vu avec le patron X comme Y que la même méthode pouvait s'appliquer à une relation comme l'hypéronymie.

98

Le fait que cette méthode permette de ramener des antonymes a été démontré dans la dernière partie de ce travail. L'évaluation précise et objective de ce type de traitement nous paraît toutefois difficile : le concept d'antonymie dépend dans une certaine mesure de l'intuition des locuteurs et il serait délicat d'avancer des estimations chiffrées des résultats de notre méthode de filtrage se basant sur l'intuition d'un seul locuteur. La parade que nous avons trouvée (mesurer la portée des couples d'antonymes en relevant le nombre de patrons différents dans lesquels ils peuvent apparaître, ainsi que leurs fréquences) a rencontré ses limites dans la taille du corpus dont nous disposions, et nous n'avons donc avancé l'utilisation d'internet que comme une piste à suivre pour des travaux futurs : la projection sur internet de chaque couple de voisins dans chacun des patrons de notre ensemble, puis la comparaison des résultats obtenus permettrait, à notre avis, d'obtenir un score d'antonymie permettant de classer les couples selon leur degré d'attachement sans avoir recours à des locuteurs. Cette évolution ne sera pas sans conséquence sur les autres composantes du système :



étant donnée la nature pour le moins hétérogène des textes disponibles sur internet, on peut s'attendre à ce que la masse de bruit ramenée par les patrons soit relativement importante (sachant que les textes du web ne disposent pas d'annotation morpho-syntaxique, on ne pourra même pas choisir la catégorie des mots désirés dans les patrons). Il sera alors peutêtre judicieux de remanier la liste des patrons afin de viser à plus de précision en écartant les structures comme X ou Y et en introduisant des patrons plus spécifiques comme différence entre X et Y, que nous avions précédemment écartés (cf. 3.1.3.1.) à cause de leur trop basse fréquence (ce critère ne sera alors plus un frein).



le calcul des voisins n'étant évidemment pas possible pour l'ensemble des données disponibles sur internet, il faudra réfléchir à la compatibilité des voisins calculés sur le corpus Wikipédia et les résultats ramenés par les patrons après projection sur le web. En effet, il y a un risque que les voisins soient trop orientés par la nature du corpus et que le recoupement des deux ressources ne donne pas assez de résultats (même si en pratique, les données contenues dans le corpus Wikipédia font partie du web...). Une solution serait d'étendre la base distributionnelle de départ en couplant les voisins de Wikipédia avec les voisins du Monde, par exemple.

Dans tous les cas, l'amélioration du système passe selon nous par une augmentation de la taille des ressources mobilisées. Cette démarche n'est pas sans risque, particulièrement quand il s'agit de s'appuyer sur une ressource aussi anarchique et méconnue qu'internet : il risque de s'avérer pertinent de rajouter une ou plusieurs nouvelle(s) couche(s) de filtrage, afin de contenir le bruit qui n'aura pas

99

été stoppé par le recouvrement des résultats obtenus par les patrons et les voisins. Bien sûr, ceci n'est qu'une éventualité, et le recours ou non à des filtres supplémentaires ne se fera qu'après une phase d'évaluation des différents niveaux de filtrage. Le protocole d'évaluation est également un point à revoir : nous avons fait l'erreur, dans ce mémoire, de sélectionner aléatoirement les amorces avec lesquelles nous comptions évaluer notre système (Fig. 14 à 16). Il s'est en effet avéré que la plupart d'entre elles ne possédaient pas d'antonymes, et il a donc été impossible de mesurer les performances du filtrage. On peut envisager que l'évaluation du futur système passe par la constitution d'un corpus de paires d'antonymes unanimement reconnus (les conditions du choix de ces paires restent à définir) qui permettrait d'estimer l'efficacité de chacune des phases du processus.

100

Conclusion générale

101

Au final, nous ne pouvons fournir qu'une réponse en demi-teinte à la question de savoir si la combinaison des approches syntagmatique et paradigmatique s'est avérée efficace pour filtrer l'antonymie. En effet, nous avons rencontré dans la phase d'expérimentation un ensemble d'obstacles résultant soit de choix méthodologiques malencontreux soit des limites des ressources utilisées. Cependant, nous avons pu observer quelques résultats encourageants sur un ensemble d'amorces dont les voisins avaient été filtrés par au moins trois patrons différents (p. 95). Cela signifie qu'il est possible qu'il y ait une complémentarité entre les deux approches et que l'étape suivante va consister en un tâtonnement, une manipulation successive des différentes ressources afin d'obtenir le meilleur résultat de leur combinaison. Des questions plus théoriques sur la nature de l'antonymie ont également apparu dans le dernier chapitre : au moment où nous avons tenté d'évaluer notre méthode, nous nous sommes demandé dans quelle mesure est-ce que l'on pouvait qualifier un couple de mots en opposition d'antonymes. Pour répondre à cette question, nous nous sommes dans un premier temps fié à notre intuition puis nous avons avancé le critère de la diversité des contextes d'apparition et de leur fréquence (critère qui n'a pu être vérifié que partiellement ici). Nous avons passé en revue dans le premier chapitre de ce mémoire les différentes théories sur les critères que doivent respecter deux mots opposés pour être considérés comme des antonymes, or seule la théorie de la cooccurrence nous a été utile, à travers l'utilisation de patrons lexico-syntaxiques. Nous avons cependant eu l'occasion d'analyser des cas d'antonymie contextuelle particulièrement intéressants du point de vue linguistique, comme dans l'exemple suivant, où la proximité des deux verbes fait émerger le sème /contrainte/ dans reçu : Les familles Van Cleef ou Van Kleef de l'Overijssel sont d'origine juive et peuvent avoir choisi ou reçu ce surnom en raison de leur origine géographique. Ce genre d'oppositions nécessitent toutefois un contexte particulièrement ciblé et sortent donc du champ de nos recherches, qui visent à extraire des paires d'antonymes dont l'opposition subsiste même hors contexte (ce qui n'est pas le cas des verbes choisir et recevoir, qui ne seraient pas instinctivement reconnus comme des antonymes par des locuteurs). La prochaine étape consistera donc en une réévaluation des ressources mobilisées et en l'établissement d'un nouveau protocole de filtrage afin de mettre à l'épreuve notre critère de dépendance au contexte. 102

Bibliographie

103

[AMS 03] AMSILI P., L'antonymie en terminologie : quelques remarques, Conférence Terminologie et intelligence artificielle (TIA), Strasbourg, 2003 Disponible en ligne sur http://www.linguist.jussieu.fr/~amsili/papers/TIA03.pdf (visitée le 04/11/07) [BOU 97] BOUAUD J., HABERT B., NAZARENKO A., ZWEIGENBAUM P., Regroupements issus de dépendances syntaxiques en corpus : catégorisation et confrontation à deux modélisations conceptuelles, Journées Ingénierie des Connaissances et Apprentissage Automatique (20-22 mai 1997, Roscoff) Disponible en ligne sur http://www-lipn.univ-paris13.fr/~nazarenko/sources/Bouaud_IC97.ps (visitée le 19/12/07)

[BOU 02a] BOURIGAULT D., Upery : un outil d'analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus, Actes de la 9ème conférence sur le Traitement Automatique de la Langue Naturelle (24-27 juin 2002, Nancy), p. 75-84

[BOU 02b] BOURIGAULT D., LAME G., Analyse distributionnelle et structuration de terminologie. Application à la construction d'une ontologie documentaire du Droit, TAL, 43:1, p. 128-150, Hermès (Paris), 2002 Disponible

en

ligne

sur

http://www.univ-tlse2.fr/erss/textes/pagespersos/bourigault/TAL-

Bourigault-Lame.doc (visitée le 27/01/08)

[BOU 05] BOURIGAULT D., GALY E., Analyse distributionnelle de corpus de langue générale et synonymie, 4èmes Journées de la linguistique de corpus (15-17 septembre 2005, Lorient) Disponible en ligne sur http://web.univ-ubs.fr/corpus/jlc4/acteJLC2005_17_galy.pdf (visitée le 19/12/07)

[BOU 07] BOURIGAULT D., Un analyseur syntaxique opérationnel : SYNTEX, Habilitation à diriger des recherches, Université Toulouse II-Le Mirail, 2007 Disponible en ligne sur http://w3.univ-tlse2.fr/erss/textes/pagespersos/bourigault/bourigault-hdrvfin.pdf (visitée le 27/01/08)

104

[BRA 07] BRAS M., Cours de sémantique lexicale SL0020, Université Toulouse II - Le Mirail, 2007 [CHA 89] CHARLES W., MILLER G., Context of antonymous adjectives, Applied psycholinguistics, 10, Cambridge University Press (Cambridge), 1989 [CRU 95] CRUSE D. A., Lexical semantics, 3e réed., Cambridge University Press (Cambridge), 1995 [DEE 65] DEESE J., The structure of associations in language and thought, Johns Hopkins Press (Baltimore), 1965

[FAB 97] FABRE C., HABERT B., LABBÉ D., La polysémie dans la langue générale et les discours spécialisés, Sémiotiques, 13, p. 15-31, Didier (Paris), 1997 Disponible en ligne sur http://www.limsi.fr/Individu/habert/Publications/Fichiers/fabre-et-al97.html (visitée le 27/01/08) [FAB 06] FABRE C., BOURIGAULT D., Extraction de relations sémantiques entre noms et verbes au-delà des liens morphologiques, Actes de la 13ème conférence sur le Traitement Automatique de la Langue Naturelle (10-13 avril 2006, Leuven) Disponible en ligne sur http://w3.univ-tlse2.fr/erss/textes/pagespersos/cfabre/articles/Fabre-et-bourigaultTALN2006.pdf (visitée le 19/12/07) [FEL 95] FELLBAUM C., Co-occurrence and antonymy, Journal of Lexicography (1995) : Cooccurence and Antonymy, International Journal of Lexicography 8, Oxford University Press (Oxford), 1995

[GRE 92] GREFENSTETTE G., Sextant: Exploring Unexplored Contexts for Semantic Extraction from Syntactic Analysis, Proceedings of the 30th Annual Meeting of the Association for Computational Linguistics (28 juin-2juillet 1992, Newark) Disponible en ligne sur http://citeseer.ist.psu.edu/588438.html (visitée le 27/01/08)

105

[HAB 98] HABERT B., Des mots complexes possibles aux mots complexes existants : l'apport des corpus, Habilitation à diriger des recherches, Université Lille III - Charles de Gaulle, 1998 Disponible en ligne sur http://www.limsi.fr/Individu/habert/Publications/Fichiers/hdr/index.html (visitée le 27/01/08) [HAM 99] HAMON T., GARCIA D., NAZARENKO A., Détection de liens de synonymie : complémentarité des ressources générales et spécialisées, Terminologies Nouvelles, 1999 Disponible en ligne sur http://www-lipn.univ-paris13.fr/~hamon/publications/TIA99.ps.gz

[HAR 70] HARRIS Z. S., La structure distributionnelle, Trad. fr. BALAGNA G., Langages, 20, p. 14-34, Larousse (Paris), 1970 Disponible en ligne sur http://www.persee.fr/showPage.do?urn=lgge_0458-726x_1970_num_5_20_2035 (visitée le 19/12/07) [HAR 91] HARRIS Z. S., A theory of language and information : a mathematical approach, Clarendon Press (Oxford), 1991 [HER 86] HERRMANN D. J., CHAFFIN R., DANIEL M. P. and WOOL R. S., The role of elements of relation definition in antonymy and synonym comprehension, Zeitschrift fur Psychologie, 194, Barth (Leipzig), 1986 [HRI 02] HRISTEA F., On the semiautomatic generation of WordNet type synsets and clusters, Journal of Universal Computer Science, 8, Graz University of Technology (Graz), 2002 [JON 02] JONES S., Antonymy : a corpus-based perspective, Routledge (Londres), 2002 [JUS 91] JUSTESON J., KATZ S., Co-occurrence of antonymous adjectives and their contexts, Computational Linguistics, 17, MIT Press (Cambridge), 1991 [KIT 03] KITTREDGE R., Sublanguages and controlled languages, dans MITKOV R., The Oxford Handbook of Computational Linguistics, Oxford University Press (Oxford), 2003

106

[LAB 04] LABELLE F., Partie Sémantique lexicale du cours de Sémantique, Université du Québec (Chicoutimi), 2004 Disponible en ligne sur http://wwwens.uqac.ca/~flabelle/semantique/semlex/semlex.htm (visitée le 04/11/07) [LE 02] LE MOIGNO S., CHARLET J., BOURIGAULT D., JAULENT M. C., Construction d’une ontologie à partir de corpus : expérimentation et validation dans le domaine de la réanimation chirurgicale, 13e journées francophones d’ingénierie des Connaissances (2002, Rouen) [LEE 74] LEECH G., Semantics, Penguin (Hardmonsworth), 1974 [LEH 82] LEHRER A., LEHRER K., Antonymy, Linguistics and Philosophy, 5, Kluwer (Dordrecht), 1982 [LEH 02] LEHRER A., Paradigmatic relations of exclusion and opposition, dans CRUSE, D. A. et al., Handbook of Lexicology, Walter de Gruyter (Berlin), 2002 [LYO 78] LYONS J., Éléments de sémantique, Trad. franc. DURAND J., Larousse (Paris), 1978 [MAY 05] MAYAFFRE D., Rôle et place des corpus en linguistique : réflexions introductives, Communication présentée au colloque Rôle et place des corpus en linguistique (1-2 juillet 2005, Toulouse) Disponible en ligne sur http://www.revue-texto.net/Corpus/Publications/Mayaffre_Corpus.html (visitée le 18/12/07) [MIL 90] MILLER G., WordNet : an online lexical database, International journal of lexicography, 3, Oxford University Press (Oxford), 1990 [MOR 98] MORIN E., Prométhée : un outil d'aide à l'acquisition de relations sémantiques entre termes, 5eme conférence annuelle sur le Traitement Automatique des Langues Naturelles (1998, Paris) [MUE 97] MUEHLEISEN V. L. Antonymy and semantic range in english, Thèse de philosophie, Northwestern University (Evanston), 1997 107

Disponible en ligne sur http://www.f.waseda.jp/vicky/dissertation/index.html (visitée le 18/12/07) [MUR 03] MURPHY L., Semantic relations in the lexicon, Cambridge University Press (Cambridge), 2003 [MUR 06] MURPHY L., Antonymy and incompatibility, Encyclopedia of language and linguistics, 2e édition, Elsevier (Amsterdam), 2006

[NAZ 97] NAZARENKO A., ZWEIGENBAUM P., BOUAUD J., HABERT B., Corpus-based identification and refinement of semantic classes, Proceedings of the 1997 American Medical Informatics Association (AMIA) Annual Fall Symposium (octobre 1997, Nashville) Disponible en ligne sur http://citeseer.ist.psu.edu/279447.html (visitée le 27/01/08) [NYK 98] NYCKEES V., La sémantique, Belin (Paris), 1998 [PIC 92] PICOCHE J., Précis de lexicologie française : l'étude et l'enseignement du vocabulaire, Nathan (Paris), 1992 [POI 03] POIBEAU T., Extraction automatique d'information : du texte brut au web sémantique, Hermès (Paris), 2003 [RAY 96] RAYBECK D., HERMANN D., Antonymy and semantic relations : the case for a linguistic universal, Cross-Cultural Research, 30, SAGE Publications, 1996 [SCH 01] SCHWAB D., Vecteurs conceptuels et fonctions lexicales : application à l'antonymie, Mémoire de DEA d'informatique, Université de Montpellier II, 2001 Disponible en ligne sur http://www.lirmm.fr/~schwab/Publications/memoire_DEA_Didier_SCHWAB.pdf (visitée le 04/11/07) [WIL 01] WILLNERS C., Antonyms in context : a corpus-based semantic analysis of Swedish, Travaux de l'Institut de Linguistique de Lund, 40, Lund University Press (Lund), 2001 Disponible en ligne sur person.sol.lu.se/CarolineWillners/papers/AntonymsInContext.pdf (visitée le 18/12/07) 108

Annexes

109

Fig. 1

110

Fig. 2

Fig. 3

111

NB : pour les Fig. 14 à 16, les numéros entre parenthèses après chaque voisin rapporté renvoient aux patrons dans lesquels le voisin est apparu.

N° du patron

Patron correspondant

1

X ou Y

2

soit X soit Y

3

à la fois X et Y

4

entre X et Y

5

de/depuis X à/jusqu'à Y

6

ni X ni Y

7

aussi bien X que Y

8

X plutôt que Y

9

X comme Y

10

plus/moins/aussi X que Y

Nombre Nombre de Nombre Proportion de cooccurrents de voisins de voisins voisins différents rapportés rapportés

Voisins rapportés

national (112 999)

13

53

9

69,2 %

européen (1,7) international (1,7) local (1,7) militaire (1) mondial (1)

important (65 768)

26

49

2

7,7 %

historique (1)

nouveau (65 309)

8

26

1

12,5 %

officiel (1) propre (1) régional (1,7) social (1) nouveau (7)

ancien (1,3,4) culturel (1) économique (1,3,4,7) juridique (1) militaire (1)

national (1) politique (1,3,6) réel (1) scientifique (1)

social (43 191)

14

93

8

57,1 %

royal (33 386)

1

22

1

100 %

interne (23 238)

2

12

2

100 %

précédent (21 923)

13

5

1

7,7 %

suivant (1)

spécial (18 950)

2

15

0

-

-

libéral (17 683)

7

31

5

112

71,4 %

impérial (1) externe (1,2,3,6,7)

conservateur (1,4,9,7) nationaliste (1,3)

extérieur (1)

progressiste (1,4) républicain (1,4) socialiste (1,3,4)

unique (17 098)

26

26

4

15,4 %

différent (1)

multiple (1,3) littéraire (1) musical (1) politique (1,3,6,7,10) régional (1) scientifique (1) social (1) populaire (1) spécifique (1)

culturel (16 860)

14

61

12

85,7 %

artistique (1) commercial (1,10) économique (1) historique (1) juridique (1) linguistique (1,6,10)

traditionnel (15 657)

7

37

5

71,4 %

classique (1) moderne (1,3) original (1,3)

véritable (14 648)

12

18

1

8,3 %

vrai (9)

antérieur (12 928)

2

6

1

50 %

postérieur (1)

essentiel (10 039)

3

14

0

-

-

distinct (5389)

6

2

0

-

-

favorable (5733)

3

2

1

33,3 %

défavorable (1,6)

intéressant (5566)

3

12

1

33,3 %

utile (1,10) juridique (1) littéraire (1) moral (1)

spirituel (1) théologique (1) théorique (1)

philosophique (5408)

6

36

6

100 %

exceptionnel (5179)

2

9

0

-

-

élémentaire (3787)

1

8

1

100 %

fondamental (1)

gouvernemental (3730)

2

13

0

-

-

homosexuel (2902)

2

17

0

-

-

illégal (2373)

1

15

1

100 %

illicite (1)

superbe (2003)

2

3

0

-

-

mutuel (1958)

1

6

0

-

-

rocheux (1734)

1

6

0

-

-

hindou (1526)

4

7

0

-

-

perpendiculaire (1117)

1

3

1

100 %

parallèle (1)

calviniste (763)

2

4

1

50 %

luthérien (1,4,6)

choral (747)

1

2

1

100 %

orchestral (1)

neurologique (694)

6

8

3

50 %

voisé (677)

2

2

1

50 %

sourd (1)

rectiligne (641)

2

4

0

-

-

orthographique (529)

2

4

2

100 %

électrostatique (497)

2

2

0

-

-

hollywoodien (470)

2

1

0

-

-

113

cardio-vasculaire (1)

psychiatrique (1) vasculaire (1)

grammatical (1)

typographique (1)

trotskiste (386)

6

4

1

16,7 %

maoïste (1)

asynchrone (224)

1

1

1

100 %

synchrone (1)

interurbain (205)

1

3

1

100 %

suburbain (1)

Fig. 14 Nombre Nombre de Nombre Proportion de cooccurrents de voisins de voisins voisins différents rapportés rapportés

article (256 983)

région (142 298)

communauté (67 177)

forme (54 219)

mouvement (46 005)

village (44 728)

21

54

48

23

65

27

134

88

86

127

78

63

10

14

16

10

9

10

114

Voisins rapportés

47,7 %

catégorie (1,4,5) liste (1) partie (1) texte (1) ouvrage (1)

page (1) livre (1) modèle (1) image (1,5) projet (1)

18,5 %

campagne (9) partie (1,9) commune (1,4,5) pays (1) département (1,5) province (1,5) état (1) situation (5) fondation (5) territoire (1) île (1) village (1) part (5) ville (1,3,4,5,6,9)

33,3%

église (1) république (4) entreprise (9) nation (9) individu (1,4) département (1) association (1) société (1,4,9)

centre (1) institution (1) province (5) village (1) groupe (1,4) commune (1,4) famille (1,4) personne (1,4)

47,8 %

langue (9) méthode (4) fonction (4,5,7) mouvement (1) modèle (1,5)

nom (1,6) objet (5) terme (1) style (6) structure (3,4)

13,8 %

action (1) association (1) courant (1,4,5,6) forme (1) genre (8)

groupe (1,6,9) organisation (1) parti (1) théorie (1)

37 %

château (1,6) communauté (1) commune (1) île (1) lieu (1,4,5)

maison (1) parc (5) quartier (1,9) région (1) ville (1,4,5,6)

château (44 539)

18

68

5

27,8 %

palais (1,4) église (6) maison (1,6)

pont (5) village (1,6) littérature (4) philosophe (9) philosophie (1,4) religion (4) théorie (1)

science (43 351)

16

93

10

62,5 %

art (1,4,5) culture (1,4,5) étude (1,5,9) histoire (1,9) langue (1)

construction (32 995)

35

60

2

5,7 %

projet (1)

conception (4)

union (31 706)

14

37

3

21,4 %

association (1) fédération (1,9)

parti (9)

moteur (25 397)

5

61

1

20 %

véhicule (5) approche (9) concept (1) fonction (1) forme (4)

idée (1) principe (1) procédé (1) utilisation (9)

méthode (23 024)

57

54

8

14 %

tournoi (19 319)

5

12

1

20 %

compétition (1)

présence (17 779)

27

17

1

3,7 %

absence (1,4)

réalité (8850)

2

51

0

-

-

hypothèse (7997)

7

11

1

14,3 %

théorie (1,4)

phrase (7104)

14

23

2

14,3 %

échec (7090)

7

10

1

14,3 %

sculpture (6216)

11

31

3

27,3 %

peinture (1,3,4,5,6)

dessin (1) fresque (1)

mathématicien (4949)

22

10

3

13,6 %

astronome (1) philosophe (1)

physicien (1,4)

créature (4784)

3

14

1

33,3 %

démon (1)

qualification (4221)

2

8

0

-

-

inventeur (3803)

47

7

0

-

-

proportion (3538)

5

8

1

20 %

quantité (1)

affiche (3142)

3

18

0

-

-

brasserie (2020)

3

3

0

-

-

adepte (1948)

6

5

0

-

-

sociologue (1945)

36

12

1

2,8 %

écrivain (1)

entente (1804)

1

2

0

-

-

archidiocèse (1747)

2

1

0

-

-

contrée (1710)

2

5

0

-

-

auberge (1535)

7

7

0

-

-

entrepôt (1212)

3

16

0

-

-

115

expression (1)

mot (1)

réussite (1)

satire (1171)

6

4

0

-

-

indemnité (875)

9

8

0

-

-

culpabilité (859)

1

4

0

-

-

saumon (844)

1

11

1

100 %

truite (1)

éclatement (759)

1

2

0

-

-

joug (667)

4

2

0

-

-

épilepsie (476)

4

6

1

25 %

schizophrénie (4)

Fig. 15 Nombre Nombre de Nombre Proportion de cooccurrents de voisins de voisins voisins différents rapportés rapportés

Voisins rapportés

utiliser (118 782)

74

88

11

14,9 %

commencer (5) connaître (1) conserver (1) considérer (1) construire (1) créer (1)

donner (1) inclure (1) perdre (1) porter (1) travailler (1)

partir (73 325)

51

9

3

5,9 %

arriver (1) rester (1)

se suicider (1) soutenir (1) tenir (1) utiliser (1) voir (1)

porter (57 870)

86

38

9

10,5 %

commencer (1) donner (5) recevoir (1) régner (1) représenter (9)

exister (55 509)

77

7

2

2,6 %

apparaître (1)

attester (9)

représenter (45 845)

55

24

4

7,3 %

définir (1) porter (9)

présenter (1) remplacer (1)

13,3 %

appeler (1) choisir (1) donner (1) émettre (1) faire (6)

occuper (1) passer (1) prendre (1) produire (1) voir (1) servir (1) subir (9) travailler (1)

recevoir (42 436)

75

44

10

vivre (40 626)

88

35

7

8%

connaître (6) continuer (5) créer (1) mourir (1,4)

posséder (39 956)

86

18

2

2,3 %

conserver (1)

occuper (1)

servir (39 292)

122

24

10

8,2 %

commander (9) conserver (5) faire (9)

tenir (1) travailler (1) utiliser (1)

116

jouer (1) pouvoir (1)

vivre (1) voir (9) remplacer (1) retrouver (1) suivre (9) posséder (1) recevoir (1)

apparaître (36 153)

91

17

6

6,6 %

disparaître (1) exister (1) prendre (1)

occuper (30 652)

96

19

4

4,2 %

assiéger (1) continuer (5)

signifier (24 537)

9

2

0

-

-

effectuer (23 242)

44

11

0

-

-

terminer (21 029)

9

14

1

11,1 %

commencer (1)

opposer (20 933)

4

11

0

-

-

lire (20 073)

10

32

0

-

-

transformer (14 408)

21

35

3

14,3 %

diviser (14 220)

6

7

1

16,7 %

compter (1)

affirmer (12 274)

20

11

1

5%

réaffirmer (1)

disputer (11 317)

21

2

0

-

-

révéler (10 847)

14

8

1

7,1 %

cacher (1)

essayer (10 495)

29

9

1

3,4 %

combattre (1)

retourner (10 220)

54

12

2

3,7 %

dominer (10 018)

14

4

0

-

identifier (8770)

12

17

2

16,7 %

payer (8541)

8

8

0

-

-

profiter (8297)

22

3

1

4,5 %

chercher (5)

conduire (8252)

90

9

0

-

-

entreprendre (7464)

45

2

0

-

-

promettre (4457)

4

2

0

-

-

craindre (4270)

9

2

0

-

-

embarquer (3608)

7

2

0

-

-

édifier (3434)

30

5

2

6,7 %

reconstruire (1)

enfermer (3336)

13

6

1

7,7 %

déporter (1)

instaurer (3161)

6

2

0

-

-

évacuer (2665)

10

5

0

-

-

démarrer (2386)

4

4

1

25 %

arrêter (1)

dépenser (1079)

12

2

0

-

-

enclaver (589)

3

1

0

-

-

échoir (505)

2

1

0

-

-

117

construire (1) disparaître (1)

détruire (1)

aller (1)

venir (1) -

analyser (6)

distinguer (1)

Fig. 16

Fréquence moyenne des amorces

Nombre moyen de Nombre moyen de voisins cooccurrents

Proportion moyenne de voisins filtrés

ADJ

13 598

5,3

16

42,24 %

NOM

23 270

15,6

31,43

15,95 %

VER

21 371

35,8

13,8

5,14 %

Fig. 17

118