La conception que les lettres révèlent les sons qui constituent la parole semble évidente pour celui qui emploie journellement l'alphabet. Bien sûr, tout le monde est conscient que l'orthographe ne respecte pas parfaitement la prononciation, particulièrement en France où la dictée est un passe-temps national. On admet aussi que les relations entre sons et lettres varient selon les langues, qui peuvent même utiliser différents alphabets, par exemple, le cyrillique ou le grec. Toutefois, avec suffisamment de soin, il doit être possible de représenter un énoncé d'une langue quelconque avec un alphabet adéquat qui, à chaque son, associerait une lettre.
Cette idée est le fondement de l'Alphabet Phonétique International. Les transcriptions phonétiques figurent dans les meilleurs dictionnaires, et il est courant de lire dans les introductions élémentaires à la linguistique que la parole "est une suite de sons, appelés des phones''. Pour celui qui, comme nous, s'intéresse à la façon dont le cerveau perçoit la parole, cette formulation conduit irrésistiblement à l'idée suivante : la perception auditive serait essentiellement similaire à une lecture séquentielle, où les formes visuelles des lettres sont remplacées par des "formes sonores'' correspondant chacune à un phone. Par exemple, entendre le mot " thèse'', ce serait percevoir successivement les sons /t/, /e/, et /z/.
Une première remarque vient tempérer ce modèle : la perception de la parole ne peut être le simple reflet d'objets acoustiques présents dans le signal puisque les catégories que perçoit un locuteur, dépendent de sa langue. Ainsi, dès le début du siècle, Sapir remarquait qu'il était "impossible d'apprendre à un Indien à établir des distinctions phonétiques qui ne correspondent à rien dans le système de sa langue, même si ces distinctions frappaient nettement notre oreille objective'' ([SapirSapir1921], p.56 de la traduction française). Par exemple, là où un Français percevra deux "sons'' différents : /r/ ou /l/, un Japonais entendra deux exemplaires du même son.
Cette observation est à l'origine de la phonologie et de la notion de phonème : on propose généralement que les mots ne sont pas mémorisés comme des suites de sons, mais plutôt comme des suites d'unités abstraites, appelées des phonèmes [HalleHalle1990]. Quand un mot est prononcé, les phonèmes qui le constituent peuvent se réaliser comme différents phones en fonction du contexte. Par exemple, en français, le phonème final /b/ du mot "robe'' se réalise comme le son [b], dans "une robe rouge'', mais comme le son [p] dans "une robe fuchsia''. Les langues diffèrent par l'inventaire des phonèmes et par les règles qui régissent les relations entre les représentations phonémiques et les représentations phonétiques (voir, p.ex., [DellDell1973]).
On explique l'influence de la langue sur la perception en supposant que la conscience perceptive (phénoménologique) se fonde sur les phonèmes, plutôt que sur les phones. Cependant, ces derniers peuvent être décelés par l'oreille "objective'' du phonéticien. En conséquence, la réalité physique des phones, et leur disposition séquentielle dans le signal de parole, faisait peu de doute tant que les phonéticiens se fondaient sur leurs intuitions. Ainsi, Bloomfield annonçait en 1934 : "On peut s'attendre à ce que la définition physique (acoustique) de chaque phonème de n'importe quel dialecte nous vienne du laboratoire dans les prochaines décennies'' (cité par Jakobson et Waugh, 1980, p. 23). Le modèle de traitement de l'information pour la reconnaissance des mots que suggèrent les conceptions linguistiques que nous venons d'évoquer, et qui était largement admis au milieu de ce siècle (cf, p.ex. [MillerMiller1951]) est le suivant :
Disons le immédiatement : tout le monde (ou presque) pense désormais que la première affirmation est fausse. L'avènement des techniques d'enregistrement et de visualisation du signal de parole [Potter, Kopp GreenPotter 1947], a révélé qu'il n'y avait pas de segments acoustiques correspondant un à un aux lettres de la représentation phonétique. [HockettHockett1955], [Fant LindblomFant Lindblom1961], et [Liberman, Cooper, Shankweiler Studdert-KennedyLiberman 1967] ont popularisé l'idée que cela était dû à la coarticulation : la prononciation d'un phone serait influencée par ceux qui l'entourent ; à cause de l'inertie de nos articulateurs qui ne peuvent prendre que quatre ou cinq positions différentes par seconde (alors que le débit en phones atteint facilement 12 phones/sec), les phones seraient transmis en parallèle, ce qui explique qu'un même segment acoustique puisse contenir l'information de plusieurs phones (cf figure 1.1, page suivante).
Cette image d'une transmission en parallèle des phones est toutefois trompeuse. Elle laisse supposer que les informations relatives aux différents phones sont simplement superposées. Pour [Liberman, Cooper, Shankweiler Studdert-KennedyLiberman 1967], la réalisation acoustique d'un phone est tellement dépendante de ceux qui l'environnent qu'il n'existerait pas de caractéristique acoustique invariante associée à chaque phone. À l'appui de cette hypothèse, on montre grâce à des synthétiseurs de sons, que des objets acoustiques très variés peuvent évoquer perceptivement le même phone. Il pourrait du moins sembler possible de définir un phone comme une classe d'objets acoustiques. Mais une telle solution n'est pas satisfaisante, car un même segment acoustique peut être perçu différemment selon le contexte où il se trouve. Par exemple, [Mann ReppMann Repp1980] ont "collé'' le même segment fricatif devant une voyelle /a/ et devant une voyelle /u/ ; dans le premier cas, les sujets entendaient /sa/, dans l'autre ils entendaient /u/. Selon [Liberman, Cooper, Shankweiler Studdert-KennedyLiberman 1967], les phones ne seraient donc pas des objets acoustiques, mais plutôt, des objets articulatoires.
Avec cette théorie, connue sous le nom de Théorie Motrice, Liberman et ses collègues [Liberman, Cooper, Harris MacNeilageLiberman 1963,Studdert-Kennedy, Liberman, Harris CooperStuddert-Kennedy 1970] font appel à la distinction classique entre stimulus distal et stimulus proximal : les phones correspondraient à des configurations des articulateurs, transmises par l'intermédiaire de l'onde acoustique. Liberman et al. proposent que le décodage de l'onde acoustique est effectué par un système perceptif spécialisé dans la reconnaissance des phones, et qui serait propre à l'espèce humaine. Ce système utiliserait des connaissances sur les contraintes de l'appareil articulatoire de l'humain pour effectuer des calculs permettant de déterminer quels sont les phones présents dans le signal.
On peut affirmer qu'une large proportion des recherches menées dans le domaine de la perception de la parole durant les années 70-80, ont été conduites pour confirmer ou réfuter certaines hypothèses de la Théorie Motrice. Deux de ses prédictions ont été plus particulièrement étudiées : (a) la perception des sons de parole est-elle fondamentalement différente de celle des sons de "non-parole'' [PisoniPisoni1977] ? et (b) la perception phonétique est-elle propre aux humains ? Les recherches provoquées par ces questions ont permis, entre autres, de découvrir que les bébés catégorisaient la parole comme les adultes [Eimas, Siqueland, Jusczyk VigoritoEimas 1971,Werker TeesWerker Tees1984]. Le cas des animaux est plus ambigu [Kuhl MillerKuhl Miller1978,KuhlKuhl1991]. Nous n'entrerons pas dans ces questions en détail (le lecteur pourra se référer à J. L. Miller, 1990, pour un début de revue). La caractéristique de la Théorie Motrice, qu'il faut garder présente à l'esprit, est qu'elle conserve le plus intact possible la vision "classique'', selon laquelle la perception des mots commence essentiellement par la récupération d'une représentation phonétique du signal. Cependant, contrairement au premier point du modèle "classique'', cette théorie fournit l'image d'un signal acoustique de parole complexe, voire ambigu (puisqu'il nécessite des connaissances articulatoires pour être décodé). C'est ainsi qu'est né le " problème de la perception de la parole''. Parmi les propositions avancées pour le résoudre, nous allons en discuter trois :
La question de l'influence des sources de connaissances " supérieures'' sur la perception de la parole est sans doute le problème qui occupé le plus d'espace dans les journaux de psychologie durant les années quatre-vingts. Ces recherches étaient stimulées par la thèse de la modularité [FodorFodor1983,GarfieldGarfield1987] d'une part, et, d'autre part, par l'avènement du connexionnisme [McClelland RumelhartMcClelland Rumelhart1986,Reilly SharkeyReilly Sharkey1992], dont certains modèles faisaient une place centrale à l'interactivité. Dans le domaine de la perception de la parole, les tenants de l'hypothèse interactive trouvent des justifications dans les recherches qui montrent l'existence d'influences dites de "haut en bas'' (top-down) dans la perception de la parole par l'être humain. L'un des phénomènes les plus souvent cités est l'effet de restauration phonémique, découvert par [WarrenWarren1970] : quand on supprime un phonème (et qu'on le remplace par un bruit), les sujets affirment entendre le mot intact, avec le bruit superposé. Mieux encore, le contexte sémantique peut influencer l'identité du phonème perçu : si '*' désigne le bruit, dans le contexte "it was found that the *eel was on the axle'', le sujet entend " wheel'' (roue), alors que si "axle'' (essieu) est remplacé par "table'', les sujets perçoivent "meal'' (repas) [Warren WarrenWarren Warren1970]. Une autre démonstration de l'influence lexicale sur la perception des phonèmes est illustrée par l'expérience de [GanongGanong1980] : celui-ci a montré qu'un segment ambigu entre /t/ et /d/ était perçu plus souvent comme /t/ que comme /d/ dans le contexte /.ask/ (formant le mot /task/ par préférence au "non-mot'' /dask/), mais qu'à l'opposé, dans le contexte /.ash/, il était plus souvent perçu comme comme /d/ que comme /t/ (/dash/ est un mot, /tash/ non).
Ces faits sont, il est vrai, assez saisissants. Mais, après examen, ils ne démontrent pas que les premières étapes de traitement du signal sont influencées par des connaissances de haut niveau. En effet, notre perception consciente ne nous donne certainement pas un accès direct à la sortie des " transducers'' (cf Pylyshyn 1984, p.174). Ce que nous percevons consciemment est le résultat d'une construction cognitive, influencée en partie non négligeable par nos connaissances et nos croyances ; l'hypothèse essentielle de la thèse de la modularité est qu'il y a une priorité aux informations sensorielles pour ce qui concerne les premières étapes de traitement, et que celles-ci sont peu affectées par nos connaissances ou croyances. On peut rendre compte des résultats de Warren et de Ganong (cf supra) avec un modèle de traitement non interactif en supposant que le sujet fonde sa réponse, non seulement sur une représentation phonémique extraite du signal, mais aussi sur une représentation post-lexicale après que le mot porteur ait été reconnu [Foss BlankFoss Blank1980,Cutler NorrisCutler Norris1979,Cutler, Mehler, Norris SeguiCutler 1987]. Finalement, la distinction entre interactif et modulaire porte sur la question de savoir si un niveau supérieur (p.ex. lexical) peut influencer le traitement à un niveau inférieur (p.ex phonétique), question qu'on peut poser expérimentalement en essayant de déterminer précisément à quel moment les connaissances peuvent influencer la perception. En fait, les effets de contexte sont le plus évidents avec des stimuli ambigus ou dégradés et de plus, ils n'apparaissent qu'à des temps de réaction relativement lents (cf, p.ex. [FoxFox1984,Pitt SamuelPitt Samuel1993]) ; cela suggère que les premières étapes de traitement ne sont pas affectées par les connaissances, et que les effets de contexte peuvent être parfois purement décisionnels.
Il devient dès lors important de savoir si la parole naturelle est ambiguë ou non. En fait, on ne sait pas vraiment si c'est le cas : la parole enregistrée en studio est certainement peu ambiguë puisque V. Zue, après un entraînement (de 2500 heures), est parvenu à identifier des non-mots dans des spectrogrammes de parole continue (cf [Cole, Rudnick, Zue ReddyCole 1980]). Pour ce qui est de la perception dans des conditions plus "écologiques'' (dans un environnement bruyant, p.ex. au milieu d'autres conversations...), on ne sait pas exactement jusqu'à quel point la parole est ambiguë ou non. Bien entendu, si l'on extrait une étendue de deux cent millisecondes de signal de parole, il est probable que le sujet aura les plus grandes difficultés à l'identifier, mais cela est probablement dû au fait qu'on n'a pas donné suffisamment de contexte aux processus de séparations des sources sonores, d'adaptation à la réverbération du lieu...etc [BregmanBregman1990]. Quoiqu'il en soit, il demeure que nous n'hallucinons pas la majeure partie du temps et que, quelles que soient les influences de haut niveau, celles-ci ne peuvent s'exercer que sur une représentation calculée à partir de l'information présente dans le signal.
En particulier, beaucoup d'efforts sont consacrés à élucider les transformations non-linaires effectuées par le système auditif périphérique, dans l'espoir que les "neurospectogrammes'' fourniront une représentation diminuant les caractéristiques variables et amplifiant les caractéristiques invariantes permettant de discriminer les sons de parole [DelgutteDelgutte1981,Carlson GranströmCarlson Granström1982]. Pour la plupart des chercheurs, il fait peu de doute que les indices doivent être relativement abstraits, c'est à dire plus abstraits que "telle énergie dans telle bande de fréquence''. Ont été proposés : la forme globale du spectre à court-terme [Stevens BlumsteinStevens Blumstein1981], ou bien l'évolution dynamique de celui-ci [Kewley-Port LuceKewley-Port Luce1984], ainsi que des propositions plus exotiques que nous ne détaillerons pas ici.
En premier lieu, la syllabe, plutôt que le phonème, est la vraie unité de découpage séquentiel de la parole : alors qu'il existe de nombreuses contraintes sur les suites possibles de phonèmes, quasiment n'importe quelle suite de syllabes fournit un énoncé prononçable. Ceci est d'ailleurs l'une des raisons qui motivent l'introduction de la syllabe dans les théories linguistiques : elle permet de rendre compte d'une grande partie des contraintes phonotactiques [GoldsmithGoldsmith1990]. Les suites possibles de phonèmes sont déjà nettement réduites quand on stipule que toute suite doit pouvoir être découpée en syllabes et qu'on a décrit les types de syllabes possibles dans la langue. Pour certaines langues, où seules les syllabes V, CV ou CVC sont possibles, cela réduit considérablement les possibilités. Le deuxième type de phénomène linguistique qui rend nécessaire le recours à la syllabe concerne les phénomènes accentuels : pour la plupart des langues, les règles qui régissent l'accentuation ne peuvent être formulées " simplement'' qu'en faisant référence aux syllabes [Halle VergnaudHalle Vergnaud1988]. Par exemple, l'accent peut être sensible à la taille de la syllabe : il est "attiré'' par les syllabes lourdes, i.e. celles qui contiennent plusieurs phonèmes dans la rime. Bien entendu, les arguments linguistiques ne favorisent pas la syllabe par rapport au phonème : les deux sont des constructions extrêmement utiles pour rendre compte de phénomènes linguistiques mais cela ne préjuge pas de leur rôles respectifs dans la perception.
Un argument plus psychologique souvent cité en faveur de la syllabe est que l'appréhension de la syllabe est plus naturelle, pour les enfants et les illettrés, que celle du phonème. Il est leur est beaucoup plus facile de manipuler des syllabes que de manipuler des phonèmes [Bertelson, Gelder, Tfouni MoraisBertelson 1989,Liberman, Shankenweiler, Fisher CarterLiberman 1974,Morais, Cary, Alegria BertelsonMorais 1979,Morais, Bertelson, Cary AlegriaMorais 1986,Treiman BreauxTreiman Breaux1982]. Dans le même ordre d'idées, [Bijeljac-Babic, Bertoncini MehlerBijeljac-Babic 1993] ont montré que les nouveaux-nés étaient capables de distinguer des mots sur la base de leur nombre de syllabes (2 versus 3), mais pas sur la base de leur nombre de phonèmes. On peut aussi remarquer que dans l'histoire des systèmes d'écriture, les syllabaires ont précédé l'alphabet "phonémique'' (cf [CoulmasCoulmas1989] pour une présentation et une généalogie des différents systèmes d'écriture). Cependant le lien entre les intuitions métaphonologiques et les représentations calculées par le système perceptif n'est pas évident [Bertelson GelderBertelson Gelder1991,Morais KolinskyMorais Kolinsky1994]. Par exemple, il est logiquement possible que la syllabe (et/ou le phonème) soit une unité de traitement utilisée pour produire la parole, mais pas pour la percevoir. Les tâches métalinguistiques nous renseigneraient alors sur les unités utilisées en production plutôt que sur celles utilisés en perception. Tout comme les arguments linguistiques, les arguments sur la "conscience métaphonologique'' sont licites pour justifier de la réalité " psychologique'' de telle ou telle unité, mais ils doivent être relativisés quand il s'agit de juger de leur réalité " perceptive''.
Le premier type d'argument en faveur de la syllabe, plutôt que du phonème, comme unité primaire de perception est le fait que celle-ci est moins ambiguë que celui-là. En fait la variabilité acoustique des phonèmes est due dans une large mesure à l'interaction entre les consonnes et les voyelles : si bien que dans des syllabes CVC, l'information la plus fiable pour l'identification est fournie par les transitions entre la voyelle et les consonnes [StrangeStrange1987]. L'interdépendance perceptive entre consonne et voyelle est illustrée dans l'expérience (op. cit.) de [Mann ReppMann Repp1980] où une fricative ambiguë est perçue comme /s/ devant /a/ et // devant /u/. Un autre exemple est celui de [Miller LibermanMiller Liberman1979], qui trouvent que la pente des formants de transitions qui détermine la perception de /b/ ou de /w/ est influencée par la durée de la voyelle qui suit. Autrement dit, une même transition formantique sera identifiée comme un /b/ quand la voyelle qui suit est longue, ou comme un /w/ quand elle est courte (Cela permettant, selon [Miller LibermanMiller Liberman1979], une adaptation au débit de parole). Finalement, une étude de [WhalenWhalen1989] montre encore plus clairement l'interdépendance des identifications d'une consonne et de la voyelle qui la suit : la quantité d'une grandeur acoustique utilisée pour identifier la première est "soustraite'' de la grandeur utilisée pour identifier la seconde.
Ces faits laissent envisager qu'un système perceptif qui comparerait le signal avec des prototypes syllabiques (ou demi-syllabiques) aurait moins de difficultés qu'un système utilisant des prototypes de phonèmes. Certes, le nombre d'unités augmenterait largement (j'ai calculé qu'il serait de l'ordre de 3000 pour le français), mais la parcimonie n'est plus un argument très prisé de nos jours. En fait l'existence d'un syllabaire pour la production de la parole a été proposé par [Levelt WheeldonLevelt Wheeldon1994] qui s'appuient sur des effets de fréquence syllabique sur le temps de prononciation. Il n'y a donc rien de déraisonnable a priori à supposer l'existence d'un syllabaire pour la perception.
Les effets expérimentaux les plus directs en faveur de la syllabe sont les effets de "congruence syllabique'' [Mehler, Dommergues, Frauenfelder SeguiMehler 1981], et de "complexité'' [Segui, Dupoux MehlerSegui 1990]. L'effet de congruence est observé dans une tâche où les sujets doivent détecter le plus rapidement possible si un stimulus auditif contient un fragment tel que, par exemple, /pa/ ou /pal/. Il s'avère que les temps de détection sont plus rapides pour un fragment qui correspond à la première syllabe du stimulus (p.ex. /pal/ dans /pal-mier/ et /pa/ dans /pa-lace/), que pour un fragment qui ne correspond pas à cette syllabe (p.ex. /pa/ dans /pal-mier/ et /pal/ dans /pa-lace/) [Mehler, Dommergues, Frauenfelder SeguiMehler 1981]. L'interprétation proposée est la suivante : quand la cible ne correspond pas précisément à la structure syllabique du stimulus, les sujets sont ralentis car ils doivent, en quelque sorte, "briser'' l'unité de perception qu'est la syllabe.
La même interprétation sous-tend l'effet de "complexité syllabique'' qui apparaît lorsque des sujets doivent détecter un phonème placé au début d'un stimulus auditif : les temps de réaction dépendent alors du nombre de phonèmes contenus dans la première syllabe de celui-ci ([Segui, Dupoux MehlerSegui 1990]; Dupoux, en préparation). Les sujets détectent plus rapidement un phonème commençant une syllabe CV qu'un phonème commençant une syllabe CCV (ou CVC). Cela suggère que les phonèmes sont reconnus seulement après l'identification de la syllabe.
Toutefois, une découverte de taille remet en question cette conclusion : ces effets de congruence et de complexité syllabiques, qui ont été obtenus avec des sujets français, n'ont pas été reproduits avec des sujets anglais [Cutler, Mehler, Norris SeguiCutler 1986,Cutler, Butterfield WilliamsCutler 1987]. Dans ces tâches, les Anglais ne sont apparemment pas sensibles à la structure syllabique des stimuli. De plus, d'autres auteurs [Marslen-WilsonMarslen-Wilson1984,Norris CutlerNorris Cutler1988,Pitt SamuelPitt Samuel1990] ont critiqué la notion que la syllabe est l'unité de décodage de la parole, sur la base d'autres expériences, menées également en anglais. Ces résultats soulèvent la possibilité que les locuteurs de différentes langues utilisent différents types d'unités perceptives, hypothèse qui a engendré un ensemble de recherches comparant diverses langues (espagnol, portugais, hollandais, japonais... cf [CutlerCutler1993] pour une présentation de ces recherches).
Il faut souligner, cependant, qu'il est loin d'y avoir un consensus sur l'interprétation de ces différents résultats (on peut comparer, par exemple : [Bradley, Sánchez-Casas García-AlbeaBradley 1993,Cutler, Mehler, Norris SeguiCutler 1986,DupouxDupoux1993,Norris CutlerNorris Cutler1985,Segui, Dupoux MehlerSegui 1990]). La situation est particulièrement paradoxale en anglais où certains auteurs affirment que le phonème est l'unité de perception (p.ex. [Pitt SamuelPitt Samuel1990]), et d'autres, qu'il ne l'est pas (p.ex. [Wood DayWood Day1975]). Au cours de cette thèse, nous soutiendrons que le débat sur l'unité de perception a été obscurci par la négligence des processus de décision mis en jeu dans les différentes tâches. Nous tâcherons d'éclaicir la situation dans les expériences qui suivent, et qui visaient toutes à tester la proposition que la syllabe est l'unité primaire de perception (plutôt que le phonème ou le trait distinctif), et ceci en utilisant des paradigmes expérimentaux innovateurs. Le premier d'entre eux est le paradigme d'interférence de Garner.