La conception que les lettres révèlent les sons qui constituent la parole semble évidente pour celui qui emploie journellement l'alphabet. Bien sûr, tout le monde est conscient que l'orthographe ne respecte pas parfaitement la prononciation, particulièrement en France où la dictée est un passe-temps national. On admet aussi que les relations entre sons et lettres varient selon les langues, qui peuvent même utiliser différents alphabets, par exemple, le cyrillique ou le grec. Toutefois, avec suffisamment de soin, il doit être possible de représenter un énoncé d'une langue quelconque avec un alphabet adéquat qui, à chaque son, associerait une lettre.
Cette idée est le fondement de l'Alphabet Phonétique International. Les transcriptions phonétiques figurent dans les meilleurs dictionnaires, et il est courant de lire dans les introductions élémentaires à la linguistique que la parole "est une suite de sons, appelés des phones''. Pour celui qui, comme nous, s'intéresse à la façon dont le cerveau perçoit la parole, cette formulation conduit irrésistiblement à l'idée suivante : la perception auditive serait essentiellement similaire à une lecture séquentielle, où les formes visuelles des lettres sont remplacées par des "formes sonores'' correspondant chacune à un phone. Par exemple, entendre le mot " thèse'', ce serait percevoir successivement les sons /t/, /e/, et /z/.
Une première remarque vient tempérer ce modèle : la perception de la parole ne peut être le simple reflet d'objets acoustiques présents dans le signal puisque les catégories que perçoit un locuteur, dépendent de sa langue. Ainsi, dès le début du siècle, Sapir remarquait qu'il était "impossible d'apprendre à un Indien à établir des distinctions phonétiques qui ne correspondent à rien dans le système de sa langue, même si ces distinctions frappaient nettement notre oreille objective'' ([SapirSapir1921], p.56 de la traduction française). Par exemple, là où un Français percevra deux "sons'' différents : /r/ ou /l/, un Japonais entendra deux exemplaires du même son.
Cette observation est à l'origine de la phonologie et de la
notion de phonème : on propose généralement que les mots
ne sont pas mémorisés comme des suites de sons, mais plutôt comme
des suites d'unités abstraites, appelées des phonèmes
[HalleHalle1990]. Quand un mot est prononcé, les phonèmes qui le
constituent peuvent se réaliser comme différents phones en
fonction du contexte. Par exemple, en français, le phonème final
/b/ du mot "robe'' se réalise comme le son [b], dans "une
robe rouge'', mais comme le son [p] dans "une robe fuchsia''.
Les langues diffèrent par l'inventaire des phonèmes et par les
règles qui régissent les relations entre les représentations
phonémiques et les représentations phonétiques (voir, p.ex.,
[DellDell1973]).
On explique l'influence de la langue sur la perception en
supposant que la conscience perceptive (phénoménologique) se
fonde sur les phonèmes, plutôt que sur les phones. Cependant, ces
derniers peuvent être décelés par l'oreille "objective'' du
phonéticien. En conséquence,
la réalité physique des phones, et leur disposition séquentielle
dans le signal de parole, faisait peu de doute tant que les
phonéticiens se fondaient sur leurs intuitions. Ainsi, Bloomfield
annonçait en 1934 :
"On peut s'attendre à ce que la définition physique
(acoustique) de chaque phonème de n'importe quel dialecte nous
vienne du laboratoire dans les prochaines décennies'' (cité par
Jakobson et Waugh, 1980, p. 23). Le modèle de
traitement de l'information pour la reconnaissance des mots que
suggèrent les conceptions linguistiques que nous venons
d'évoquer, et qui était largement admis au milieu de ce siècle
(cf, p.ex.
[MillerMiller1951]) est le suivant :
Disons le immédiatement : tout le monde (ou presque) pense désormais que la première affirmation est fausse. L'avènement des techniques d'enregistrement et de visualisation du signal de parole [Potter, Kopp GreenPotter 1947], a révélé qu'il n'y avait pas de segments acoustiques correspondant un à un aux lettres de la représentation phonétique. [HockettHockett1955], [Fant LindblomFant Lindblom1961], et [Liberman, Cooper, Shankweiler Studdert-KennedyLiberman 1967] ont popularisé l'idée que cela était dû à la coarticulation : la prononciation d'un phone serait influencée par ceux qui l'entourent ; à cause de l'inertie de nos articulateurs qui ne peuvent prendre que quatre ou cinq positions différentes par seconde (alors que le débit en phones atteint facilement 12 phones/sec), les phones seraient transmis en parallèle, ce qui explique qu'un même segment acoustique puisse contenir l'information de plusieurs phones (cf figure 1.1, page suivante).
Cette image d'une transmission en parallèle des phones est
toutefois trompeuse. Elle laisse supposer que les informations
relatives aux différents phones sont simplement
superposées. Pour
[Liberman, Cooper, Shankweiler
Studdert-KennedyLiberman 1967], la réalisation acoustique d'un phone est
tellement dépendante de ceux qui l'environnent qu'il n'existerait
pas de caractéristique acoustique invariante associée à chaque
phone. À l'appui de cette hypothèse, on montre grâce à des
synthétiseurs de sons, que des objets acoustiques très variés
peuvent évoquer perceptivement le même phone. Il pourrait du
moins sembler possible de définir un phone comme une
classe d'objets acoustiques. Mais une telle solution n'est
pas satisfaisante, car un même segment acoustique peut être perçu
différemment selon le contexte où il se trouve. Par exemple,
[Mann ReppMann Repp1980] ont "collé'' le même segment fricatif devant
une voyelle /a/ et devant une voyelle /u/ ; dans le premier cas,
les sujets entendaient /sa/, dans l'autre ils entendaient
/
u/.
Selon
[Liberman, Cooper, Shankweiler
Studdert-KennedyLiberman 1967], les phones ne seraient donc pas des objets
acoustiques, mais plutôt, des objets
articulatoires.
Avec cette théorie, connue sous le nom de
Théorie Motrice, Liberman et ses collègues
[Liberman, Cooper, Harris
MacNeilageLiberman 1963,Studdert-Kennedy, Liberman, Harris
CooperStuddert-Kennedy 1970] font appel à la distinction
classique entre stimulus distal et stimulus proximal : les phones
correspondraient à des configurations des articulateurs,
transmises par l'intermédiaire de l'onde acoustique. Liberman
et al. proposent que le décodage de l'onde acoustique est
effectué par un système perceptif spécialisé dans la
reconnaissance des phones, et qui serait propre à l'espèce
humaine. Ce système utiliserait des connaissances sur les
contraintes de l'appareil articulatoire de l'humain pour
effectuer des calculs permettant de déterminer quels sont les
phones présents dans le signal.
On peut affirmer qu'une large proportion des recherches
menées dans le domaine de la perception de la parole durant les
années 70-80, ont été conduites pour confirmer ou réfuter
certaines hypothèses de la Théorie Motrice. Deux de ses
prédictions ont été plus particulièrement étudiées : (a) la
perception des sons de parole est-elle fondamentalement
différente de celle des sons de "non-parole''
[PisoniPisoni1977] ? et (b) la perception phonétique est-elle propre
aux humains ? Les recherches provoquées par ces questions ont
permis, entre autres, de découvrir que les bébés catégorisaient la
parole comme les adultes [Eimas, Siqueland, Jusczyk VigoritoEimas
1971,Werker TeesWerker Tees1984]. Le cas des
animaux est plus ambigu
[Kuhl MillerKuhl Miller1978,KuhlKuhl1991]. Nous n'entrerons pas dans ces questions en
détail (le lecteur pourra se référer à J. L. Miller, 1990, pour
un début de revue). La caractéristique de la Théorie Motrice,
qu'il faut garder présente à l'esprit, est qu'elle conserve le
plus intact possible la vision "classique'', selon laquelle la
perception des mots commence essentiellement par la récupération
d'une représentation phonétique du signal. Cependant,
contrairement au premier point du modèle "classique'', cette
théorie fournit l'image d'un signal acoustique de parole
complexe, voire ambigu (puisqu'il nécessite des connaissances
articulatoires pour être décodé). C'est ainsi qu'est né le "
problème de la perception de la parole''. Parmi les
propositions avancées pour le résoudre, nous allons en discuter
trois :
La question de l'influence des sources de connaissances "
supérieures'' sur la perception de la parole est sans doute le
problème qui occupé le plus d'espace dans les journaux de
psychologie durant les années quatre-vingts. Ces recherches
étaient stimulées par la thèse de la modularité
[FodorFodor1983,GarfieldGarfield1987] d'une part, et, d'autre part, par
l'avènement du connexionnisme
[McClelland RumelhartMcClelland
Rumelhart1986,Reilly SharkeyReilly
Sharkey1992], dont certains modèles faisaient
une place centrale à l'interactivité. Dans le domaine de la perception de la
parole, les tenants de l'hypothèse interactive trouvent des
justifications dans les recherches qui montrent l'existence
d'influences dites de "haut en bas'' (top-down) dans la
perception de la parole par l'être humain. L'un des phénomènes
les plus souvent cités est l'effet de restauration phonémique,
découvert par [WarrenWarren1970] : quand on supprime un phonème (et
qu'on le remplace par un bruit), les sujets affirment entendre le
mot intact, avec le bruit superposé. Mieux
encore, le contexte sémantique peut influencer l'identité du
phonème perçu : si '*' désigne le bruit, dans le contexte "it
was found that the *eel was on the axle'', le sujet entend "
wheel'' (roue), alors que si "axle'' (essieu) est remplacé
par "table'', les sujets perçoivent "meal'' (repas)
[Warren WarrenWarren
Warren1970].
Une autre
démonstration de l'influence lexicale sur la perception des
phonèmes est illustrée par l'expérience de [GanongGanong1980] :
celui-ci a montré qu'un segment ambigu entre /t/ et /d/ était
perçu plus souvent comme /t/ que comme /d/ dans le contexte
/.ask/ (formant le mot /task/ par préférence au "non-mot''
/dask/), mais qu'à l'opposé, dans le contexte /.ash/, il était
plus souvent perçu comme comme /d/ que comme /t/ (/dash/ est
un mot, /tash/ non).
Ces faits sont, il est vrai, assez saisissants. Mais, après
examen, ils ne démontrent pas que les premières étapes de
traitement du signal sont influencées par des connaissances de
haut niveau. En effet, notre perception consciente ne
nous donne certainement pas un accès direct à la sortie des "
transducers'' (cf Pylyshyn 1984, p.174). Ce que nous percevons
consciemment est le résultat d'une construction cognitive,
influencée en partie non négligeable par nos connaissances et nos
croyances ; l'hypothèse essentielle de la thèse de la modularité
est qu'il y a une priorité aux informations sensorielles
pour ce qui concerne les premières étapes de traitement, et
que celles-ci sont peu affectées par nos connaissances ou
croyances. On peut rendre compte des résultats de Warren et de
Ganong (cf supra) avec un modèle de traitement non interactif en
supposant que le sujet fonde sa réponse, non seulement sur une
représentation phonémique extraite du signal, mais aussi sur une
représentation post-lexicale après que le mot porteur ait été
reconnu [Foss BlankFoss Blank1980,Cutler NorrisCutler
Norris1979,Cutler, Mehler, Norris SeguiCutler
1987]. Finalement, la
distinction entre interactif et modulaire porte sur la question
de savoir si un niveau supérieur (p.ex. lexical) peut influencer
le traitement à un niveau inférieur (p.ex phonétique), question
qu'on peut poser expérimentalement en essayant de déterminer
précisément à quel moment les connaissances peuvent
influencer la perception. En fait, les effets de contexte sont le
plus évidents avec des stimuli ambigus ou dégradés et de plus,
ils n'apparaissent qu'à des temps de réaction relativement lents
(cf, p.ex. [FoxFox1984,Pitt SamuelPitt Samuel1993]) ; cela suggère que les
premières étapes de traitement ne sont pas affectées par les
connaissances, et que les effets de contexte peuvent être parfois
purement décisionnels.
Il devient dès lors important de savoir si la parole naturelle est ambiguë ou non. En fait, on ne sait pas vraiment si c'est le cas : la parole enregistrée en studio est certainement peu ambiguë puisque V. Zue, après un entraînement (de 2500 heures), est parvenu à identifier des non-mots dans des spectrogrammes de parole continue (cf [Cole, Rudnick, Zue ReddyCole 1980]). Pour ce qui est de la perception dans des conditions plus "écologiques'' (dans un environnement bruyant, p.ex. au milieu d'autres conversations...), on ne sait pas exactement jusqu'à quel point la parole est ambiguë ou non. Bien entendu, si l'on extrait une étendue de deux cent millisecondes de signal de parole, il est probable que le sujet aura les plus grandes difficultés à l'identifier, mais cela est probablement dû au fait qu'on n'a pas donné suffisamment de contexte aux processus de séparations des sources sonores, d'adaptation à la réverbération du lieu...etc [BregmanBregman1990]. Quoiqu'il en soit, il demeure que nous n'hallucinons pas la majeure partie du temps et que, quelles que soient les influences de haut niveau, celles-ci ne peuvent s'exercer que sur une représentation calculée à partir de l'information présente dans le signal.
En particulier, beaucoup d'efforts sont consacrés à élucider les transformations non-linaires effectuées par le système auditif périphérique, dans l'espoir que les "neurospectogrammes'' fourniront une représentation diminuant les caractéristiques variables et amplifiant les caractéristiques invariantes permettant de discriminer les sons de parole [DelgutteDelgutte1981,Carlson GranströmCarlson Granström1982]. Pour la plupart des chercheurs, il fait peu de doute que les indices doivent être relativement abstraits, c'est à dire plus abstraits que "telle énergie dans telle bande de fréquence''. Ont été proposés : la forme globale du spectre à court-terme [Stevens BlumsteinStevens Blumstein1981], ou bien l'évolution dynamique de celui-ci [Kewley-Port LuceKewley-Port Luce1984], ainsi que des propositions plus exotiques que nous ne détaillerons pas ici.
En premier lieu, la syllabe, plutôt que le phonème, est la vraie
unité de découpage séquentiel de la parole : alors qu'il existe
de nombreuses contraintes sur les suites possibles de phonèmes,
quasiment n'importe quelle suite de syllabes fournit un énoncé
prononçable. Ceci est d'ailleurs l'une des raisons qui motivent
l'introduction de la syllabe dans les théories linguistiques :
elle permet de rendre compte d'une grande partie des contraintes
phonotactiques
[GoldsmithGoldsmith1990]. Les suites possibles de phonèmes sont déjà
nettement réduites quand on stipule que toute suite doit pouvoir
être découpée en syllabes et qu'on a décrit les types de syllabes
possibles dans la langue. Pour certaines langues, où seules les
syllabes V, CV ou CVC sont possibles, cela réduit
considérablement les possibilités. Le deuxième type de phénomène
linguistique qui rend nécessaire le recours à la syllabe concerne
les phénomènes accentuels : pour la plupart des langues, les
règles qui régissent l'accentuation ne peuvent être formulées "
simplement'' qu'en faisant référence aux syllabes
[Halle VergnaudHalle
Vergnaud1988]. Par exemple, l'accent peut être sensible à la
taille de la syllabe : il est "attiré'' par les syllabes
lourdes, i.e. celles qui contiennent plusieurs phonèmes dans la
rime. Bien entendu, les arguments linguistiques ne
favorisent pas la syllabe par rapport au phonème : les deux sont
des constructions extrêmement utiles pour rendre compte de
phénomènes linguistiques mais cela ne préjuge pas de leur rôles
respectifs dans la perception.
Un argument plus psychologique souvent cité en faveur de la
syllabe est que l'appréhension de la syllabe est plus naturelle,
pour les enfants et les illettrés, que celle du phonème. Il est
leur est beaucoup plus facile de manipuler des syllabes que de
manipuler des phonèmes
[Bertelson, Gelder, Tfouni
MoraisBertelson 1989,Liberman, Shankenweiler, Fisher
CarterLiberman 1974,Morais, Cary, Alegria BertelsonMorais
1979,Morais, Bertelson, Cary AlegriaMorais
1986,Treiman BreauxTreiman
Breaux1982]. Dans
le même ordre d'idées, [Bijeljac-Babic, Bertoncini
MehlerBijeljac-Babic 1993] ont montré que
les nouveaux-nés étaient capables de distinguer des mots sur la
base de leur nombre de syllabes (2 versus 3), mais pas sur la
base de leur nombre de phonèmes. On peut aussi remarquer que dans
l'histoire des systèmes d'écriture, les syllabaires ont précédé
l'alphabet "phonémique'' (cf [CoulmasCoulmas1989] pour une
présentation et une généalogie des différents systèmes
d'écriture). Cependant le lien entre les intuitions
métaphonologiques et les représentations calculées par le système
perceptif n'est pas évident [Bertelson GelderBertelson
Gelder1991,Morais KolinskyMorais
Kolinsky1994]. Par
exemple, il est logiquement possible que la syllabe (et/ou le
phonème) soit une unité de traitement utilisée pour produire la
parole, mais pas pour la percevoir. Les tâches métalinguistiques
nous renseigneraient alors sur les unités utilisées en production
plutôt que sur celles utilisés en perception. Tout comme les
arguments linguistiques, les arguments sur la "conscience
métaphonologique'' sont licites pour justifier de la réalité "
psychologique'' de telle ou telle unité, mais ils doivent être
relativisés quand il s'agit de juger de leur réalité "
perceptive''.
Le premier type d'argument en faveur de la
syllabe, plutôt que du phonème, comme unité primaire de
perception est le fait que celle-ci est moins ambiguë que
celui-là. En fait la variabilité acoustique des phonèmes est due
dans une large mesure à l'interaction entre les consonnes et les
voyelles : si bien que dans des syllabes CVC, l'information la
plus fiable pour l'identification est fournie par les transitions
entre la voyelle et les consonnes [StrangeStrange1987].
L'interdépendance perceptive entre consonne et voyelle est
illustrée dans l'expérience (op. cit.) de [Mann ReppMann Repp1980] où une
fricative ambiguë est perçue comme /s/ devant /a/ et //
devant /u/. Un autre exemple est celui de [Miller LibermanMiller
Liberman1979], qui
trouvent que la pente des formants de transitions qui détermine
la perception de /b/ ou de /w/ est influencée par la durée de la
voyelle qui suit. Autrement dit, une même transition formantique
sera identifiée comme un /b/ quand la voyelle qui suit est
longue, ou comme un /w/ quand elle est courte (Cela permettant,
selon [Miller LibermanMiller
Liberman1979], une adaptation au débit de parole).
Finalement, une étude de
[WhalenWhalen1989] montre encore plus clairement l'interdépendance
des identifications d'une consonne et de la voyelle qui la suit :
la quantité d'une grandeur acoustique utilisée pour identifier la
première est "soustraite'' de la grandeur utilisée
pour identifier la seconde.
Ces faits laissent envisager qu'un système perceptif qui
comparerait le signal avec des prototypes syllabiques (ou
demi-syllabiques) aurait moins de difficultés qu'un système
utilisant des prototypes de phonèmes. Certes, le nombre d'unités
augmenterait largement (j'ai calculé qu'il serait de l'ordre de
3000 pour le français), mais la parcimonie n'est plus un argument
très prisé de nos jours. En fait l'existence d'un syllabaire pour
la production de la parole a été proposé par [Levelt WheeldonLevelt
Wheeldon1994] qui
s'appuient sur des effets de fréquence syllabique sur le temps de
prononciation. Il n'y a donc rien de déraisonnable a priori à
supposer l'existence d'un syllabaire pour la
perception.
Les effets expérimentaux les plus directs en faveur de la syllabe sont les effets de "congruence syllabique'' [Mehler, Dommergues, Frauenfelder SeguiMehler 1981], et de "complexité'' [Segui, Dupoux MehlerSegui 1990]. L'effet de congruence est observé dans une tâche où les sujets doivent détecter le plus rapidement possible si un stimulus auditif contient un fragment tel que, par exemple, /pa/ ou /pal/. Il s'avère que les temps de détection sont plus rapides pour un fragment qui correspond à la première syllabe du stimulus (p.ex. /pal/ dans /pal-mier/ et /pa/ dans /pa-lace/), que pour un fragment qui ne correspond pas à cette syllabe (p.ex. /pa/ dans /pal-mier/ et /pal/ dans /pa-lace/) [Mehler, Dommergues, Frauenfelder SeguiMehler 1981]. L'interprétation proposée est la suivante : quand la cible ne correspond pas précisément à la structure syllabique du stimulus, les sujets sont ralentis car ils doivent, en quelque sorte, "briser'' l'unité de perception qu'est la syllabe.
La même interprétation sous-tend l'effet de "complexité syllabique'' qui apparaît lorsque des sujets doivent détecter un phonème placé au début d'un stimulus auditif : les temps de réaction dépendent alors du nombre de phonèmes contenus dans la première syllabe de celui-ci ([Segui, Dupoux MehlerSegui 1990]; Dupoux, en préparation). Les sujets détectent plus rapidement un phonème commençant une syllabe CV qu'un phonème commençant une syllabe CCV (ou CVC). Cela suggère que les phonèmes sont reconnus seulement après l'identification de la syllabe.
Toutefois, une découverte de taille remet en question cette
conclusion : ces effets de congruence et de complexité
syllabiques, qui ont été obtenus avec des sujets français, n'ont
pas été reproduits avec des sujets anglais
[Cutler, Mehler, Norris SeguiCutler
1986,Cutler, Butterfield WilliamsCutler
1987]. Dans ces tâches, les Anglais ne sont
apparemment pas sensibles à la structure syllabique des
stimuli. De plus, d'autres auteurs
[Marslen-WilsonMarslen-Wilson1984,Norris CutlerNorris
Cutler1988,Pitt SamuelPitt Samuel1990] ont critiqué la notion
que la syllabe est l'unité de décodage de la parole, sur la base
d'autres expériences, menées également en anglais.
Ces résultats soulèvent la possibilité que les locuteurs de
différentes langues utilisent différents types d'unités
perceptives, hypothèse qui a engendré un ensemble de recherches
comparant diverses langues (espagnol, portugais, hollandais,
japonais... cf [CutlerCutler1993] pour une présentation de ces
recherches).
Il faut souligner, cependant, qu'il est loin d'y avoir un consensus sur l'interprétation de ces différents résultats (on peut comparer, par exemple : [Bradley, Sánchez-Casas García-AlbeaBradley 1993,Cutler, Mehler, Norris SeguiCutler 1986,DupouxDupoux1993,Norris CutlerNorris Cutler1985,Segui, Dupoux MehlerSegui 1990]). La situation est particulièrement paradoxale en anglais où certains auteurs affirment que le phonème est l'unité de perception (p.ex. [Pitt SamuelPitt Samuel1990]), et d'autres, qu'il ne l'est pas (p.ex. [Wood DayWood Day1975]). Au cours de cette thèse, nous soutiendrons que le débat sur l'unité de perception a été obscurci par la négligence des processus de décision mis en jeu dans les différentes tâches. Nous tâcherons d'éclaicir la situation dans les expériences qui suivent, et qui visaient toutes à tester la proposition que la syllabe est l'unité primaire de perception (plutôt que le phonème ou le trait distinctif), et ceci en utilisant des paradigmes expérimentaux innovateurs. Le premier d'entre eux est le paradigme d'interférence de Garner.