Next: References Up: No Title Previous: Détection de clicks et

Subsections

Conclusion

Felix qui potuit rerum cognoscere causas
Goscinny et Uderzo, Astérix en Corse, 1973, page 22 ;
(voir aussi : Virgile, Géorgiques II).

La situation

Pendant longtemps, dans l'esprit des chercheurs, la perception de la parole était confondue avec la reconnaissance des phones (ou des traits) tant il apparaissait évident que la tâche du système perceptif était de fournir une représentation phonétique du signal de parole, celle-ci devant ensuite servir à reconnaître les mots. La question principale était, en conséquence, " comment le cerveau parvient-il à identifier les phones (ou les traits) dans le signal acoustique ?''. Deux conceptions partageaient le domaine : selon la première les phones étaient des objets articulatoires reconnus par un décodage complexe [Liberman, Cooper, Shankweiler Studdert-KennedyLiberman 1967] ; selon la seconde, les traits étaient caractérisés par des propriétés acoustiques, certes abstraites mais néanmoins "lisibles'' dans le signal [Stevens BlumsteinStevens Blumstein1981,Blumstein StevensBlumstein Stevens1985]. Cependant, la théorie motrice n'a jamais détaillé comment les connaissances articulatoires pouvaient permettre de reconstruire les phones. Quant aux invariants caractérisant les traits phonétiques, leur existence demeure hypothétique.

Graduellement, on a commencé à s'interroger sur la nécessité de construire une représentation phonétique pour reconnaître les mots (p.ex. [Warren AckroffWarren Ackroff1976,Rubin, Turvey GelderRubin 1976,KlattKlatt1979]). Le lexique est passé au centre des préoccupations des chercheurs. Certains ont proposé d'abandonner totalement l'hypothèse d'un décodage phonétique et ont suggéré que les mots étaient reconnus à partir de représentations proches de l'acoustique du signal [KlattKlatt1979,PisoniPisoni1992]. Une conception alternative, popularisée par [Elman McClellandElman McClelland1986] et par Marlsen-Wilson (1987; voir aussi [Warren Marslen-WilsonWarren Marslen-Wilson1988,Warren Marslen-WilsonWarren Marslen-Wilson1988]), est que le système perceptif fournit, en continu et en parallèle, des degrés de confirmation de la présence de traits acoustico-phonétiques dans le signal, et que c'est au niveau du lexique que s'effectue la "catégorisation'' du signal. Sous l'influence de ces modèles, la perception de la parole est maintenant couramment considérée comme un processus continu d'activation et de compétition entre des détecteurs de traits ou de phonèmes ; l'idée que le système perceptif construit une représentation prélexicale catégorisée du signal de parole n'est pas à la mode.

Pourtant, Mehler, Dupoux et Segui (1990) ont fait remarquer que si la représentation perceptive est tellement fluide et fluctuante, il est difficile de comprendre comment le bébé fait pour acquérir son lexique. S'il est envisageable que les adultes peuvent déterminer si deux objets sonores sont le même mot en les comparant à un patron ("pattern'') préalablement mémorisé, l'enfant, lui, ne peut pas appliquer une telle stratégie. Un préalable pour pouvoir apprendre un lexique, semble-t-il, est que l'enfant soit capable de déterminer si deux items sonores sont linguistiquement identiques ou non. En conséquence, raisonnent [Mehler, Dupoux SeguiMehler 1990], notre système perceptif doit extraire du signal de parole un code relativement "stable''.

Cet argument ne favorise pas en-soi un code plutôt qu'un autre. Cependant, pour [Mehler, Dupoux SeguiMehler 1990], un code syllabique offre de nombreux attraits. D'une part, on admet souvent que la syllabe doit être plus facile à récupérer dans le signal que le phonème ou le trait [Liberman Studdert-KennedyLiberman Studdert-Kennedy1978] : par exemple, la normalisation au débit semble s'effectuer en grande partie intra-syllabiquement [MillerMiller1987]. D'autre part, en postulant que les mots sont des syllabes, l'enfant aurait résolu en grande partie le problème de la segmentation lexicale car les débuts de syllabes sont souvent des débuts de mots . Mehler et al. présentent des arguments expérimentaux pour la syllabe tel que le fait que les enfants discriminent des suites de phonèmes qui sont des syllabes (`pat' vs `tap') mais pas des suites de phonèmes qui n'en sont pas (`tsp' vs `pst').

Si [Mehler, Dupoux SeguiMehler 1990] s'étaient contentés d'affirmer que les frontières de syllabes servaient d'indices de frontières de mots (ainsi que [Norris CutlerNorris Cutler1985] le proposent), leur proposition n'aurait sans doute pas soulevé beaucoup de problèmes. Cependant, ils sont allés beaucoup plus loin, en proposant que la syllabe était l'"unité de perception'' de la parole et, également, l'"unité d'accès au lexique'' chez l'adulte (voir aussi [MehlerMehler1981,SeguiSegui1984]).

A première vue, cette proposition ne cadre pas avec les conceptions contemporaines sur la reconnaissance des mots. Si la nature a "horreur du vide'', on peut dire que les psychologues contemporains ont "horreur de la discontinuité'', et résistent à l'emploi des termes comme "segmentation'' ou " catégorisation'', et ceci, dans le domaine de la parole, sous les influences de Klatt (1980), Marlsen-Wilson (1987, 1989), Elman et McClelland (1984, 1986). L'image dominante de la perception de la parole est celle de processus qui fonctionnent en continu et en parallèle.

Le terme de segmentation employé par [Mehler, Dommergues, Frauenfelder SeguiMehler 1981], suggère qu'il est nécessaire d'attendre la fin d'une syllabe pour identifier son premier phonème. Traditionnellement, la " segmentation'' est un processus supposé précéder la catégorisation : 1. on découpe le signal, 2. on le catégorise. Or, c'est un fait que les sujets peuvent effectuer une détection avant d'atteindre la fin de la syllabe [Norris CutlerNorris Cutler1988]. Une observation similaire en français avait conduit [DupouxDupoux1989] à proposer une première étape de catégorisation en demi-syllabes. La thèse que la syllabe est l'unité d'accès au lexique semble également problématique puisqu'il n'y a pas d'évidence de discontinuité qui serait due aux frontières syllabiques dans l'accès au lexique (voir [Marslen-WilsonMarslen-Wilson1984] et [Frauenfelder HenstraFrauenfelder Henstra1988], mais aussi [Dupoux MehlerDupoux Mehler1990]). En fait, dans leurs écrits, Mehler et ses collègues n'affirment jamais que les niveaux de traitement supérieurs doivent attendre la fin de la syllabe, ou même l'identification d'une unique syllabe, pour s'effectuer. Mehler (communication personnelle) envisage fort bien l'idée d'un modèle en cascade du type de ceux décrits par [McClellandMcClelland1979] ou [NorrisNorris1986]. Ainsi, des détecteurs de syllabes pourraient avoir une sortie continue et un phonème pourrait être "détecté'' précocement par une "conspiration'' des syllabes commençant par celui-ci [DupouxDupoux1993].

Discriminer un modèle en cascade où un niveau syllabique est suivi d'un niveau phonémique, et un modèle où les phonèmes sont identifiés directement, est une tâche délicate. Comment justifier expérimentalement l'existence d'un niveau syllabique ? La pierre de touche des données de Mehler et ses collègues est l'effet de congruence syllabique, c'est à dire le fait que les sujets détectent plus facilement des fragments qui correspondent exactement à la structure syllabique des syllabes. Toutefois, comme l'ont montré Cutler, Mehler, Norris et Segui (1986), ce résultat dépend de la langue et particulièrement, n'apparaît pas chez les locuteurs anglais. Leur conception actuelle est que les sujets n'utilisent pas universellement la syllabe, mais plutôt l'unité rythmique de leur langue. Cette théorie explique par exemple le comportement des Japonais qui détectent plus facilement les fragments respectant la structure moraïque de leur langue [Otake, Hatano, Cutler MehlerOtake 1993]. Pour l'anglais la proposition est que ceux-ci utilisent une unité " accentuelle'', mais il n'y a pas de preuve positive de l'existence de celle-ci, obtenue avec la tâche de détection de fragment. A. Cutler a rassemblé de nombreux éléments en faveur d'une utilisation du rythme pour la segmentation lexicale, mais elle-même n'interprète pas ces résultats en faveur d'une catégorisation dans une unité de taille syllabique [Norris CutlerNorris Cutler1985,CutlerCutler1993].

Nos recherches étaient motivées par le découverte de nouveaux paradigmes expérimentaux destinés à tester le rôle de la syllabe dans la perception de la parole. Au cours de nos expériences, nous avons fait trois observations qui semblent a priori en contradiction avec des prédictions de l'hypothèse selon laquelle la syllabe est l'"unité primaire de perception'' (particulièrement dans une version qui postule l'existence de " détecteurs de syllabes'') :

1.: Dans le paradigme de Garner (exp. 2.1 et 2.2), les sujets n'arrivaient pas à focaliser leur attention sur la première syllabe de stimuli bisyllabiques. S'il existait des "détecteurs de syllabes'', on aurait pu s'attendre à ce que la décision puisse se fonder sur le premier détecteur qui dépasse un seuil ; il n'y aurait alors pas dû y avoir d'interférence entre deux syllabes adjacentes.
2.: Dans la tâche de classification de Jeff Miller (exp. 5.1, 5.2, 5.4), les sujets n'ont pas effectué un appariement "direct'' entre les syllabes et les réponses : on observe des effets de similarité, en termes de phonèmes et même de traits phonétiques. Cela met en cause l'idée que chaque syllabe évoque un code "atomique''.
3.: Dans les expériences de détection de phonème attentionnelle (chap.3 et 4), les sujets détectaient aussi rapidement un phonème placé en début de seconde syllabe qu'un phonème placé en fin de première syllabe. Or, on aurait pu s'attendre à ce qu'en fin de syllabe, celle-ci étant presque identifiée, le code phonémique devienne immédiatement disponible ; en début de syllabe par contre, il aurait fallu attendre plus de temps pour que la syllabe soit identifiée et que le code phonémique soit récupéré.

Ces résultats "non-syllabiques'', s'ajoutent aux observations de [Norris CutlerNorris Cutler1988] et [Marslen-WilsonMarslen-Wilson1984], qui suggèrent que la syllabe n'est pas une étape limitante (un "bottleneck'') de transmission de l'information. Cependant, nous avons également obtenu de clairs effets syllabiques :

1.: Dans la tâche de classification de phonème "à la Garner '' (exp.2.3), les sujets étaient plus gênés par une variation intra-syllabique que par une variation extra-syllabique. Cela montre que, pour fonder leur réponse, les sujets n'utilisent pas une représentation qui serait une simple suite de phonèmes. Les phonèmes appartenant à la même syllabe sont plus "liés'' entre-eux que des phonèmes n'appartenant pas à la même syllabe.
2.: Dans les expériences de détection de phonème biaisée attentionnellement (chapitre 3), les sujets détectaient plus facilement un phonème dans une position syllabique prévisible que dans une position syllabique non prévisible. Par contre, ils n'étaient pas sensibles à la position phonémique séquentielle. Cela suggère encore que les sujets sont sensibles aux relations syllabiques entre phonèmes.

Ces découvertes "syllabiques'' s'ajoutent à l'effet de congruence en détection de fragments [Mehler, Dommergues, Frauenfelder SeguiMehler 1981], à l'effet de complexité syllabique en détection de phonème initial [Segui, Dupoux MehlerSegui 1990], et à l'interaction entre longueur syllabique et effets lexicaux [Dupoux MehlerDupoux Mehler1990]. Dans la section suivante, nous proposons un modèle qui a l'ambition de résoudre la contradiction entre ces résultats "syllabiques'', et les résultats précédents "anti-syllabiques''.

Un modèle

La première liste de résultats expérimentaux ("anti-syllabiques '') révèle la naïveté du modèle implicite de la décision mise en jeu dans chaque tâche. On supposait une relation quasi directe entre le traitement (la sortie des détecteurs) et les réponses du sujet. Pourtant, comme nous l'avons suggéré dans les discussions des chapitres expérimentaux, la décision joue un rôle primordial dans la réponse. Ainsi, il nous semble qu'une large partie de l'interférence Garner peut être attribuée à un effet de distraction (cf également Shand, 1976). Dans le paradigme de classification à quatre doigts (inspiré de Jeff Miller, 1982), nous avons argumenté que les effets de similarité n'étaient pas nécessairement dus au fait que le phonème ou les traits étaient identifiés en temps réels, puisque la facilitation apparaissait également quand l'information était tardive.

L'importance des processus décisionnels dans les tâches employées en psychologie est reconnue par de nombreux auteurs [ForsterForster1979,PylyshynPylyshyn1984]. La conception la plus répandue est que parmi l'ensemble des représentations calculées " automatiquement'' par le système de traitement, le sujet focalise son attention sur l'une d'entres elles (ou à la rigueur partage son attention entre quelques-unes) pour effectuer sa réponse. Le choix d'une représentation plutôt qu'une autre est sous le contrôle du sujet, mais typiquement on suppose que celui-ci choisit la mieux adaptée à la tâche [McNeill LindigMcNeill Lindig1973]. Cette conception est sous-jacente dans des affirmations telles que "dans une tâche de détection de phonème, le sujet peut choisir d'utiliser une représentation phonétique prélexicale ou une représentation phonologique post-lexicale'' [Foss BlankFoss Blank1980,Cutler, Mehler, Norris SeguiCutler 1987]. Dans cette optique, les manipulations attentionnelles consistent essentiellement à inciter le sujet à utiliser une représentation plutôt qu'une autre [Eimas, Hornstein PaytonEimas 1990].

Une caractéristique des modèles de traitement de la parole habituels est que les représentations sont rarement supposées être plus complexes que des simples suites de symboles. Ainsi, dans les modèles qui accordent un rôle à la syllabe, il y a d'une part un niveau syllabique et d'autre part un niveau phonémique (p.ex. [DupouxDupoux1989]). Dans ce cadre, on interprète l'effet de congruence syllabique [Mehler, Dommergues, Frauenfelder SeguiMehler 1981] en supposant que les sujets fondaient leur réponses sur le niveau syllabique dans les cas de congruence ("match'' : p.ex. /pa/ dans /palace/) et sur le niveau phonémique dans les cas de non-congruence ("mismatch '' : (/pa/ dans palmier/) (pour une explication plus détaillée, voir [Dupoux MehlerDupoux Mehler1992]).

Pourtant, cette conception selon laquelle les stimuli possèdent à la fois une représentation syllabique et une représentation phonémique, à des niveaux de traitement différents, nous semble étrange. Nos expériences utilisant le paradigme de détection de phonème attentionnelle peuvent difficilement s'interpréter dans un tel cadre. Rappellons que le sujet pouvait focaliser son attention sur un phonème précis à l'intérieur de la structure syllabique des stimuli. Par contre, il ne pouvait pas focaliser son attention sur le "nième'' phonème. Il ne semble donc pas avoir de représentation où les phonèmes forment une simple chaîne. Par contre, ces résultats sont plus facilement interprétables si l'on considère que le sujet utilise une représentation phonémique, non pas séquentielle, mais possédant une structure syllabique. Plutôt que de multiplier les niveaux de représentations, nous proposons donc d'enrichir l'une d'entre-elles. Cela entraîne un changement de perspective : au lieu de manipuler l'attention entre les niveaux comme [Eimas, Hornstein PaytonEimas 1990], nous avons fait varier l'attention à l'intérieur de la représentation d'un niveau.

Voici la clé du paradoxe que nous proposons : les "effets syllabiques'' décrits plus hauts s'interprètent très bien en supposant que notre système perceptif fournit une représentation du signal structurée syllabiquement. Ils n'impliquent pas (mais ne rejettent pas non plus) l'existence de détecteurs de syllabes, ni même d'une représentation purement syllabique où la parole serait représentée par une chaîne comme " syll43.syll567...''.

En fait, il me semble qu'il faudrait a priori distinguer soigneusement deux rôles que pourrait jouer la syllabe : (1) celui d'unité de contact avec le signal de parole et (2) celui d'unité de représentation de celle-ci. Ainsi, les arguments expérimentaux cités en faveur de la syllabe, peuvent être séparés entre ceux qui concernent le signal, et ceux qui concernent le format représentationnel de la parole. Le plus classique des arguments pour la syllabe comme unité de décodage est qu'elle permettrait, mieux que le phonème, de capturer la variabilité du signal. L'argument est surtout négatif puisqu'il repose sur les nombreux effets de contexte sur la perception des phonèmes. Pour reprendre l'exemple de Mann et Repp (1980), un segment est identifié comme /s/ devant /a/ et /ch/ devant /u/. Pourtant il ne me semble pas que les effets de contextes doivent nécessairement être résolus en élargissant l'unité de "template-matching''. Par exemple, dans la perception des couleurs, il y a également des effets de contexte très impressionnants [LandLand1977], ceux-ci ne sont pas résolus en postulant un analyseur de couleur "à très large champ récepteur''. Aucune donnée ne s'oppose à la conception que la syllabe joue le rôle d'unité de contact avec le signal, mais pour le moment son statut n'est pas meilleur que, par exemple, celui des diphones [KlattKlatt1980] ou des demi-syllabes [FujimiraFujimira1976,SamuelSamuel1989]. Cependant, on peut légitimement se demander si le décodage de la parole se fait simplement par un "pattern-matching'' d'unités présentes successivement dans le signal. Par exemple, quand un locuteur ralentit son débit de parole, il ne segmente pas celle-ci en unités séparées par des pauses : la parole demeure continue. Cette continuité semble donc essentielle, et cela s'oppose, du moins dans mon esprit, à l'idée d'un banc de détecteurs d'"unités de perception''. Comme alternative au " template-matching'', plusieurs auteurs ont proposé l'extraction en parallèle et de façon asynchrone des traits phonétiques [Cole, Stern LasryCole 1986,Lahiri Marslen-WilsonLahiri Marslen-Wilson1991,StevensStevens1986] ; mais cette approche se heurte à diverses difficultés dont la principale est que les traits proposés jusqu'ici ne sont pas indépendants (cf la discussion qui suit l'article de Cole et al.). Une démonstration assez convaincante de l'existence d'un syllabaire pour la perception serait l'existence d'un effet de fréquence syllabique, comme celui que [Levelt WheeldonLevelt Wheeldon1994] ont trouvé en production. Toutefois, il faudrait décorréler la fréquence des syllabes de celles des diphones et des demi-syllabes qu'elles contiennent, tâche pratiquement impossible à réaliser.

Nous suspectons, à l'instar de [Liberman MattinglyLiberman Mattingly1985], que les premières étapes du traitement de la parole sont réalisées par un "module'', et que dans la plupart des tâches (notamment toutes celles de détection), les sujets n'ont accès qu'à la représentation de sortie de ce module, et encore seulement de façon dérivée. Dans ce cadre, une question fondamentale porte sur le format de cette représentation. Nos résultats, ainsi que ceux de [Mehler, Dommergues, Frauenfelder SeguiMehler 1981], incitent à penser que les représentations que se forme le sujet en écoutant la parole et en mémorisant le fragment cible possèdent toutes deux une structure syllabique, et qu'un "mismatch'' de structure ralentit la réponse. Cela nous conduit à l'idée que les sujets se forment une représentation phonologique structurée des stimuli linguistiques, idée qui a été proposée, sur la base d'arguments théoriques, par [ChurchChurch1987] et [FrazierFrazier1987]. Ainsi, [ChurchChurch1987] propose un "parseur phonologique'' qui construit une représentation phonémique syllabifiée a partir des informations allophoniques contenues dans le signal ; l'exigence de devoir fournir une suite syllabifiée permet de contraindre fortement les interprétations phonétiques du signal : la syllabe joue comme un "code correcteur''. Chez Church, les unités de base sont les phonèmes, mais, la représentation de sortie pourrait "afficher '' des traits phonétiques (ainsi que le proposent, p.ex., [Lahiri JongmanLahiri Jongman1990] et [Lahiri Marslen-WilsonLahiri Marslen-Wilson1991]), et les insérer dans une structure syllabique de sortie. Le système de reconnaissance lexicale examinerait cette représentation, et celle-ci serait également à l'origine de celles dérivées pour effectuer les tâches de détection. La figure 7.1 présente une esquisse du modèle proposé.

**Figure 7.1:** Un Modèle
$\begin{figure} \includegraphics [width=10cm]{mymod.eps} \end{figure}$

Les schémas classiques de traitement de l'information, par la multiplication des niveaux, donnent une image éclatée des traitements acoustiques, phonétiques et syllabiques. Par exemple, Dupoux (1989) suppose qu'il existe un code syllabique et que celui-ci peut-être transformé, subséquemment, en code phonémique. Au contraire, nous proposons qu'il existe une représentation unique, phonologique, qui s'élabore progressivement dans le temps (voir plus bas), et qui est le résultat de la "traduction'' du signal accomplie par un "module phonologique''. Cette représentation sert de point d'entrée à tous les processus qui ont besoin d'inspecter la parole, en particulier : le Lexique (qui permet de reconnaître les mots), la Production (qui permet de répéter la parole), et la Métaphonologie. Par " Métaphonologie'', on désigne les processus et les représentations utilisées par la conscience phonologique, ainsi que par les tâches métaphonologiques, dont font partie les tâches de détection de phonèmes ou de syllabes.

Dans ce modèle, la question fondamentale est celle du format de la représentation de sortie. Sur le dessin, nous avons fait figurer des traits placés dans une structure syllabique. Cependant, beaucoup d'autres représentations étaient a priori concevables :

1.

une suite de phones : [p^hato]

2.

une matrice de traits distinctifs (ceux-ci pouvant éventuellement être récupérés de façon asynchrone) :

$\begin{displaymath} \left[ \begin{array} {cccc} + & + & - & - \\ - & + & - & + \\ - & - & - & + \\ \end{array} \right]\end{displaymath}$

3.

des versions "probabilistes'' des représentations précédentes, par exemple pour les phonèmes :

$\begin{displaymath} \left[ \begin{array} {cccc} p (.5) & a (.8) & t (.5) \\ ... ... d (.3) \\ s (.2) & u (.1) & p (.2) \\ \end{array} \right]\end{displaymath}$

4.

une suite de phones (ou de traits) sous-déterminée : [b?do] ou `?' désignent un phonème non reconnu.

5.

une suite de symboles pour chaque syllabe : [ $\alpha\beta\gamma$ ]

6.

une représentation phonémique avec une structure syllabique : [ $(ba)(l\tilde{a}s)$ ].

Plutôt que ces représentations, nous favorisons une représentation en traits phonétiques placés dans une structure syllabique. L'introduction de la syllabe est justifiée par les résultats de cette thèse ainsi que par ceux décrit par [Segui, Dupoux MehlerSegui 1990]. Les syllabes ne sont toutefois pas des "atomes '', ne serait-ce que parce qu'elles doivent être "analysées'' pour accéder au lexique quand une frontière de mots tombe à l'intérieur d'une syllabe. La motivation pour les traits provient essentiellement des effets de similarité entre syllabes, comme celui que nous avons observé dans l'expérience 5.4, mais également des arguments psychologiques (p.ex. [ShepardShepard1972]) et linguistiques "classiques'' (p.ex. [Jakobson WaughJakobson Waugh1980]). Quand on perçoit un phonème ou une syllabe ambigu, c'est simplement parce que tous les traits n'ont pas été reconnus. Précisons bien que cette représentation n'exclut pas les phonèmes : les traits ne sont pas attachés directement à la syllabe, mais à des positions à l'intérieur de la structure que fournit celle-ci (pour des arguments psychologiques, cf [Chodorow ManningChodorow Manning1983]). Finalement, notre schéma ne fait pas apparaître les informations accentuelles et sur l'intonation bien que nous pensions qu'elles sont transmises par le module phonologique.

Du point de vue temporel, pour expliquer l'apparente absence de discontinuité syllabique dans la montée de l'information, on peut supposer que le "remplissage'' de la syllabe se fait graduellement, chaque trait étant introduit quand il a reçu suffisamment de confirmation, et qu'il est cohérent avec le reste de la structure (par exemple, un trait typique d'une voyelle ne sera "activé'' qu'une fois par syllabe). Cette dernière remarque fait toute la différence avec les modèles qui supposent que chaque trait est extrait indépendamment (p.ex. [Lahiri Marslen-WilsonLahiri Marslen-Wilson1991]). La voyelle pourrait être identifiée avant la ou les consonnes de l'attaque [RemingtonRemington1977]. Il n'y a pas d'objection de principe à ce que la construction d'une seconde syllabe commence avant que celle de la précédente soit achevée (ce qui pourrait expliquer les effets d'interférence observés dans les expériences 2.1 et 2.2).

[DupouxDupoux1989] avait dû introduire un niveau de représentation sub-syllabique pour expliquer que les sujets sont parfois sensibles à la syllabe (aux temps de réaction lents, typiquement), parfois non sensibles à elle (aux temps rapides typiquement). Dans notre modèle, la syllabe se construit progressivement : elle n'est pas encore achevée quand les sujets répondent rapidement, mais elle l'est quand ils répondent " lentement'' ; les sujets n'inspectent toujours qu'une seule et même représentation mais à des moments différents. Les deux modèles différent dans leurs prédictions empiriques. Dans celui de Dupoux, il serait imaginable que les sujets puissent focaliser leur attention sur le niveau demi-syllabique et répondre à partir de ce niveau quelque soit le temps de réponse. Dans le modèle que nous proposons, les sujets ne peuvent ignorer la structure syllabique une fois qu'elle est récupérée. Les propres analyses de Dupoux (1989) suggèrent que c'est le deuxième cas qui est vrai, ce dont Dupoux rendait compte en supposant que le code sub-syllabique était "transitoire''.

À la différence d'un modèle où des détecteurs de syllabes fournissent en continu et en parallèle des degrés d'activation, nous proposons que la sortie du module perceptif est une représentation symbolique "stable'', c'est à dire non probabiliste. La principale motivation de cette hypothèse est l'argument, avancé par [Mehler, Dupoux SeguiMehler 1990], de l'acquisition du lexique par le bébé. L'intérêt des frontières syllabiques est de fournir un indice de frontière de mot. La syllabe elle-même est représentée par un code complexe, plutôt que par un symbole atomique. Cela résout un "paradoxe'' du modèle SARAH [Mehler, Dupoux SeguiMehler 1990]. Dans celui-ci, les détecteurs de syllabes semblent supposés innés. Cela suggérait que l'enfant devait posséder un analyseur (et un symbole) pour chaque syllabe potentielle d'une langue humaine. Cette conclusion est difficile à accepter car ce nombre dépasserait nettement la taille du lexique d'un adulte ; et alors, on se demande pourquoi les langues humaines n'utiliseraient pas toutes des syllabes complexes, avec une syllabe pour chaque mot...

Une caractéristique importante de notre modèle est que le module phonétique est, précisement, un module. Par conséquent ses représentations internes ne sont pas accessibles. Comme, de plus, nous n'autorisons pas une sortie "probabiliste'', ("graded activation''), cela représente une contrainte assez forte sur l'information à laquelle les sujets ont accès. Cependant, cette proposition semble s'opposer à une conception qui se répand parmi les chercheurs selon laquelle les sujets ont accès à une connaissance assez détaillée des caractéristiques acoustiques des phones de leur langue. Ainsi, dans plusieurs études, J. L. Miller trouve que les sujets sont capables de juger de la prototypicalité d'un stimulus phonétique [MillerMiller1994]. C'est à dire qu'ils sont capables de dire si un stimulus est un bon exemplaire d'une syllabe donnée, par exemple /pa/, et même de donner une "note de prototypicalité''. Cette capacité requiert-elle l'accès conscient à des informations acoustiques détaillées ? Cela n'est pas nécessaire : on pourrait expliquer cet effet en supposant que le temps de traitement du module phonologique, s'accroît quand le stimulus diminue en qualité. Le sujet aurait ainsi une mesure de l'"effort'' fourni par le module. D'ailleurs l'effet de prototypicalité doit, presque à coup sûr, se retrouver dans les temps d'identification de la syllabe.

Finalement...

Durant notre "quête de l'unité de perception de la parole'', nous avons été poursuivis par le paradoxe suivant : quand notre théorie du moment privilégiait le phonème (ou le trait), nos expériences montraient l'importance de la syllabe ; quand au contraire nous privilégions la syllabe, c'était le phonème (ou le trait) qui sortait vainqueur du verdict expérimental. Comme on le sait, les paradoxes proviennent la plupart du temps d'une hypothèse tacite. Dans notre cas, c'était la supposition que ces unités existaient à des niveaux de représentation distincts, et que l'un de ces niveaux devait, dans le traitement de l'information, nécessairement se trouver avant les autres. À la place, nous proposons d'adopter comme hypothèse de travail pour les recherches futures, l'idée qu'il existe un format unique, privilégié, de la parole, qui sous-tend la perception, la production et la performance des sujets dans les tâches psycholinguistiques. Ceci est une hypothèse extrêmement forte qui, nous l'espérons, provoquera des falsifications constructives.

Next: References Up: No Title Previous: Détection de clicks et

Christophe Pallier
10/13/1997