Focalisation Attentionnelle dans la Structure Syllabique

Nous venons de voir que les sujets ne pouvaient apparemment pas focaliser leur attention sur le phonème ou la syllabe initiale de stimuli auditifs. Toutefois, cela pourrait être un artefact dû au paradigme expérimental où les stimuli sont peu nombreux et connus à l'avance par les sujets, ce qui pourrait encourager une stratégie de comparaison globale. Si les listes contiennent de nombreux items que les sujets ne connaissent pas à l'avance, alors cette stratégie ne peut plus s'appliquer. Cela est peut-être l'origine du contraste entre la conclusion de [Wood DayWood Day1975] et celle de [Pitt SamuelPitt Samuel1990] : ces derniers ont argumenté que les sujets pouvaient focaliser leur attention sur un phonème précis, et ceci, en employant un paradigme où les stimuli sont très variés.

[Pitt SamuelPitt Samuel1990] se sont inspirés du paradigme de détection avec biais attentionnel inventé par [Posner SnyderPosner Snyder1975]. Dans ce paradigme, la cible à détecter peut apparaître dans différentes positions, l'une d'entre elles étant plus probable que les autres. Le résultat typique est que le sujet est plus rapide quand la cible apparaît dans la position la plus probable, ce qui est généralement interprété comme un effet de préparation attentionnel. Pitt et Samuel ont adapté ce paradigme à la tâche de détection de phonème généralisée : leurs sujets devaient détecter des phonèmes qui pouvaient apparaître dans l'une des quatre positions consonantiques de mots ayant une structure C₁VC₂-C₃VC₄. Pour un premier groupe de sujets, la cible apparaissait le plus souvent en C₁ ; pour un second, en C₂ ; pour un troisième, en C₃ ; et pour un quatrième, en C₄. Pitt et Samuel ont comparé les temps de détection de chaque groupe dans chacune des positions. Les résultats sont clairs : chaque groupe est plus rapide (et fait moins d'erreurs) précisément sur la position favorisée par sa liste.

Selon Pitt et Samuel, ce résultat montre que les sujets peuvent focaliser leur attention sur un phonème précis, et donc que le phonème est l'"unité de perception'' de la parole. Si celle-ci était la syllabe, raisonnent-ils, on devrait observer un avantage attentionnel étendu à tous les phonèmes de la même syllabe. Par exemple, si les sujets sont habitués à détecter la cible en C₂, ils devraient également être rapides pour la détecter en C₁, puisqu'elle est dans la même syllabe. Ce n'est pas ce que Pitt et Samuel observent et, par conséquent, ils concluent que l'unité perceptive est le phonème. C'est toutefois une conclusion un peu hâtive. Les temps de décision sont très lents (environ 800 msec, ce qui est similaire à ce qu'on observe typiquement en décision lexicale). Les sujets pourraient fort bien avoir avoir identifié la syllabe dans un premier temps, puis l'avoir ensuite décomposée en phonèmes.

Le but principal de Pitt et Samuel était de déterminer la taille du faisceau attentionnel. Pour notre part, nous nous demandons plutôt quelle est la propriété sur laquelle se focalise l'attention. Si le signal est perçu purement comme une séquence de phonèmes, ainsi que le suggèrent Pitt & Samuel, leur résultat s'interprète comme montrant que le premier groupe porte son attention sur le premier phonème de chaque stimuli ; le second groupe, sur le troisième phonème (C₂), et ainsi de suite. C'est la propriété de "n^e phonème'' qui serait donc pertinente.

Une interprétation alternative est que les sujets s'habituent à détecter un phonème dans une position définie syllabiquement. Ainsi, le premier groupe porterait son attention sur l'attaque de la première syllabe, le second groupe sur le coda de la première syllabe, le troisième sur l'attaque de la deuxième syllabe et le quatrième sur le coda de la deuxième syllabe. Notons, que cela ne signifie pas nécessairement que la syllabe doive être reconnue avant les phonèmes. Au moment où la réponse est effectuée, les deux types d'unités peuvent fort bien avoir été identifiées par le système perceptif. Ce modèle propose que la représentation utilisée par les sujets pour effectuer leur réponse est plus qu'une simple chaîne linéaire de phonème : elle est structurée syllabiquement. Pour différencier ce modèle d'un simple modèle phonémique séquentiel, il faut décorréler les deux types de positions et déterminer si les sujets peuvent focaliser leur attention sur une position syllabique indépendamment de la position séquentielle.

Les expériences qui suivent ont pour but de déterminer si les sujets peuvent focaliser leur attention sur une position précise dans la structure syllabique des mots. Deux positions syllabiques ont été considérées : le coda de la première syllabe de mots bisyllabiques (caP-tif) et l'attaque de la seconde syllabe (ca-Price). Dans les deux cas, le phonème cible est en troisième position séquentielle. Deux listes sont construites où l'une et l'autre des deux positions syllabiques sont, respectivement, favorisées ; c'est à dire que dans une liste, la cible est plus souvent placée dans le coda de la première syllabe, alors que dans l'autre, elle est plus souvent dans l'attaque de la seconde syllabe. C'est seulement si les sujets ont accès à une représentation syllabifiée qu'ils pourront tirer avantage de ce biais. Si, pour effectuer leur décision, ils n'ont accés qu'à une représentation linéaire, alors on ne s'attend pas à observer d'effet de liste. Néanmoins, il se pourrait que les deux types de représentations (linéaire et syllabique) coexistent et jouent un rôle simultanément ; l'attention pourrait alors être focalisée sur une position définie à la fois séquentiellement et syllabiquement. Pour évaluer cette troisième possibilité, on examine la généralisation sur la quatrième position séquentielle après un entraînement sur la troisième position.

Expérience : Induction Syllabique

La méthode employée suit précisément celle de Pitt et Samuel : la tâche, une décision, les temps de présentation des stimuli et les intervalles inter-stimuli, la consigne, sont aussi identiques que possible à ceux décrits dans leur article. Toutefois, en raison des contraintes lexicales du français, il a fallu restreindre nettement le nombre d'essais : les listes expérimentales possèdent 114 stimuli au lieu de 480 dans l'expérience originale. Cela entraîne le risque que les sujets n'aient pas le temps de découvrir la régularité dans la position de la cible.

Description

Matériel :

Tous les mots (164 au total) étaient bisyllabiques et possédaient l'une des quatre structures CVC-CV, CV-CCV, CCVC-CV, ou CCV-CCV (en négligeant d'éventuelles consonnes finales). Le phonème cible était systématiquement la consonne qui suivait la première voyelle et pouvait donc se trouver soit dans la première syllabe, soit dans la seconde. Tous les stimuli possédaient un groupe de consonnes central. En effet, une suite VCV étant nécessairement syllabifiée comme V-CV en français, un coda d'une syllabe non finale se trouve obligatoirement dans un groupe de consonnes. Il a été décidé de conserver cette contrainte pour les mots possédant une cible en attaque de seconde syllabe afin que cette propriété (présence d'un groupe consonantique central, ou non) ne permette pas de distinguer les deux types de mots.

**Table 3.1:** Matériel d'induction syllabique : Mots tests (le phonème cible est en majuscule)
4\|c\|Position de la cible
2\|c3ième	2\|c\|4ième
coda	attaque	coda	attaque
caP-tif	cy-Clone	staG-ner	prê-Tresse
doC-teur	ca-Price	fluC-tue	tri-Pler
seG-ment	no-Blesse	fraG-ment	cri-Bler
symP-tôme	di-Plôme	stiG-mate	fla-Grant
faC-teur	mi-Graine	traC-teur	pro-Blème
suB-til	su-Blime	cryP-ter	pla-Trer
reP-tile	nom-Breux	planC-ton	trem-Bler
leC-ture	pa-Trie	fraC-ture	pro-Grès

Les deux listes ne différaient que par les mots inducteurs. L'ordre des mots, identique dans les deux listes, a été tiré aléatoirement, avec pour seules contraintes que (a) chaque mot test soit précédé d'un ou deux mots inducteurs et (b) que le phonème cible soit toujours différent dans deux essais successifs. Dans chacune des listes, la cible apparaissait dans 80 % des cas (50+8+8 sur 82 positifs) dans la même position syllabique (par ex. coda), et dans 20 % des cas dans l'autre position syllabique (attaque). Dans les deux listes, elle apparaissait en troisième position séquentielle dans 80 % des cas, et en quatrième position dans les 20 % restants. Enfin, il y avait 72 % d'essais positifs, et 28 % d'essais négatifs.

L'identité des phonèmes cibles a été variée autant que possible, dans les inducteurs comme dans les mots tests. Dans ces derniers, les cibles étaient toutes des occlusives (p,t,k,b,d,g) pour lesquelles on peut définir de façon assez précise un début (conventionnellement le début est placé à l'explosion). Dans les inducteurs, d'autres phonèmes ont été employés, en particulier des liquides pour les inducteurs de type 'coda' (ex: carton), et des fricatives pour les inducteurs de type 'attaque' (ex: névrose).

Les stimuli, lus par une voix féminine, ont été enregistrés digitalement (fréquence d'échantillonnage : 16Khz) sur le disque dur d'un PDP 11/73. A l'aide d'un éditeur de parole (EDISON), chaque stimulus a été extrait et une marque a été placée sur le début de l'explosion des cibles occlusives pour les 32 mots tests. Deux cassettes audio ont ensuite été enregistrées, avec les stimuli sur la piste 1, les tops de synchronisations des essais et les marques des cibles, sur la piste 2.

Procédure :

Durant toute l'expérience, le sujet est assis devant un ordinateur et porte un casque haute-fidélité dans lequel sont présentés binauralement les stimuli. Devant lui, deux boutons de réponses (clés morses) reliés à l'ordinateur permettent de mesurer ses temps de réaction avec une précision inférieure à la milliseconde. L'expérience est une succession d'essais qui durent chacun 5 secondes. Au début de chaque essai, un phonème est présenté visuellement, au centre de l'écran de l'ordinateur pendant 1 seconde ; l'écran s'efface ensuite pendant une autre seconde au terme de laquelle un mot est présenté dans les écouteurs ; le sujet doit alors "appuyer aussi vite que possible sur le bouton OUI si le mot contient la cible, sur le bouton NON si le mot ne la contient pas'' (au début de l'expérience, le sujet a pu choisir le côté correspondant à OUI, l'autre étant automatiquement assigné à NON).

En expliquant les instructions, l'expérimentateur n'employait pas le terme "phonème'' mais demandait au sujet de "se représenter AUDITIVEMENT le son correspondant à la lettre présentée à l'écran'' et lui fournissait des exemples : "K comme dans 'quand' ou 'clé'; R comme dans 'France' ou 'montre' ''. Par ailleurs, les sujets n'étaient pas informés du fait que, dans la liste, la cible apparaîtrait plus souvent dans une position plutôt qu'une autre. Insistons sur le fait qu'à la différence des expériences "classiques'' de détection de phonème, la cible était un phonème différent à chaque essai. D'autre part, la tâche est ici une décision plutôt qu'une simple détection, puisque le sujet doit également donner une réponse quand le mot ne contient pas la cible.

Sujets :

Vingt sujets volontaires, étudiants dans diverses universités parisiennes, ont participé à l'expérience. Ils étaient tous de langue maternelle française. Aucun ne connaissait le but de l'expérience. Testés individuellement, ils ont été assigné en fonction de leur ordre d'arrivée à l'une des deux listes expérimentales. Trois sujets supplémentaires ont été remplacés pour avoir commis plus de 15 % de fausses alarmes (c'est à dire plus de 5 réponses oui sur les 32 distracteurs).

Résultats

Le taux global de fausses alarmes était de 5.3 %. Les omissions (3 % des données) et les temps de réactions inférieurs à 100 ms ou supérieurs à 1500 ms (1.5 % des données) ont été remplacés, pour chaque sujet, par son temps de réaction moyen sur les items dans la même condition. La table 3.2 présente les temps de réaction moyens et les taux d'erreur des deux groupes de sujets sur les quatre types de mots tests. La figure 3.1 présente graphiquement les temps de réaction.

Table 3.2: Temps de décision moyens en ms et erreurs en %.
4|c|Position de la cible

Groupe 2|c3ième 2c|4ième

d'induction coda attaque coda attaque

coda 473 (5%) 506 (3%) 489 (3%) 525 (5%)

attaque 515 (6%) 457 (1%) 518 (4%) 490 (5%)

**Table 3.2:** Temps de décision moyens en ms et erreurs en %.
	4\|c\|Position de la cible
Groupe	2\|c3ième	2c\|4ième
d'induction	coda	attaque	coda	attaque
coda	473 (5%)	506 (3%)	489 (3%)	525 (5%)
attaque	515 (6%)	457 (1%)	518 (4%)	490 (5%)

**Figure 3.1:** Détection de phonème généralisée avec biais syllabique
$\begin{figure} \includegraphics [width=7cm,height=6cm]{thsfr1.eps} \end{figure}$

Quatre analyses de variance, avec les sujets puis les items déclarés comme facteurs aléatoires, sur les temps de réaction et les erreurs, ont été effectuées. Trois facteurs binaires étaient déclarés : position séquentielle (P) de la cible (3 ou 4), position syllabique (S) (coda ou attaque), groupe d'induction (G) (coda ou attaque, dépendant de la liste expérimentale).

Aucun effet principal ou interaction n'est significatif dans les analyses des erreurs. Dans les analyses canoniques des temps de réaction, seule l'interaction entre groupe d'induction et position syllabique est significative. La position séquentielle produit un effet de 18 msec qui atteint juste le seuil de significativité (p=.05) mais seulement dans l'analyse par sujets. Dans des comparaisons restreintes à chaque groupe, il apparaît que l'effet de position syllabique n'est significatif que pour le groupe induit en Attaque (G2). Dans des comparaisons restreintes à chaque position séquentielle, l'interaction entre Induction et Position Syllabique, restreinte à la position phonémique "3'', est de 45 msec (significatif) ; celle restreinte à la position " 4'' est de 32 msec (non significatif). Toutefois il n'y a pas de triple interaction et la non-significativité de l'interaction sur la quatrième position reflète probablement l'assez faible puissance statistique.

Discussion

Comme l'atteste l'interaction obtenue entre induction et position syllabique dans l'analyse des temps de réaction, les deux groupes de sujets ont eu des comportements différents : chaque groupe était avantagé quand les cibles apparaissaient dans la position syllabique la plus probable de sa liste. Il est vrai que cet avantage n'est significatif que pour le groupe habitué en attaque, mais cette asymétrie pourrait être le résultat d'une différence de difficulté entre les stimuli coda et attaque. Seul un groupe contrôle, neutre sur le plan de l'induction syllabique, permettrait de déterminer si il existe une telle différence entre les deux types de stimuli. Toutefois, l'interaction est la mesure la plus pertinente : elle montre que les sujets ont utilisé la structure syllabique des stimuli et ont optimisé leur comportement en fonction de celle-ci. Pour que cela soit le cas, il faut qu'ils aient eu accès à une telle information syllabique.

Les sujets recevaient 80 % des cibles en troisième position séquentielle mais il n'y a qu'un faible effet de position séquentielle (18 msec, significatif seulement par sujets). On ne peut donc pas exclure l'éventualité que les sujets aient subit une habituation séquentielle en plus d'une habituation syllabique. Néanmoins, il faut souligner que l'induction séquentielle, si elle est réelle, ne suffit pas à faire disparaître l'induction syllabique. Les expériences suivantes fourniront l'occasion de réexaminer la réalité de l'induction séquentielle.

Une autre question est celle de l'origine de l'effet syllabique observé. Il est assez couramment admis que la détection de phonème peut utiliser deux sources d'information : d'une part une représentation pré-lexicale, d'autre part une représentation post-lexicale, c'est à dire récupérée après l'identification du mot [Foss BlankFoss Blank1980,Cutler FodorCutler Fodor1979,Cutler, Mehler, Norris SeguiCutler 1987,Eimas, Hornstein PaytonEimas 1990]. On peut donc se demander si l'information syllabique qui influence les sujets dans notre expérience est d'origine pré-lexicale ou post-lexicale. La considération des temps de réaction moyens offre un premier ordre d'idées : ceux-ci sont de l'ordre de 500 ms, et ils sont mesurés, rappelons-le, à partir du début du phonème cible, qui se trouve en moyenne à 300 ms à l'intérieur du mot. Au moment où il effectue sa réponse, le sujet est donc 800 msec après le début du stimulus. Ces temps sont très comparables aux 770 msec obtenus en décision lexicale auditive, avec des sujets français et des stimuli bisyllabiques par [DupouxDupoux1989, exp.6]. Cela n'est pas en soi la preuve définitive que les sujets ont utilisé des informations post-lexicales, puisque il y a des cas ou malgré la lenteur des réponses, les sujets ne sont pas influencés par le lexique [Eimas, Hornstein PaytonEimas 1990].

Les études les plus comparables à la nôtre sont celles de [Frauenfelder SeguiFrauenfelder Segui1989] et [Frauenfelder, Segui DijkstraFrauenfelder 1990] car toutes deux utilisaient la détection de phonème généralisée (mais sans biais attentionnel). [Frauenfelder SeguiFrauenfelder Segui1989] observent un effet d'amorçage sémantique entre des mots successifs. Cela suggère que les sujets utilisent l'information lexicale pour répondre ; toutefois cela pourrait être le résultat d'une stratégie propre à la situation d'amorçage sémantique. [Frauenfelder, Segui DijkstraFrauenfelder 1990] comparent la détection de phonèmes dans des mots et des non-mots ; la détection est plus rapide dans les mots, mais seulement quand le phonème cible se trouve après le point d'unicité du mot.. Dans le cas de nos stimuli, l'examen de leur point d'unicité (grâce à BRULEX ; cf Content 1990), révèle que celui-ci est toujours situé après le phonème cible.

L'une des variables connues pour affecter le plus le temps d'accès au lexique étant la fréquence d'occurrence des mots (les mots fréquents sont reconnus plus rapidement que les mots peu fréquents), nous avons examiné le coefficient de corrélation entre le temps de réponse moyen et la fréquence lexicale de chaque item (les logarithmes plutôt que les fréquences brutes ont en fait été utilisés). Cette analyse révèle qu'il n'y a pas de corrélation globale entre temps de réaction et fréquence lexicale (r=-0.22, F(1,30)=1.6, p=.22). Toutefois, des analyses restreintes, présentées dans la table 3.3, montrent qu'il y a une accélération significative due à la fréquence lexicale pour le groupe "coda'' quand la cible apparaît en position " attaque''.

Table 3.3: Coefficients de Corrélation (et significativité) entre Temps de Réaction et Fréquence Lexicale
2c|Cible

Induction Coda Attaque

Coda -0.30 -0.51

(p=0.25) (p=0.04)

Attaque 0.18 -0.18

(p=0.5) (p=0.5)

On pourrait être tenté d'interpréter cela en supposant que la " surprise'' entraîne l'utilisation d'une stratégie lexicale. Ces données sont toutefois trop succinctes pour permettre une conclusion catégorique ; de plus, on n'explique pas l'absence d'effet pour le groupe "Attaque''. Toutefois, la corrélation obtenue dans un des cas montre la légitimité de la question de l'origine des réponses. L'expérience qui suit a pour but d'éclairer ce problème de la nature lexicale ou pré-lexicale des réponses.

**Table 3.3:** Coefficients de Corrélation (et significativité) entre Temps de Réaction et Fréquence Lexicale
	2c\|Cible
Induction	Coda	Attaque
Coda	-0.30	-0.51
	(p=0.25)	(p=0.04)
Attaque	0.18	-0.18
	(p=0.5)	(p=0.5)

Expérience : Induction Syllabique Accélérée

Afin de diminuer la possibilité que les sujets emploient une stratégie lexicale, nous avons décidé de refaire la même expérience en modifiant la tâche des sujets. Ceux-ci doivent maintenant effectuer une véritable détection plutôt qu'une décision : ils ne disposent plus que d'un unique bouton de réponse pour signaler qu'ils ont entendu le phonème cible ; si la cible n'apparaît pas, ils ne doivent rien faire. D'autre part, la consigne a été modifiée en portant l'emphase sur la vitesse : on demande aux sujets "d'appuyer sur le bouton, aussitôt qu'ils entendent le phonème cible et de ne pas attendre la fin du mot ''. On espère ainsi diminuer les temps de réaction et, par là même, les possibilités d'emploi de stratégies lexicales. Plusieurs études montrent que de tels changements de consigne peuvent affecter les résultats en faisant apparaître ou disparaître des effets (p.ex. [DupouxDupoux1989] et [Sebastian-Gallés, Dupoux, Segui MehlerSebastian-Gallés 1992]). Ainsi, [Cutler, Norris WilliamsCutler 1987] ont argumenté que c'est l'emploi d'une tâche de décision (choix "oui-non''), plutôt que d'une tâche de détection (paradigme "go-no'') qui était responsable des effets lexicaux observés par [Taft HamblyTaft Hambly1985] en détection de syllabe.

Description

Procédure :

Cette expérience se déroulait dans des conditions identiques à la précédente, à l'exception des modifications citées en introduction : les sujets disposaient d'un unique bouton (clé morse) pour répondre, et la consigne, qui apparaissait cette fois sur l'écran de l'ordinateur au début de la passation, insistait plus particulièrement sur la rapidité des réponses (on précisait aux sujets que leurs temps de réaction étaient mesurés et qu'ils ne devaient pas spécialement attendre la fin du stimulus pour répondre).

Signalons que les moyens techniques étaient différents : plutôt que d'utiliser des cassettes audio, les stimuli (identiques à ceux de l'expérience précédente), étaient directement restitués (à 16 Khz) à partir du disque dur du PC chargé de présenter les phonèmes cibles, et de recueillir les temps de réaction.

Sujets :

Quarante sujets, étudiants de diverses universités parisiennes ou employés de l'Ecole de Hautes Etudes, ont participé à cette expérience. Six sujets supplémentaires ont été remplacés pour avoir dépassé un seuil de fausses alarmes fixé à 15 % .

Résultats

Le taux global de fausses-alarmes était de 6.3 %. Les mêmes critères que dans l'expérience précédente ont conduit au rejet de 2.3 % des données brutes.

Table 3.4: Temps de décision moyens en msec et erreurs en %
4|c|Position de la cible

Groupe 2|c3ième 2c|4ième

d'induction coda attaque coda attaque

coda 323 (4%) 346 (4%) 341 (4%) 362 (3%)

attaque 382 (6%) 339 (1%) 358 (4%) 349 (3%)

**Table 3.4:** Temps de décision moyens en msec et erreurs en %
	4\|c\|Position de la cible
Groupe	2\|c3ième	2c\|4ième
d'induction	coda	attaque	coda	attaque
coda	323 (4%)	346 (4%)	341 (4%)	362 (3%)
attaque	382 (6%)	339 (1%)	358 (4%)	349 (3%)

**Figure 3.2:** Détection de phonème généralisée avec biais syllabique
$\begin{figure} \includegraphics [width=7cm,height=6cm]{thsfr2.eps} \end{figure}$

Des Anovas identiques à celles de l'expérience précédente ont été menées (cf plus bas). Le seul effet significatif à la fois dans l'analyse par items et dans l'analyse par sujets (des temps de réaction) provient de l'interaction entre Groupe d'Induction et Position Syllabique. L'effet de position phonémique est de 5 msec (non significatif). Les analyses restreintes par position phonémique montrent un effet significatif par sujets et marginal par items en position "3'', et marginal dans les deux cas en position "4''. Dans les analyses des erreurs, il y a une triple interaction marginale, dont les analyses restreintes aux positions séquentielles "3'' et "4'' révèlent qu'elle provient d'une interaction Induction $\times$ Syllabe (dans le sens prédit par l'induction) sur la position 3 mais pas sur la position 4.

Discussion

Tout d'abord, les changements de tâche et de consigne ont eu l'effet escompté de diminuer le temps de réaction moyen : celui-ci est passé d'environ 500 ms dans la première expérience à 350 ms dans celle-ci. Malgré cela, les résultats demeurent qualitativement les mêmes que dans l'expérience 1 : les sujets sont plus rapides quand les cibles apparaissent dans la position syllabique favorisée par leur liste, comme l'atteste l'interaction entre induction et structure syllabique. D'autre part, il n'y pas de trace d'effets de la position séquentielle. L'expérience 3.1 est donc répliquée, et ce, dans des conditions favorisant moins l'emploi de stratégies lexicales. Les temps de réactions sont particulièrement rapides: ils sont, par exemple, plus de deux fois inférieurs à ceux obtenus par Pitt & Samuel (1990) (Nos taux d'erreurs sont également nettement plus faibles).

Dans des conditions assez semblables aux nôtres (sujets et stimuli français), [Frauenfelder SeguiFrauenfelder Segui1989, exp.2] avaient obtenus un effet lexical - d'amorçage sémantique - avec la détection de phonème généralisée. Mais leur temps de réaction moyen (de l'ordre de l'ordre de 450 msec pour les cibles placées en milieu de mot), est plus comparable à celui de l'expérience 3.1 qu'à celui de l'expérience 3.2. Dans une autre étude, [Frauenfelder, Segui DijkstraFrauenfelder 1990] trouvaient un effet de lexcialité en détection de phonème généralisée, mais seulement au-delà du point d'unicité. Or, dans nos stimuli, le point d'unicité se trouve toujours après le phonème cible (au milieu ou à la fin du groupe CC central). Les comparaisons avec des détections de phonème initial sont plus délicates mais il n'y a pas, à notre connaissance, de résultat montrant des effets lexicaux (fréquence ou status lexical) avec des temps de détection inférieurs à 400 msec (cf, par exemple, Cutler et al., 1987; Dupoux, 1989, exp 3). Il faut également noter que nous n'avons plus trouvé d'effet de fréquence dans les temps de réaction des sujets (globalement : r=-0,04, F(1,30)=0.05, p=.8 ; et la corrélation restreinte par groupe la plus importante est r=.29, p=.27). Pour conclure sur l'hypothèse d'une origine lexicale de l'information syllabique, signalons (en anticipant sur le prochain chapitre) que N. Sebastian-Gallés a montré, avec des expériences similaires aux nôtres, que les sujets étaient influencés par la structure syllabique quand les stimuli étaient des non-mots autant que quand ils étaient des mots.

L'expérience qui suit a pour but de déterminer si, en l'absence de régularité syllabique, les sujets peuvent focaliser leur attention sur une position phonémique séquentielle.

Expérience : Induction séquentielle

Les deux expériences qui précèdent montrent que les sujets peuvent tirer parti du fait que le phonème cible apparaît plus souvent, soit dans la première, soit dans la seconde syllabe. Il n'y avait pratiquement pas de trace d'induction séquentielle : les sujets n'étaient pas ralentis quand la cible apparaissait en quatrième position bien que la troisième position soit plus probable. Cela signifie-t-il qu'il ne peut y avoir d'induction séquentielle ? Il est possible qu'on puisse observer une induction séquentielle en l'absence d'induction syllabique. Nous avons donc construit avec le matériel précédent des listes sans biais syllabique mais avec un fort biais séquentiel : la cible apparaissait en troisième position dans 80 % des cas.

Description

Matériel :

Les stimuli des deux expériences précédentes ont été réutilisés. On a construit deux nouvelles listes expérimentales en échangeant alternativement un inducteur sur deux entre les listes précédentes. Les listes ainsi obtenues contenaient chacune 25 inducteurs "coda'' et 25 inducteurs "attaque''. Les mots tests et les distracteurs n'ont pas été modifiés. On a fait en sorte que la moitié des mots tests soient précédés d'un inducteur de type "coda'' et l'autre moitié, d'un inducteur de type " attaque''. Finalement, il n'y a pas de biais global favorisant un type de structure syllabique ; par contre, 66 mots possèdent la cible en troisième position et 16 seulement, en quatrième position.

Procédure :

Elle était exactement identique à celle de l'expérience précédente : la tâche était une détection (paradigme "go-no go ''), et les instructions insistaient sur la rapidité des réponses.

Sujets :

Vingt sujets volontaires, tous étudiants, ont participé à cette expérience. Dix ont été assignés à chaque liste. Trois sujets supplémentaires ont été remplacés pour avoir fait trop d'erreurs.

Résultats

Les mêmes critères que dans les expériences précédentes ont été appliqués conduisant au remplacement de 3.7 % des données (2.7 % d'ommissions et 1 % de "hors-limites''). Les résultats sont présentés tab. 3.5.

Table 3.5: Temps de décision moyens en msec et erreurs en %
4|c|Position de la cible

2|c3ième 2c|4ième

coda attaque coda attaque

300 (8%) 321 (4%) 319 (3%) 320 (3%)

Dans les analyses de variance, trois facteurs étaient déclarés: liste expérimentale (entre-sujets), position séquentielle (intra-sujets) et position syllabique (intra-sujets) .

Le seul effet significatif est celui de Position Phonémique (P) dans l'analyse des erreurs par sujets : les sujets commettent plus d'erreurs en troisième qu'en quatrième position. Une inspection de la table 3.5 révèle que cela est dû à un effet de compensation entre la précision et le temps de réaction (" speed-accuracy tradeoff''). Ajoutons que les sujets étaient plus rapides de 25.6 msec que ceux dans l'expérience précédente, mais que cette différence n'est pas significative (F(1,58)=1.83 ; p=0.18). Signalons enfin que nous avons également conduit une analyse de variance pour déterminer si la position syllabique de la cible dans l'item précédent (l'"induction locale''), avait un effet sur les temps de réaction. Cette analyse n'a révélé aucun effet significatif.

Discussion

Bien que les sujets aient reçu 80 % des phonèmes cibles en troisième position séquentielle, ils ont détecté ceux qui apparaissaient en quatrième position sans être ralentis. C'était déjà le cas dans l'expérience précédente, mais il y avait alors la "concurrence'' de l'induction syllabique. Ici, le statut syllabique des cibles étant varié systématiquement, la seule régularité globale qu'auraient pu détecter les sujets était le biais vers la troisième position. Ils ne l'ont pas fait. Cela prouve que la position séquentielle d'un phonème n'est pas pertinente perceptuellement. Si le phonème était l'unité primaire de perception, on aurait pu s'attendre à ce qu'il soit possible de les "compter''. Cela ne semble pas être le cas, du moins avec cette tâche.

Nous avons interprété les résultats des expériences 3.1 et 3.2 en affirmant que les sujets focalisaient leur attention, soit sur une position coda de la première syllabe, soit sur une position attaque de la seconde syllabe. Mais, il est possible que les sujets aient en fait focalisé leur attention sur la syllabe entière. Pour écarter cette possibilité, il aurait fallu mesurer les temps de réaction sur d'autres phonèmes, appartenant à la même syllabe. Par exemple, si les sujets qui détectent une majorité des phonèmes cibles en coda de la première syllabe portent leur attention sur cette syllabe globalement, ils devraient être plus rapides que l'autre groupe pour détecter un phonème au début de celle-ci.

Ce sont les résultats de Pitt et Samuel (1990) qui nous incitent à penser que cela n'est pas le cas : leurs sujets avaient un avantage attentionnel restreint précisément au phonème favorisé par leur liste. Cependant, comme il existe dans la littérature la proposition que les Français pourraient utiliser la syllabes dans des tâches où les Anglais préfèrent employer le phonème (cf Cutler, Mehler, Norris et Segui, 1986 ; Norris et Cutler, 1988 ; et le chapitre 4), nous avons décidé de reproduire une expérience similaire à celle de Pitt et Samuel, mais cette fois-ci, en français.

Expérience : Induction intra-syllabique

Cette expérience est une reproduction de [Pitt SamuelPitt Samuel1990] en français : on compare quatre groupes de sujets habitués à détecter, respectivement, la première, seconde, troisième et quatrième consonne de mots de structure CVC-CVC.

Description

Matériel :

On a sélectionné 147 mots français ayant tous une structure C₁VC₂-C₃VC₄, ce qui fournit quatre positions consonantiques potentielles pour la détection de phonème. On a ensuite construit une liste de mots et quatre listes de phonèmes cibles appariées. Ces listes définissent quatre suites de 147 essais "mot -- phonème cible''. Il y avait trois catégories d'essais : les "tests'' (40 essais), les "inducteurs'' (70 essais), et les "distracteurs'' (37 essais). Les phonèmes cibles des essais "tests'' et "distracteurs'' étaient identiques pour les quatre listes. Les "distracteurs'' étaient des essais où le phonème cible n'apparaissait pas dans le mot. Les essais "tests'' appartenaient à quatre catégories en fonction de la position de la consonne cible (cf tab.3.6).

**Table 3.6:** Mots Tests (phonème cible en majuscule)
C1	C2	C3	C4
Cortège	neCtar	bisCotte	pastèQUe
Discours	gaDget	sarDine	tornaDe
Tournage	ryThmique	facTure	baskeT
Turbine	fooTball	culTure	despoTe
Garnir	maGnum	vulGaire	mustanG
Lapsus	caLmar	carLingue	cerveLLe
Largeur	soLfège	guirLande	survoL
Moustique	gyMnase	kerMesse	costuMe
Reptile	caRtouche	boomeRang	mystèRe
Rustine	feRtile	balleRine	castoR

Les listes ne différaient finalement que par les essais "inducteurs'' : dans la première liste, le phonème cible était systématiquement en C₁, dans la seconde il était en C₂ et ainsi de suite. Les listes ont été construites de façon à ce que chaque essai "test'' soit toujours précédé d'au moins un essai "inducteur''. On a également fait en sorte qu'un phonème cible particulier (p.ex. un /p/) n'apparaisse jamais dans deux essais successifs. La table 3.7 fournit un exemple de quelques essais successifs :

Table 3.7: Quelques Essais Successifs
4c|Liste

Type d'essai Stimulus 1 2 3 4

inducteur cordage K R D J

distract. courgette F F F F

inducteur calmante K L M T

inducteur mortel M R T L

test 3 biscotte K K K K

distract. charmante B B B B

inducteur victime V K T M

inducteur servile S R V L

Test 4 tornade D D D D

**Table 3.7:** Quelques Essais Successifs
		4c\|Liste
Type d'essai	Stimulus	1	2	3	4
inducteur	cordage	K	R	D	J
distract.	courgette	F	F	F	F
inducteur	calmante	K	L	M	T
inducteur	mortel	M	R	T	L
test 3	biscotte	K	K	K	K
distract.	charmante	B	B	B	B
inducteur	victime	V	K	T	M
inducteur	servile	S	R	V	L
Test 4	tornade	D	D	D	D

Procédure :

La procédure expérimentale était globalement similaire à celle des expériences précédentes. La structure des essais était identique si ce n'est que les sujets étaient informés en cas d'erreur (fausse alarme ou manqué) ; l'ordinateur affichait alors un message d'avertissement et le même essai était "rejoué '' immédiatement. Cette modification de la procédure avait pour but de permettre au sujet de se reconcentrer rapidement après une erreur. Les temps obtenus dans les essais "rejoués'' n'étaient pas pris en compte dans les analyses de temps de réaction.

L'expérience durait environ un quart d'heure et était donc nettement plus courte que celle de [Pitt SamuelPitt Samuel1990]. On peut noter trois autres différences entre notre procédure et la leur : (a) dans notre cas il y a 75 % des essais où la cible apparaît dans le mot (50 % chez eux) ; (b) nous employons une tâche de détection plutôt qu'une décision oui-non ; (c) nous donnons une correction ("feed-back'') aux sujets sur leurs erreurs.

Sujets :

Quarante étudiants de diverses universités parisiennes, tous de langue maternelle française ont participé. Ils recevaient 20 francs pour leur participation.

Résultats

Les taux d'erreurs étaient plutôt faibles (2.7 % de fausses alarmes ; 1.3 % de manqués). On a éliminé les temps de réaction inférieurs à 100 msec (2.4 %) et ceux supérieurs à 1500 msec (0.5 %).

Les figures 3.3 et 3.4 présentent des analyses "côuts/bénéfices'', c'est à dire, pour chaque groupe et chaque position, la différence entre le score de ce groupe sur cette position et la moyenne des autres groupes sur cette position. La table 3.8 présente les moyennes détaillées.

**Figure 3.3:** Coûts/Bénéfices sur les temps de détection de phonème dans C₁VC₂-C₃VC₄
$\begin{figure} \medskip \includegraphics [width=8cm,height=6cm]{cout.eps} \end{figure}$

**Figure 3.4:** Coûts/Bénéfices sur les taux d'erreurs en détection de phonème dans C₁VC₂-C₃VC₄
$\begin{figure} \medskip \includegraphics [width=8cm,height=6cm]{couterr.eps} \end{figure}$

Table 3.8: Temps de Réaction (en ms) et Taux d'Erreurs pour chaque Groupe dans chaque position
1|c 8c|Position de la cible

Groupe 2|cC1 2|cC2 2|cC3 2|c|C4

1 503 (1%) 596 (3%) 488 (2%) 344 (1%)

2 494 (0%) 436 (1%) 439 (1%) 353 (7%)

3 527 (1%) 502 (2%) 404 (0%) 350 (4%)

4 640 (0%) 590 (3%) 505 (1%) 290 (1%)

**Table 3.8:** Temps de Réaction (en ms) et Taux d'Erreurs pour chaque Groupe dans chaque position
1\|c	8c\|Position de la cible
Groupe	2\|cC1	2\|cC2	2\|cC3	2\|c\|C4
1	503	(1%)	596	(3%)	488	(2%)	344	(1%)
2	494	(0%)	436	(1%)	439	(1%)	353	(7%)
3	527	(1%)	502	(2%)	404	(0%)	350	(4%)
4	640	(0%)	590	(3%)	505	(1%)	290	(1%)

Les temps de réaction et les erreurs ont été soumis à des analyses de variance (détaillée en annexe, p.

) où deux facteurs étaient déclarés : Induction (biais sur C1, C2, C3 ou C4 dépendant du groupe de sujets) et Position de la cible (C1, C2, C3 ou C4). Tout d'abord, le facteur Position produit un effet significatif : les sujets sont plus rapides pour répondre vers la fin des mots. L'interaction globale Position $\times$ Induction est significative, ce qui montre que les groupes de sujets n'ont pas eu le même comportement. Les significativités des coûts/bénéfices ont été évaluées en examinant toutes les interactions Induction $\times$ Position opposant deux à deux des groupes d'induction sur leurs positions favorisées. Par exemple, dans les anovas qui suivent "I1 I2.P1 P2'' désigne l'interaction restreinte aux groupes 1 et 2 et aux positions C1 et C2. Dans les analyses par items et par sujet des temps de réaction, toutes ces interactions sont significatives. On a également opposé chaque groupe d'induction aux trois autres pris ensemble, avec des interactions de type I1 vs I2 I3 I4 . P1 vs P2 P3 P4 ; encore une fois ces interactions étaient significatives. On a également testé des interactions de type I1 I3.P2 P4 pour examiner si un groupe était également avantagé sur des positions autres que celle sur laquelle il était habitué. Par exemple, s'il y avait un avantage sur la syllabe entière, les sujets du groupe 1 pourraient être meilleurs sur la position 2 que les sujets du groupe 4. En fait, ces analyses révèlent que les groupes 2 et 3 sont plus proches l'un de l'autre que ne le sont tous les autres couples.

Discussion

Les sujets français se conduisent comme les sujets américains de Pitt et Samuel (1990) : ils focalisent leur attention sur un phonème précis plutôt que sur une syllabe entière. Il est donc correct d'affirmer que les sujets, même français, focalisent leur attention sur une position phonémique définie syllabiquement, plutôt que sur une syllabe entière.

Dans cette expérience, comme dans les précédentes, les sujets n'étaient pas avertis à l'avance que le phonème apparaîtrait plus souvent dans une position que dans une autre. Interrogés de façon informelle à la fin de la passation, la plupart des sujets avaient remarqué que la cible apparaissait plus souvent soit en début, soit au milieu, soit à la fin des mots. Mais, comme dans les précédentes expériences, les sujets induits en milieu de mots, n'avaient pas remarqué que la cible arrivait plus souvent soit dans la première, soit dans la seconde syllabe.

L'emploi du terme "focalisation de l'attention'' provient du paradigme de Posner qui a inspiré Pitt et Samuel. Cependant, ici, les sujets ne sont apparemment pas conscients de la manipulation probabiliste des listes. Il est possible que ces résultats s'apparentent davantage à l'apprentissage implicite d'une régularité, plutôt qu'à une focalisation de l'attention. La plupart des études sur l'apprentissage implicite (cf Reber 1989 pour une revue) ont examiné l'acquisition des grammaires, et montrent que le sujet a besoin d'un nombre assez important d'essais pour apprendre la régularité. Nous avons donc examiné si l'avantage "attentionnel'' augmentait au cours de nos expériences, à l'aide de diverses mesures : d'une part, nous avons comparé l'effet entre la première et la deuxième moitié des listes ; d'autre part, nous avons examiné la corrélation entre la taille de l'effet et la position des mots tests dans la liste. Aucune de ces analyses n'a révélé d'effet significatif. En conclusion, il ne semble pas que l'effet nécessite un long entraînement. La régularité que les sujets "apprennent'' est donc plus facile que l'apprentissage d'une grammaire.

Pitt et Samuel pensaient que le fait que les sujets puissent focaliser leur attention sur un phonème précis, démontrait que celui-ci, plutôt que la syllabe, était l'unité de perception. Cependant leurs temps de réactions étaient tels que le phonème pouvait très bien avoir été identifié après la syllabe.

Pitt et Samuel s'intéressaient essentiellement à la "taille du faisceau attentionnel'' et ne discutent pas de la propriété sur laquelle les sujets "focalisent leur attention''. Leur article suggérait, implicitement, que les sujets peuvent s'habituer à détecter un phonème dans une position phonémique séquentielle, c'est à dire que la propriété pertinente est celle de " n^e phonème''. Dans les études de ce chapitre, nous avons entrepris de montrer que les sujets s'habituent en fait à détecter des phonèmes placés dans une position précise de la structure syllabique des stimuli.

Dans l'expérience 3.1, nous avons fait varier la position syllabique du phonème cible plutôt que sa position séquentielle : un groupe de sujets recevait ses cibles plus souvent en coda de la première syllabe de mots bisyllabiques (ex. "caP-tif''), alors qu'un second groupe les recevait plus souvent dans l'attaque de la seconde syllabe (ex. "ca-Price '') ; dans les deux cas, la cible était en troisième position séquentielle. Les deux groupes de sujets étaient testés sur un sous-ensemble de stimuli (identiques pour les deux groupes) où le phonème cible apparaissait soit dans l'une, soit dans l'autre des positions syllabiques. On a observé que les sujets ont détecté plus rapidement les cibles qui apparaissaient dans la position syllabique favorisée par leur liste, ce qui s'est traduit par une interaction entre l'induction attentionnelle des sujets et la position syllabique de la cible. Ceci montre que les sujets ont utilisé une représentation syllabique des stimuli pour effectuer leur réponse.

Cette représentation provenait-elle d'un traitement pré-lexical ou bien avait-elle une origine post-lexicale, c'est à dire, était-elle "récupérée'' seulement après l'identification des mots ? La taille des temps de réactions (800 ms depuis le début du mot) et des traces de corrélation entre temps de réponse et fréquence lexicale des stimuli pour un des deux groupes rendaient l'hypothèse post-lexicale envisageable. L'expérience 3.2 avait pour but de diminuer les chances d'emploi d'une stratégie lexicale par les sujets en accélérant leurs réponses. A cette fin, la tâche a été modifiée : plutôt qu'une décision oui-non, les sujets devaient effectuer une détection (paradigme "go-no go''). Bien que les temps de réaction aient diminué de 150 ms (350 au lieu de 500 ms), l'effet syllabique demeure. Ce résultat rend improbable, sinon impossible, l'emploi par les sujets d'informations post-lexicales (le chapitre suivant renforcera cette conclusion en présentant une réplication avec des stimuli "non-mots'').

L'apparition d'un effet syllabique dans les expériences 3.1 et 3.2 est d'autant plus remarquable que rien dans la tâche de détection de phonème n'encourage explicitement le sujet à utiliser une information syllabique (De plus les sujets, interrogés à la fin de l'expérience, n'avaient pas remarqué "consciemment'' la régularité syllabique). Ceci oppose notre méthode avec la tâche de détection de fragments de [Mehler, Dommergues, Frauenfelder SeguiMehler 1981], où le sujet manipule nécessairement des syllabes (puisqu'il doit détecter, typiquement, /pa/ ou /pal/), fait qui pouvait encourager l'emploi d'une "stratégie'' syllabique.

Néanmoins, on pourrait imaginer que, dans nos expériences, c'est l'existence d'une régularité syllabique qui encourage les sujets à utiliser une représentation faisant référence aux syllabes.n En l'absence d'une telle régularité, les sujets pourraient-ils utiliser une représentation purement phonémique (i.e une simple séquence de phonèmes) ? C'est ce que nous avons examiné dans l'expérience 3.3 : les sujets détectaient des phonèmes cibles qui apparaissaient avec des fréquences égales dans les deux positions syllabiques (coda ou attaque), mais beaucoup plus souvent en troisième position séquentielle (p.ex. "caPtif'') qu'en quatrième (p.ex. "proBlème''). Pourtant, les sujets étaient aussi rapides pour détecter un phonème en quatrième position séquentielle qu'un phonème en troisième position ; ils ne pouvaient donc apparemment pas utiliser une régularité purement séquentielle, même en l'absence de régularité syllabique.

Comme elles ne testent qu'une seule position phonémique à l'intérieur de chaque syllabe, les expériences 3.1 et 3.2 ne permettent pas de savoir si les sujets focalisaient leur attention sur toute la syllabe ou bien, plus précisément, sur une seule position phonémique dans la structure syllabique. L'expérience de Pitt et Samuel (1990) favorisait plutôt la seconde alternative puisque les sujets habitués à détecter un phonème dans une syllabe ne transféraient pas leur avantage à un autre phonème appartenant à la même syllabe. Toutefois, comme il a été proposé que les sujets anglais sont plus enclins à utiliser des "stratégies phonémiques'', et les sujets français "des stratégies syllabiques'' [Cutler, Mehler, Norris SeguiCutler 1986,Norris CutlerNorris Cutler1988], il importait de savoir si les Français focalisent leur attention sur la syllabe entière ou sur un phonème précis. L'expérience 3.4 reproduit celle de Pitt et Samuel et montre que les sujets français, habitués à détecter un phonème dans une syllabe, ne transfèrent pas leur avantage attentionnel à un autre phonème situé dans la même syllabe. En conclusion, on peut affirmer que les sujets focalisent leur attention sur une position phonémique précise dans la structure syllabique des stimuli.

Ces expériences montrent que les sujets engagés dans une tâche de détection de phonème utilisent une représentation syllabifiée plutôt qu'une représentation purement séquentielle. Cela est consistent avec la conclusion de l'expérience 2.3 du chapitre précédent. Ces deux types de tâches, cependant, permettent difficilement de conclure quant aux relations temporelles de l'identification (par le système perceptif) des différentes unités (syllabe ou phonème). Pourtant, un de nos résultats ne s'accorde pas avec un modèle syllabique où l'identification de la syllabe serait l'étape limitante après laquelle, seulement, les phonèmes deviendraient immédiatement accessibles : s'il fallait attendre la fin d'une syllabe pour avoir accés aux phonèmes qu'elle contient, on s'attendrait à ce qu'un coda soit détecté beaucoup plus rapidement qu'une attaque. Or, on a observé que les sujets étaient aussi rapides pour détecter un phonème, qu'il soit placé en début de seconde syllabe ou en fin de première syllabe. Nous reviendrons sur cette observation dans le chapitre de conclusion (chap.7) ; de plus, le chapitre 5 décrira des expériences tentant plus directement d'examiner la question de la primauté temporelle de l'identification du phonème (ou du trait phonétique) sur la syllabe.