Cette note décrit l'algorithme utilisé pour syllaber (ou ``syllabifier'') les représentations phonétiques des bases lexicales du français Brulex et Lexique.
Disons tout de suite qu'il existe plusieurs théories sur la syllabification des groupes de consonnes. Certaines se fondent sur des critères acoustico-phonétiques, d'autres sont d'inspiration plus phonologique. La table 1 (adaptée de Laeufer (1992) dans le chapitre 6 de ma thèse (Pallier, 1994)) présente six propositions.
Grammont | Delattre | Pulgram | Noske | Levin | |||
Malmberg | |||||||
apt. | force | ||||||
OL | caprice | -pr | -pr | -pr | -pr | -pr | -pr |
atlas | -tl | -tl | -tl | t-l | t-l | t-l | |
ON | technique | -kn | -kn | -kn | k-n | k-n | k-n |
OF | adverbe | -dv | -dv | -dv | d-v | d-v | d-v |
OO | structure | -kt/k-t | k-t | k-t | k-t | k-t | k-t |
FL | casserole | -sr | -sr | -sr | s-r | s-r | -sr |
disloque | -sl | -sl | s-l | s-l | s-l | s-l | |
influent | -fl | -fl | -fl | -fl | f-l | -fl | |
FN | transmis | -sm | s-m | s-m | s-m | s-m | s-m |
FF | blasphème | -sf/s-f | s-f | s-f | s-f | s-f | s-f |
FO | diphtongue | f-t | f-t | f-t | f-t | f-t | f-t |
NL | minerai | -nr | -nr | -nr | n-r | n-r | n-r |
NN | calomnie | -mn/m-n | -mn | -mn | m-n | m-n | m-n |
NF | hameçon | m-s | -ms | -ms | m-s | m-s | m-s |
NO | samedi | m-d | m-d | -md | m-d | m-d | m-d |
LL | galerie | -lr/l-r | -lr | -lr | l-r | l-r | l-r |
berlue | -rl/r-l | r-l | r-l | r-l | r-l | r-l | |
LN | calmant | l-m | l-m | -lm | l-m | l-m | l-m |
LF | répulsif | l-s | l-s | -ls | l-s | l-s | l-s |
LO | culbute | l-b | l-b | -lb | l-b | l-b | l-b |
O = occlusives ; F = fricatives ; N = nasales ; L = liquides |
Pratiquement toutes les théories s'accordent à syllabifier les groupes occlusive-occlusive (OO) entre les deux consonnes : /capture/ est syllabifié en /cap-ture/. Par contre, les théories sont en désaccord sur le statut des groupes occlusive-fricative (OF) : /capsule/ est-il /ca-psule/ ou /cap-sule/ ?
La syllabation que nous proposons pour Brulex et Lexique n'est donc qu'un choix parmi plusieurs possibles (essentiellement fondé sur nos intuitions personnelles !). Elle corresponds à celle de Pulgram sur les exemples de la table 1. Notre idée n'a jamais été d'imposer, avec Lexique, une syllabation. Cette note décrit l'algorithme afin permettre à ceux qui le désirent de corriger selon leurs besoins la syllabation que nous avons proposé.
Si vous utilisez cet algorithme, ou le modifiez, ou détectez des problèmes, je vous serais reconnaissant de me le faire savoir.2
Chaine | ® Syllabation | Exemple(s) | |
VV | ® V-V | poete [po-et] | |
VCV, VLV, VYV | ® V-CV | cadeau [ca-do], calot [ca-lo], aboyer [a-büa-ïé] | |
VYYV | ® VY-YV | bouilloire [buï-üaR] | |
VCYV, VLYV | ® V-CYV | tatouer [ta-tüé], polluer [po-lÿé] | |
V [td]RV V | ® V-CCV | autrement [o-tre-mâ] | |
| ® V-CLV | caprice [ka-pRis] | |
| ® VC-CV | capture [kap-ture], costume [kos-tum], galerie [gal-Ri], vieillerie, [vï_ï-Ri], atlas [at-las], madeleine [mad-l_n] | |
VXXXV | ® VX-XXV | astrophysique [as-tRo...] | |
VXXXXV | ® VX-XXXV | obstruer [op-stRy-é], octroyer [ok-tRüa-ïé] |
V = voyelles (incluant schwa), sans les semi-voyelles
C = toutes les consonnes sauf liquides et semi-voyelles
L = liquides {l, R}
Y = semi-voyelles {ü, ï, ÿ}
X = C ou L ou Y
La table 2 résume les principales règles de syllabation que nous nous proposons d'appliquer. Plusieurs remarques méritent d'être soulignées :
Le script de syllabation fournit en annexe explicite toutes les règles.
Nous n'avons pas systématiquement priviligié la règle de l'attaque maximal ou le principe de sonorité.
Nous avons décidé qu'une syllabe non finale contenait au plus une consonne en coda. Par exemple, 'exploit' devient 'ek-sploit'. Ceci est conforme avec la règle de l'attaque maximale même si cela viole le principe de sonorité.
Il nous a aussi fallu prendre une décision vis-à-vis des schwa finaux. Nous avons décidé de les supprimer des représentations phonétiques. Ainsi 'arbre' est pour nous un monosyllabe.
Finalement, notez que les représentations phonétiques de Brulex et de Lexique ne sont pas strictement identiques (cf. par exemple 'fluide' qui contient une voyelle 'u' selon le premier, et un semivoyelle selon le second). C'est pourquoi les syllabations ne sont pas toujours en accord...
L'algorithme est réalisé par un script syllabation.awk écrit dans le language Awk. Le programme libre gawk (www.gnu.org/software/gawk/gawk.html) permet de le faire fonctionner.
L'intérêt de Awk est que les expressions régulières permettent d'exprimer les règles de façon très lisible.
Les représentations phonétiques de Brulex et Lexique utilisent des codages différents. Par défaut, le script suppose que le codage de Lexique (en fait de LAIPTTS) est utilisé ; en mettant 'brulex' dans la variable 'code', le cadage de Brulex est employé.
Ce script peut être utilisé interactivement, en tapant simplement :
gawk -f syllabation.awk
puis en entrant des représentations phonétiques (code Lexique).
Pour syllaber le fichier brulex.txt:
gawk -vphons=2 -vcode=brulex -f syllabation.awk brulex.txt
et pour syllaber lexique260_graph.txt:
gawk -vphons=2 -f syllabation.awk lexique260_graph.txt
Si l'utilitaire 'make' est disponible, il suffit de taper 'make' pour syllaber les deux fichiers.
Le commande 'make test' fournit les syllabations des mots listés dans le fichier mots_test.txt. Le résultat est dans le fichier tests.txt.
Les fichiers qui accompagnent syllabation.awk sont :
Voici le script awk qui reéalise cette syllabification.
1http://www.pallier.org. Voir aussi http://www.lexique.org. Tout commentaire est bien venu.
2Mon email est disponible sur le site
www.pallier.org