La musique du discours : l'intention avant l'émotion

Notre moteur de synthèse vocale lisait correctement : les pauses tombaient au bon endroit, les liaisons étaient justes, les phrases s'enchaînaient sans heurt. Pourtant, à l'écoute, une faille demeurait perceptible : on sentait que le lecteur ne comprenait pas ce qu'il lisait. C'est cette couche manquante que le présent dossier cherche à cerner, en croisant les apports de la rhétorique classique, de la phonostylistique et de la psycholinguistique. Ce travail de recherche guide aujourd'hui l'évolution du moteur de lecture audio de markdown.synapx.fr. Nous le publions ici dans son intégralité, sources à l'appui, car ses conclusions dépassent notre seul cas d'usage et concernent tout moteur de synthèse vocale.

Légende des sources : ✓ affirmation vérifiée par 3 relectures adversariales indépendantes · ○ sourcée mais non contre-vérifiée · ✗ réfutée par la vérification.

Résumé exécutif

Le moteur v45 lit correctement : ses pauses suivent le rythme de la respiration, ses liaisons sont celles d'un locuteur adulte et ses phrases s'enchaînent avec continuité. La littérature converge toutefois vers un constat décisif : ce qui distingue un lecteur qui comprend d'une machine qui lit, ce n'est pas l'émotion, c'est l'intention. Or cette intention se manifeste par trois dimensions que le moteur ne maîtrise pas encore :

Le focus prosodique : mettre en relief les mots porteurs d'information nouvelle (accent d'insistance, accent initial « pédagogique », allongement) et effacer le reste. Un présentateur de JT ne fait QUE ça — sa prosodie est informative, pas expressive ✓.
Le silence stratégique : la pause rhétorique n'est pas une respiration — elle se place avant la pointe (créer l'attente) ou après l'idée forte (laisser infuser). Le moteur ne connaît que la pause physiologique.
Le profil d'intention global : un même texte se lit à 85 mots/min en homélie et à 230 en flash radio ○. Le débit, la densité d'accents et la longueur des pauses sont choisis par la situation, pas par le texte.

Ce constat ouvre une voie d'implémentation concrète. La littérature fournit des valeurs chiffrées pour la plupart de ces phénomènes, tandis que le moteur v45 dispose déjà des mécanismes fondamentaux — précalculateur, dette d'air, pitch-shift, lexique avec fréquences — nécessaires à l'implémentation d'une directive [intention=…].

Axe 1 — Taxonomie des situations de parole : chaque situation a une signature

Le fondement académique

La phonostylistique (Pierre R. Léon, Précis de phonostylistique : parole et expressivité, Nathan 1993) fournit précisément le cadre recherché ici : celui des « genres situationnels » de parole. Le sermon, le commentaire sportif et le langage adressé aux bébés possèdent chacun une signature phonique propre et reconnaissable ✓ (Persée, L'Information grammaticale n°70). La grille « situation → intention → réglages prosodiques » ne relève donc pas d'une intuition de développeur : elle s'inscrit dans un champ de recherche constitué.

Ce qui distingue les genres, mesurablement

Ce cadre devient opératoire lorsqu'on examine les paramètres qui différencient les situations de parole.

Information vs argumentation : dans le journal parlé professionnel, la variation prosodique sert principalement à focaliser l'information importante — pas à exprimer ✓. Dans l'interview politique, au contraire, la prosodie porte un large répertoire d'actes argumentatifs ✓ (Strangert, Interspeech 2005). Même voix, deux musiques : l'intention change tout.
Préparé vs spontané : Degand & Simon (2011) montrent que les genres se distinguent par leur unité de découpage. Discours académiques, politiques et homélies découpent par la syntaxe (style emphatique, didactique, préparé) ; narration conversationnelle et interview libre découpent par l'intonation ✓ (Organisation prosodique et style de parole en français parlé).
La formalité se mesure en densité d'accents : la proportion de syllabes proéminentes va de 25 % (discours rapide, informel) à 50 % (discours très formel à débit lent — l'exemple type étant le discours officiel de fête nationale, où chaque groupe de mots reçoit son accent) ✓. Journaux du matin : 27 % ; chroniqueurs France Info : 37 % ; titres : 35 % (Revue Corpus, UCLouvain).
Le style « annonceur » est une déformation professionnelle identifiée : suraccentuation des mots-outils (pronoms, prépositions) et accents d'insistance en rafale ✓ — au point que les chercheurs y voient un risque de contamination du français courant. À ne PAS imiter pour une lecture naturelle.

Application aux cas cités

Ces résultats permettent de caractériser concrètement chaque situation par son intention, son auditoire et sa signature prosodique.

Situation	Intention dominante	Rapport à l'auditoire	Signature attendue
Avocat en plaidoirie	convaincre (verdict)	un jury à retourner	découpage syntaxique, montée préparée, silences d'appui
Concours d'éloquence	séduire + convaincre	un jury qui note la forme	amplitude maximale, pointes, silences théâtraux
Entretien d'embauche	obtenir (être choisi)	un évaluateur	débit contenu, netteté, zéro théâtralité, disfluences contrôlées
Départ en retraite	émouvoir + remercier	des proches bienveillants	tempo lent, chaleur, pauses de complicité, chute douce
Élève devant la maîtresse	s'acquitter (être quitte)	une autorité qui vérifie	débit régulier, accents mécaniques — c'est justement le « mal lu »
Comédien	incarner	un public à embarquer	le texte n'existe plus : découpage par l'intonation, comme le spontané
Conférence / cours	transmettre	un auditoire qui apprend	accent « pédagogique », redites prosodiques, débit didactique (~130 mots/min ○)
JT / flash info	informer vite	des auditeurs pressés	métronome ~200 mots/min ○, focus purement informatif ✓
Narration audiobook	tenir en haleine	un auditeur au long cours	catégories pragmatiques stables (voir axe 2), variation de voice quality ✓

Le « mal lu » de l'élève constitue, à cet égard, un cas particulièrement instructif : il s'agit d'une lecture sans enjeu vers l'auditoire, exactement semblable à celle que produit un TTS dépourvu de couche d'intention. L'élève et le moteur rencontrent la même difficulté : ils s'adressent au texte plutôt qu'à quelqu'un. Cette distinction conduit directement à la dynamique fondamentale du discours préparé, celle de la tension et du relâchement.

Axe 2 — La musique du discours : tension → relâche

L'héritage classique est étonnamment opérationnel

Cicéron (Orator, trad. fr.) fournit la première table « intention → réglage vocal » de l'histoire, dont les distinctions restent traduisibles en paramètres de synthèse.

Trois styles pour trois intentions : « Le simple est destiné à prouver ; le tempéré, à plaire ; le véhément, à émouvoir » ✓. C'est notre future directive [intention=] avec 2 000 ans d'antériorité.
La hiérarchie : « Il est nécessaire de prouver, doux de plaire : émouvoir, c'est vaincre » ✓.
La voix suit l'intention affichée, pas le texte : « une voix forte s'il est ému, douce s'il est calme, soutenue s'il est grave » ✓ — l'orateur module selon ce qu'il veut paraître, confirmation antique que la couche manquante n'est pas dans les mots.
La position dans le discours impose sa prosodie : exorde « modeste, sans ambition, sans enflure » (concilier l'auditoire), péroraison amplifiée qui « allume ou éteigne les passions » ✓. La montée en intensité et la chute finale sont des fonctions de la position, pas du contenu.

La structure de la phrase oratoire

La « période » cicéronienne (Bulletin Guillaume Budé, Persée) organise ainsi la phrase en protase — montée et mise sous tension — puis en apodose — descente et résolution —, avant de la refermer par des clausules rythmiques. La tension-relâche n'est donc pas un effet ajouté au discours : elle constitue la forme même de la phrase préparée. Cette structure invite cependant à distinguer l'organisation rhétorique générale des recettes acoustiques trop simples, notamment lorsqu'il s'agit de produire du suspense.

Le suspense n'est pas ce qu'on croit ✗

L'affirmation selon laquelle « le suspense s'obtient en ralentissant et en baissant le volume » a été réfutée par notre vérification (2 votes contre 1). L'étude multi-langues sur la narration (Speech Communication) conduit à une analyse plus nuancée :

les narrateurs professionnels utilisent des catégories pragmatiques stables (neutre, descriptif, post-personnage, suspense, négatif/actif…) reproduites de façon cohérente en anglais, allemand, espagnol et français (2-1) ;
mais la qualité de voix (phonation) pèse autant que la prosodie (hauteur/intensité/tempo) pour distinguer ces catégories ✓ — un mode « narration » ne peut PAS reposer sur pitch/tempo seuls. Le souffle, le grain, la tension laryngée font la moitié du travail.

La conséquence pour le moteur est immédiate : les presets de voice quality — chuchotement, souffle, [fx=proche]… — ne sont pas de simples effets périphériques. Ils représentent la moitié de la panoplie narrative. L'autre moitié repose sur des paramètres temporels, au premier rang desquels figure le débit.

Axe 3 — Le tempo comme outil pragmatique : les chiffres

Débits mesurés en français

Le tempo signale la fonction du discours, l'autorité revendiquée et la valeur accordée à l'information. Les mesures françaises en précisent les ordres de grandeur.

Base articulatoire ✓ (Revue Corpus, UCLouvain) :

Débit	Syllabes/seconde
Lent	3–4
Moyen	5–6
Rapide	jusqu'à 9

Par situation ○ (Colas Rist, « 200 mots à la minute : le débit oral des médias », Communication et langages n°119, 1999, Persée) — chiffres sourcés mais non contre-vérifiés :

Situation	Mots/minute
Homélie (prêtre, France Culture)	85
Chef de l'État s'adressant au pays (TV)	100 (120 en présence directe)
Présentatrice d'émission scientifique didactique	130 (en détachant les mots)
Expert interviewé, monologue	175
Expert en dialogue compétitif	185–200 (pointes > 200 sous attaque)
Présentateurs de JT (norme « métronomique »)	~200
Rédacteurs-reporters	210–220 (attaques à 230+)
Flashes radios jeunes (NRJ, Skyrock)	230
Titres de journaux	jusqu'à 300+
Conversation courante	librement de 100 à 400

La mise en regard de ces mesures fait apparaître deux enseignements majeurs :

La lenteur code l'autorité et la solennité ○ : plus l'enjeu est grave et le locuteur légitime, plus il est lent (85–120). Plus l'information est jetable, plus c'est rapide (230–300). Le débit EST un message : « ce que je dis mérite votre temps ».
La convergence professionnelle ✓ : deux journalistes testés partent de débits conversationnels différents et convergent tous deux vers ~6 syll/s à l'antenne (5,80 en moyenne corpus) — l'un ralentit, l'autre accélère. Le genre impose son tempo au locuteur, pas l'inverse.

Une nuance importante ○ doit néanmoins être apportée : contrairement à une idée reçue (Grosjean & Deschamps 1975), la lecture n'est PAS plus rapide que la conversation en français moderne — 197 ms/syllabe en lecture contre 189 en conversation (corpus study, ScienceDirect). Le débit moyen ne suffit donc pas à caractériser la qualité de l'énonciation ; sa distribution entre groupes de sens est tout aussi déterminante.

La saccade vs le suspens ○

Colas Rist formule ici une observation précieuse : à vitesse égale (130 mots/min), l'hésitation peut produire soit une « saccade » désagréable — souffle bridé, fragments de phrase secs —, soit un « suspens » captivant. Lorsque la voix reste ferme, projette les groupes de sens d'une seule volée et les sépare par des arrêts nets, les silences font attendre la suite au lieu de faire perdre le fil. La qualité ne dépend donc pas du tempo moyen, mais de la fermeté des groupes et de la netteté des arrêts. Le précalculateur v36-40 s'inscrit déjà dans cette direction ; il lui manque encore la dimension du « groupe de SENS ». Cette question du contrôle temporel conduit naturellement à celle des hésitations elles-mêmes, souvent traitées à tort comme de simples défauts.

Axe 4 — Disfluences : le « euh » est un signal, pas un bruit

Ce que dit la psycholinguistique

La psycholinguistique montre que les disfluences ne sont pas un résidu aléatoire : elles rendent perceptible le travail de planification du locuteur.

Clark & Fox Tree (2002, Using uh and um in spontaneous speaking) : « uh » et « um » sont des signaux collatéraux annonçant respectivement un délai court et un délai long de planification — le locuteur informe son auditeur qu'il réfléchit. Ce ne sont pas des scories.
Les deux ne sont pas interchangeables ○ : entendre « uh » améliore la reconnaissance des mots qui suivent immédiatement ; « um » n'a aucun effet mesurable. Un TTS conversationnel devrait donc utiliser « euh » (bref) comme annonce d'un mot important qui se cherche, pas comme décoration.
Fraundorf & Watson (PMC) : les fillers ont des effets mesurés sur l'attention et la mémorisation du discours.

Le chiffre qui tranche ○

La comparaison avec la lecture à voix haute confirme toutefois leur dépendance au genre discursif.

Dans les corpus français : 9,63 % des syllabes sont disfluentes en conversation spontanée, contre 0,55 % en lecture à voix haute (ScienceDirect). Ratio ~17:1.

La conséquence directe pour le moteur est claire : les disfluences sont un marqueur de genre spontané. En insérer dans une lecture d'article constituerait un contresens (0,55 % = quasi-zéro : la lecture naturelle n'en contient pas). En revanche, pour les intentions « conversation », « confidence », « témoignage » ou « interview », c'est précisément leur absence qui produit une impression d'artificialité. Les TTS conversationnels récents (NotebookLM, ElevenLabs v3) en insèrent pour cette raison.

Règle d'usage par intention

Leur intégration doit donc dépendre de l'intention et du degré de préparation du locuteur.

Intention	Disfluences
Plaidoirie, éloquence, JT, narration	Jamais (l'hésitation décrédibilise l'expert préparé)
Conférence, cours	Rares, aux transitions (« alors… »)
Interview, témoignage, confidence	Oui — « euh » bref avant les mots pleins, ~5-8 % des groupes
Expert qui réfléchit en direct	Le « heu » + relances signale compétence et implication ○ (Colas Rist)

Axe 5 — La « compréhension audible » : le cœur du problème

Cet axe répond directement au diagnostic initial : « on sent que le lecteur ne comprend pas ce qu'il lit ». Il ne s'agit plus seulement de produire une parole fluide ou crédible, mais de rendre audible la hiérarchie informationnelle que construit un lecteur humain.

Ce qui, acoustiquement, prouve la compréhension

Acoustiquement, cette compréhension ne tient pas à un surcroît général d'expressivité, mais à une sélection entre éléments saillants et éléments effacés.

Le focus prosodique : en français, le focus (l'information que le locuteur veut faire porter) se marque par un contour montant plus haut et aligné plus tard que l'accent final ordinaire, avec compression du registre avant le focus et effacement mélodique après (Frontiers in Psychology 2024). Comprendre un texte, c'est savoir quel mot est l'information — et l'entourer de sobriété pour qu'il ressorte.
L'accent initial « pédagogique » ✓ : très présent dans le discours politique et journalistique ; chez un lecteur-penseur (l'étude analyse Roland Barthes lisant), il est rare et réservé aux concepts à mettre en exergue. Sa parcimonie est la marque du lecteur qui comprend : accentuer peu, mais juste.
Les frontières majeures sont franches ✓ (Degand & Simon) : une frontière d'unité intonative majeure = pause ≥ 200 ms, OU allongement de la syllabe finale à 3× la durée moyenne, OU montée de 5 à 10 demi-tons. Les frontières mineures n'ont rien de tout ça. Le lecteur qui comprend hiérarchise ses frontières ; le mauvais lecteur les fait toutes pareilles.
Information nouvelle vs donnée : la théorie du focus repose sur ce contraste — on met en relief ce que l'auditeur ne sait pas encore, on efface ce qui a déjà été dit. Un mot répété se prononce plus vite et plus bas que sa première occurrence.

Le diagnostic du moteur v45

Le moteur construit des groupes de souffle, donc physiologiques, mais pas encore de groupes de sens. Il hiérarchise les pauses, mais ne dispose d'aucun focus : toutes les syllabes accentuées se valent, aucun mot n'est véritablement mis en exergue et l'information nouvelle ne se distingue pas de l'information connue. On retrouve exactement la lecture de l'élève devant la maîtresse : chaque mot reçoit le même soin et, par conséquent, aucun ne compte réellement. Ce diagnostic permet désormais de convertir les observations précédentes en profils prosodiques cohérents.

Table de synthèse : intention → réglages prosodiques

La table suivante propose des profils destinés à une future directive [intention=…]. Les valeurs, dérivées des mesures présentées plus haut, devront être validées à l'oreille ; la base actuelle du moteur — vitesse 1.2 — correspond approximativement à un débit de lecture standard.

Profil	Débit cible	Pauses (vs actuel)	Proéminences	Silences stratégiques	Disfluences	Qualité de voix
`plaidoirie`	lent → accélérations (100→180)	×1.5, franches	40 % , focus fort	avant ET après les pointes	non	pleine, projetée
`eloquence`	très contrasté (90→200)	×1.8, théâtrales	45 %, accents initiaux	longs (jusqu'à 2 s)	non	ample
`solennel` (vœux, hommage officiel)	100	×2	50 % (chaque groupe)	après chaque idée	non	grave, posée
`retraite` (pot de départ)	120	×1.4, chaleureuses	30 %	avant les noms propres, les souvenirs	quelques-unes	chaude, souriante
`entretien`	150–175	×1, nettes	30 %	rares	contrôlées	claire, ferme
`didactique` (cours, tuto)	130, mots détachés	×1.3	37 %, accent pédagogique	après chaque notion	transitions	claire
`information` (JT)	200, métronome	×0.8, régulières	27 %, focus informatif seul	aucun	non	neutre pro
`narration` (fiction, audiobook)	140–160, variable par scène	×1.2	30 %, focus narratif	avant les révélations	non	variable (voice quality = 50 % de l'effet ✓)
`confidence`	110–130	×1.5, proches	25 %	suspens	oui (euh ~5 %)	souffle, proche
`conversation`	libre 100–400	intonatives	25 %	non planifiés	oui (~9 %)	détendue

Implications pour le moteur v45 et SSM

Ces données invitent moins à remplacer l'architecture qu'à mieux piloter ses mécanismes. Il faut dès lors distinguer les composants réutilisables des développements exigeant une analyse sémantique ou acoustique plus élaborée.

Ce que le moteur a déjà (à réutiliser)

Mécanisme existant	Sert pour
Précalculateur de pauses + dette d'air (v36-40)	moduler densité/durée des pauses par profil (un seul jeu de constantes à paramétrer par intention)
`_HEADING_SPEED`, `speed`, `[vitesse=]`	débit de base par profil
`_pitch_shift` (spans bornés), `[ton±N]`	matière première du focus (montée sur mot porteur)
`_PUNCT_PAUSE`, `LONG_PAUSE_FACTOR`	silences stratégiques (nouvelle classe de pause, plus longue que la respiration)
`lexicon.db` avec fréquences Lexique	détection automatique de l'information nouvelle : un mot RARE (basse fréquence) = candidat au focus
Presets voice quality (`[chuchote]`, `[fx=proche]`, whisper_lab)	la moitié de l'effet narration ✓
Proportion de proéminences	non pilotée aujourd'hui — Piper décide seul ; levier = accents d'insistance ajoutés

Recommandations priorisées

L'ordre proposé privilégie les réglages paramétriques avant la détection automatique du focus et la modélisation de l'arc discursif.

Quick wins (jours) :

Silence stratégique : nouvelle directive [silence] (≈ 800 ms – 2 s, sans jitter, SANS reset du compteur d'expiration — ce n'est pas une respiration) + règle auto « pause avant guillemet ouvrant / avant la dernière phrase d'un bloc en profil oratoire ».
Directive [intention=X] en tête de document : un profil = un jeu de constantes (vitesse de base, multiplicateurs de _PUNCT_PAUSE, seuils du précalculateur, LONG_PAUSE_FACTOR). Zéro nouveau mécanisme : que du paramétrage de l'existant.

Chantier moyen (semaines) :

Focus prosodique automatique — la vraie réponse au « il ne comprend pas » : repérer 1 mot porteur par groupe de sens (heuristique : mot lexical le plus RARE du groupe via les fréquences de lexicon.db, jamais un mot déjà apparu dans le paragraphe) et lui appliquer la recette Frontiers : léger allongement + montée tardive + effacement post-focal (les mots suivants un peu plus bas/rapides). Parcimonie stricte (modèle Barthes ✓) : au plus 1 focus par phrase, seulement si le contraste de fréquence est net.
Hiérarchie de frontières : distinguer frontière majeure (pause ≥ 200 ms + allongement ×3 OU montée 5-10 st ✓) et mineure (rien de tout ça) — aujourd'hui le moteur produit surtout des frontières « moyennes » uniformes.

Long terme :

Disfluences optionnelles ([intention=confidence] seulement) : « euh » bref avant mots pleins, ~5 % des groupes — jamais en lecture (0,55 % dans la vraie vie ○).
Arc de discours : en profil oratoire, moduler l'intensité par position dans le document (exorde sobre → péroraison ample ✓) — le moteur connaît déjà la structure des blocs Markdown.

Ce qu'il ne faut PAS faire

Ces pistes imposent enfin plusieurs limites : certaines recettes intuitives contredisent les données ou mélangent les genres discursifs.

Ne pas imiter le style « annonceur » (suraccentuation des mots-outils ✓ — c'est identifié comme une déformation).
Ne pas faire du suspense en ralentissant/baissant mécaniquement (réfuté ✗) — sans variation de qualité de voix, ça ne marche pas.
Ne pas saupoudrer de « euh » une lecture d'article (contresens de genre, ratio réel 17:1 ○).
Ne pas multiplier les focus : l'étude Barthes ✓ montre que la parcimonie EST le signal d'intelligence.

Où en est le moteur depuis ce rapport

Le silence stratégique ([silence], distinct de la respiration) a été implémenté dans la foulée. Le focus prosodique automatique a été prototypé, écouté… puis désactivé par défaut : sans alignement phonétique exposé par le modèle, la localisation du mot focal dans l'audio restait trop approximative et la découpe s'entendait. La recherche continue — c'est exactement le rôle de ce genre de rapport : dire où aller, et l'oreille décide du rythme.

Sources

Vérifiées et exploitées :

Léon, P. R., Précis de phonostylistique : parole et expressivité, Nathan, 1993 — via compte rendu, L'Information grammaticale n°70, Persée
Degand & Simon (2011), via « Organisation prosodique et style de parole en français parlé », ResearchGate
Strangert, E., « Prosody in public speech », Interspeech 2005
Revue Corpus (UCLouvain) — débit d'articulation et proéminences en français
Cicéron, Orator — traduction française intégrale ; Le rythme oratoire de Cicéron, Bull. Guillaume Budé 1927, Persée
Storytelling expressive categories across 4 languages, Speech Communication
Prosodic focus marking in French, Frontiers in Psychology 2024

Sourcées, non contre-vérifiées (limite d'audit) :