Notre moteur de synthèse vocale lisait correctement : les pauses tombaient au bon endroit, les liaisons étaient justes, les phrases s'enchaînaient sans heurt. Pourtant, à l'écoute, une faille demeurait perceptible : on sentait que le lecteur ne comprenait pas ce qu'il lisait. C'est cette couche manquante que le présent dossier cherche à cerner, en croisant les apports de la rhétorique classique, de la phonostylistique et de la psycholinguistique. Ce travail de recherche guide aujourd'hui l'évolution du moteur de lecture audio de markdown.synapx.fr. Nous le publions ici dans son intégralité, sources à l'appui, car ses conclusions dépassent notre seul cas d'usage et concernent tout moteur de synthèse vocale.

Légende des sources : affirmation vérifiée par 3 relectures adversariales indépendantes · sourcée mais non contre-vérifiée · réfutée par la vérification.


Résumé exécutif

Le moteur v45 lit correctement : ses pauses suivent le rythme de la respiration, ses liaisons sont celles d'un locuteur adulte et ses phrases s'enchaînent avec continuité. La littérature converge toutefois vers un constat décisif : ce qui distingue un lecteur qui comprend d'une machine qui lit, ce n'est pas l'émotion, c'est l'intention. Or cette intention se manifeste par trois dimensions que le moteur ne maîtrise pas encore :

  1. Le focus prosodique : mettre en relief les mots porteurs d'information nouvelle (accent d'insistance, accent initial « pédagogique », allongement) et effacer le reste. Un présentateur de JT ne fait QUE ça — sa prosodie est informative, pas expressive ✓.
  2. Le silence stratégique : la pause rhétorique n'est pas une respiration — elle se place avant la pointe (créer l'attente) ou après l'idée forte (laisser infuser). Le moteur ne connaît que la pause physiologique.
  3. Le profil d'intention global : un même texte se lit à 85 mots/min en homélie et à 230 en flash radio ○. Le débit, la densité d'accents et la longueur des pauses sont choisis par la situation, pas par le texte.

Ce constat ouvre une voie d'implémentation concrète. La littérature fournit des valeurs chiffrées pour la plupart de ces phénomènes, tandis que le moteur v45 dispose déjà des mécanismes fondamentaux — précalculateur, dette d'air, pitch-shift, lexique avec fréquences — nécessaires à l'implémentation d'une directive [intention=…].


Axe 1 — Taxonomie des situations de parole : chaque situation a une signature

Le fondement académique

La phonostylistique (Pierre R. Léon, Précis de phonostylistique : parole et expressivité, Nathan 1993) fournit précisément le cadre recherché ici : celui des « genres situationnels » de parole. Le sermon, le commentaire sportif et le langage adressé aux bébés possèdent chacun une signature phonique propre et reconnaissable (Persée, L'Information grammaticale n°70). La grille « situation → intention → réglages prosodiques » ne relève donc pas d'une intuition de développeur : elle s'inscrit dans un champ de recherche constitué.

Ce qui distingue les genres, mesurablement

Ce cadre devient opératoire lorsqu'on examine les paramètres qui différencient les situations de parole.

  • Information vs argumentation : dans le journal parlé professionnel, la variation prosodique sert principalement à focaliser l'information importante — pas à exprimer ✓. Dans l'interview politique, au contraire, la prosodie porte un large répertoire d'actes argumentatifs ✓ (Strangert, Interspeech 2005). Même voix, deux musiques : l'intention change tout.
  • Préparé vs spontané : Degand & Simon (2011) montrent que les genres se distinguent par leur unité de découpage. Discours académiques, politiques et homélies découpent par la syntaxe (style emphatique, didactique, préparé) ; narration conversationnelle et interview libre découpent par l'intonation ✓ (Organisation prosodique et style de parole en français parlé).
  • La formalité se mesure en densité d'accents : la proportion de syllabes proéminentes va de 25 % (discours rapide, informel) à 50 % (discours très formel à débit lent — l'exemple type étant le discours officiel de fête nationale, où chaque groupe de mots reçoit son accent) ✓. Journaux du matin : 27 % ; chroniqueurs France Info : 37 % ; titres : 35 % (Revue Corpus, UCLouvain).
  • Le style « annonceur » est une déformation professionnelle identifiée : suraccentuation des mots-outils (pronoms, prépositions) et accents d'insistance en rafale ✓ — au point que les chercheurs y voient un risque de contamination du français courant. À ne PAS imiter pour une lecture naturelle.

Application aux cas cités

Ces résultats permettent de caractériser concrètement chaque situation par son intention, son auditoire et sa signature prosodique.

Situation Intention dominante Rapport à l'auditoire Signature attendue
Avocat en plaidoirie convaincre (verdict) un jury à retourner découpage syntaxique, montée préparée, silences d'appui
Concours d'éloquence séduire + convaincre un jury qui note la forme amplitude maximale, pointes, silences théâtraux
Entretien d'embauche obtenir (être choisi) un évaluateur débit contenu, netteté, zéro théâtralité, disfluences contrôlées
Départ en retraite émouvoir + remercier des proches bienveillants tempo lent, chaleur, pauses de complicité, chute douce
Élève devant la maîtresse s'acquitter (être quitte) une autorité qui vérifie débit régulier, accents mécaniques — c'est justement le « mal lu »
Comédien incarner un public à embarquer le texte n'existe plus : découpage par l'intonation, comme le spontané
Conférence / cours transmettre un auditoire qui apprend accent « pédagogique », redites prosodiques, débit didactique (~130 mots/min ○)
JT / flash info informer vite des auditeurs pressés métronome ~200 mots/min ○, focus purement informatif ✓
Narration audiobook tenir en haleine un auditeur au long cours catégories pragmatiques stables (voir axe 2), variation de voice quality

Le « mal lu » de l'élève constitue, à cet égard, un cas particulièrement instructif : il s'agit d'une lecture sans enjeu vers l'auditoire, exactement semblable à celle que produit un TTS dépourvu de couche d'intention. L'élève et le moteur rencontrent la même difficulté : ils s'adressent au texte plutôt qu'à quelqu'un. Cette distinction conduit directement à la dynamique fondamentale du discours préparé, celle de la tension et du relâchement.


Axe 2 — La musique du discours : tension → relâche

L'héritage classique est étonnamment opérationnel

Cicéron (Orator, trad. fr.) fournit la première table « intention → réglage vocal » de l'histoire, dont les distinctions restent traduisibles en paramètres de synthèse.

  • Trois styles pour trois intentions : « Le simple est destiné à prouver ; le tempéré, à plaire ; le véhément, à émouvoir » ✓. C'est notre future directive [intention=] avec 2 000 ans d'antériorité.
  • La hiérarchie : « Il est nécessaire de prouver, doux de plaire : émouvoir, c'est vaincre » ✓.
  • La voix suit l'intention affichée, pas le texte : « une voix forte s'il est ému, douce s'il est calme, soutenue s'il est grave » ✓ — l'orateur module selon ce qu'il veut paraître, confirmation antique que la couche manquante n'est pas dans les mots.
  • La position dans le discours impose sa prosodie : exorde « modeste, sans ambition, sans enflure » (concilier l'auditoire), péroraison amplifiée qui « allume ou éteigne les passions » ✓. La montée en intensité et la chute finale sont des fonctions de la position, pas du contenu.

La structure de la phrase oratoire

La « période » cicéronienne (Bulletin Guillaume Budé, Persée) organise ainsi la phrase en protase — montée et mise sous tension — puis en apodose — descente et résolution —, avant de la refermer par des clausules rythmiques. La tension-relâche n'est donc pas un effet ajouté au discours : elle constitue la forme même de la phrase préparée. Cette structure invite cependant à distinguer l'organisation rhétorique générale des recettes acoustiques trop simples, notamment lorsqu'il s'agit de produire du suspense.

Le suspense n'est pas ce qu'on croit

L'affirmation selon laquelle « le suspense s'obtient en ralentissant et en baissant le volume » a été réfutée par notre vérification (2 votes contre 1). L'étude multi-langues sur la narration (Speech Communication) conduit à une analyse plus nuancée :

  • les narrateurs professionnels utilisent des catégories pragmatiques stables (neutre, descriptif, post-personnage, suspense, négatif/actif…) reproduites de façon cohérente en anglais, allemand, espagnol et français (2-1) ;
  • mais la qualité de voix (phonation) pèse autant que la prosodie (hauteur/intensité/tempo) pour distinguer ces catégories ✓ — un mode « narration » ne peut PAS reposer sur pitch/tempo seuls. Le souffle, le grain, la tension laryngée font la moitié du travail.

La conséquence pour le moteur est immédiate : les presets de voice quality — chuchotement, souffle, [fx=proche]… — ne sont pas de simples effets périphériques. Ils représentent la moitié de la panoplie narrative. L'autre moitié repose sur des paramètres temporels, au premier rang desquels figure le débit.


Axe 3 — Le tempo comme outil pragmatique : les chiffres

Débits mesurés en français

Le tempo signale la fonction du discours, l'autorité revendiquée et la valeur accordée à l'information. Les mesures françaises en précisent les ordres de grandeur.

Base articulatoire ✓ (Revue Corpus, UCLouvain) :

Débit Syllabes/seconde
Lent 3–4
Moyen 5–6
Rapide jusqu'à 9

Par situation ○ (Colas Rist, « 200 mots à la minute : le débit oral des médias », Communication et langages n°119, 1999, Persée) — chiffres sourcés mais non contre-vérifiés :

Situation Mots/minute
Homélie (prêtre, France Culture) 85
Chef de l'État s'adressant au pays (TV) 100 (120 en présence directe)
Présentatrice d'émission scientifique didactique 130 (en détachant les mots)
Expert interviewé, monologue 175
Expert en dialogue compétitif 185–200 (pointes > 200 sous attaque)
Présentateurs de JT (norme « métronomique ») ~200
Rédacteurs-reporters 210–220 (attaques à 230+)
Flashes radios jeunes (NRJ, Skyrock) 230
Titres de journaux jusqu'à 300+
Conversation courante librement de 100 à 400

La mise en regard de ces mesures fait apparaître deux enseignements majeurs :

  1. La lenteur code l'autorité et la solennité ○ : plus l'enjeu est grave et le locuteur légitime, plus il est lent (85–120). Plus l'information est jetable, plus c'est rapide (230–300). Le débit EST un message : « ce que je dis mérite votre temps ».
  2. La convergence professionnelle ✓ : deux journalistes testés partent de débits conversationnels différents et convergent tous deux vers ~6 syll/s à l'antenne (5,80 en moyenne corpus) — l'un ralentit, l'autre accélère. Le genre impose son tempo au locuteur, pas l'inverse.

Une nuance importante ○ doit néanmoins être apportée : contrairement à une idée reçue (Grosjean & Deschamps 1975), la lecture n'est PAS plus rapide que la conversation en français moderne — 197 ms/syllabe en lecture contre 189 en conversation (corpus study, ScienceDirect). Le débit moyen ne suffit donc pas à caractériser la qualité de l'énonciation ; sa distribution entre groupes de sens est tout aussi déterminante.

La saccade vs le suspens ○

Colas Rist formule ici une observation précieuse : à vitesse égale (130 mots/min), l'hésitation peut produire soit une « saccade » désagréable — souffle bridé, fragments de phrase secs —, soit un « suspens » captivant. Lorsque la voix reste ferme, projette les groupes de sens d'une seule volée et les sépare par des arrêts nets, les silences font attendre la suite au lieu de faire perdre le fil. La qualité ne dépend donc pas du tempo moyen, mais de la fermeté des groupes et de la netteté des arrêts. Le précalculateur v36-40 s'inscrit déjà dans cette direction ; il lui manque encore la dimension du « groupe de SENS ». Cette question du contrôle temporel conduit naturellement à celle des hésitations elles-mêmes, souvent traitées à tort comme de simples défauts.


Axe 4 — Disfluences : le « euh » est un signal, pas un bruit

Ce que dit la psycholinguistique

La psycholinguistique montre que les disfluences ne sont pas un résidu aléatoire : elles rendent perceptible le travail de planification du locuteur.

  • Clark & Fox Tree (2002, Using uh and um in spontaneous speaking) : « uh » et « um » sont des signaux collatéraux annonçant respectivement un délai court et un délai long de planification — le locuteur informe son auditeur qu'il réfléchit. Ce ne sont pas des scories.
  • Les deux ne sont pas interchangeables ○ : entendre « uh » améliore la reconnaissance des mots qui suivent immédiatement ; « um » n'a aucun effet mesurable. Un TTS conversationnel devrait donc utiliser « euh » (bref) comme annonce d'un mot important qui se cherche, pas comme décoration.
  • Fraundorf & Watson (PMC) : les fillers ont des effets mesurés sur l'attention et la mémorisation du discours.

Le chiffre qui tranche ○

La comparaison avec la lecture à voix haute confirme toutefois leur dépendance au genre discursif.

Dans les corpus français : 9,63 % des syllabes sont disfluentes en conversation spontanée, contre 0,55 % en lecture à voix haute (ScienceDirect). Ratio ~17:1.

La conséquence directe pour le moteur est claire : les disfluences sont un marqueur de genre spontané. En insérer dans une lecture d'article constituerait un contresens (0,55 % = quasi-zéro : la lecture naturelle n'en contient pas). En revanche, pour les intentions « conversation », « confidence », « témoignage » ou « interview », c'est précisément leur absence qui produit une impression d'artificialité. Les TTS conversationnels récents (NotebookLM, ElevenLabs v3) en insèrent pour cette raison.

Règle d'usage par intention

Leur intégration doit donc dépendre de l'intention et du degré de préparation du locuteur.

Intention Disfluences
Plaidoirie, éloquence, JT, narration Jamais (l'hésitation décrédibilise l'expert préparé)
Conférence, cours Rares, aux transitions (« alors… »)
Interview, témoignage, confidence Oui — « euh » bref avant les mots pleins, ~5-8 % des groupes
Expert qui réfléchit en direct Le « heu » + relances signale compétence et implication ○ (Colas Rist)

Axe 5 — La « compréhension audible » : le cœur du problème

Cet axe répond directement au diagnostic initial : « on sent que le lecteur ne comprend pas ce qu'il lit ». Il ne s'agit plus seulement de produire une parole fluide ou crédible, mais de rendre audible la hiérarchie informationnelle que construit un lecteur humain.

Ce qui, acoustiquement, prouve la compréhension

Acoustiquement, cette compréhension ne tient pas à un surcroît général d'expressivité, mais à une sélection entre éléments saillants et éléments effacés.

  1. Le focus prosodique : en français, le focus (l'information que le locuteur veut faire porter) se marque par un contour montant plus haut et aligné plus tard que l'accent final ordinaire, avec compression du registre avant le focus et effacement mélodique après (Frontiers in Psychology 2024). Comprendre un texte, c'est savoir quel mot est l'information — et l'entourer de sobriété pour qu'il ressorte.
  2. L'accent initial « pédagogique » ✓ : très présent dans le discours politique et journalistique ; chez un lecteur-penseur (l'étude analyse Roland Barthes lisant), il est rare et réservé aux concepts à mettre en exergue. Sa parcimonie est la marque du lecteur qui comprend : accentuer peu, mais juste.
  3. Les frontières majeures sont franches ✓ (Degand & Simon) : une frontière d'unité intonative majeure = pause ≥ 200 ms, OU allongement de la syllabe finale à 3× la durée moyenne, OU montée de 5 à 10 demi-tons. Les frontières mineures n'ont rien de tout ça. Le lecteur qui comprend hiérarchise ses frontières ; le mauvais lecteur les fait toutes pareilles.
  4. Information nouvelle vs donnée : la théorie du focus repose sur ce contraste — on met en relief ce que l'auditeur ne sait pas encore, on efface ce qui a déjà été dit. Un mot répété se prononce plus vite et plus bas que sa première occurrence.

Le diagnostic du moteur v45

Le moteur construit des groupes de souffle, donc physiologiques, mais pas encore de groupes de sens. Il hiérarchise les pauses, mais ne dispose d'aucun focus : toutes les syllabes accentuées se valent, aucun mot n'est véritablement mis en exergue et l'information nouvelle ne se distingue pas de l'information connue. On retrouve exactement la lecture de l'élève devant la maîtresse : chaque mot reçoit le même soin et, par conséquent, aucun ne compte réellement. Ce diagnostic permet désormais de convertir les observations précédentes en profils prosodiques cohérents.


Table de synthèse : intention → réglages prosodiques

La table suivante propose des profils destinés à une future directive [intention=…]. Les valeurs, dérivées des mesures présentées plus haut, devront être validées à l'oreille ; la base actuelle du moteur — vitesse 1.2 — correspond approximativement à un débit de lecture standard.

Profil Débit cible Pauses (vs actuel) Proéminences Silences stratégiques Disfluences Qualité de voix
plaidoirie lent → accélérations (100→180) ×1.5, franches 40 % , focus fort avant ET après les pointes non pleine, projetée
eloquence très contrasté (90→200) ×1.8, théâtrales 45 %, accents initiaux longs (jusqu'à 2 s) non ample
solennel (vœux, hommage officiel) 100 ×2 50 % (chaque groupe) après chaque idée non grave, posée
retraite (pot de départ) 120 ×1.4, chaleureuses 30 % avant les noms propres, les souvenirs quelques-unes chaude, souriante
entretien 150–175 ×1, nettes 30 % rares contrôlées claire, ferme
didactique (cours, tuto) 130, mots détachés ×1.3 37 %, accent pédagogique après chaque notion transitions claire
information (JT) 200, métronome ×0.8, régulières 27 %, focus informatif seul aucun non neutre pro
narration (fiction, audiobook) 140–160, variable par scène ×1.2 30 %, focus narratif avant les révélations non variable (voice quality = 50 % de l'effet ✓)
confidence 110–130 ×1.5, proches 25 % suspens oui (euh ~5 %) souffle, proche
conversation libre 100–400 intonatives 25 % non planifiés oui (~9 %) détendue

Implications pour le moteur v45 et SSM

Ces données invitent moins à remplacer l'architecture qu'à mieux piloter ses mécanismes. Il faut dès lors distinguer les composants réutilisables des développements exigeant une analyse sémantique ou acoustique plus élaborée.

Ce que le moteur a déjà (à réutiliser)

Mécanisme existant Sert pour
Précalculateur de pauses + dette d'air (v36-40) moduler densité/durée des pauses par profil (un seul jeu de constantes à paramétrer par intention)
_HEADING_SPEED, speed, [vitesse=] débit de base par profil
_pitch_shift (spans bornés), [ton±N] matière première du focus (montée sur mot porteur)
_PUNCT_PAUSE, LONG_PAUSE_FACTOR silences stratégiques (nouvelle classe de pause, plus longue que la respiration)
lexicon.db avec fréquences Lexique détection automatique de l'information nouvelle : un mot RARE (basse fréquence) = candidat au focus
Presets voice quality ([chuchote], [fx=proche], whisper_lab) la moitié de l'effet narration ✓
Proportion de proéminences non pilotée aujourd'hui — Piper décide seul ; levier = accents d'insistance ajoutés

Recommandations priorisées

L'ordre proposé privilégie les réglages paramétriques avant la détection automatique du focus et la modélisation de l'arc discursif.

Quick wins (jours) :

  1. Silence stratégique : nouvelle directive [silence] (≈ 800 ms – 2 s, sans jitter, SANS reset du compteur d'expiration — ce n'est pas une respiration) + règle auto « pause avant guillemet ouvrant / avant la dernière phrase d'un bloc en profil oratoire ».
  2. Directive [intention=X] en tête de document : un profil = un jeu de constantes (vitesse de base, multiplicateurs de _PUNCT_PAUSE, seuils du précalculateur, LONG_PAUSE_FACTOR). Zéro nouveau mécanisme : que du paramétrage de l'existant.

Chantier moyen (semaines) :

  1. Focus prosodique automatique — la vraie réponse au « il ne comprend pas » : repérer 1 mot porteur par groupe de sens (heuristique : mot lexical le plus RARE du groupe via les fréquences de lexicon.db, jamais un mot déjà apparu dans le paragraphe) et lui appliquer la recette Frontiers : léger allongement + montée tardive + effacement post-focal (les mots suivants un peu plus bas/rapides). Parcimonie stricte (modèle Barthes ✓) : au plus 1 focus par phrase, seulement si le contraste de fréquence est net.
  2. Hiérarchie de frontières : distinguer frontière majeure (pause ≥ 200 ms + allongement ×3 OU montée 5-10 st ✓) et mineure (rien de tout ça) — aujourd'hui le moteur produit surtout des frontières « moyennes » uniformes.

Long terme :

  1. Disfluences optionnelles ([intention=confidence] seulement) : « euh » bref avant mots pleins, ~5 % des groupes — jamais en lecture (0,55 % dans la vraie vie ○).
  2. Arc de discours : en profil oratoire, moduler l'intensité par position dans le document (exorde sobre → péroraison ample ✓) — le moteur connaît déjà la structure des blocs Markdown.

Ce qu'il ne faut PAS faire

Ces pistes imposent enfin plusieurs limites : certaines recettes intuitives contredisent les données ou mélangent les genres discursifs.

  • Ne pas imiter le style « annonceur » (suraccentuation des mots-outils ✓ — c'est identifié comme une déformation).
  • Ne pas faire du suspense en ralentissant/baissant mécaniquement (réfuté ✗) — sans variation de qualité de voix, ça ne marche pas.
  • Ne pas saupoudrer de « euh » une lecture d'article (contresens de genre, ratio réel 17:1 ○).
  • Ne pas multiplier les focus : l'étude Barthes ✓ montre que la parcimonie EST le signal d'intelligence.

Où en est le moteur depuis ce rapport

Le silence stratégique ([silence], distinct de la respiration) a été implémenté dans la foulée. Le focus prosodique automatique a été prototypé, écouté… puis désactivé par défaut : sans alignement phonétique exposé par le modèle, la localisation du mot focal dans l'audio restait trop approximative et la découpe s'entendait. La recherche continue — c'est exactement le rôle de ce genre de rapport : dire où aller, et l'oreille décide du rythme.


Sources

Vérifiées et exploitées :

Sourcées, non contre-vérifiées (limite d'audit) :