---
title: La musique du discours : l'intention avant l'émotion
source: https://synapx.fr/blog/la-musique-du-discours/
date: 2026-07-03
category: IA
site: SynapxLab
---

# La musique du discours : l'intention avant l'émotion

Notre moteur de synthèse vocale lisait correctement : les pauses tombaient au bon endroit, les liaisons étaient justes, les phrases s'enchaînaient sans heurt. Pourtant, à l'écoute, une faille demeurait perceptible : *on sentait que le lecteur ne comprenait pas ce qu'il lisait*. C'est cette couche manquante que le présent dossier cherche à cerner, en croisant les apports de la rhétorique classique, de la phonostylistique et de la psycholinguistique. Ce travail de recherche guide aujourd'hui l'évolution du moteur de lecture audio de [markdown.synapx.fr](https://markdown.synapx.fr/). Nous le publions ici dans son intégralité, sources à l'appui, car ses conclusions dépassent notre seul cas d'usage et concernent tout moteur de synthèse vocale.

Légende des sources : **✓** affirmation vérifiée par 3 relectures adversariales indépendantes · **○** sourcée mais non contre-vérifiée · **✗** réfutée par la vérification.

---

## Résumé exécutif

Le moteur v45 lit *correctement* : ses pauses suivent le rythme de la respiration, ses liaisons sont celles d'un locuteur adulte et ses phrases s'enchaînent avec continuité. La littérature converge toutefois vers un constat décisif : **ce qui distingue un lecteur qui comprend d'une machine qui lit, ce n'est pas l'émotion, c'est l'intention**. Or cette intention se manifeste par trois dimensions que le moteur ne maîtrise pas encore :

1. **Le focus prosodique** : mettre en relief les mots *porteurs d'information nouvelle* (accent d'insistance, accent initial « pédagogique », allongement) et effacer le reste. Un présentateur de JT ne fait QUE ça — sa prosodie est informative, pas expressive ✓.
2. **Le silence stratégique** : la pause rhétorique n'est pas une respiration — elle se place *avant la pointe* (créer l'attente) ou *après l'idée forte* (laisser infuser). Le moteur ne connaît que la pause physiologique.
3. **Le profil d'intention global** : un même texte se lit à 85 mots/min en homélie et à 230 en flash radio ○. Le débit, la densité d'accents et la longueur des pauses sont *choisis par la situation*, pas par le texte.

Ce constat ouvre une voie d'implémentation concrète. La littérature fournit des **valeurs chiffrées** pour la plupart de ces phénomènes, tandis que le moteur v45 dispose déjà des mécanismes fondamentaux — précalculateur, dette d'air, pitch-shift, lexique avec fréquences — nécessaires à l'implémentation d'une directive `[intention=…]`.

---

## Axe 1 — Taxonomie des situations de parole : chaque situation a une signature

### Le fondement académique

La **phonostylistique** (Pierre R. Léon, *Précis de phonostylistique : parole et expressivité*, Nathan 1993) fournit précisément le cadre recherché ici : celui des « **genres situationnels** » de parole. Le sermon, le commentaire sportif et le langage adressé aux bébés possèdent chacun une signature phonique propre et reconnaissable **✓** ([Persée, L'Information grammaticale n°70](https://www.persee.fr/doc/igram_0222-9838_1996_num_70_1_2986)). La grille « situation → intention → réglages prosodiques » ne relève donc pas d'une intuition de développeur : elle s'inscrit dans un champ de recherche constitué.

### Ce qui distingue les genres, mesurablement

Ce cadre devient opératoire lorsqu'on examine les paramètres qui différencient les situations de parole.

- **Information vs argumentation** : dans le journal parlé professionnel, la variation prosodique sert *principalement à focaliser l'information importante* — pas à exprimer ✓. Dans l'interview politique, au contraire, la prosodie porte un large répertoire d'*actes argumentatifs* ✓ ([Strangert, Interspeech 2005](https://www.isca-archive.org/interspeech_2005/strangert05_interspeech.html)). Même voix, deux musiques : l'intention change tout.
- **Préparé vs spontané** : Degand & Simon (2011) montrent que les genres se distinguent par leur unité de découpage. Discours académiques, politiques et homélies découpent par la **syntaxe** (style emphatique, didactique, préparé) ; narration conversationnelle et interview libre découpent par l'**intonation** ✓ ([Organisation prosodique et style de parole en français parlé](https://www.researchgate.net/publication/344534791_Organisation_prosodique_et_style_de_parole_en_francais_parle)).
- **La formalité se mesure en densité d'accents** : la proportion de syllabes proéminentes va de **25 % (discours rapide, informel) à 50 % (discours très formel à débit lent** — l'exemple type étant le discours officiel de fête nationale, où chaque groupe de mots reçoit son accent) ✓. Journaux du matin : 27 % ; chroniqueurs France Info : 37 % ; titres : 35 % ([Revue Corpus, UCLouvain](https://ojs.uclouvain.be/index.php/rec/article/download/50743/48943/74933)).
- **Le style « annonceur » est une déformation professionnelle identifiée** : suraccentuation des mots-outils (pronoms, prépositions) et accents d'insistance en rafale ✓ — au point que les chercheurs y voient un risque de contamination du français courant. À ne PAS imiter pour une lecture naturelle.

### Application aux cas cités

Ces résultats permettent de caractériser concrètement chaque situation par son intention, son auditoire et sa signature prosodique.

| Situation | Intention dominante | Rapport à l'auditoire | Signature attendue |
|---|---|---|---|
| Avocat en plaidoirie | convaincre (verdict) | un jury à retourner | découpage syntaxique, montée préparée, silences d'appui |
| Concours d'éloquence | séduire + convaincre | un jury qui note la forme | amplitude maximale, pointes, silences théâtraux |
| Entretien d'embauche | obtenir (être choisi) | un évaluateur | débit contenu, netteté, zéro théâtralité, disfluences contrôlées |
| Départ en retraite | émouvoir + remercier | des proches bienveillants | tempo lent, chaleur, pauses de complicité, chute douce |
| Élève devant la maîtresse | s'acquitter (être quitte) | une autorité qui vérifie | débit régulier, accents mécaniques — c'est justement le « mal lu » |
| Comédien | incarner | un public à embarquer | le texte n'existe plus : découpage par l'intonation, comme le spontané |
| Conférence / cours | transmettre | un auditoire qui apprend | accent « pédagogique », redites prosodiques, débit didactique (~130 mots/min ○) |
| JT / flash info | informer vite | des auditeurs pressés | métronome ~200 mots/min ○, focus purement informatif ✓ |
| Narration audiobook | tenir en haleine | un auditeur au long cours | catégories pragmatiques stables (voir axe 2), variation de *voice quality* ✓ |

Le « mal lu » de l'élève constitue, à cet égard, un cas particulièrement instructif : il s'agit d'une lecture **sans enjeu vers l'auditoire**, exactement semblable à celle que produit un TTS dépourvu de couche d'intention. L'élève et le moteur rencontrent la même difficulté : ils s'adressent au texte plutôt qu'à quelqu'un. Cette distinction conduit directement à la dynamique fondamentale du discours préparé, celle de la tension et du relâchement.

---

## Axe 2 — La musique du discours : tension → relâche

### L'héritage classique est étonnamment opérationnel

Cicéron (*Orator*, [trad. fr.](https://mediterranees.net/art_antique/rhetorique/ciceron/orator.html)) fournit la première table « intention → réglage vocal » de l'histoire, dont les distinctions restent traduisibles en paramètres de synthèse.

- **Trois styles pour trois intentions** : « Le simple est destiné à **prouver** ; le tempéré, à **plaire** ; le véhément, à **émouvoir** » ✓. C'est notre future directive `[intention=]` avec 2 000 ans d'antériorité.
- **La hiérarchie** : « Il est nécessaire de prouver, doux de plaire : **émouvoir, c'est vaincre** » ✓.
- **La voix suit l'intention affichée, pas le texte** : « une voix forte s'il est ému, douce s'il est calme, soutenue s'il est grave » ✓ — l'orateur module selon ce qu'il *veut paraître*, confirmation antique que la couche manquante n'est pas dans les mots.
- **La position dans le discours impose sa prosodie** : exorde « modeste, sans ambition, sans enflure » (concilier l'auditoire), péroraison amplifiée qui « allume ou éteigne les passions » ✓. La montée en intensité et la chute finale sont des **fonctions de la position**, pas du contenu.

### La structure de la phrase oratoire

La « période » cicéronienne (Bulletin Guillaume Budé, [Persée](https://www.persee.fr/doc/bude_0004-5527_1927_num_14_1_6432)) organise ainsi la phrase en protase — montée et mise sous tension — puis en apodose — descente et résolution —, avant de la refermer par des clausules rythmiques. La tension-relâche n'est donc pas un effet ajouté au discours : elle constitue la **forme même de la phrase préparée**. Cette structure invite cependant à distinguer l'organisation rhétorique générale des recettes acoustiques trop simples, notamment lorsqu'il s'agit de produire du suspense.

### Le suspense n'est pas ce qu'on croit **✗**

L'affirmation selon laquelle « le suspense s'obtient en ralentissant et en baissant le volume » a été **réfutée** par notre vérification (2 votes contre 1). L'étude multi-langues sur la narration ([Speech Communication](https://www.sciencedirect.com/science/article/abs/pii/S0167639315300418)) conduit à une analyse plus nuancée :

- les narrateurs professionnels utilisent des **catégories pragmatiques stables** (neutre, descriptif, post-personnage, suspense, négatif/actif…) reproduites de façon cohérente en anglais, allemand, espagnol et français (2-1) ;
- mais la **qualité de voix (phonation) pèse autant que la prosodie** (hauteur/intensité/tempo) pour distinguer ces catégories ✓ — un mode « narration » ne peut PAS reposer sur pitch/tempo seuls. Le souffle, le grain, la tension laryngée font la moitié du travail.

La conséquence pour le moteur est immédiate : les presets de *voice quality* — chuchotement, souffle, `[fx=proche]`… — ne sont pas de simples effets périphériques. Ils représentent la moitié de la panoplie narrative. L'autre moitié repose sur des paramètres temporels, au premier rang desquels figure le débit.

---

## Axe 3 — Le tempo comme outil pragmatique : les chiffres

### Débits mesurés en français

Le tempo signale la fonction du discours, l'autorité revendiquée et la valeur accordée à l'information. Les mesures françaises en précisent les ordres de grandeur.

**Base articulatoire** ✓ ([Revue Corpus, UCLouvain](https://ojs.uclouvain.be/index.php/rec/article/download/50743/48943/74933)) :

| Débit | Syllabes/seconde |
|---|---|
| Lent | 3–4 |
| Moyen | 5–6 |
| Rapide | jusqu'à 9 |

**Par situation** ○ (Colas Rist, « 200 mots à la minute : le débit oral des médias », *Communication et langages* n°119, 1999, [Persée](https://www.persee.fr/doc/colan_0336-1500_1999_num_119_1_2909)) — chiffres sourcés mais non contre-vérifiés :

| Situation | Mots/minute |
|---|---|
| Homélie (prêtre, France Culture) | **85** |
| Chef de l'État s'adressant au pays (TV) | **100** (120 en présence directe) |
| Présentatrice d'émission scientifique didactique | **130** (en détachant les mots) |
| Expert interviewé, monologue | **175** |
| Expert en dialogue compétitif | 185–200 (pointes > 200 sous attaque) |
| Présentateurs de JT (norme « métronomique ») | **~200** |
| Rédacteurs-reporters | 210–220 (attaques à 230+) |
| Flashes radios jeunes (NRJ, Skyrock) | **230** |
| Titres de journaux | **jusqu'à 300+** |
| Conversation courante | librement de **100 à 400** |

La mise en regard de ces mesures fait apparaître deux enseignements majeurs :

1. **La lenteur code l'autorité et la solennité** ○ : plus l'enjeu est grave et le locuteur légitime, plus il est lent (85–120). Plus l'information est jetable, plus c'est rapide (230–300). Le débit EST un message : « ce que je dis mérite votre temps ».
2. **La convergence professionnelle** ✓ : deux journalistes testés partent de débits conversationnels différents et convergent tous deux vers ~6 syll/s à l'antenne (5,80 en moyenne corpus) — l'un ralentit, l'autre accélère. Le genre impose son tempo au locuteur, pas l'inverse.

Une **nuance importante** ○ doit néanmoins être apportée : contrairement à une idée reçue (Grosjean & Deschamps 1975), la lecture n'est PAS plus rapide que la conversation en français moderne — 197 ms/syllabe en lecture contre 189 en conversation ([corpus study, ScienceDirect](https://www.sciencedirect.com/science/article/abs/pii/S0095447014000849)). Le débit moyen ne suffit donc pas à caractériser la qualité de l'énonciation ; sa distribution entre groupes de sens est tout aussi déterminante.

### La saccade vs le suspens ○

Colas Rist formule ici une observation précieuse : **à vitesse égale (130 mots/min)**, l'hésitation peut produire soit une « saccade » désagréable — souffle bridé, fragments de phrase secs —, soit un « suspens » captivant. Lorsque la voix reste ferme, projette les **groupes de sens d'une seule volée** et les sépare par des arrêts nets, les silences *font attendre la suite* au lieu de faire perdre le fil. La qualité ne dépend donc pas du tempo moyen, mais de la fermeté des groupes et de la netteté des arrêts. Le précalculateur v36-40 s'inscrit déjà dans cette direction ; il lui manque encore la dimension du « groupe de SENS ». Cette question du contrôle temporel conduit naturellement à celle des hésitations elles-mêmes, souvent traitées à tort comme de simples défauts.

---

## Axe 4 — Disfluences : le « euh » est un signal, pas un bruit

### Ce que dit la psycholinguistique

La psycholinguistique montre que les disfluences ne sont pas un résidu aléatoire : elles rendent perceptible le travail de planification du locuteur.

- Clark & Fox Tree (2002, [Using uh and um in spontaneous speaking](https://www.researchgate.net/publication/11985897_Listeners'_uses_of_um_and_uh_in_speech_comprehension)) : « uh » et « um » sont des **signaux collatéraux** annonçant respectivement un délai court et un délai long de planification — le locuteur *informe* son auditeur qu'il réfléchit. Ce ne sont pas des scories.
- **Les deux ne sont pas interchangeables** ○ : entendre « uh » améliore la reconnaissance des mots qui suivent immédiatement ; « um » n'a aucun effet mesurable. Un TTS conversationnel devrait donc utiliser « euh » (bref) comme *annonce d'un mot important qui se cherche*, pas comme décoration.
- Fraundorf & Watson ([PMC](https://pmc.ncbi.nlm.nih.gov/articles/PMC3134332/)) : les fillers ont des effets mesurés sur l'attention et la mémorisation du discours.

### Le chiffre qui tranche ○

La comparaison avec la lecture à voix haute confirme toutefois leur dépendance au genre discursif.

Dans les corpus français : **9,63 % des syllabes sont disfluentes en conversation spontanée, contre 0,55 % en lecture à voix haute** ([ScienceDirect](https://www.sciencedirect.com/science/article/abs/pii/S0095447014000849)). Ratio ~17:1.

La **conséquence directe pour le moteur** est claire : les disfluences sont un marqueur de *genre spontané*. En insérer dans une lecture d'article constituerait un contresens (0,55 % = quasi-zéro : la lecture naturelle n'en contient pas). En revanche, pour les intentions « conversation », « confidence », « témoignage » ou « interview », c'est précisément leur absence qui produit une impression d'artificialité. Les TTS conversationnels récents (NotebookLM, ElevenLabs v3) en insèrent pour cette raison.

### Règle d'usage par intention

Leur intégration doit donc dépendre de l'intention et du degré de préparation du locuteur.

| Intention | Disfluences |
|---|---|
| Plaidoirie, éloquence, JT, narration | **Jamais** (l'hésitation décrédibilise l'expert préparé) |
| Conférence, cours | Rares, aux transitions (« alors… ») |
| Interview, témoignage, confidence | Oui — « euh » bref avant les mots pleins, ~5-8 % des groupes |
| Expert qui réfléchit en direct | Le « heu » + relances signale compétence et implication ○ (Colas Rist) |

---

## Axe 5 — La « compréhension audible » : le cœur du problème

Cet axe répond directement au diagnostic initial : « on sent que le lecteur ne comprend pas ce qu'il lit ». Il ne s'agit plus seulement de produire une parole fluide ou crédible, mais de rendre audible la hiérarchie informationnelle que construit un lecteur humain.

### Ce qui, acoustiquement, prouve la compréhension

Acoustiquement, cette compréhension ne tient pas à un surcroît général d'expressivité, mais à une sélection entre éléments saillants et éléments effacés.

1. **Le focus prosodique** : en français, le focus (l'information que le locuteur veut faire porter) se marque par un contour montant **plus haut et aligné plus tard** que l'accent final ordinaire, avec **compression du registre avant le focus et effacement mélodique après** ([Frontiers in Psychology 2024](https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2024.1360308/full)). Comprendre un texte, c'est savoir *quel mot est l'information* — et l'entourer de sobriété pour qu'il ressorte.
2. **L'accent initial « pédagogique »** ✓ : très présent dans le discours politique et journalistique ; chez un lecteur-penseur (l'étude analyse Roland Barthes lisant), il est **rare et réservé aux concepts à mettre en exergue**. Sa parcimonie est la marque du lecteur qui comprend : accentuer peu, mais juste.
3. **Les frontières majeures sont franches** ✓ (Degand & Simon) : une frontière d'unité intonative majeure = pause ≥ **200 ms**, OU allongement de la syllabe finale à **3× la durée moyenne**, OU montée de **5 à 10 demi-tons**. Les frontières mineures n'ont rien de tout ça. Le lecteur qui comprend hiérarchise ses frontières ; le mauvais lecteur les fait toutes pareilles.
4. **Information nouvelle vs donnée** : la théorie du focus repose sur ce contraste — on met en relief ce que l'auditeur ne sait pas encore, on efface ce qui a déjà été dit. Un mot répété se prononce plus vite et plus bas que sa première occurrence.

### Le diagnostic du moteur v45

Le moteur construit des groupes de **souffle**, donc physiologiques, mais pas encore de groupes de **sens**. Il hiérarchise les pauses, mais ne dispose d'**aucun focus** : toutes les syllabes accentuées se valent, aucun mot n'est véritablement mis en exergue et l'information nouvelle ne se distingue pas de l'information connue. On retrouve exactement la lecture de l'élève devant la maîtresse : chaque mot reçoit le même soin et, par conséquent, aucun ne compte réellement. Ce diagnostic permet désormais de convertir les observations précédentes en profils prosodiques cohérents.

---

## Table de synthèse : intention → réglages prosodiques

La table suivante propose des profils destinés à une future directive `[intention=…]`. Les valeurs, dérivées des mesures présentées plus haut, devront être validées à l'oreille ; la base actuelle du moteur — vitesse 1.2 — correspond approximativement à un débit de lecture standard.

| Profil | Débit cible | Pauses (vs actuel) | Proéminences | Silences stratégiques | Disfluences | Qualité de voix |
|---|---|---|---|---|---|---|
| `plaidoirie` | lent → accélérations (100→180) | ×1.5, franches | 40 % , focus fort | avant ET après les pointes | non | pleine, projetée |
| `eloquence` | très contrasté (90→200) | ×1.8, théâtrales | 45 %, accents initiaux | longs (jusqu'à 2 s) | non | ample |
| `solennel` (vœux, hommage officiel) | 100 | ×2 | 50 % (chaque groupe) | après chaque idée | non | grave, posée |
| `retraite` (pot de départ) | 120 | ×1.4, chaleureuses | 30 % | avant les noms propres, les souvenirs | quelques-unes | chaude, souriante |
| `entretien` | 150–175 | ×1, nettes | 30 % | rares | contrôlées | claire, ferme |
| `didactique` (cours, tuto) | 130, mots détachés | ×1.3 | 37 %, accent pédagogique | après chaque notion | transitions | claire |
| `information` (JT) | 200, métronome | ×0.8, régulières | 27 %, focus informatif seul | aucun | non | neutre pro |
| `narration` (fiction, audiobook) | 140–160, variable par scène | ×1.2 | 30 %, focus narratif | avant les révélations | non | **variable** (voice quality = 50 % de l'effet ✓) |
| `confidence` | 110–130 | ×1.5, proches | 25 % | suspens | oui (euh ~5 %) | souffle, proche |
| `conversation` | libre 100–400 | intonatives | 25 % | non planifiés | oui (~9 %) | détendue |

---

## Implications pour le moteur v45 et SSM

Ces données invitent moins à remplacer l'architecture qu'à mieux piloter ses mécanismes. Il faut dès lors distinguer les composants réutilisables des développements exigeant une analyse sémantique ou acoustique plus élaborée.

### Ce que le moteur a déjà (à réutiliser)

| Mécanisme existant | Sert pour |
|---|---|
| Précalculateur de pauses + dette d'air (v36-40) | moduler densité/durée des pauses par profil (un seul jeu de constantes à paramétrer par intention) |
| `_HEADING_SPEED`, `speed`, `[vitesse=]` | débit de base par profil |
| `_pitch_shift` (spans bornés), `[ton±N]` | matière première du focus (montée sur mot porteur) |
| `_PUNCT_PAUSE`, `LONG_PAUSE_FACTOR` | silences stratégiques (nouvelle classe de pause, plus longue que la respiration) |
| `lexicon.db` avec **fréquences Lexique** | détection automatique de l'information nouvelle : un mot RARE (basse fréquence) = candidat au focus |
| Presets voice quality (`[chuchote]`, `[fx=proche]`, whisper_lab) | la moitié de l'effet narration ✓ |
| Proportion de proéminences | non pilotée aujourd'hui — Piper décide seul ; levier = accents d'insistance ajoutés |

### Recommandations priorisées

L'ordre proposé privilégie les réglages paramétriques avant la détection automatique du focus et la modélisation de l'arc discursif.

**Quick wins (jours) :**
1. **Silence stratégique** : nouvelle directive `[silence]` (≈ 800 ms – 2 s, sans jitter, SANS reset du compteur d'expiration — ce n'est pas une respiration) + règle auto « pause avant guillemet ouvrant / avant la dernière phrase d'un bloc en profil oratoire ».
2. **Directive `[intention=X]`** en tête de document : un profil = un jeu de constantes (vitesse de base, multiplicateurs de `_PUNCT_PAUSE`, seuils du précalculateur, LONG_PAUSE_FACTOR). Zéro nouveau mécanisme : que du paramétrage de l'existant.

**Chantier moyen (semaines) :**
3. **Focus prosodique automatique** — la vraie réponse au « il ne comprend pas » : repérer 1 mot porteur par groupe de sens (heuristique : mot lexical le plus RARE du groupe via les fréquences de `lexicon.db`, jamais un mot déjà apparu dans le paragraphe) et lui appliquer la recette Frontiers : léger allongement + montée tardive + effacement post-focal (les mots suivants un peu plus bas/rapides). Parcimonie stricte (modèle Barthes ✓) : au plus 1 focus par phrase, seulement si le contraste de fréquence est net.
4. **Hiérarchie de frontières** : distinguer frontière majeure (pause ≥ 200 ms + allongement ×3 OU montée 5-10 st ✓) et mineure (rien de tout ça) — aujourd'hui le moteur produit surtout des frontières « moyennes » uniformes.

**Long terme :**
5. **Disfluences optionnelles** (`[intention=confidence]` seulement) : « euh » bref avant mots pleins, ~5 % des groupes — jamais en lecture (0,55 % dans la vraie vie ○).
6. **Arc de discours** : en profil oratoire, moduler l'intensité par position dans le document (exorde sobre → péroraison ample ✓) — le moteur connaît déjà la structure des blocs Markdown.

### Ce qu'il ne faut PAS faire

Ces pistes imposent enfin plusieurs limites : certaines recettes intuitives contredisent les données ou mélangent les genres discursifs.

- Ne pas imiter le style « annonceur » (suraccentuation des mots-outils ✓ — c'est identifié comme une déformation).
- Ne pas faire du suspense en ralentissant/baissant mécaniquement (**réfuté ✗**) — sans variation de qualité de voix, ça ne marche pas.
- Ne pas saupoudrer de « euh » une lecture d'article (contresens de genre, ratio réel 17:1 ○).
- Ne pas multiplier les focus : l'étude Barthes ✓ montre que la parcimonie EST le signal d'intelligence.

### Où en est le moteur depuis ce rapport

Le silence stratégique (`[silence]`, distinct de la respiration) a été implémenté dans la foulée. Le focus prosodique automatique a été prototypé, écouté… puis désactivé par défaut : sans alignement phonétique exposé par le modèle, la localisation du mot focal dans l'audio restait trop approximative et la découpe s'entendait. La recherche continue — c'est exactement le rôle de ce genre de rapport : dire où aller, et l'oreille décide du rythme.

---

## Sources

**Vérifiées et exploitées :**
- Léon, P. R., *Précis de phonostylistique : parole et expressivité*, Nathan, 1993 — via [compte rendu, L'Information grammaticale n°70, Persée](https://www.persee.fr/doc/igram_0222-9838_1996_num_70_1_2986)
- Degand & Simon (2011), via [« Organisation prosodique et style de parole en français parlé », ResearchGate](https://www.researchgate.net/publication/344534791_Organisation_prosodique_et_style_de_parole_en_francais_parle)
- Strangert, E., [« Prosody in public speech », Interspeech 2005](https://www.isca-archive.org/interspeech_2005/strangert05_interspeech.html)
- [Revue Corpus (UCLouvain) — débit d'articulation et proéminences en français](https://ojs.uclouvain.be/index.php/rec/article/download/50743/48943/74933)
- Cicéron, *Orator* — [traduction française intégrale](https://mediterranees.net/art_antique/rhetorique/ciceron/orator.html) ; [Le rythme oratoire de Cicéron, Bull. Guillaume Budé 1927, Persée](https://www.persee.fr/doc/bude_0004-5527_1927_num_14_1_6432)
- [Storytelling expressive categories across 4 languages, Speech Communication](https://www.sciencedirect.com/science/article/abs/pii/S0167639315300418)
- [Prosodic focus marking in French, Frontiers in Psychology 2024](https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2024.1360308/full)

**Sourcées, non contre-vérifiées (limite d'audit) :**
- Colas Rist, [« 200 mots à la minute : le débit oral des médias », Communication et langages n°119, 1999, Persée](https://www.persee.fr/doc/colan_0336-1500_1999_num_119_1_2909)
- Clark & Fox Tree (2002), [Using uh and um / listeners' uses, ResearchGate](https://www.researchgate.net/publication/11985897_Listeners'_uses_of_um_and_uh_in_speech_comprehension) ; [Fraundorf & Watson, PMC](https://pmc.ncbi.nlm.nih.gov/articles/PMC3134332/)
- [Articulation rate & disfluencies, conversation vs reading in French, ScienceDirect](https://www.sciencedirect.com/science/article/abs/pii/S0095447014000849)