Donner une voix humaine à la machine : synthèse vocale locale et souveraine

Au début, la machine parlait. Sur le plan technique, le contrat était rempli : je lui donnais un texte, elle me rendait un fichier audio. Les phrases étaient compréhensibles, les mots correctement prononcés et la voix française immédiatement reconnaissable. Pourtant, après quelques secondes, la mécanique se révélait. Le débit paraissait trop assuré, le volume cognait sur certains mots et chaque pause tombait avec la régularité d'un métronome. La voix ne lisait pas vraiment : elle déroulait.

J'aurais pu connecter une API de synthèse vocale dans le cloud. Google Cloud Text-to-Speech, Amazon Polly ou Azure produisent des voix très abouties. Quelques lignes d'intégration, un abonnement, et le problème semblait résolu. Mais cette simplicité a un prix : le texte transite par une infrastructure tierce, le moteur demeure opaque et l'usage dépend d'un service loué. Lorsqu'il s'agit de lire un document interne, une note juridique, un manuscrit ou des données personnelles, ce détour est loin d'être anodin.

J'ai donc choisi une autre voie : construire une voix de synthèse française sur une infrastructure que je maîtrise, à partir de composants open source, puis façonner sa respiration comme un artisan travaille sa matière. Il ne s'agissait pas de prétendre surpasser les géants du cloud sur tous les critères, mais de reprendre le contrôle de toute la chaîne, du premier caractère Markdown au dernier échantillon du MP3, sans confier un seul mot à Google, Amazon ou Microsoft.

Pourquoi choisir une synthèse vocale locale plutôt qu'une voix cloud ?

Une voix cloud est séduisante parce qu'elle masque presque toute la complexité. On envoie du texte à une API, on choisit une voix et on récupère un flux audio. La qualité est souvent excellente. Mais le confort repose sur une délégation complète : traitement, modèles, évolution tarifaire, disponibilité, journalisation et conditions d'utilisation sont placés hors de mon périmètre.

Pour moi, la souveraineté numérique commence ici : savoir où circule l'information et pouvoir faire fonctionner l'outil sans dépendre d'une décision extérieure. Un TTS local ne sert donc pas seulement à économiser le coût d'une API. Il transforme la relation au service. Le moteur cesse d'être une boîte noire distante, facturée à l'usage, pour devenir une brique à part entière de l'infrastructure documentaire.

La différence est particulièrement concrète pour la confidentialité et le RGPD. Un texte destiné à être lu peut contenir des noms, des données métier, un projet non publié ou des informations sensibles. Dans mon architecture, les textes de l'utilisateur ne quittent jamais la machine qui les traite. Il n'existe aucun appel réseau vers un service de synthèse tiers. Cela ne dispense évidemment pas de sécuriser le serveur, les accès, les journaux et la conservation des fichiers. En revanche, cela supprime à la source un transfert vers un fournisseur cloud.

Cette approche offre une alternative crédible à Google ou Amazon Polly dès lors que la maîtrise, la confidentialité et la continuité priment. Elle implique aussi des contraintes : héberger le moteur, sélectionner les modèles, régler la chaîne audio et maintenir le service. La souveraineté n'est pas un bouton marketing. C'est une responsabilité que l'on reprend en main.

Mon TTS open source : Piper, espeak-ng et ffmpeg en circuit court

La chaîne technique tient en trois briques principales. Piper assure la synthèse vocale neuronale à partir de modèles ONNX, notamment des voix françaises distribuées sur Hugging Face. espeak-ng réalise la phonémisation : il transforme les mots en unités sonores que le modèle peut interpréter. Enfin, ffmpeg encode le signal produit en MP3, un format simple à écouter, télécharger et diffuser.

Tout s'exécute sur une infrastructure locale, plus précisément sur un serveur que je maîtrise de bout en bout. « Local » ne désigne pas nécessairement l'ordinateur posé sous mon bureau : le terme signifie que le calcul reste dans le périmètre choisi, sans déléguer la lecture à une API vocale externe. Les modèles résident sur la machine ; la phonémisation, le traitement du signal et l'encodage s'y déroulent également.

Piper est une base particulièrement intéressante pour un TTS open source. Ses modèles ONNX peuvent être chargés et exécutés sans dépendre d'un service propriétaire. La chaîne reste inspectable, déployable et remplaçable. Je peux choisir une voix, ajuster le rythme, modifier le traitement après synthèse et faire évoluer l'interface sans attendre la feuille de route d'un fournisseur.

Cette liberté ne suffit pas à produire automatiquement une voix naturelle. Un modèle neuronal sait générer un signal convaincant, mais la qualité d'une lecture longue repose aussi sur tout ce qui l'entoure : segmentation du texte, ponctuation, pauses, dynamique, débit, hauteur et continuité entre les fragments. C'est là que le travail le plus intéressant a commencé.

Le grain métallique : comprendre la saturation avant de corriger la voix

La première version souffrait d'un défaut tenace. Certains mots sonnaient métalliques ; d'autres surgissaient dans un pic de volume presque criard. Mon premier réflexe semblait logique, mais il était mauvais : pour donner du relief à la lecture, j'amplifiais les passages importants. Si une phrase devait paraître plus énergique, j'en augmentais le niveau.

Le problème venait du signal lui-même. La sortie du modèle neuronal atteignait déjà le niveau maximal disponible, le « plafond » numérique. Imaginez un verre rempli à ras bord : ajouter de l'eau ne le rend pas plus plein, cela le fait déborder. En audio, ce débordement s'appelle la saturation. Les sommets du signal sont coupés, la forme de l'onde se dégrade et l'oreille perçoit une dureté artificielle.

Une règle est alors devenue non négociable : ne jamais amplifier la sortie de Piper. Pour créer une nuance forte, je ne pousse pas la crête ; j'adoucis les passages voisins. Le relief naît du contraste. Le niveau plein reste le plafond, tandis que les nuances plus calmes s'obtiennent par atténuation.

Ce choix a supprimé une grande partie des pics agressifs. J'ai aussi homogénéisé les fragments qui sortaient naturellement plus forts, notamment certaines interjections ou phrases très courtes. Là encore, le traitement ne remonte jamais un passage faible : il réduit seulement ce qui dépasse la cible.

Cette contrainte technique m'a enseigné une leçon plus générale sur la prosodie. Rendre une voix expressive ne consiste pas nécessairement à lui ajouter de la puissance. On peut travailler en creux plutôt qu'en crête, sculpter le silence et la douceur au lieu de forcer le volume. La machine a commencé à perdre son timbre métallique lorsque j'ai cessé de lui demander de crier.

La respiration, véritable passage vers une voix naturelle

Une voix humaine n'est jamais un ruban sonore continu. Elle dépend d'un corps : les poumons se remplissent, l'air s'épuise, la phrase ralentit légèrement, puis une pause recharge l'énergie. Même si nous ne percevons pas consciemment ces phénomènes, leur absence suffit à rendre une lecture artificielle.

Une inspiration obligatoire quand la phrase dure trop longtemps

J'ai commencé par suivre le temps de parole écoulé depuis la dernière pause. Au-delà d'une certaine durée, le moteur impose une inspiration. Cette respiration devient obligatoire si la voix parle trop longtemps sans s'arrêter, même si l'auteur a écrit une phrase interminable.

Il ne s'agit pas d'ajouter un souffle théâtral. L'inspiration prend d'abord la forme d'une coupure temporelle crédible : assez brève pour préserver le sens, assez nette pour empêcher la voix de courir vers un essoufflement impossible. Sa durée varie légèrement ; elle ne survient donc pas toutes les sept secondes avec la précision d'une horloge.

Une expiration qui dessine l'énergie de la phrase

J'ai ensuite modélisé une expiration. Au début d'un groupe de mots, la voix dispose de son énergie normale. Puis cette énergie décroît doucement à mesure que la phrase avance. Chaque ponctuation offre une petite recharge : la virgule, le point-virgule ou le point ne marquent pas seulement la syntaxe, ils deviennent des occasions de reprendre de l'air.

Le principe reste cohérent avec la lutte contre la saturation : cette courbe agit uniquement par atténuation. Le début n'est pas amplifié ; la fin du souffle devient simplement plus douce. L'effet reste discret, mais transforme la sensation d'ensemble. La phrase suit désormais une trajectoire physiologique au lieu d'aligner des mots à volume constant.

Des respirations virtuelles aux frontières naturelles du français

La ponctuation ne suffit pas toujours. Certains textes comportent de longues propositions sans virgule, particulièrement dans les contenus techniques ou administratifs. Couper tous les dix mots produirait un résultat absurde. Ne jamais couper recréerait l'effet de dictaphone infatigable.

Le moteur recherche donc les frontières naturelles de la langue. Il privilégie une coupure avant une conjonction, un mot subordonnant ou une préposition qui ouvre un nouveau groupe : « mais », « lorsque », « afin », « pour », « avec », par exemple. Cette respiration virtuelle respecte autant que possible la structure de la phrase. Une limite de sécurité empêche toutefois un groupe de se prolonger indéfiniment lorsqu'aucune frontière satisfaisante ne se présente.

Les pauses, le débit et certains choix de nuances reçoivent de petites variations. Ce non-déterminisme discret est essentiel : le battement ne tombe jamais tout à fait au même endroit ni avec exactement la même durée, comme un cœur qui conserve un rythme sans devenir un métronome. Une lecture vivante tient parfois à quelques centièmes de seconde. Trop d'aléatoire ferait hésiter la voix ; pas assez la transformerait en dictaphone.

Planifier le souffle avant de prononcer le premier mot

Cette première mécanique réactive a cependant révélé sa limite : décider à chaque virgule, sans connaître la suite, revient à respirer en lisant à vue. J'ai donc construit un précalculateur de pauses. Avant la synthèse, il analyse la ligne entière, estime un budget d'air et détermine quelles ponctuations deviendront réellement audibles. Une virgule ne « gagne » sa pause que si la voix a déjà suffisamment parlé. Le point qui clôt une phrase courte peut s'enchaîner à la suivante, comme dans une lecture adulte liée. À l'inverse, la pause qui ferme un long passage s'allonge pour rembourser une dette d'air.

Le moteur connaît aussi le moment où il vaut mieux finir que reprendre son souffle : à l'approche de la fin d'une ligne, il effectue un sprint presque imperceptible à ×1,05 sur sa réserve d'air. Puis il rogne les silences résiduels produits par le modèle afin que chaque jonction dure exactement le temps choisi. La respiration n'est plus un hasard ajouté après coup ; elle devient une décision prise à l'échelle de la phrase.

J'ai gardé tous ces gestes sous le seuil de perception consciente : environ un décibel pour les nuances et 5 % pour le tempo. Le cerveau doit sentir une continuité plus organique sans que l'oreille puisse désigner un « effet ». Cette discrétion rejoint une observation importante de Clark et Fox Tree sur les hésitations uh et um : dans la parole, ce que l'on prend pour un bruit peut porter une information. Un souffle, une attente ou une légère rupture ne sont pas des déchets audio ; bien placés, ils organisent l'écoute.

Écrire la prosodie comme une partition musicale

Une fois la respiration en place, une question demeurait : comment permettre à l'auteur de diriger la voix sans lui imposer une interface complexe ? La réponse est venue de la musique. Un texte destiné à être lu ressemble à une partition, avec ses mesures, ses silences, ses changements de tempo, ses montées et ses nuances.

J'ai donc ajouté des directives légères entre crochets, directement lisibles dans le Markdown. Elles annotent un passage sans masquer le texte : [piano]…[/piano] demande une nuance plus douce, [ton+2] monte la voix de deux demi-tons, [lent] ralentit la lecture et [pause] laisse le temps de respirer.

[piano]Ce que je vais vous confier reste entre nous.[/piano] [pause] Puis la voix reprend son chemin.

La solution semblait acquise. [ton+2]Pourtant, un détail changeait tout.[/ton]

Le mot « partition » n'est pas une simple métaphore. La hauteur s'exprime en demi-tons, comme en musique, et le volume reprend les nuances pp, p, mf, f ou ff. Puisque l'audio ne doit jamais être amplifié, les nuances fortes correspondent au niveau plein et le contraste naît des passages piano. Le fort existe parce que le doux lui prépare une place.

Cette notation s'appuie sur la logique de SSML, le langage standardisé par le W3C pour piloter la synthèse vocale et utilisé dans les écosystèmes Amazon, Google ou Azure. J'en conserve les idées et les unités, tout en proposant une écriture plus légère dans le corps du texte. Un auteur peut relire son Markdown sans traverser une forêt de balises techniques.

Cette intuition dépasse mon projet. Des TTS neuronaux plus récents, comme Bark, et des services tels qu'ElevenLabs emploient eux aussi des indications entre crochets pour guider l'interprétation. Les syntaxes et les capacités diffèrent, mais la convergence est révélatrice : nous revenons à l'idée ancienne d'une note posée sur une mesure. Pour diriger une voix artificielle, nous réinventons peu à peu la partition.

Des personnages, des lieux et des silences dans la même page

Depuis cette première partition, le langage SSM s'est enrichi. [voix=pierre]…[/voix] permet désormais de confier un passage à l'une des sept voix logiques, ou à l'un des 125 locuteurs du modèle MLS, de mls-0 à mls-124. Un dialogue peut ainsi changer de timbre à chaque personnage sans quitter le Markdown. Pour un livre audio ou une fiction, il ne s'agit plus seulement d'un texte lu, mais d'une petite distribution dirigée par l'auteur.

La scène elle-même peut entrer dans le récit. [fx=…] place la voix au téléphone, à la radio, dans un tunnel ou une cathédrale ; il peut la rendre proche, lointaine, la faire passer par un mégaphone, lui ajouter une réverbération ou un écho paramétrable. [sfx=train] déclenche un bruitage ponctuel, tandis que [ambiance=pluie]…[/ambiance] déroule un fond sous tout un passage. Le mixage applique alors un ducking : l'ambiance s'efface doucement lorsque la voix parle, puis reprend sa place.

La table de mixage : une sonothèque pilotée par des alias

Derrière ces directives, le moteur embarque une véritable table de mixage. Une page web dédiée centralise la sonothèque : envoi de fichiers WAV, MP3, OGG ou FLAC, pré-écoute, suppression, et un testeur qui permet de vérifier immédiatement une ambiance ou un bruitage dans une partition, sans redémarrer quoi que ce soit.

Le cœur du système est un dictionnaire d'alias. L'auteur n'écrit pas [sfx=0095_toc.wav] mais simplement [sfx=toc] : les alias sont générés en deux couches, une couche automatique dérivée du nom de chaque fichier, et une couche curée d'environ cent cinquante mots du quotidien — pluie, orage, porte, pas, horloge, gare, chouette, tchin — pointés vers le son le plus canonique de leur famille. Aujourd'hui, plus de deux cents sons couvrent les grandes situations d'un récit : météo, nature, ville, transports, maison, animaux, foule. Chaque fichier conserve dans son nom le numéro d'identifiant de sa source, ce qui rend l'attribution traçable son par son.

Cette matière sonore vient de LaSonothèque, la bibliothèque de bruitages et d'ambiances créée par Joseph Sardin. Et si aucun fichier réel ne correspond à un alias demandé, le moteur ne plante pas : il produit un bruitage synthétique de secours, fidèle au principe de dégradation gracieuse de la partition.

Deux notations plus modestes ont changé ma manière d'écrire. Avec [syllabe]Le train a-rrive[/syllabe], les tirets de l'auteur deviennent une lecture scandée, utile pour une diction, une insistance ou un jeu théâtral. Avec [silence] ou [silence=2s], je pose un silence rhétorique de durée exacte. Il ne faut pas le confondre avec une respiration : l'orateur se tait, mais ne recharge pas son souffle. Cette différence paraît minuscule dans le code ; à l'écoute, elle sépare la pause nécessaire du silence voulu.

Ces outils doivent rester au service du récit. Une partition saturée de balises devient aussi fatigante qu'une voix sans relief. Je préfère quelques choix lisibles : une voix par personnage, une ambiance pour installer le lieu, un silence lorsque le sens l'exige. Cicéron distinguait déjà, dans l'Orator, le style simple pour prouver, tempéré pour plaire et véhément pour émouvoir. La technique évolue ; la nécessité d'accorder la manière de dire à l'intention demeure.

Prononcer juste : de l'orthographe à l'alphabet phonétique international

Une respiration réussie ne sauve pas un mot mal prononcé. La graphie française, les noms propres et les emprunts prennent vite la phonémisation en défaut : « maths » pouvait ainsi faire entendre un th anglais. J'ai donc ajouté un dictionnaire local construit à partir de Lexique 3.83, publié sous licence CC BY-SA. Il rassemble 125 653 formes françaises et leur transcription en alphabet phonétique international.

Après espeak, le moteur repère les phonèmes étrangers au français et cherche une lecture plus juste dans cette base : « maths » devient « mat », tandis que parking, camping ou business retrouvent leur prononciation française. Un point d'accès /phon/{mot} fournit aussi l'IPA prête à être recopiée. Et lorsque l'auteur veut garder la main, [ipa=dəmɛ̃]demain[/ipa] injecte directement les phonèmes dans Piper, sans refaire le détour par la phonémisation. Ce dictionnaire n'est pas spectaculaire, justement : quand il travaille bien, on cesse simplement de buter sur le mot.

Comprendre ce que l'on lit : l'intention avant l'émotion

Au fil du travail, j'ai compris que rendre une voix « expressive » restait une consigne trop vague. Ce qui distingue surtout un lecteur qui comprend, c'est son intention : il sait quelle information est nouvelle, ce qui mérite une attente et à quelle allure la situation doit progresser. Les styles de parole possèdent leur propre organisation, comme l'ont étudié Degand et Simon. Le débit n'est donc pas un potentiomètre universel : l'étude de Colas Rist, « 200 mots à la minute : le débit oral des médias », montre l'écart entre une homélie proche de 85 mots par minute, un journal télévisé autour de 200 et des titres qui approchent 300. Ce travail de recherche — phonostylistique, rhétorique classique, psycholinguistique, avec les valeurs chiffrées pour chaque situation de parole — fait l'objet d'un dossier complet et sourcé : La musique du discours : l'intention avant l'émotion.

J'ai prototypé un focus prosodique dans cet esprit. Le moteur cherche le mot porteur de chaque phrase en s'appuyant sur les fréquences de Lexique : le mot le plus rare, ou un nom propre absent de la base, a de bonnes chances d'apporter l'information nouvelle. À sa première occurrence seulement, et uniquement si sa rareté est nette, il reçoit une mise en relief très légère : une petite montée de ton, un léger allongement, puis un discret effacement de ce qui suit. Jamais plus d'un focus par phrase. Les travaux récents sur le marquage prosodique du focus en français confortent cette direction, et la règle d'atelier reste la parcimonie : accentuer peu, accentuer juste, à la manière de la lecture sobre de Roland Barthes.

L'écoute a pourtant tranché contre cette première version. Les modèles neuronaux n'exposent pas l'alignement entre le texte et l'audio : pour transformer un mot déjà synthétisé, il faut d'abord le localiser à l'estime dans le signal, le découper, le traiter, puis le recoller. Sur certains mots, la découpe mordait une consonne et le changement de hauteur s'entendait comme une couture. La fonction est donc aujourd'hui désactivée par défaut, en attendant un véritable alignement phonétique. C'est une leçon de méthode plus qu'un échec : chaque geste prosodique doit passer l'épreuve de l'oreille, et un raffinement qui dégrade la netteté du mot ne vaut jamais l'intention qu'il voulait servir.

Du Markdown au MP3 dans un pipeline documentaire souverain

Ce moteur n'est pas une démonstration isolée : il alimente markdown.synapx.fr, un éditeur Markdown souverain. L'expérience utilisateur reste volontairement simple : on écrit ou on colle un article, on clique sur « MP3 », puis on obtient un fichier audio neuronal. La démonstration « Le train arrive en gare » permet notamment d'entendre comment voix, silence, ambiance et bruitage peuvent cohabiter dans une même scène.

Sous cette simplicité, chaque étape reste maîtrisée. Le document est structuré, les blocs sont interprétés, la ponctuation guide les silences, Piper produit la voix, le traitement de prosodie façonne la respiration et ffmpeg réalise l'encodage final. Le texte n'est pas envoyé à Amazon Polly, Google Cloud TTS ou Azure pour revenir sous forme d'audio.

La synthèse vocale s'inscrit dans un pipeline documentaire plus large : OCR pour extraire le contenu, PDF, DOCX et EPUB pour le produire ou le convertir, puis voix pour l'écouter. Toutes ces briques suivent la même direction : traiter localement les documents et conserver la maîtrise des données. La voix n'est plus un service périphérique ajouté à la fin ; elle devient un format de sortie au même titre que le PDF.

Pour une organisation, cette continuité a une valeur très concrète. Elle permet d'imaginer la lecture de procédures internes, de contenus de formation ou de publications sans multiplier les sous-traitants. Elle facilite aussi l'accessibilité : un article écrit peut devenir un contenu écoutable sans changer d'outil ni exposer son texte à une nouvelle plateforme.

Une alternative à Google et Amazon Polly, sans illusion mais sans dépendance

Je ne présente pas ce moteur comme une victoire magique sur toutes les voix commerciales. Les plateformes cloud disposent de catalogues immenses, de moyens industriels et de modèles capables d'interprétations remarquables. Une solution locale demande davantage d'attention : il faut sélectionner les voix françaises, surveiller les ressources, améliorer les prononciations difficiles et écouter réellement les résultats.

Mais la comparaison ne peut se réduire à la perfection immédiate d'un échantillon audio. Qui possède la chaîne ? Où part le texte ? Que se passe-t-il si le tarif change, si l'API évolue ou si une règle de conformité interdit demain ce transfert ? Une voix cloud est peut-être parfaite, mais elle reste louée, opaque et extérieure. Mon TTS local demeure perfectible, mais il est déployable, compréhensible et gouvernable.

Cette différence compte pour la souveraineté numérique. Elle compte aussi pour l'ingénierie : disposer du signal permet de corriger une saturation, de modeler une expiration et d'inventer une notation adaptée à l'usage. Je ne négocie pas avec une boîte noire. Je travaille directement la matière sonore.

Merci à celles et ceux qui enregistrent le monde

Les ambiances et les bruitages réels donnent au moteur une matière que l'on ne fabrique pas avec une sinusoïde. Le sifflet de train à vapeur entendu dans la démonstration « Le train arrive en gare » vient de LaSonothèque, comme les sons qui enrichissent aujourd'hui plusieurs scènes du moteur. Son créateur, Joseph Sardin, nous a accordé leur utilisation libre en échange d'une attribution avec lien.

Je tiens à le remercier sincèrement. La qualité, la variété et le soin de cette bibliothèque sonore nous ont impressionnés : elle permet d'évoquer un lieu en quelques secondes sans voler la place du texte. LaSonothèque, et son pendant anglophone BigSoundBank.com, rappellent aussi qu'un son utile commence souvent par le travail patient de quelqu'un qui est allé l'écouter, l'enregistrer et le partager.

Faire entendre nos textes sans les abandonner au cloud

Le passage d'une voix métallique à une lecture qui respire n'a pas reposé sur un unique modèle miraculeux. Il a fallu comprendre le plafond numérique, renoncer à amplifier, organiser les silences, suivre l'expiration, découper la langue à ses frontières naturelles et accepter une part minuscule d'irrégularité. Puis il a fallu redonner la main à l'auteur grâce à une partition simple.

C'est peut-être cela, au fond, une technologie souveraine : non pas tout réinventer, mais assembler des briques ouvertes, comprendre leurs limites et conserver le pouvoir d'agir sur elles. Piper, espeak-ng, ONNX et ffmpeg rendent cette voie possible. Le travail de prosodie lui donne une voix.

Si vous produisez des articles, des documents confidentiels ou des contenus accessibles, posez-vous une question avant d'envoyer le prochain texte à une API distante : avez-vous réellement besoin qu'il quitte votre infrastructure pour être entendu ? Essayez une chaîne locale, écoutez ses imperfections, puis façonnez-la. Une voix humaine ne vient pas seulement d'un modèle plus gros. Elle naît aussi du rythme, du souffle et de la maîtrise que l'on refuse d'abandonner.

Sources et références

Briques logicielles et données :

Piper (synthèse neuronale, modèles ONNX) et les voix françaises sur Hugging Face ; espeak-ng (phonémisation) ; ffmpeg (encodage)
Lexique 3.83 (New, Pallier et al.), 125 653 formes françaises avec transcription IPA et fréquences, licence CC BY-SA — base du dictionnaire de prononciation et de la détection des mots rares
LaSonothèque de Joseph Sardin — bruitages et ambiances sonores utilisés avec attribution, et son pendant anglophone BigSoundBank.com
SSML (W3C), dont la partition SSM reprend les idées et les unités

Travaux de recherche cités :

Degand & Simon, « Organisation prosodique et style de parole en français parlé » — le découpage prosodique distingue les genres de parole
Colas Rist, « 200 mots à la minute : le débit oral des médias », Communication et langages n°119, 1999 — débits mesurés par situation
Clark & Fox Tree, « Using uh and um in spontaneous speaking », 2002 — les hésitations comme signaux porteurs d'information
« Prosodic focus marking in French », Frontiers in Psychology, 2024 — le marquage du mot porteur en français
Cicéron, Orator — prouver, plaire, émouvoir : la première table « intention → réglage vocal »

L'ensemble du dossier de recherche, avec sa méthodologie de vérification et sa table « intention → réglages prosodiques », est publié dans La musique du discours.