Formatage de Transcripts pour Dialogue Multi-Locuteurs (TTS)
Ce guide a pour objectif de vous aider à formater vos transcripts de dialogues multi-locuteurs de manière optimale afin d'obtenir les meilleurs résultats possibles lors de la génération audio avec un système de synthèse vocale (TTS), comme celui de Gemini. Un formatage précis permet au système de mieux interpréter le texte, les intentions et les émotions, résultant en un audio plus naturel et expressif.
Un guide distinct sera disponible pour le formatage des monologues.
Principes Clés du Formatage (Dialogue Multi-Locuteurs)
Clarté et Simplicité: Le transcript doit être facile à lire et à comprendre, tant pour un humain que pour le système TTS.
Distinction des Rôles: Il est crucial de bien identifier qui parle. C'est fondamental pour les dialogues.
Instructions Pertinentes: Fournissez des indications utiles pour guider l'interprétation vocale (ton, émotion, actions sonores) pour chaque locuteur.
Choisir le Bon Modèle de Synthèse Vocale (TTS)
Pour la génération audio, vous aurez généralement le choix entre différents modèles de synthèse vocale. Comprendre leurs spécificités peut grandement influencer la qualité du rendu final, notamment pour l'expression des émotions.
Actuellement, deux modèles principaux sont à considérer :
Plus rapide pour la génération audio. Le rendu naturel est très bon, mais peut être légèrement en deçà pour les nuances émotionnelles complexes.
Projets nécessitant une génération rapide, transcripts avec des émotions moins subtiles ou lorsque la vitesse est prioritaire.
Gemini 2.5 Pro Preview TTS gemini-2.5-pro-preview-tts
Plus performant pour le rendu des émotions et des nuances subtiles de la voix. Offre un naturel accru.
Projets où l'expressivité émotionnelle est cruciale (ex: histoires, dialogues riches en émotions, personnages complexes).
Conseil : Si votre transcript contient des indications d'émotions détaillées et que vous visez le rendu le plus naturel et expressif possible, privilégiez le modèle Gemini 2.5 Pro Preview TTS. Si la rapidité de génération est un facteur plus critique et que les émotions sont plus directes, Gemini 2.5 Flash Preview TTS reste une excellente option.
Structure d'un Transcript Optimisé (Dialogue Multi-Locuteurs)
Un transcript bien formaté pour un dialogue se compose généralement des sections suivantes :
Titre (Optionnel mais recommandé)
Instructions Générales pour les Locuteurs (Speaker Instructions)
Dialogue (avec identification claire de chaque locuteur)
1. Titre
Un titre simple et descriptif, indiquant qu'il s'agit d'un dialogue.
2. Instructions Générales pour les Locuteurs (Speaker Instructions)
Cette section est essentielle pour donner du contexte au système TTS pour chaque personnage du dialogue. Pensez-y comme si vous dirigiez des acteurs. Vous pouvez y préciser pour chaque locuteur :
Le personnage/rôle: (Ex: "Personne nerveuse", "Ami rassurant")
Le ton général: (Ex: "Voix tremblante", "Calme et encourageant")
Les émotions principales: (Ex: "Anxiété, manque de confiance", "Patient, avec une pointe d'humour")
Le contexte: (Ex: "Se prépare pour un entretien d'embauche important")
Des indications spécifiques: (Ex: "Inclure des soupirs", "Rythme irrégulier")
Utilisez des listes à puces pour une meilleure lisibilité.
Exemple:
Instructions pour les Locuteurs :
Locuteur 1 (Personne Nerveuse) :
- Extrêmement nerveux, s'entraînant pour un discours/appel téléphonique important
- La voix doit trembler légèrement avec un rythme irrégulier
- Beaucoup d'hésitations
- Émotions principales : anxiété, manque de confiance, mais avec la détermination d'aller jusqu'au bout
- Inclure des soupirs et des bruits de déglutition
- Se prépare pour un entretien d'embauche
Locuteur 2 (Ami Rassurant) :
- Calme, soutenant et encourageant
- Aide la personne nerveuse à pratiquer
- Patient mais essaie aussi d'injecter un peu d'humour pour détendre l'atmosphère
- Donne des retours constructifs
- Accent : Québécois (exemple)
3. Dialogue
C'est ici que le texte à vocaliser est écrit, en alternant les prises de parole.
a. Identification du Locuteur dans le Dialogue
Format Impératif:Nom du Locuteur: (le nom du locuteur suivi de deux-points collés, sans espace avant les deux-points).
Le nom peut être un rôle (Locuteur 1:), un prénom (Jean:), ou toute autre désignation claire.
Cette convention est cruciale pour que le système TTS identifie le début de la prise de parole de chaque personnage et gère l'alternance.
Exemple:
Locuteur 1:
[soupir]
Bon, ok... Laissez-moi réessayer.
Locuteur 2:
Respire ! Tu te débrouilles bien.
b. Indications d'Action, d'Émotion ou de Son (Audibles)
Ces indications guident l'interprétation vocale pour des actions ou émotions spécifiques pendant le dialogue, pour le locuteur concerné. Privilégiez les indications qui ont un impact sonore ou sur la prosodie.
Format: Mettez ces indications entre crochets [].
Placement:Impérativement sur une nouvelle ligne, juste avant la phrase de dialogue concernée du locuteur.
Contenu Utile (impact vocal):
Actions sonores : [soupir], [bruit de déglutition], [toux légère], [rire], [rire nerveux], [éclat de rire], [pleurs étouffés], [chuchotement], [cri contenu]
Changements de ton/prosodie : [ton sarcastique], [voix basse et lente], [ton surpris et rapide], [ton monocorde], [voix brisée par l'émotion]
Pauses significatives (si non gérables par la ponctuation) : [pause brève], [longue pause chargée d'émotion].
Ce qu'il faut éviter (car géré par l'écriture du dialogue lui-même ou non pertinent pour TTS) :
[hésitation], [bégaiement], [stutter]: Les hésitations doivent être écrites directement dans le texte (par exemple : "Je... euh... je pense que...") pour un rendu plus naturel par le TTS.
Indications purement visuelles sans impact sonore direct (ex: [hausse les épaules], [clin d'œil]).
Exemple Correct:
Locuteur 1:
[soupir las]
C'est impossible... Et s'il me demande mon plus grand défaut ?
[rire nerveux et court]
Je ne peux pas dire que je suis perfectionniste, tout le monde dit ça.
Locuteur 2:
[avec un ton amusé]
S'il te plaît, ne mentionne pas le fromage.
Exemple Incorrect (pour les hésitations):
Locuteur 1:
[stutter]
Je... je crois que je serais un excellent...
Préférez (pour les hésitations):
Locuteur 1:
Je... je crois que je serais un... un excellent...
c. Écriture du Dialogue
Naturel: Écrivez le dialogue comme il serait parlé naturellement, y compris les interjections (euh, hum), les phrases inachevées, les répétitions si elles sont intentionnelles pour montrer la nervosité ou l'hésitation.
Ponctuation: Utilisez la ponctuation (virgules, points, points d'exclamation, points d'interrogation) pour guider le rythme et l'intonation.
Résumé des Bonnes Pratiques pour le Dialogue Multi-Locuteurs :
Choix du Modèle TTS : Utiliser Gemini 2.5 Pro Preview TTS pour un rendu émotionnel optimal, Gemini 2.5 Flash Preview TTS pour la rapidité.
Nom du Locuteur:Nom du Locuteur: (ex: Marie:) à chaque changement de prise de parole.
Indications d'Action/Émotion (Audibles):[description pertinente pour la voix] sur sa propre ligne avant le dialogue du locuteur concerné.
Clarté: Séparez bien les instructions générales du dialogue lui-même.
Exemple Complet de Transcript Formaté (Dialogue Multi-Locuteurs)
Voici un exemple complet illustrant l'application des règles décrites ci-dessus pour un dialogue multi-locuteurs.
Titre: Dialogue : Entretien d'embauche nerveux - Pratique Multi-Locuteurs
Instructions pour les Locuteurs :
Locuteur 1 (Personne Nerveuse) :
- Extrêmement nerveux, s'entraînant pour un discours/appel téléphonique important
- La voix doit trembler légèrement avec un rythme irrégulier
- Beaucoup d'hésitations (écrites dans le dialogue)
- Émotions principales : anxiété, manque de confiance, mais avec la détermination d'aller jusqu'au bout
- Inclure des soupirs et des bruits de déglutition (marqués par [action])
- Se prépare pour un entretien d'embauche
Locuteur 2 (Ami Rassurant) :
- Calme, soutenant et encourageant
- Aide la personne nerveuse à pratiquer
- Patient mais essaie aussi d'injecter un peu d'humour pour détendre l'atmosphère
- Donne des retours constructifs
Dialogue:
Locuteur 1:
[soupir]
Okay, okay... laissez-moi réessayer.
[gulp]
Bonjour, M... M. Johnson, je... j'appelle concernant le... le poste de...
de Senior Marketing Analyst et je... je crois que je serais un excellent... non attendez, un EXCELLENT ajout à votre...
[pause, forte respiration]
à votre équipe parce que... parce que...
Locuteur 2:
Hé, respire ! Tu te débrouilles très bien. Rappelle-toi ce qu'on a pratiqué - ralentis un peu. Et peut-être n'insiste pas sur "EXCELLENT" comme si tu vendais des voitures d'occasion.
Locuteur 1:
[rire nerveux]
D'accord, d'accord...
[gulp]
Laissez-moi... laissez-moi recommencer. Bonjour, M. Johnson. J'appelle concernant le poste de Senior Marketing Analyst. J'ai cinq ans d'expérience en... en...
en marketing digital et j'ai géré avec succès des campagnes qui... qui ont augmenté le ROI de... de trente... non, QUARANTE pourcent !
Locuteur 2:
Voilà ! Beaucoup mieux. Mais peut-être ne crie pas les chiffres comme si tu étais à une vente aux enchères. "Quarante pourcent" pas "QUARANTE POURCENT !"
Locuteur 1:
[soupir]
C'est impossible... Et s'il me pose des questions sur ma plus grande faiblesse ? Je ne peux pas dire que je suis perfectionniste - tout le monde dit ça. Et si je dis la vérité et que je dis que je mange du fromage en cas de stress quand je suis nerveux ?
Locuteur 2:
[riant]
S'il te plaît, ne mentionne pas le fromage. On en a déjà parlé - tu dis quelque chose comme "Je me concentre parfois trop sur les détails, mais j'ai appris à équilibrer la rigueur avec l'efficacité."
Locuteur 1:
[gulp]
D'accord... rigueur avec efficacité...
[pause]
Attends, et s'ils me demandent où je me vois dans cinq ans ? Est-ce que je leur dis que je vivrai probablement encore chez mes parents parce que le loyer est exorbitant ?
Locuteur 2:
[gloussant]
Non ! Tu parles de développement professionnel et de contribution au succès de l'entreprise. Reste ambitieux mais réaliste.
Locuteur 1:
[profonde inspiration]
Okay... okay... Développement professionnel... contribuer au succès...
Mais si... et s'ils me demandent de me décrire en trois mots ? Parce que là, les seuls mots qui me viennent à l'esprit sont "en sueur", "terrifié", et "désespéré".
Locuteur 2:
[éclatant de rire]
Oh mon dieu, arrête ! Tout va bien se passer. Que dirais-tu de "dévoué", "analytique", et "axé sur les résultats" ?
Locuteur 1:
[petit rire nerveux]
Ceux-là sont bien meilleurs que mes mots...
[gulp]
Attends, et s'ils posent des questions sur les attentes salariales ? Est-ce que je dis "assez pour s'offrir plus que des nouilles instantanées" ou devrais-je réellement rechercher les taux du marché ?
Locuteur 2:
Recherche absolument les taux du marché ! Et pour l'amour du ciel, ne mentionne pas les nouilles instantanées lors d'un entretien d'embauche !
Locuteur 1:
[soupir]
Tu as raison... tu as raison...
[pause]
Okay, laissez-moi tout reprendre depuis le début. Et cette fois, je ne mentionnerai ni le fromage, ni les nouilles, ni le sous-sol de mes parents.
Locuteur 2:
Là, tu parles ! Mais juste pour être clair - tu ne vis pas vraiment dans le sous-sol de tes parents, n'est-ce pas ?
Locuteur 1:
[longue pause]
...C'est techniquement un appartement en rez-de-jardin.
Locuteur 2:
[riant]
Oh là là... on a plus de travail à faire que je ne le pensais !
En suivant ces directives, vous augmenterez significativement la qualité et le naturel de l'audio généré par les systèmes de synthèse vocale pour vos dialogues.