Logo Teach Inspire

Guide Pratique

Formatage de Transcripts pour Dialogue Multi-Locuteurs (TTS)

Ce guide a pour objectif de vous aider à formater vos transcripts de dialogues multi-locuteurs de manière optimale afin d'obtenir les meilleurs résultats possibles lors de la génération audio avec un système de synthèse vocale (TTS), comme celui de Gemini. Un formatage précis permet au système de mieux interpréter le texte, les intentions et les émotions, résultant en un audio plus naturel et expressif.

Un guide distinct sera disponible pour le formatage des monologues.

Principes Clés du Formatage (Dialogue Multi-Locuteurs)

Choisir le Bon Modèle de Synthèse Vocale (TTS)

Pour la génération audio, vous aurez généralement le choix entre différents modèles de synthèse vocale. Comprendre leurs spécificités peut grandement influencer la qualité du rendu final, notamment pour l'expression des émotions.

Actuellement, deux modèles principaux sont à considérer :

Modèle Caractéristiques Principales Recommandé pour
Gemini 2.5 Flash Preview TTS
gemini-2.5-flash-preview-tts
Plus rapide pour la génération audio. Le rendu naturel est très bon, mais peut être légèrement en deçà pour les nuances émotionnelles complexes. Projets nécessitant une génération rapide, transcripts avec des émotions moins subtiles ou lorsque la vitesse est prioritaire.
Gemini 2.5 Pro Preview TTS
gemini-2.5-pro-preview-tts
Plus performant pour le rendu des émotions et des nuances subtiles de la voix. Offre un naturel accru. Projets où l'expressivité émotionnelle est cruciale (ex: histoires, dialogues riches en émotions, personnages complexes).

Conseil : Si votre transcript contient des indications d'émotions détaillées et que vous visez le rendu le plus naturel et expressif possible, privilégiez le modèle Gemini 2.5 Pro Preview TTS. Si la rapidité de génération est un facteur plus critique et que les émotions sont plus directes, Gemini 2.5 Flash Preview TTS reste une excellente option.

Structure d'un Transcript Optimisé (Dialogue Multi-Locuteurs)

Un transcript bien formaté pour un dialogue se compose généralement des sections suivantes :

  1. Titre (Optionnel mais recommandé)
  2. Instructions Générales pour les Locuteurs (Speaker Instructions)
  3. Dialogue (avec identification claire de chaque locuteur)

1. Titre

Un titre simple et descriptif, indiquant qu'il s'agit d'un dialogue.

Exemple:

Dialogue : Entretien d'embauche nerveux - Pratique Multi-Locuteurs

2. Instructions Générales pour les Locuteurs (Speaker Instructions)

Cette section est essentielle pour donner du contexte au système TTS pour chaque personnage du dialogue. Pensez-y comme si vous dirigiez des acteurs. Vous pouvez y préciser pour chaque locuteur :

Format:

Exemple:

Instructions pour les Locuteurs : Locuteur 1 (Personne Nerveuse) : - Extrêmement nerveux, s'entraînant pour un discours/appel téléphonique important - La voix doit trembler légèrement avec un rythme irrégulier - Beaucoup d'hésitations - Émotions principales : anxiété, manque de confiance, mais avec la détermination d'aller jusqu'au bout - Inclure des soupirs et des bruits de déglutition - Se prépare pour un entretien d'embauche Locuteur 2 (Ami Rassurant) : - Calme, soutenant et encourageant - Aide la personne nerveuse à pratiquer - Patient mais essaie aussi d'injecter un peu d'humour pour détendre l'atmosphère - Donne des retours constructifs - Accent : Québécois (exemple)

3. Dialogue

C'est ici que le texte à vocaliser est écrit, en alternant les prises de parole.

a. Identification du Locuteur dans le Dialogue

Exemple:

Locuteur 1: [soupir] Bon, ok... Laissez-moi réessayer. Locuteur 2: Respire ! Tu te débrouilles bien.

b. Indications d'Action, d'Émotion ou de Son (Audibles)

Ces indications guident l'interprétation vocale pour des actions ou émotions spécifiques pendant le dialogue, pour le locuteur concerné. Privilégiez les indications qui ont un impact sonore ou sur la prosodie.

Exemple Correct:

Locuteur 1: [soupir las] C'est impossible... Et s'il me demande mon plus grand défaut ? [rire nerveux et court] Je ne peux pas dire que je suis perfectionniste, tout le monde dit ça. Locuteur 2: [avec un ton amusé] S'il te plaît, ne mentionne pas le fromage.

Exemple Incorrect (pour les hésitations):

Locuteur 1: [stutter] Je... je crois que je serais un excellent...

Préférez (pour les hésitations):

Locuteur 1: Je... je crois que je serais un... un excellent...

c. Écriture du Dialogue

Résumé des Bonnes Pratiques pour le Dialogue Multi-Locuteurs :

Exemple Complet de Transcript Formaté (Dialogue Multi-Locuteurs)

Voici un exemple complet illustrant l'application des règles décrites ci-dessus pour un dialogue multi-locuteurs.

Titre: Dialogue : Entretien d'embauche nerveux - Pratique Multi-Locuteurs Instructions pour les Locuteurs : Locuteur 1 (Personne Nerveuse) : - Extrêmement nerveux, s'entraînant pour un discours/appel téléphonique important - La voix doit trembler légèrement avec un rythme irrégulier - Beaucoup d'hésitations (écrites dans le dialogue) - Émotions principales : anxiété, manque de confiance, mais avec la détermination d'aller jusqu'au bout - Inclure des soupirs et des bruits de déglutition (marqués par [action]) - Se prépare pour un entretien d'embauche Locuteur 2 (Ami Rassurant) : - Calme, soutenant et encourageant - Aide la personne nerveuse à pratiquer - Patient mais essaie aussi d'injecter un peu d'humour pour détendre l'atmosphère - Donne des retours constructifs Dialogue: Locuteur 1: [soupir] Okay, okay... laissez-moi réessayer. [gulp] Bonjour, M... M. Johnson, je... j'appelle concernant le... le poste de... de Senior Marketing Analyst et je... je crois que je serais un excellent... non attendez, un EXCELLENT ajout à votre... [pause, forte respiration] à votre équipe parce que... parce que... Locuteur 2: Hé, respire ! Tu te débrouilles très bien. Rappelle-toi ce qu'on a pratiqué - ralentis un peu. Et peut-être n'insiste pas sur "EXCELLENT" comme si tu vendais des voitures d'occasion. Locuteur 1: [rire nerveux] D'accord, d'accord... [gulp] Laissez-moi... laissez-moi recommencer. Bonjour, M. Johnson. J'appelle concernant le poste de Senior Marketing Analyst. J'ai cinq ans d'expérience en... en... en marketing digital et j'ai géré avec succès des campagnes qui... qui ont augmenté le ROI de... de trente... non, QUARANTE pourcent ! Locuteur 2: Voilà ! Beaucoup mieux. Mais peut-être ne crie pas les chiffres comme si tu étais à une vente aux enchères. "Quarante pourcent" pas "QUARANTE POURCENT !" Locuteur 1: [soupir] C'est impossible... Et s'il me pose des questions sur ma plus grande faiblesse ? Je ne peux pas dire que je suis perfectionniste - tout le monde dit ça. Et si je dis la vérité et que je dis que je mange du fromage en cas de stress quand je suis nerveux ? Locuteur 2: [riant] S'il te plaît, ne mentionne pas le fromage. On en a déjà parlé - tu dis quelque chose comme "Je me concentre parfois trop sur les détails, mais j'ai appris à équilibrer la rigueur avec l'efficacité." Locuteur 1: [gulp] D'accord... rigueur avec efficacité... [pause] Attends, et s'ils me demandent où je me vois dans cinq ans ? Est-ce que je leur dis que je vivrai probablement encore chez mes parents parce que le loyer est exorbitant ? Locuteur 2: [gloussant] Non ! Tu parles de développement professionnel et de contribution au succès de l'entreprise. Reste ambitieux mais réaliste. Locuteur 1: [profonde inspiration] Okay... okay... Développement professionnel... contribuer au succès... Mais si... et s'ils me demandent de me décrire en trois mots ? Parce que là, les seuls mots qui me viennent à l'esprit sont "en sueur", "terrifié", et "désespéré". Locuteur 2: [éclatant de rire] Oh mon dieu, arrête ! Tout va bien se passer. Que dirais-tu de "dévoué", "analytique", et "axé sur les résultats" ? Locuteur 1: [petit rire nerveux] Ceux-là sont bien meilleurs que mes mots... [gulp] Attends, et s'ils posent des questions sur les attentes salariales ? Est-ce que je dis "assez pour s'offrir plus que des nouilles instantanées" ou devrais-je réellement rechercher les taux du marché ? Locuteur 2: Recherche absolument les taux du marché ! Et pour l'amour du ciel, ne mentionne pas les nouilles instantanées lors d'un entretien d'embauche ! Locuteur 1: [soupir] Tu as raison... tu as raison... [pause] Okay, laissez-moi tout reprendre depuis le début. Et cette fois, je ne mentionnerai ni le fromage, ni les nouilles, ni le sous-sol de mes parents. Locuteur 2: Là, tu parles ! Mais juste pour être clair - tu ne vis pas vraiment dans le sous-sol de tes parents, n'est-ce pas ? Locuteur 1: [longue pause] ...C'est techniquement un appartement en rez-de-jardin. Locuteur 2: [riant] Oh là là... on a plus de travail à faire que je ne le pensais !

En suivant ces directives, vous augmenterez significativement la qualité et le naturel de l'audio généré par les systèmes de synthèse vocale pour vos dialogues.