Buckets:

rtrm's picture
download
raw
8.42 kB
<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Unité 6 : Du texte à la parole&quot;,&quot;local&quot;:&quot;unité-6--du-texte-à-la-parole&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Ce que vous allez apprendre et construire&quot;,&quot;local&quot;:&quot;ce-que-vous-allez-apprendre-et-construire&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}">
<link href="/docs/audio-course/pr_201/fr/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/entry/start.f4c66dfb.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/chunks/scheduler.f7e1785c.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/chunks/singletons.534e20c2.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/chunks/index.279db187.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/chunks/paths.61ccb1df.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/entry/app.8f7110e4.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/chunks/index.9f8f0838.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/nodes/0.0ded4bbf.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/chunks/each.e59479a4.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/nodes/37.5c305fc6.js">
<link rel="modulepreload" href="/docs/audio-course/pr_201/fr/_app/immutable/chunks/EditOnGithub.5a9bb8c5.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Unité 6 : Du texte à la parole&quot;,&quot;local&quot;:&quot;unité-6--du-texte-à-la-parole&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Ce que vous allez apprendre et construire&quot;,&quot;local&quot;:&quot;ce-que-vous-allez-apprendre-et-construire&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <h1 class="relative group"><a id="unité-6--du-texte-à-la-parole" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#unité-6--du-texte-à-la-parole"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Unité 6 : Du texte à la parole</span></h1> <p data-svelte-h="svelte-1qray78">Dans l’unité précédente, vous avez appris à utiliser les <em>transformers</em> pour convertir la parole en texte. Maintenant, inversons le scénario et voyons comment vous pouvez transformer un texte d’entrée donné en une sortie audio qui ressemble à de la parole.</p> <p data-svelte-h="svelte-j5wxyt">La tâche que nous allons étudier dans cette unité s’appelle ”<em>Text-to-speech</em>” (TTS) ou synthèse vocale. Les modèles capables de gérer cette tâche ont un large éventail d’applications potentielles :</p> <ul data-svelte-h="svelte-1727dhr"><li>Applications d’assistance : des outils permettant aux malvoyants d’accéder au contenu numérique par le biais du son.</li> <li>Narrations de livres audio : rendre la littérature plus accessible aux personnes qui préfèrent écouter ou qui ont des difficultés à lire.</li> <li>Assistants virtuels : les modèles TTS sont un élément fondamental des assistants virtuels tels que Siri, Google Assistant ou Amazon Alexa. Une fois qu’ils ont utilisé un modèle de classification pour repérer le mot déclencheur et un modèle ASR pour traiter la demande, ils peuvent utiliser un modèle de TTS pour répondre à votre demande.</li> <li>Divertissement, jeux et apprentissage des langues : donnez une voix à vos personnages, racontez des événements d’un jeu ou aidez les apprenants en leur donnant des exemples de prononciation et d’intonation correctes des mots et des phrases.</li></ul> <p data-svelte-h="svelte-7yvkxc">Il ne s’agit là que de quelques exemples, et je suis sûr que vous pouvez en imaginer beaucoup d’autres ! Il est important de souligner que les modèles de TTS peuvent être utilisés à des fins malveillantes.
Par exemple, avec suffisamment d’échantillons de voix, il serait possible potentiellement de créer de faux enregistrements audio convaincants, conduisant à l’utilisation non autorisée de la voix d’une personne à des fins frauduleuses ou de manipulation.
Si vous envisagez de collecter des données pour <em>finetuner</em> vos propres systèmes, examinez attentivement la question de la protection de la vie privée et du consentement.
Les données vocales doivent être obtenues avec le consentement explicite des personnes, en veillant à ce qu’elles comprennent l’objectif, la portée et les risques potentiels associés à l’utilisation de leur voix dans un système de synthèse vocale. Utilisez la synthèse vocale de manière responsable.</p> <h2 class="relative group"><a id="ce-que-vous-allez-apprendre-et-construire" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ce-que-vous-allez-apprendre-et-construire"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Ce que vous allez apprendre et construire</span></h2> <p data-svelte-h="svelte-1k9xu8a">Dans cette unité, nous parlerons de :</p> <ul data-svelte-h="svelte-1a84tr5"><li><a href="tts_datasets">Jeux de données pour entraîner un modèle de synthèse vocale</a></li> <li><a href="pre-trained_models">Modèles pré-entraînés de synthèse vocale</a></li> <li><a href="fine-tuning"><em>Finetuning</em> du modèle SpeechT5 sur une nouvelle langue</a></li> <li><a href="evaluation">Evaluation des modèles TTS</a></li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/audio-transformers-course/blob/main/chapters/fr/chapter6/introduction.mdx" target="_blank"><span data-svelte-h="svelte-1kd6by1">&lt;</span> <span data-svelte-h="svelte-x0xyl0">&gt;</span> <span data-svelte-h="svelte-1dajgef"><span class="underline ml-1.5">Update</span> on GitHub</span></a> <p></p>
<script>
{
__sveltekit_1fiwyr4 = {
assets: "/docs/audio-course/pr_201/fr",
base: "/docs/audio-course/pr_201/fr",
env: {}
};
const element = document.currentScript.parentElement;
const data = [null,null];
Promise.all([
import("/docs/audio-course/pr_201/fr/_app/immutable/entry/start.f4c66dfb.js"),
import("/docs/audio-course/pr_201/fr/_app/immutable/entry/app.8f7110e4.js")
]).then(([kit, app]) => {
kit.start(app, element, {
node_ids: [0, 37],
data,
form: null,
error: null
});
});
}
</script>

Xet Storage Details

Size:
8.42 kB
·
Xet hash:
17cefa66c757f70265aff5b5b2f794a36625af8a48b2823a1a320c7d4256a1dd

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.