Buckets:

hf-doc-build/doc-dev / audio-course /pr_239 /fr /chapter5 /choosing_dataset.html
rtrm's picture
download
raw
32.4 kB
<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Choisir un jeu de données&quot;,&quot;local&quot;:&quot;choisir-un-jeu-de-données&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Caractéristiques des jeux de données vocaux&quot;,&quot;local&quot;:&quot;caractéristiques-des-jeux-de-données-vocaux&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;1. Nombre d’heures&quot;,&quot;local&quot;:&quot;1-nombre-dheures&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;2. Domaine&quot;,&quot;local&quot;:&quot;2-domaine&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;3. Style d’élocution&quot;,&quot;local&quot;:&quot;3-style-délocution&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;4. Style de transcription&quot;,&quot;local&quot;:&quot;4-style-de-transcription&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Résumé de jeux de données sur le Hub&quot;,&quot;local&quot;:&quot;résumé-de-jeux-de-données-sur-le-hub&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Common Voice 13&quot;,&quot;local&quot;:&quot;common-voice-13&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}">
<link href="/docs/audio-course/pr_239/fr/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/entry/start.48d22ca3.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/scheduler.a045fce0.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/singletons.932e46dd.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/index.2447c7d9.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/paths.50fd3c21.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/entry/app.4e1ef9b0.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/preload-helper.aa8f5fd5.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/index.5135b896.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/nodes/0.00a7cda2.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/each.e59479a4.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/nodes/27.d4e1c4bf.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.59591d32.js">
<link rel="modulepreload" href="/docs/audio-course/pr_239/fr/_app/immutable/chunks/CodeBlock.1d730892.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Choisir un jeu de données&quot;,&quot;local&quot;:&quot;choisir-un-jeu-de-données&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Caractéristiques des jeux de données vocaux&quot;,&quot;local&quot;:&quot;caractéristiques-des-jeux-de-données-vocaux&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;1. Nombre d’heures&quot;,&quot;local&quot;:&quot;1-nombre-dheures&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;2. Domaine&quot;,&quot;local&quot;:&quot;2-domaine&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;3. Style d’élocution&quot;,&quot;local&quot;:&quot;3-style-délocution&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;4. Style de transcription&quot;,&quot;local&quot;:&quot;4-style-de-transcription&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Résumé de jeux de données sur le Hub&quot;,&quot;local&quot;:&quot;résumé-de-jeux-de-données-sur-le-hub&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Common Voice 13&quot;,&quot;local&quot;:&quot;common-voice-13&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 h-7 max-sm:h-7 px-2 max-sm:px-1.5 text-sm font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0 hover:text-gray-800 dark:hover:text-gray-200"><svg class="sm:size-3.5 size-3" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-7 max-sm:h-7 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible sm:size-3.5 size-3 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="choisir-un-jeu-de-données" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#choisir-un-jeu-de-données"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Choisir un jeu de données</span></h1> <p data-svelte-h="svelte-1liwqvk">Comme pour tout problème d’apprentissage automatique, la qualité de notre modèle dépend des données sur lesquelles nous l’entraînons. Les jeux de données de reconnaissance vocale varient considérablement dans la façon dont ils sont gérés et dans les domaines qu’ils couvrent. Pour choisir le bon jeu de données, nous devons faire correspondre nos critères aux caractéristiques offertes par un jeu de données.</p> <p data-svelte-h="svelte-8nmuma">Avant de choisir un jeu de données, nous devons d’abord comprendre les principales caractéristiques qui le définissent.</p> <h2 class="relative group"><a id="caractéristiques-des-jeux-de-données-vocaux" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#caractéristiques-des-jeux-de-données-vocaux"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Caractéristiques des jeux de données vocaux</span></h2> <h3 class="relative group"><a id="1-nombre-dheures" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#1-nombre-dheures"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>1. Nombre d’heures</span></h3> <p data-svelte-h="svelte-5or6t6">En termes simples, le nombre d’heures d’entraînement indique la taille du jeu de données. Il est analogue au nombre d’exemples d’entraînement dans un jeu de données de NLP. Toutefois, les jeux de données plus importants ne sont pas nécessairement meilleurs. Si nous voulons un modèle qui généralise bien, nous avons besoin d’un jeu de données <strong>varié</strong> avec beaucoup de locuteurs, de domaines et de styles d’expression différents.</p> <h3 class="relative group"><a id="2-domaine" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#2-domaine"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>2. Domaine</span></h3> <p data-svelte-h="svelte-qgcn64">Le domaine est l’endroit d’où proviennent les données, qu’il s’agisse de livres audio, de podcasts, de YouTube ou de réunions professionnelles.
Chaque domaine a une distribution de données différente. Par exemple, les livres audio sont enregistrés dans des conditions de studio, en haute qualité (sans bruit de fond) et le texte est tiré de la littérature. En revanche, pour YouTube, l’audio contient probablement plus de bruits de fond et un style de discours plus informel.</p> <p data-svelte-h="svelte-1ol1wu4">Nous devons faire correspondre notre domaine aux conditions que nous prévoyons au moment de l’inférence. Par exemple, si nous entraînons notre modèle sur des livres audio, nous ne pouvons pas nous attendre à ce qu’il soit performant dans des environnements bruyants.</p> <h3 class="relative group"><a id="3-style-délocution" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#3-style-délocution"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>3. Style d’élocution</span></h3> <p data-svelte-h="svelte-2lahns">Le style d’élocution peut être classé dans l’une des deux catégories suivantes :</p> <ul data-svelte-h="svelte-1ss524e"><li>narré : lu à partir d’un script</li> <li>spontané : discours non scénarisé, conversationnel.</li></ul> <p data-svelte-h="svelte-gbdgg5">Les données audio et textuelles reflètent le style d’élocution. Étant donné que le texte narré est écrit, il a tendance à être prononcé de manière articulée et sans erreur :</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->“Consider <span class="hljs-keyword">the</span> task <span class="hljs-keyword">of</span> training <span class="hljs-keyword">a</span> model <span class="hljs-keyword">on</span> <span class="hljs-title">a</span> <span class="hljs-title">speech</span> <span class="hljs-title">recognition</span> <span class="hljs-title">dataset</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-nt2gen">Dans le cas d’un discours spontané, on peut s’attendre à un style plus familier, avec des répétitions, des hésitations et des faux départs :</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">Let</span>’s uhh <span class="hljs-keyword">let</span><span class="hljs-comment">&#x27;s take a look at how you&#x27;d go about training a model on uhm a sp- speech recognition dataset”</span><!-- HTML_TAG_END --></pre></div> <h3 class="relative group"><a id="4-style-de-transcription" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#4-style-de-transcription"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>4. Style de transcription</span></h3> <p data-svelte-h="svelte-r41lbm">Le style de transcription indique si le texte cible comporte de la ponctuation, de la casse ou les deux. Si nous voulons qu’un système génère un texte entièrement formaté pouvant être utilisé pour la transcription d’une publication ou d’une réunion, nous avons besoin de données d’entraînement comportant de la ponctuation et des majuscules. Si nous avons simplement besoin des mots prononcés dans une structure non formatée, ni la ponctuation ni la casse ne sont nécessaires.
Dans ce cas, nous pouvons soit choisir un jeu de données sans ponctuation ni casse, soit choisir un jeu de données avec ponctuation et casse, puis les supprimer du texte cible par le biais d’un prétraitement.</p> <h2 class="relative group"><a id="résumé-de-jeux-de-données-sur-le-hub" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#résumé-de-jeux-de-données-sur-le-hub"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Résumé de jeux de données sur le Hub</span></h2> <p data-svelte-h="svelte-1aw4r6k">Voici un résumé de jeux de données de reconnaissance vocale en anglais les plus populaires sur le <em>Hub</em> :</p> <table data-svelte-h="svelte-1t6g0d3"><thead><tr><th>Jeu de données</th> <th>Heures d’entraînement</th> <th>Domaine</th> <th>Style d’élocution</th> <th>Casse</th> <th>Ponctuation</th> <th>Licence</th> <th>Usage recommandé</th></tr></thead> <tbody><tr><td><a href="https://huggingface.co/datasets/librispeech_asr" rel="nofollow">LibriSpeech</a></td> <td>960</td> <td>Audiobook</td> <td>Narrated</td> <td></td> <td></td> <td>CC-BY-4.0</td> <td>Academic benchmarks</td></tr> <tr><td><a href="https://huggingface.co/datasets/mozilla-foundation/common_voice_11_0" rel="nofollow">Common Voice 11</a></td> <td>3000</td> <td>Wikipedia</td> <td>Narrated</td> <td></td> <td></td> <td>CC0-1.0</td> <td>Non-native speakers</td></tr> <tr><td><a href="https://huggingface.co/datasets/facebook/voxpopuli" rel="nofollow">VoxPopuli</a></td> <td>540</td> <td>European Parliament</td> <td>Oratory</td> <td></td> <td></td> <td>CC0</td> <td>Non-native speakers</td></tr> <tr><td><a href="https://huggingface.co/datasets/LIUM/tedlium" rel="nofollow">TED-LIUM</a></td> <td>450</td> <td>TED talks</td> <td>Oratory</td> <td></td> <td></td> <td>CC-BY-NC-ND 3.0</td> <td>Technical topics</td></tr> <tr><td><a href="https://huggingface.co/datasets/speechcolab/gigaspeech" rel="nofollow">GigaSpeech</a></td> <td>10000</td> <td>Audiobook, podcast, YouTube</td> <td>Narrated, spontaneous</td> <td></td> <td></td> <td>apache-2.0</td> <td>Robustness over multiple domains</td></tr> <tr><td><a href="https://huggingface.co/datasets/kensho/spgispeech" rel="nofollow">SPGISpeech</a></td> <td>5000</td> <td>Financial meetings</td> <td>Oratory, spontaneous</td> <td></td> <td></td> <td>User Agreement</td> <td>Fully formatted transcriptions</td></tr> <tr><td><a href="https://huggingface.co/datasets/revdotcom/earnings22" rel="nofollow">Earnings-22</a></td> <td>119</td> <td>Financial meetings</td> <td>Oratory, spontaneous</td> <td></td> <td></td> <td>CC-BY-SA-4.0</td> <td>Diversity of accents</td></tr> <tr><td><a href="https://huggingface.co/datasets/edinburghcstr/ami" rel="nofollow">AMI</a></td> <td>100</td> <td>Meetings</td> <td>Spontaneous</td> <td></td> <td></td> <td>CC-BY-4.0</td> <td>Noisy speech conditions</td></tr></tbody></table> <p data-svelte-h="svelte-nv5ju2">Ce tableau sert de référence pour sélectionner un jeu de données en fonction de vos critères. Vous trouverez ci-dessous un tableau équivalent pour la reconnaissance vocale multilingue. Notez que nous omettons la colonne des heures d’entraînement, qui varie en fonction de la langue pour chaque jeu de données, et que nous la remplaçons par le nombre de langues par jeu de données :</p> <table data-svelte-h="svelte-1f90slp"><thead><tr><th>Jeu de données</th> <th>Langues</th> <th>Domaine</th> <th>Style d’élocution</th> <th>Casse</th> <th>Ponctuation</th> <th>Licence</th> <th>Usage recommandé</th></tr></thead> <tbody><tr><td><a href="https://huggingface.co/datasets/facebook/multilingual_librispeech" rel="nofollow">Multilingual LibriSpeech</a></td> <td>6</td> <td>Audiobooks</td> <td>Narrated</td> <td></td> <td></td> <td>CC-BY-4.0</td> <td>Academic benchmarks</td></tr> <tr><td><a href="https://huggingface.co/datasets/mozilla-foundation/common_voice_13_0" rel="nofollow">Common Voice 13</a></td> <td>108</td> <td>Wikipedia text &amp; crowd-sourced speech</td> <td>Narrated</td> <td></td> <td></td> <td>CC0-1.0</td> <td>Diverse speaker set</td></tr> <tr><td><a href="https://huggingface.co/datasets/facebook/voxpopuli" rel="nofollow">VoxPopuli</a></td> <td>15</td> <td>European Parliament recordings</td> <td>Spontaneous</td> <td></td> <td></td> <td>CC0</td> <td>European languages</td></tr> <tr><td><a href="https://huggingface.co/datasets/google/fleurs" rel="nofollow">FLEURS</a></td> <td>101</td> <td>European Parliament recordings</td> <td>Spontaneous</td> <td></td> <td></td> <td>CC-BY-4.0</td> <td>Multilingual evaluation</td></tr></tbody></table> <p data-svelte-h="svelte-145ls1g">Pour une analyse détaillée des jeux de données audio couverts dans les deux tableaux, consultez l’article de blog <a href="https://huggingface.co/blog/audio-datasets#a-tour-of-audio-datasets-on-the-hub" rel="nofollow"><em>A Complete Guide to Audio Datasets</em></a> (en anglais).
Bien qu’il existe plus de 180 jeux de données de reconnaissance vocale sur le <em>Hub</em>, il est possible qu’aucun jeu de données ne corresponde à vos besoins. Dans ce cas, il est également possible d’utiliser vos propres données audio avec 🤗 <em>Datasets</em>. Pour créer un jeu de données audio personnalisé, reportez-vous au guide <a href="https://huggingface.co/docs/datasets/audio_dataset" rel="nofollow">Créer un jeu de données audio</a>. Lorsque vous créez un jeu de données audio personnalisé, pensez à partager le jeu de données final sur le <em>Hub</em> afin que d’autres membres de la communauté puissent bénéficier de vos efforts et apprécieront votre travail comme vous appréciez le leur.</p> <p data-svelte-h="svelte-1dncet2">Très bien ! Maintenant que nous avons passé en revue tous les critères de sélection d’un jeu de données d’ASR, choisissons-en un pour les besoins de ce tutoriel.
Nous savons que Whisper fait déjà un très bon travail de transcription de données dans des langues à hautes ressources (telles que l’anglais et l’espagnol), nous allons donc nous concentrer sur la transcription multilingue à faibles ressources. Nous voulons conserver la capacité de Whisper à prédire la ponctuation et la casse, donc il semble, d’après le deuxième tableau, que Common Voice 13 est un excellent jeu de données candidat !</p> <h2 class="relative group"><a id="common-voice-13" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#common-voice-13"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Common Voice 13</span></h2> <p data-svelte-h="svelte-1immk8l">Common Voice 13 est un jeu de données <em>crown-sourcés</em> dans lequel des locuteurs enregistrent des textes tirés de Wikipédia dans différentes langues. Il fait partie de la série Common Voice, une collection de jeux de données publiés par la Fondation Mozilla. À l’heure où nous écrivons ces lignes, Common Voice 13 est la dernière édition du jeu de données, avec le plus grand nombre de langues et d’heures par langue de toutes les versions à ce jour.</p> <p data-svelte-h="svelte-14b0eai">Nous pouvons obtenir la liste complète des langues pour le jeu de données Common Voice 13 en consultant la page du jeu de données sur le <em>Hub</em> : <a href="https://huggingface.co/datasets/mozilla-foundation/common_voice_13_0" rel="nofollow">mozilla-foundation/common_voice_13_0</a>.
La première fois que vous consulterez cette page, il vous sera demandé d’accepter les conditions d’utilisation. Ensuite, vous aurez un accès complet au jeu de données.</p> <p data-svelte-h="svelte-1h6gp1l">Une fois que nous nous sommes authentifiés pour utiliser le jeu de données, son aperçu s’affiche montrant les 100 premiers échantillons du jeu de données pour chaque langue, prêts à être écoutés en temps réel. Pour cette unité, nous sélectionnerons le <a href="https://en.wikipedia.org/wiki/Maldivian_language" rel="nofollow"><em>Dhivehi</em></a> (ou <em>Maldivien</em>), une langue indo-aryenne parlée dans le pays insulaire d’Asie du Sud, les Maldives. Bien que nous choisissions le dhivehi pour ce tutoriel, les étapes couvertes ici s’appliquent à n’importe laquelle des 108 langues de l’ensemble de données Common Voice 13, et plus généralement à n’importe lequel des 180+ jeux de données audio du <em>Hub</em>. Il n’y a donc pas de restriction sur la langue ou le dialecte.</p> <p data-svelte-h="svelte-54g3cn">Nous pouvons sélectionner le sous-ensemble Dhivehi de Common Voice 13 en réglant le sous-ensemble sur <code>dv</code> à l’aide du menu déroulant (<code>dv</code> étant le code d’identification de la langue pour le Dhivehi) :</p> <div class="flex justify-center" data-svelte-h="svelte-y9qjeu"><img src="https://huggingface.co/datasets/huggingface-course/audio-course-images/resolve/main/cv_13_dv_selection.png" alt="Selecting the Dhivehi split from the Dataset's Preview"></div> <p data-svelte-h="svelte-166zwhg">Si nous appuyons sur le bouton de lecture du premier échantillon, nous pouvons écouter le son et voir le texte correspondant. Parcourez les échantillons des ensembles d’entraînement et de test pour vous faire une idée plus précise des données que nous traitons.
L’intonation et le style indiquent que les enregistrements sont issus d’un discours narré. Vous remarquerez également la grande diversité des locuteurs et de la qualité des enregistrements, un trait commun aux données provenant de données <em>crown-sourcées</em>.</p> <p data-svelte-h="svelte-c39lln">L’aperçu des données est un excellent moyen d’expérimenter les données audio avant de s’engager à les utiliser. Vous pouvez choisir n’importe quel jeu de données sur le Hub, faire défiler les échantillons et écouter l’audio pour les différents sous-ensembles et divisions, afin d’évaluer s’il s’agit du bon jeu de données pour vos besoins. Une fois que vous avez sélectionné un jeu de données, il est facile de charger les données afin de pouvoir commencer à les utiliser.</p> <p data-svelte-h="svelte-mngo01">Personnellement, je ne parle pas le dhivehi et je m’attends à ce que la grande majorité des lecteurs ne le parlent pas non plus ! Pour savoir si notre modèle <em>finetuné</em> est bon, nous aurons besoin d’un moyen rigoureux de l’<em>évaluer</em> sur des données inédites et de mesurer sa précision de transcription.
C’est exactement ce que nous allons faire dans la section suivante !</p> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/audio-transformers-course/blob/main/chapters/fr/chapter5/choosing_dataset.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p>
<script>
{
__sveltekit_oc6cu6 = {
assets: "/docs/audio-course/pr_239/fr",
base: "/docs/audio-course/pr_239/fr",
env: {}
};
const element = document.currentScript.parentElement;
const data = [null,null];
Promise.all([
import("/docs/audio-course/pr_239/fr/_app/immutable/entry/start.48d22ca3.js"),
import("/docs/audio-course/pr_239/fr/_app/immutable/entry/app.4e1ef9b0.js")
]).then(([kit, app]) => {
kit.start(app, element, {
node_ids: [0, 27],
data,
form: null,
error: null
});
});
}
</script>

Xet Storage Details

Size:
32.4 kB
·
Xet hash:
584756658cb565d193a9a04149b7c12aa44b9fd5e354f2a8c8d0734044acc47f

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.