Buckets:
| <meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"Выбор набора данных","local":"выбор-набора-данных","sections":[{"title":"Характеристики речевых наборов данных","local":"характеристики-речевых-наборов-данных","sections":[{"title":"1. Количество часов","local":"1-количество-часов","sections":[],"depth":3},{"title":"2. Источник данных","local":"2-источник-данных","sections":[],"depth":3},{"title":"3. Стиль речи","local":"3-стиль-речи","sections":[],"depth":3},{"title":"4. Стиль транскрипции","local":"4-стиль-транскрипции","sections":[],"depth":3}],"depth":2},{"title":"Сводная информация о наборах данных на Hugging Face Hub","local":"сводная-информация-о-наборах-данных-на-hugging-face-hub","sections":[],"depth":2},{"title":"Common Voice 13","local":"common-voice-13","sections":[],"depth":2}],"depth":1}"> | |
| <link href="/docs/audio-course/pr_201/ru/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/entry/start.09f2bcd2.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/scheduler.f7e1785c.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/singletons.81bb146a.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/index.279db187.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/paths.fd9a933e.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/entry/app.ea37f525.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/index.9f8f0838.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/nodes/0.e875dd2e.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/each.e59479a4.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/nodes/28.e1141607.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/CodeBlock.b3510e34.js"> | |
| <link rel="modulepreload" href="/docs/audio-course/pr_201/ru/_app/immutable/chunks/EditOnGithub.5a9bb8c5.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"Выбор набора данных","local":"выбор-набора-данных","sections":[{"title":"Характеристики речевых наборов данных","local":"характеристики-речевых-наборов-данных","sections":[{"title":"1. Количество часов","local":"1-количество-часов","sections":[],"depth":3},{"title":"2. Источник данных","local":"2-источник-данных","sections":[],"depth":3},{"title":"3. Стиль речи","local":"3-стиль-речи","sections":[],"depth":3},{"title":"4. Стиль транскрипции","local":"4-стиль-транскрипции","sections":[],"depth":3}],"depth":2},{"title":"Сводная информация о наборах данных на Hugging Face Hub","local":"сводная-информация-о-наборах-данных-на-hugging-face-hub","sections":[],"depth":2},{"title":"Common Voice 13","local":"common-voice-13","sections":[],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <h1 class="relative group"><a id="выбор-набора-данных" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#выбор-набора-данных"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Выбор набора данных</span></h1> <p data-svelte-h="svelte-1ocar3s">Как и в любой другой задаче машинного обучения, наша модель хороша лишь настолько, насколько хороши данные, на которых мы ее обучаем. | |
| Наборы данных для распознавания речи существенно различаются по способу их формирования и областям, которые они охватывают. | |
| Чтобы выбрать правильный набор данных, необходимо сопоставить наши критерии с возможностями, которые предоставляет набор данных.</p> <p data-svelte-h="svelte-1397zvf">Прежде чем выбрать набор данных, необходимо понять его ключевые определяющие характеристики.</p> <h2 class="relative group"><a id="характеристики-речевых-наборов-данных" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#характеристики-речевых-наборов-данных"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Характеристики речевых наборов данных</span></h2> <h3 class="relative group"><a id="1-количество-часов" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#1-количество-часов"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>1. Количество часов</span></h3> <p data-svelte-h="svelte-eso1ny">Проще говоря, количество часов обучения показывает, насколько велик набор данных. Это аналогично количеству обучающих примеров в наборе данных | |
| для обработки естественного языка (NLP). Однако, большой набор данных не означает что этот набор лучший. Если мы хотим получить модель, которая | |
| хорошо обобщает, нам нужна <strong>разнообразный</strong> набор данных с большим количеством различных дикторов, источников и стилей речи.</p> <h3 class="relative group"><a id="2-источник-данных" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#2-источник-данных"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>2. Источник данных</span></h3> <p data-svelte-h="svelte-15s3hxf">Источник данных означает, откуда были взяты данные, будь то аудиокниги, подкасты, YouTube или финансовые встречи. Для каждого источника характерно | |
| свое распределение данных. Например, аудиокниги записываются в качественных студийных условиях (без посторонних шумов), а текст берется из | |
| письменной литературы. В то время как для YouTube аудиозапись, скорее всего, содержит больше фонового шума и более неформальный стиль речи.</p> <p data-svelte-h="svelte-1sf9qnu">Мы должны соотнести наш источник с условиями, которые мы ожидаем в момент вывода. Например, если мы обучаем нашу модель на аудиокнигах, мы не можем | |
| ожидать, что она будет хорошо работать в шумной обстановке.</p> <h3 class="relative group"><a id="3-стиль-речи" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#3-стиль-речи"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>3. Стиль речи</span></h3> <p data-svelte-h="svelte-168ez9y">Стиль речи относится к одной из двух категорий:</p> <ul data-svelte-h="svelte-13d1e6p"><li>Дикторская: чтение по сценарию</li> <li>Спонтанная: речь без сценария, разговорная речь</li></ul> <p data-svelte-h="svelte-11ysag4">Аудио- и текстовые данные отражают стиль речи. Поскольку дикторский текст написан по сценарию, он, как правило, произносится внятно и без ошибок:</p> <div class="code-block relative"><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->“Рассмотрим задачу обучения модели на наборе данных распознавания речи”<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-lh4meb">В то время как для спонтанной речи можно ожидать более разговорного стиля речи, с повторениями, запинаниями и других речевых сбоев:</p> <div class="code-block relative"><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->“<span class="hljs-keyword">Let</span>’s uhh <span class="hljs-keyword">let</span><span class="hljs-comment">'s take a look at how you'd go about training a model on uhm a sp- speech recognition dataset”</span><!-- HTML_TAG_END --></pre></div> <h3 class="relative group"><a id="4-стиль-транскрипции" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#4-стиль-транскрипции"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>4. Стиль транскрипции</span></h3> <p data-svelte-h="svelte-vspu9d">Стиль транскрипции относится к тому, есть ли в целевом тексте пунктуация, регистр или и то, и другое. Если мы хотим, чтобы система | |
| генерировала полностью отформатированный текст, который можно было бы использовать для публикации или транскрипции собрания, нам нужны | |
| обучающие данные с пунктуацией и регистром. Если нам просто нужны произносимые слова в неформатированной структуре, ни пунктуация, | |
| ни регистр не нужны. В этом случае мы можем либо выбрать набор данных без знаков препинания и регистра, либо выбрать тот, в котором | |
| есть знаки препинания и регистр, а затем впоследствии удалить их из целевого текста с помощью предварительной обработки.</p> <h2 class="relative group"><a id="сводная-информация-о-наборах-данных-на-hugging-face-hub" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#сводная-информация-о-наборах-данных-на-hugging-face-hub"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Сводная информация о наборах данных на Hugging Face Hub</span></h2> <p data-svelte-h="svelte-k72xwj">Ниже приведен обзор наиболее популярных наборов данных для распознавания английской речи на Hugging Face Hub:</p> <table data-svelte-h="svelte-1tshwgv"><thead><tr><th>Dataset</th> <th>Train Hours</th> <th>Domain</th> <th>Speaking Style</th> <th>Casing</th> <th>Punctuation</th> <th>License</th> <th>Recommended Use</th></tr></thead> <tbody><tr><td><a href="https://huggingface.co/datasets/librispeech_asr" rel="nofollow">LibriSpeech</a></td> <td>960</td> <td>Audiobook</td> <td>Narrated</td> <td>❌</td> <td>❌</td> <td>CC-BY-4.0</td> <td>Academic benchmarks</td></tr> <tr><td><a href="https://huggingface.co/datasets/mozilla-foundation/common_voice_11_0" rel="nofollow">Common Voice 11</a></td> <td>3000</td> <td>Wikipedia</td> <td>Narrated</td> <td>✅</td> <td>✅</td> <td>CC0-1.0</td> <td>Non-native speakers</td></tr> <tr><td><a href="https://huggingface.co/datasets/facebook/voxpopuli" rel="nofollow">VoxPopuli</a></td> <td>540</td> <td>European Parliament</td> <td>Oratory</td> <td>❌</td> <td>✅</td> <td>CC0</td> <td>Non-native speakers</td></tr> <tr><td><a href="https://huggingface.co/datasets/LIUM/tedlium" rel="nofollow">TED-LIUM</a></td> <td>450</td> <td>TED talks</td> <td>Oratory</td> <td>❌</td> <td>❌</td> <td>CC-BY-NC-ND 3.0</td> <td>Technical topics</td></tr> <tr><td><a href="https://huggingface.co/datasets/speechcolab/gigaspeech" rel="nofollow">GigaSpeech</a></td> <td>10000</td> <td>Audiobook, podcast, YouTube</td> <td>Narrated, spontaneous</td> <td>❌</td> <td>✅</td> <td>apache-2.0</td> <td>Robustness over multiple domains</td></tr> <tr><td><a href="https://huggingface.co/datasets/kensho/spgispeech" rel="nofollow">SPGISpeech</a></td> <td>5000</td> <td>Financial meetings</td> <td>Oratory, spontaneous</td> <td>✅</td> <td>✅</td> <td>User Agreement</td> <td>Fully formatted transcriptions</td></tr> <tr><td><a href="https://huggingface.co/datasets/revdotcom/earnings22" rel="nofollow">Earnings-22</a></td> <td>119</td> <td>Financial meetings</td> <td>Oratory, spontaneous</td> <td>✅</td> <td>✅</td> <td>CC-BY-SA-4.0</td> <td>Diversity of accents</td></tr> <tr><td><a href="https://huggingface.co/datasets/edinburghcstr/ami" rel="nofollow">AMI</a></td> <td>100</td> <td>Meetings</td> <td>Spontaneous</td> <td>✅</td> <td>✅</td> <td>CC-BY-4.0</td> <td>Noisy speech conditions</td></tr></tbody></table> <p data-svelte-h="svelte-10voq4h">Эта таблица служит справочной информацией для выбора набора данных на основе вашего критерия. Ниже приведена эквивалентная таблица | |
| для многоязычного распознавания речи. Обратите внимание, что мы опускаем столбец “Время обучения”, поскольку оно зависит от языка для | |
| каждого набора данных, и заменяем его на количество языков для каждого набора данных:</p> <table data-svelte-h="svelte-1wjgm7a"><thead><tr><th>Dataset</th> <th>Languages</th> <th>Domain</th> <th>Speaking Style</th> <th>Casing</th> <th>Punctuation</th> <th>License</th> <th>Recommended Usage</th></tr></thead> <tbody><tr><td><a href="https://huggingface.co/datasets/facebook/multilingual_librispeech" rel="nofollow">Multilingual LibriSpeech</a></td> <td>6</td> <td>Audiobooks</td> <td>Narrated</td> <td>❌</td> <td>❌</td> <td>CC-BY-4.0</td> <td>Academic benchmarks</td></tr> <tr><td><a href="https://huggingface.co/datasets/mozilla-foundation/common_voice_13_0" rel="nofollow">Common Voice 13</a></td> <td>108</td> <td>Wikipedia text & crowd-sourced speech</td> <td>Narrated</td> <td>✅</td> <td>✅</td> <td>CC0-1.0</td> <td>Diverse speaker set</td></tr> <tr><td><a href="https://huggingface.co/datasets/facebook/voxpopuli" rel="nofollow">VoxPopuli</a></td> <td>15</td> <td>European Parliament recordings</td> <td>Spontaneous</td> <td>❌</td> <td>✅</td> <td>CC0</td> <td>European languages</td></tr> <tr><td><a href="https://huggingface.co/datasets/google/fleurs" rel="nofollow">FLEURS</a></td> <td>101</td> <td>European Parliament recordings</td> <td>Spontaneous</td> <td>❌</td> <td>❌</td> <td>CC-BY-4.0</td> <td>Multilingual evaluation</td></tr></tbody></table> <p data-svelte-h="svelte-1wwo87y">Подробную информацию о наборах аудиоданных, представленных в обеих таблицах, можно найти в блоге <a href="https://huggingface.co/blog/audio-datasets#a-tour-of-audio-datasets-on-the-hub" rel="nofollow">Полное руководство по работе с наборами аудиоданных</a>. | |
| Хотя на Hugging Face Hub имеется более 180 наборов данных для распознавания речи, может оказаться, что среди них нет такого, | |
| который соответствует вашим потребностям. Для создания пользовательского набора аудиоданных см. руководство <a href="https://huggingface.co/docs/datasets/audio_dataset" rel="nofollow">Создание набора аудиоданных</a>. | |
| При создании пользовательского набора аудиоданных подумайте о том, чтобы опубликовать окончательный набор данных в Hugging Face Hub, чтобы | |
| другие участники сообщества могли извлечь пользу из ваших усилий — сообщество аудио является обширно и многогранно, и другие оценят вашу | |
| работу так же, как и вы.</p> <p data-svelte-h="svelte-jzziwm">Хорошо! Теперь, когда мы рассмотрели все критерии выбора набора данных ASR, давайте выберем один из них для целей данного руководства. | |
| Мы знаем, что Whisper уже достаточно хорошо справляется с транскрибацией данных на ресурсоемких языках(таких как английский | |
| и испанский), поэтому мы сосредоточимся на многоязычной транскрибации данных с низким уровнем ресурсов. Мы хотим сохранить способность Whisper | |
| предсказывать знаки препинания и регистр, поэтому из второй таблицы видно, что Common Voice 13 является отличным набором данных!</p> <h2 class="relative group"><a id="common-voice-13" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#common-voice-13"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Common Voice 13</span></h2> <p data-svelte-h="svelte-lldp36">Common Voice 13 - это набор данных, созданный на основе краудсорсинга, в котором дикторы записывают текст из Википедии на разных языках. | |
| Он является частью серии Common Voice - коллекции наборов данных Common Voice, выпускаемой Mozilla Foundation. На момент написания статьи | |
| Common Voice 13 является последней редакцией набора данных, содержащей наибольшее количество языков и часов на один язык из всех выпущенных | |
| на сегодняшний день.</p> <p data-svelte-h="svelte-1s2qaem">Полный список языков для набора данных Common Voice 13 можно получить, заглянув на страницу набора данных на Hugging Face Hub: | |
| <a href="https://huggingface.co/datasets/mozilla-foundation/common_voice_13_0" rel="nofollow">mozilla-foundation/common_voice_13_0</a>. | |
| При первом просмотре этой страницы вам будет предложено принять условия использования. После этого вам будет предоставлен полный доступ к набору данных.</p> <p data-svelte-h="svelte-vk4vru">После того как мы выполнили аутентификацию для использования набора данных, нам будет представлен предварительный просмотр набора данных. | |
| Предварительный просмотр набора данных показывает нам первые 100 образцов набора данных для каждого языка. Более того, в него загружены аудиообразцы, | |
| которые мы можем прослушать в режиме реального времени. Для этого Раздела мы выберем <a href="https://en.wikipedia.org/wiki/Maldivian_language" rel="nofollow"><em>Дивехи</em></a> | |
| или (<em>Мальдивский язык</em>), это индоарийский язык, на котором разговаривают в островном государстве Мальдивы, расположенном в Южной Азии. Хотя для данного | |
| руководства мы выбрали Дивехи, описанные здесь шаги применимы к любому из 108 языков, входящих в набор данных Common Voice 13, и вообще к любому из 180 | |
| с лишним наборов аудиоданных на Hugging Face Hub, поэтому нет никаких ограничений по языку или диалекту.</p> <p data-svelte-h="svelte-ilhk6i">Мы можем выбрать подмножество Дивехи в Common Voice 13, установив в выпадающем меню подмножество <code>dv</code> (<code>dv</code> - код идентификатора языка Dhivehi):</p> <div class="flex justify-center" data-svelte-h="svelte-y9qjeu"><img src="https://huggingface.co/datasets/huggingface-course/audio-course-images/resolve/main/cv_13_dv_selection.png" alt="Selecting the Dhivehi split from the Dataset's Preview"></div> <p data-svelte-h="svelte-1vcb2q2">Если мы нажмем кнопку воспроизведения на первом примере, то сможем прослушать звук и увидеть соответствующий текст. Пролистайте примеры обучающего | |
| и тестового наборов, чтобы лучше понять, с какими аудио- и текстовыми данными мы имеем дело. По интонации и стилю можно определить, что записи | |
| сделаны с дикторской речи. Вы также, вероятно, заметите большой разброс между дикторами и качеством записи, что является общей чертой что является | |
| общей чертой краудсорсинговых данных.</p> <p data-svelte-h="svelte-1y2blhp">Предварительный просмотр данных - это отличный способ ознакомиться с наборами аудиоданных, прежде чем приступить к их использованию. Вы можете | |
| выбрать любой набор данных в Hugging Face Hub, просмотреть образцы и прослушать аудио для различных подмножеств и разбиений, оценив, подходит | |
| ли этот набор данных для ваших нужд. Выбрав набор данных, можно загрузить их и начать использовать.</p> <p data-svelte-h="svelte-5yc18x">Итак, я лично не владею Дивехи, и предполагаю, что подавляющее большинство читателей тоже! Чтобы узнать, насколько хороша наша | |
| дообученная модель, нам потребуется строгий способ <em>оценить</em> ее на невидимых данных и измерить достоверность транскрипции. Именно об этом | |
| мы расскажем в следующем разделе!</p> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/audio-transformers-course/blob/main/chapters/ru/chapter5/choosing_dataset.mdx" target="_blank"><span data-svelte-h="svelte-1kd6by1"><</span> <span data-svelte-h="svelte-x0xyl0">></span> <span data-svelte-h="svelte-1dajgef"><span class="underline ml-1.5">Update</span> on GitHub</span></a> <p></p> | |
| <script> | |
| { | |
| __sveltekit_2kx7xw = { | |
| assets: "/docs/audio-course/pr_201/ru", | |
| base: "/docs/audio-course/pr_201/ru", | |
| env: {} | |
| }; | |
| const element = document.currentScript.parentElement; | |
| const data = [null,null]; | |
| Promise.all([ | |
| import("/docs/audio-course/pr_201/ru/_app/immutable/entry/start.09f2bcd2.js"), | |
| import("/docs/audio-course/pr_201/ru/_app/immutable/entry/app.ea37f525.js") | |
| ]).then(([kit, app]) => { | |
| kit.start(app, element, { | |
| node_ids: [0, 28], | |
| data, | |
| form: null, | |
| error: null | |
| }); | |
| }); | |
| } | |
| </script> | |
Xet Storage Details
- Size:
- 35.3 kB
- Xet hash:
- 00c17602142b0865966b6164b5728f09c3de48fc07b3580fc270b194061e3ca7
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.