Buckets:
| # Раздел 2. Краткое введение в аудиоприложения | |
| Добро пожаловать во второй раздел аудиокурса от Hugging Face! Ранее мы рассмотрели основы аудиоданных | |
| и научились работать с наборами аудиоданных с помощью библиотек 🤗 Datasets и 🤗 Transformers. Мы обсудили различные | |
| понятия, такие как частота дискретизации, амплитуда, битовая глубина, форма волны и спектрограммы, а также рассмотрели | |
| способы предварительной обработки данных для подготовки их к использованию в предварительно обученной модели. | |
| К этому моменту вы, возможно, уже хотите узнать о том, с какими аудиозадачами могут справиться 🤗 Transformers, и | |
| у вас есть все необходимые базовые знания, необходимые для дальнейшего погружения! Давайте рассмотрим некоторые из | |
| примеров умопомрачительных аудиозадач: | |
| * **Аудио классификация**: простая классификация аудиоклипов по различным категориям. Вы можете определить, лает ли | |
| на записи собака или мяукает кошка, или к какому музыкальному жанру относится та или иная композиция. | |
| * **Автоматическое распознавание речи**: преобразование аудиоклипов в текст путем их автоматической транскрибации. | |
| Вы можете получить текстовое представление записи разговора, например, "Как дела?". Очень полезно для ведения заметок! | |
| * **Диаризация диктора**: Вы когда-нибудь задумывались, кто говорит в записи? С помощью 🤗 Transformers вы сможете определить, | |
| кто из дикторов говорит в тот или иной момент времени в аудиоклипе. Представьте себе, что вы можете различить Алису и Боба | |
| в записи их разговора. | |
| * **Перевод текста в речь**: создать дикторскую версию текста, которая может быть использована для создания аудиокниги, | |
| помочь в обеспечении доступности (для людей с ограниченными возможностями) или дать голос NPC в игре. С 🤗 Transformers | |
| вы легко сможете это сделать! | |
| В этом разделе вы узнаете, как использовать предварительно обученные модели для решения некоторых из этих задач с помощью | |
| функции `pipeline()` из 🤗 Transformers. В частности, мы увидим, как предварительно обученные модели могут быть использованы | |
| для классификации звука и автоматического распознавания речи. | |
| Давайте начнем! | |
Xet Storage Details
- Size:
- 3.72 kB
- Xet hash:
- d00270ad2f8720ee8d26c52d272b61abc0c121238c0a9b0188b8260056b22b94
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.