Buckets:
Раздел 4. Разработка классификатора музыкальных жанров
Чему вы научитесь и что вы сможете создать
Классификация звука - одно из наиболее распространенных применений трансформеров в обработке звука и речи. Как и другие задачи классификации в машинном обучении, эта задача предполагает присвоение одной или нескольких меток аудиозаписи на основе ее содержания. Например, в случае с речью мы можем захотеть обнаружить, когда произносится фраза-пробуждение вроде "Привет, Siri", или определить ключевое слово вроде "температура" из произнесенного запроса "Какая сегодня погода?". Другим примером могут служить звуки окружающей среды, когда мы хотим автоматически различать такие звуки, как "автомобильный гудок", "сирена", "лай собаки" и т.д.
В этом разделе мы рассмотрим, как предварительно обученные звуковые трансформеры могут применяться в различных задачах классификации звука. Затем мы произведем дообучение модели-трансформера на задаче классификации музыки, классифицируя песни по жанрам, таким как "поп" и "рок". Это важная составляющая таких музыкальных стриминговых сервисов, как Spotify, которые рекомендуют песни, похожие на те, что слушает пользователь.
К концу этого раздела вы узнаете, как:
- Найти подходящие предварительно обученные модели для задачи классификации звука
- Использовать библиотеку 🤗 Datasets и Hugging Face Hub для выбора наборов данных для классификации звука
- Производить дообучение предварительно обученной модели для классификации песен по жанрам
- Создание демо-версии Gradio, позволяющей классифицировать собственные песни
Xet Storage Details
- Size:
- 2.88 kB
- Xet hash:
- 364bf5d9553a74044f0b8a89997482194d4f75082f609993dd8d5820e1511cd3
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.