Common Voice 维吾尔语数据集 v24.0
数据集概述
- 语言: 维吾尔语 (Uyghur / UG)
- 版本: Common Voice 24.0 (2025-12-05)
- 压缩包大小: 9.7 GB
- 解压后大小: ~20 GB (音频 11GB + 元数据)
- 数据集类型: 众包语音数据集
- 许可证: CC0 1.0 Universal (公共领域)
目录结构
common_voice_ug/
├── mcv-scripted-ug-v24.0.tar.gz # 原始压缩包 (9.7GB)
└── cv-corpus-24.0-2025-12-05/
└── ug/ # 维吾尔语数据
├── clips/ # MP3音频文件 (11GB, 305,081个文件)
├── train.tsv # 训练集 (122,911条)
├── dev.tsv # 开发集 (14,656条)
├── test.tsv # 测试集 (14,656条)
├── validated.tsv # 已验证数据 (269,390条)
├── validated_sentences.tsv # 句子库 (231,426条)
├── clip_durations.tsv # 音频时长 (305,081条)
├── invalidated.tsv # 无效数据 (21,500条)
├── other.tsv # 其他数据 (14,191条)
├── reported.tsv # 举报数据 (1,539条)
└── unvalidated_sentences.tsv # 未验证句子 (11,032条)
数据统计
数据划分
| 数据集 |
记录数 |
说明 |
| validated.tsv |
269,390 |
已验证的高质量录音 |
| train.tsv |
122,911 |
训练集 (从validated划分) |
| dev.tsv |
14,656 |
开发集/验证集 |
| test.tsv |
14,656 |
测试集 |
| invalidated.tsv |
21,500 |
被标记为无效的录音 |
| other.tsv |
14,191 |
其他分类数据 |
音频统计
| 指标 |
数值 |
| 音频文件总数 |
305,081 个 |
| 音频总时长 |
505.7 小时 |
| 平均音频时长 |
5.97 秒 |
| 音频格式 |
MP3 (MPEG ADTS, layer III) |
| 采样率 |
32 kHz |
| 比特率 |
48 kbps |
| 声道 |
单声道 (Monaural) |
| 音频总大小 |
11 GB |
年龄分布 (validated.tsv)
| 年龄段 |
数量 |
占比 |
| twenties (20-29岁) |
90,688 |
33.7% |
| thirties (30-39岁) |
76,009 |
28.2% |
| fourties (40-49岁) |
29,164 |
10.8% |
| teens (青少年) |
14,014 |
5.2% |
| fifties (50-59岁) |
2,423 |
0.9% |
| eighties (80岁以上) |
409 |
0.2% |
| 未标注 |
56,683 |
21.0% |
性别分布 (validated.tsv)
| 性别 |
数量 |
占比 |
| male_masculine |
75,470 |
28.0% |
| female_feminine |
54,875 |
20.4% |
| do_not_wish_to_say |
1,681 |
0.6% |
| intersex |
21 |
<0.1% |
| 未标注 |
137,343 |
51.0% |
数据格式
TSV文件结构
| 字段 |
说明 |
示例 |
| client_id |
说话者唯一ID (匿名哈希) |
0432a01b98294eb29faf664bb81eb0340a2a5645... |
| path |
音频文件名 |
common_voice_ug_38668292.mp3 |
| sentence_id |
句子唯一ID (哈希) |
1e6289515414f96b066d7c6483f20a2be92227eb... |
| sentence |
维吾尔语文字内容 |
بۇ چوقۇم بىر ئالدامچىلىق، ئالدىرىما... |
| up_votes |
认可票数 |
2 |
| down_votes |
反对票数 |
0 |
| age |
年龄段 |
twenties, thirties, fourties... |
| gender |
性别 |
male_masculine, female_feminine... |
| locale |
语言代码 |
ug |
音频文件命名规则
common_voice_ug_{数字ID}.mp3
例如: common_voice_ug_38668292.mp3
质量标准
数据通过社区投票机制保证质量:
- ✅ up_votes ≥ 2: 至少2人认可录音质量
- ✅ down_votes = 0: 无人反对(部分数据可能有1个down_vote但仍被接受)
- ✅ locale = ug: 确认为维吾尔语
- ✅ sentence 非空: 有对应的文本转录
使用场景
- 语音识别 (ASR): 训练维吾尔语语音转文字模型
- 语音合成 (TTS): 训练文字转语音模型
- 语言学研究: 分析维吾尔语语音特征、音系学
- 低资源语言研究: 低资源语言模型训练与评估
- 多语言模型: 多语言语音识别模型训练
示例数据
示例 1
client_id: 0432a01b98294eb29faf664bb81eb0340a2a5645...
audio: common_voice_ug_38668292.mp3
text: بۇ چوقۇم بىر ئالدامچىلىق، ئالدىرىما، مەن بېرىپ قاراپ باقاي.
(这一定是个骗局,别急,我去看看。)
up_votes: 2
down_votes: 1
age: (未标注)
gender: (未标注)
示例 2
client_id: 04455100eeff4b339507fd06d6bc4fff5f6a4f3da0d1e8bb662fb8541425d7a9...
audio: common_voice_ug_39704025.mp3
text: ئۈچىنچى ئادەت، مۇھىم ئىشنى ئالدىدا قىلىش.
(第三个习惯,重要的事情先做。)
up_votes: 2
down_votes: 0
age: (未标注)
gender: (未标注)
示例 3
client_id: 12b431b35706af75277461b62923c2d758349e2d0c96e36760e1532e0f583c96...
audio: common_voice_ug_36990048.mp3
text: بىر نەرسىگە پۈتۈن ۋۇجۇدۇڭ بىلەن بېرىلسەڭ پۈتۈن دۇنيا ساڭا ياردەم بېرىدۇ.
(如果你全身心投入一件事,全世界都会帮助你。)
up_votes: 2
down_votes: 0
age: (未标注)
gender: (未标注)
数据特点
- 同一说话者多段录音: 相同的
client_id 表示同一人录制了多条音频
- 质量分层: 通过
validated / invalidated / other 区分数据质量
- 多样性: 覆盖不同年龄、性别、口音的说话者
- 真实场景: 来自志愿者贡献的真实语音,非专业录音棚环境
- 众包验证: 通过社区投票机制确保数据质量
下载与使用
从HuggingFace下载
pip install huggingface-hub
huggingface-cli download anke01/common-voice-uyghur-v24 --local-dir ./common-voice-uyghur-v24
wget https://huggingface.co/anke01/common-voice-uyghur-v24/resolve/main/mcv-scripted-ug-v24.0.tar.gz
解压数据
tar -xzf mcv-scripted-ug-v24.0.tar.gz
加载数据 (Python示例)
import pandas as pd
train_df = pd.read_csv('cv-corpus-24.0-2025-12-05/ug/train.tsv', sep='\t')
validated_df = pd.read_csv('cv-corpus-24.0-2025-12-05/ug/validated.tsv', sep='\t')
print(f"训练集大小: {len(train_df)}")
print(f"已验证数据大小: {len(validated_df)}")
数据来源与引用
引用格式
@misc{commonvoice2025,
title = {Common Voice Corpus 24.0},
author = {{Mozilla Foundation}},
year = {2025},
month = {12},
howpublished = {\url{https://commonvoice.mozilla.org/}},
note = {Accessed: 2026-02-28}
}
注意事项
- 数据质量: 虽然经过社区验证,但仍可能存在少量错误转录或背景噪音
- 隐私保护: 所有说话者ID均为匿名哈希值,不包含个人身份信息
- 语言代码: 使用
ug 表示维吾尔语 (Uyghur)
- 音频格式: 所有音频为 MP3 格式,32kHz 采样率,单声道
- 数据平衡: 年龄和性别分布不均衡,使用时需注意采样策略
更新日志
- 2025-12-05: Common Voice 24.0 发布
- 2026-02-28: 上传至 HuggingFace (anke01/common-voice-uyghur-v24)
数据集统计验证日期: 2026-02-28