Common Voice 维吾尔语数据集 v24.0

数据集概述

语言: 维吾尔语 (Uyghur / UG)
版本: Common Voice 24.0 (2025-12-05)
压缩包大小: 9.7 GB
解压后大小: ~20 GB (音频 11GB + 元数据)
数据集类型: 众包语音数据集
许可证: CC0 1.0 Universal (公共领域)

目录结构

common_voice_ug/
├── mcv-scripted-ug-v24.0.tar.gz    # 原始压缩包 (9.7GB)
└── cv-corpus-24.0-2025-12-05/
    └── ug/                          # 维吾尔语数据
        ├── clips/                   # MP3音频文件 (11GB, 305,081个文件)
        ├── train.tsv                # 训练集 (122,911条)
        ├── dev.tsv                  # 开发集 (14,656条)
        ├── test.tsv                 # 测试集 (14,656条)
        ├── validated.tsv            # 已验证数据 (269,390条)
        ├── validated_sentences.tsv  # 句子库 (231,426条)
        ├── clip_durations.tsv       # 音频时长 (305,081条)
        ├── invalidated.tsv          # 无效数据 (21,500条)
        ├── other.tsv                # 其他数据 (14,191条)
        ├── reported.tsv             # 举报数据 (1,539条)
        └── unvalidated_sentences.tsv # 未验证句子 (11,032条)

数据统计

数据划分

数据集	记录数	说明
validated.tsv	269,390	已验证的高质量录音
train.tsv	122,911	训练集 (从validated划分)
dev.tsv	14,656	开发集/验证集
test.tsv	14,656	测试集
invalidated.tsv	21,500	被标记为无效的录音
other.tsv	14,191	其他分类数据

音频统计

指标	数值
音频文件总数	305,081 个
音频总时长	505.7 小时
平均音频时长	5.97 秒
音频格式	MP3 (MPEG ADTS, layer III)
采样率	32 kHz
比特率	48 kbps
声道	单声道 (Monaural)
音频总大小	11 GB

年龄分布 (validated.tsv)

年龄段	数量	占比
twenties (20-29岁)	90,688	33.7%
thirties (30-39岁)	76,009	28.2%
fourties (40-49岁)	29,164	10.8%
teens (青少年)	14,014	5.2%
fifties (50-59岁)	2,423	0.9%
eighties (80岁以上)	409	0.2%
未标注	56,683	21.0%

性别分布 (validated.tsv)

性别	数量	占比
male_masculine	75,470	28.0%
female_feminine	54,875	20.4%
do_not_wish_to_say	1,681	0.6%
intersex	21	<0.1%
未标注	137,343	51.0%

数据格式

TSV文件结构

字段	说明	示例
client_id	说话者唯一ID (匿名哈希)	0432a01b98294eb29faf664bb81eb0340a2a5645...
path	音频文件名	common_voice_ug_38668292.mp3
sentence_id	句子唯一ID (哈希)	1e6289515414f96b066d7c6483f20a2be92227eb...
sentence	维吾尔语文字内容	بۇ چوقۇم بىر ئالدامچىلىق، ئالدىرىما...
up_votes	认可票数	2
down_votes	反对票数	0
age	年龄段	twenties, thirties, fourties...
gender	性别	male_masculine, female_feminine...
locale	语言代码	ug

音频文件命名规则

common_voice_ug_{数字ID}.mp3
例如: common_voice_ug_38668292.mp3

质量标准

数据通过社区投票机制保证质量：

✅ up_votes ≥ 2: 至少2人认可录音质量
✅ down_votes = 0: 无人反对（部分数据可能有1个down_vote但仍被接受）
✅ locale = ug: 确认为维吾尔语
✅ sentence 非空: 有对应的文本转录

使用场景

语音识别 (ASR): 训练维吾尔语语音转文字模型
语音合成 (TTS): 训练文字转语音模型
语言学研究: 分析维吾尔语语音特征、音系学
低资源语言研究: 低资源语言模型训练与评估
多语言模型: 多语言语音识别模型训练

示例数据

示例 1

client_id: 0432a01b98294eb29faf664bb81eb0340a2a5645...
audio: common_voice_ug_38668292.mp3
text: بۇ چوقۇم بىر ئالدامچىلىق، ئالدىرىما، مەن بېرىپ قاراپ باقاي.
       (这一定是个骗局，别急，我去看看。)
up_votes: 2
down_votes: 1
age: (未标注)
gender: (未标注)

示例 2

client_id: 04455100eeff4b339507fd06d6bc4fff5f6a4f3da0d1e8bb662fb8541425d7a9...
audio: common_voice_ug_39704025.mp3
text: ئۈچىنچى ئادەت، مۇھىم ئىشنى ئالدىدا قىلىش.
       (第三个习惯，重要的事情先做。)
up_votes: 2
down_votes: 0
age: (未标注)
gender: (未标注)

示例 3

client_id: 12b431b35706af75277461b62923c2d758349e2d0c96e36760e1532e0f583c96...
audio: common_voice_ug_36990048.mp3
text: بىر نەرسىگە پۈتۈن ۋۇجۇدۇڭ بىلەن بېرىلسەڭ پۈتۈن دۇنيا ساڭا ياردەم بېرىدۇ.
       (如果你全身心投入一件事，全世界都会帮助你。)
up_votes: 2
down_votes: 0
age: (未标注)
gender: (未标注)

数据特点

同一说话者多段录音: 相同的 client_id 表示同一人录制了多条音频
质量分层: 通过 validated / invalidated / other 区分数据质量
多样性: 覆盖不同年龄、性别、口音的说话者
真实场景: 来自志愿者贡献的真实语音，非专业录音棚环境
众包验证: 通过社区投票机制确保数据质量

下载与使用

从HuggingFace下载

# 安装huggingface-hub
pip install huggingface-hub

# 下载整个仓库
huggingface-cli download anke01/common-voice-uyghur-v24 --local-dir ./common-voice-uyghur-v24

# 或仅下载压缩包
wget https://huggingface.co/anke01/common-voice-uyghur-v24/resolve/main/mcv-scripted-ug-v24.0.tar.gz

解压数据

tar -xzf mcv-scripted-ug-v24.0.tar.gz

加载数据 (Python示例)

import pandas as pd

# 读取训练集
train_df = pd.read_csv('cv-corpus-24.0-2025-12-05/ug/train.tsv', sep='\t')

# 读取验证集
validated_df = pd.read_csv('cv-corpus-24.0-2025-12-05/ug/validated.tsv', sep='\t')

print(f"训练集大小: {len(train_df)}")
print(f"已验证数据大小: {len(validated_df)}")

数据来源与引用

项目: Mozilla Common Voice
官网: https://commonvoice.mozilla.org
数据集页面: https://commonvoice.mozilla.org/en/datasets
许可证: CC0 1.0 Universal

引用格式

@misc{commonvoice2025,
  title = {Common Voice Corpus 24.0},
  author = {{Mozilla Foundation}},
  year = {2025},
  month = {12},
  howpublished = {\url{https://commonvoice.mozilla.org/}},
  note = {Accessed: 2026-02-28}
}

注意事项

数据质量: 虽然经过社区验证，但仍可能存在少量错误转录或背景噪音
隐私保护: 所有说话者ID均为匿名哈希值，不包含个人身份信息
语言代码: 使用 ug 表示维吾尔语 (Uyghur)
音频格式: 所有音频为 MP3 格式，32kHz 采样率，单声道
数据平衡: 年龄和性别分布不均衡，使用时需注意采样策略

更新日志

2025-12-05: Common Voice 24.0 发布
2026-02-28: 上传至 HuggingFace (anke01/common-voice-uyghur-v24)

数据集统计验证日期: 2026-02-28

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support