Common Voice 维吾尔语数据集 v24.0

数据集概述

  • 语言: 维吾尔语 (Uyghur / UG)
  • 版本: Common Voice 24.0 (2025-12-05)
  • 压缩包大小: 9.7 GB
  • 解压后大小: ~20 GB (音频 11GB + 元数据)
  • 数据集类型: 众包语音数据集
  • 许可证: CC0 1.0 Universal (公共领域)

目录结构

common_voice_ug/
├── mcv-scripted-ug-v24.0.tar.gz    # 原始压缩包 (9.7GB)
└── cv-corpus-24.0-2025-12-05/
    └── ug/                          # 维吾尔语数据
        ├── clips/                   # MP3音频文件 (11GB, 305,081个文件)
        ├── train.tsv                # 训练集 (122,911条)
        ├── dev.tsv                  # 开发集 (14,656条)
        ├── test.tsv                 # 测试集 (14,656条)
        ├── validated.tsv            # 已验证数据 (269,390条)
        ├── validated_sentences.tsv  # 句子库 (231,426条)
        ├── clip_durations.tsv       # 音频时长 (305,081条)
        ├── invalidated.tsv          # 无效数据 (21,500条)
        ├── other.tsv                # 其他数据 (14,191条)
        ├── reported.tsv             # 举报数据 (1,539条)
        └── unvalidated_sentences.tsv # 未验证句子 (11,032条)

数据统计

数据划分

数据集 记录数 说明
validated.tsv 269,390 已验证的高质量录音
train.tsv 122,911 训练集 (从validated划分)
dev.tsv 14,656 开发集/验证集
test.tsv 14,656 测试集
invalidated.tsv 21,500 被标记为无效的录音
other.tsv 14,191 其他分类数据

音频统计

指标 数值
音频文件总数 305,081 个
音频总时长 505.7 小时
平均音频时长 5.97 秒
音频格式 MP3 (MPEG ADTS, layer III)
采样率 32 kHz
比特率 48 kbps
声道 单声道 (Monaural)
音频总大小 11 GB

年龄分布 (validated.tsv)

年龄段 数量 占比
twenties (20-29岁) 90,688 33.7%
thirties (30-39岁) 76,009 28.2%
fourties (40-49岁) 29,164 10.8%
teens (青少年) 14,014 5.2%
fifties (50-59岁) 2,423 0.9%
eighties (80岁以上) 409 0.2%
未标注 56,683 21.0%

性别分布 (validated.tsv)

性别 数量 占比
male_masculine 75,470 28.0%
female_feminine 54,875 20.4%
do_not_wish_to_say 1,681 0.6%
intersex 21 <0.1%
未标注 137,343 51.0%

数据格式

TSV文件结构

字段 说明 示例
client_id 说话者唯一ID (匿名哈希) 0432a01b98294eb29faf664bb81eb0340a2a5645...
path 音频文件名 common_voice_ug_38668292.mp3
sentence_id 句子唯一ID (哈希) 1e6289515414f96b066d7c6483f20a2be92227eb...
sentence 维吾尔语文字内容 بۇ چوقۇم بىر ئالدامچىلىق، ئالدىرىما...
up_votes 认可票数 2
down_votes 反对票数 0
age 年龄段 twenties, thirties, fourties...
gender 性别 male_masculine, female_feminine...
locale 语言代码 ug

音频文件命名规则

common_voice_ug_{数字ID}.mp3
例如: common_voice_ug_38668292.mp3

质量标准

数据通过社区投票机制保证质量:

  • up_votes ≥ 2: 至少2人认可录音质量
  • down_votes = 0: 无人反对(部分数据可能有1个down_vote但仍被接受)
  • locale = ug: 确认为维吾尔语
  • sentence 非空: 有对应的文本转录

使用场景

  1. 语音识别 (ASR): 训练维吾尔语语音转文字模型
  2. 语音合成 (TTS): 训练文字转语音模型
  3. 语言学研究: 分析维吾尔语语音特征、音系学
  4. 低资源语言研究: 低资源语言模型训练与评估
  5. 多语言模型: 多语言语音识别模型训练

示例数据

示例 1

client_id: 0432a01b98294eb29faf664bb81eb0340a2a5645...
audio: common_voice_ug_38668292.mp3
text: بۇ چوقۇم بىر ئالدامچىلىق، ئالدىرىما، مەن بېرىپ قاراپ باقاي.
       (这一定是个骗局,别急,我去看看。)
up_votes: 2
down_votes: 1
age: (未标注)
gender: (未标注)

示例 2

client_id: 04455100eeff4b339507fd06d6bc4fff5f6a4f3da0d1e8bb662fb8541425d7a9...
audio: common_voice_ug_39704025.mp3
text: ئۈچىنچى ئادەت، مۇھىم ئىشنى ئالدىدا قىلىش.
       (第三个习惯,重要的事情先做。)
up_votes: 2
down_votes: 0
age: (未标注)
gender: (未标注)

示例 3

client_id: 12b431b35706af75277461b62923c2d758349e2d0c96e36760e1532e0f583c96...
audio: common_voice_ug_36990048.mp3
text: بىر نەرسىگە پۈتۈن ۋۇجۇدۇڭ بىلەن بېرىلسەڭ پۈتۈن دۇنيا ساڭا ياردەم بېرىدۇ.
       (如果你全身心投入一件事,全世界都会帮助你。)
up_votes: 2
down_votes: 0
age: (未标注)
gender: (未标注)

数据特点

  1. 同一说话者多段录音: 相同的 client_id 表示同一人录制了多条音频
  2. 质量分层: 通过 validated / invalidated / other 区分数据质量
  3. 多样性: 覆盖不同年龄、性别、口音的说话者
  4. 真实场景: 来自志愿者贡献的真实语音,非专业录音棚环境
  5. 众包验证: 通过社区投票机制确保数据质量

下载与使用

从HuggingFace下载

# 安装huggingface-hub
pip install huggingface-hub

# 下载整个仓库
huggingface-cli download anke01/common-voice-uyghur-v24 --local-dir ./common-voice-uyghur-v24

# 或仅下载压缩包
wget https://huggingface.co/anke01/common-voice-uyghur-v24/resolve/main/mcv-scripted-ug-v24.0.tar.gz

解压数据

tar -xzf mcv-scripted-ug-v24.0.tar.gz

加载数据 (Python示例)

import pandas as pd

# 读取训练集
train_df = pd.read_csv('cv-corpus-24.0-2025-12-05/ug/train.tsv', sep='\t')

# 读取验证集
validated_df = pd.read_csv('cv-corpus-24.0-2025-12-05/ug/validated.tsv', sep='\t')

print(f"训练集大小: {len(train_df)}")
print(f"已验证数据大小: {len(validated_df)}")

数据来源与引用

引用格式

@misc{commonvoice2025,
  title = {Common Voice Corpus 24.0},
  author = {{Mozilla Foundation}},
  year = {2025},
  month = {12},
  howpublished = {\url{https://commonvoice.mozilla.org/}},
  note = {Accessed: 2026-02-28}
}

注意事项

  1. 数据质量: 虽然经过社区验证,但仍可能存在少量错误转录或背景噪音
  2. 隐私保护: 所有说话者ID均为匿名哈希值,不包含个人身份信息
  3. 语言代码: 使用 ug 表示维吾尔语 (Uyghur)
  4. 音频格式: 所有音频为 MP3 格式,32kHz 采样率,单声道
  5. 数据平衡: 年龄和性别分布不均衡,使用时需注意采样策略

更新日志

  • 2025-12-05: Common Voice 24.0 发布
  • 2026-02-28: 上传至 HuggingFace (anke01/common-voice-uyghur-v24)

数据集统计验证日期: 2026-02-28

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support