panlr's picture
fix error
d85bd27

A newer version of the Gradio SDK is available: 6.4.0

Upgrade

字典、词典文件简介

accent_convert 目录

顾名思义,本目录存放着口音转换字典,几个txt文件分别是府城音到汕头(Swatow)、揭阳(Kityall)、澄海(Tenhigh)、金石、庵埠等地口音的映射对照。

vocab 目录

本文件夹存放着多个核心字典文件,包括:

1、origin_vocab.txt

该文件是从潮州音字典的原始数据修改而来,去掉了较为低频或只用于特定词汇的发音,并对部分读音进行修改、优化。

2、 low_fre.txt

该文件记录了 origin_vocab.txt 中剔除的较为低频读音,其中带星号(*)表示极为低频。

3、vocab_extension.txt

该文件记录了原字典里没有收录汉字,或者针对有音无字问题引入、改造的新字。也包括了部分英语字母。

4、Surname.txt

该文件整理了常用姓氏的潮汕话读音情况

5、phone.txt

该文件将拼音映射为更小的音素,也就是 声母 + 韵母 的模式

6、IPA_lexicon.txt

该文件将拼音映射到国际音标IPA,方便与现有多语言语音大模型接轨。

7、 reign_title.txt

记录古代皇帝年号专用词。

8、 error_pronunciation.txt

由于现在的义务教育大力推普,加上传统的文化行业(如方言小品剧、讲古)的衰落,以及潮汕话电子版资料相对较少,很多潮汕人很多发音习惯会受普通话的影响,例如:

趁: 读成 cêng3
奔:读成 bung1
荐: 读成 giang3
标:读成 biou1
宠:读成 cong2
揣:读成 cuai2
蹭:读成 cêng3

此类的错误发音已经成为事实,因此我增加了 error_pronunciation.txt 的文件,记录此类错误发音。

该文件将持续记录。

9、homophonic_substitution.txt 谐音字替换。记录潮汕人在微信、抖音等平台习惯喜欢用的谐音字。

10、history.txt 存放历史相关词汇。

word_dict 目录

本文件夹存放着多个核心词典文件,包括:

1、dict.txt 存放常用词汇的读音,用于多音字消歧。主要是普通话词汇为主,因为项目早期没做特别区分,所以也混杂了一些潮汕话方言词汇进去,待后续检查、改进。

2、teochew_local_dict.txt 存放方言词汇的读音。例如【生理】,在dict.txt中是【sên1 li2】,表示【生物机体的生命活动和各个器官的机能】;在teochew_local_dict.txt 中是【sêng1 li2】,表示【生意、买卖】。

3、madr_to_tch.txt 用于将普通话词汇映射到更为地道的潮汕话词汇。

4、jieba_cut.txt 针对前三个词典文件进行整理,辅助jieba库的分词,使之更加适配潮汕话的分词。

5、place.txt 整理古今中外和潮汕本土地名,基本涵盖世界上大部分国家和地区,以及主要城市。 本土地名尽量遵循习惯读法和白读音。 国内其他地区和国外地名优先遵循习惯读法,如该地名较少用,则优先用文读音。