Spaces:
Running
Running
| # 字典、词典文件简介 | |
| ## accent_convert 目录 | |
| 顾名思义,本目录存放着口音转换字典,几个txt文件分别是府城音到汕头(Swatow)、揭阳(Kityall)、澄海(Tenhigh)、金石、庵埠等地口音的映射对照。 | |
| ## vocab 目录 | |
| 本文件夹存放着多个核心字典文件,包括: | |
| #### 1、origin_vocab.txt | |
| 该文件是从潮州音字典的原始数据修改而来,去掉了较为低频或只用于特定词汇的发音,并对部分读音进行修改、优化。 | |
| #### 2、 low_fre.txt | |
| 该文件记录了 origin_vocab.txt 中剔除的较为低频读音,其中带星号(*)表示极为低频。 | |
| #### 3、vocab_extension.txt | |
| 该文件记录了原字典里没有收录汉字,或者针对有音无字问题引入、改造的新字。也包括了部分英语字母。 | |
| #### 4、Surname.txt | |
| 该文件整理了常用姓氏的潮汕话读音情况 | |
| #### 5、phone.txt | |
| 该文件将拼音映射为更小的音素,也就是 `声母 + 韵母` 的模式 | |
| #### 6、IPA_lexicon.txt | |
| 该文件将拼音映射到国际音标IPA,方便与现有多语言语音大模型接轨。 | |
| #### 7、 reign_title.txt | |
| 记录古代皇帝年号专用词。 | |
| #### 8、 error_pronunciation.txt | |
| 由于现在的义务教育大力推普,加上传统的文化行业(如方言小品剧、讲古)的衰落,以及潮汕话电子版资料相对较少,很多潮汕人很多发音习惯会受普通话的影响,例如: | |
| ``` | |
| 趁: 读成 cêng3 | |
| 奔:读成 bung1 | |
| 荐: 读成 giang3 | |
| 标:读成 biou1 | |
| 宠:读成 cong2 | |
| 揣:读成 cuai2 | |
| 蹭:读成 cêng3 | |
| ``` | |
| 此类的错误发音已经成为事实,因此我增加了 `error_pronunciation.txt` 的文件,记录此类错误发音。 | |
| 该文件将持续记录。 | |
| 9、homophonic_substitution.txt | |
| 谐音字替换。记录潮汕人在微信、抖音等平台习惯喜欢用的谐音字。 | |
| 10、history.txt | |
| 存放历史相关词汇。 | |
| #### word_dict 目录 | |
| 本文件夹存放着多个核心词典文件,包括: | |
| 1、dict.txt | |
| 存放常用词汇的读音,用于多音字消歧。主要是普通话词汇为主,因为项目早期没做特别区分,所以也混杂了一些潮汕话方言词汇进去,待后续检查、改进。 | |
| 2、teochew_local_dict.txt | |
| 存放方言词汇的读音。例如【生理】,在dict.txt中是【sên1 li2】,表示【生物机体的生命活动和各个器官的机能】;在teochew_local_dict.txt 中是【sêng1 li2】,表示【生意、买卖】。 | |
| 3、madr_to_tch.txt | |
| 用于将普通话词汇映射到更为地道的潮汕话词汇。 | |
| 4、jieba_cut.txt | |
| 针对前三个词典文件进行整理,辅助jieba库的分词,使之更加适配潮汕话的分词。 | |
| 5、place.txt | |
| 整理古今中外和潮汕本土地名,基本涵盖世界上大部分国家和地区,以及主要城市。 | |
| 本土地名尽量遵循习惯读法和白读音。 | |
| 国内其他地区和国外地名优先遵循习惯读法,如该地名较少用,则优先用文读音。 |