panlr's picture
fix error
d85bd27
# 字典、词典文件简介
## accent_convert 目录
顾名思义,本目录存放着口音转换字典,几个txt文件分别是府城音到汕头(Swatow)、揭阳(Kityall)、澄海(Tenhigh)、金石、庵埠等地口音的映射对照。
## vocab 目录
本文件夹存放着多个核心字典文件,包括:
#### 1、origin_vocab.txt
该文件是从潮州音字典的原始数据修改而来,去掉了较为低频或只用于特定词汇的发音,并对部分读音进行修改、优化。
#### 2、 low_fre.txt
该文件记录了 origin_vocab.txt 中剔除的较为低频读音,其中带星号(*)表示极为低频。
#### 3、vocab_extension.txt
该文件记录了原字典里没有收录汉字,或者针对有音无字问题引入、改造的新字。也包括了部分英语字母。
#### 4、Surname.txt
该文件整理了常用姓氏的潮汕话读音情况
#### 5、phone.txt
该文件将拼音映射为更小的音素,也就是 `声母 + 韵母` 的模式
#### 6、IPA_lexicon.txt
该文件将拼音映射到国际音标IPA,方便与现有多语言语音大模型接轨。
#### 7、 reign_title.txt
记录古代皇帝年号专用词。
#### 8、 error_pronunciation.txt
由于现在的义务教育大力推普,加上传统的文化行业(如方言小品剧、讲古)的衰落,以及潮汕话电子版资料相对较少,很多潮汕人很多发音习惯会受普通话的影响,例如:
```
趁: 读成 cêng3
奔:读成 bung1
荐: 读成 giang3
标:读成 biou1
宠:读成 cong2
揣:读成 cuai2
蹭:读成 cêng3
```
此类的错误发音已经成为事实,因此我增加了 `error_pronunciation.txt` 的文件,记录此类错误发音。
该文件将持续记录。
9、homophonic_substitution.txt
谐音字替换。记录潮汕人在微信、抖音等平台习惯喜欢用的谐音字。
10、history.txt
存放历史相关词汇。
#### word_dict 目录
本文件夹存放着多个核心词典文件,包括:
1、dict.txt
存放常用词汇的读音,用于多音字消歧。主要是普通话词汇为主,因为项目早期没做特别区分,所以也混杂了一些潮汕话方言词汇进去,待后续检查、改进。
2、teochew_local_dict.txt
存放方言词汇的读音。例如【生理】,在dict.txt中是【sên1 li2】,表示【生物机体的生命活动和各个器官的机能】;在teochew_local_dict.txt 中是【sêng1 li2】,表示【生意、买卖】。
3、madr_to_tch.txt
用于将普通话词汇映射到更为地道的潮汕话词汇。
4、jieba_cut.txt
针对前三个词典文件进行整理,辅助jieba库的分词,使之更加适配潮汕话的分词。
5、place.txt
整理古今中外和潮汕本土地名,基本涵盖世界上大部分国家和地区,以及主要城市。
本土地名尽量遵循习惯读法和白读音。
国内其他地区和国外地名优先遵循习惯读法,如该地名较少用,则优先用文读音。