panlr commited on
Commit
d85bd27
·
1 Parent(s): 5ac6de8
dict_data/readme.md CHANGED
@@ -3,7 +3,7 @@
3
 
4
 
5
  ## accent_convert 目录
6
- 顾名思义,本目录存放着口音转换字典,三个txt文件分别是府城音到汕头(Swatow)、揭阳(Kityall)、澄海(Tenhigh)三地中心城区口音的映射对照。
7
 
8
  ## vocab 目录
9
 
@@ -16,7 +16,7 @@
16
  该文件记录了 origin_vocab.txt 中剔除的较为低频读音,其中带星号(*)表示极为低频。
17
 
18
  #### 3、vocab_extension.txt
19
- 该文件记录了原字典里没有收录汉字,或者我针对有音无字问题引入、改造的新字。也包括了部分英语字母。
20
 
21
  #### 4、Surname.txt
22
  该文件整理了常用姓氏的潮汕话读音情况
@@ -25,7 +25,7 @@
25
  该文件将拼音映射为更小的音素,也就是 `声母 + 韵母` 的模式
26
 
27
  #### 6、IPA_lexicon.txt
28
- 该文件将拼音映射到国际音标IPA,方便与现有多语言语音大模型结构。
29
 
30
  #### 7、 reign_title.txt
31
  记录古代皇帝年号专用词。
@@ -50,6 +50,9 @@
50
  9、homophonic_substitution.txt
51
  谐音字替换。记录潮汕人在微信、抖音等平台习惯喜欢用的谐音字。
52
 
 
 
 
53
  #### word_dict 目录
54
  本文件夹存放着多个核心词典文件,包括:
55
 
 
3
 
4
 
5
  ## accent_convert 目录
6
+ 顾名思义,本目录存放着口音转换字典,几个txt文件分别是府城音到汕头(Swatow)、揭阳(Kityall)、澄海(Tenhigh)、金石、庵埠等地口音的映射对照。
7
 
8
  ## vocab 目录
9
 
 
16
  该文件记录了 origin_vocab.txt 中剔除的较为低频读音,其中带星号(*)表示极为低频。
17
 
18
  #### 3、vocab_extension.txt
19
+ 该文件记录了原字典里没有收录汉字,或者针对有音无字问题引入、改造的新字。也包括了部分英语字母。
20
 
21
  #### 4、Surname.txt
22
  该文件整理了常用姓氏的潮汕话读音情况
 
25
  该文件将拼音映射为更小的音素,也就是 `声母 + 韵母` 的模式
26
 
27
  #### 6、IPA_lexicon.txt
28
+ 该文件将拼音映射到国际音标IPA,方便与现有多语言语音大模型接轨。
29
 
30
  #### 7、 reign_title.txt
31
  记录古代皇帝年号专用词。
 
50
  9、homophonic_substitution.txt
51
  谐音字替换。记录潮汕人在微信、抖音等平台习惯喜欢用的谐音字。
52
 
53
+ 10、history.txt
54
+ 存放历史相关词汇。
55
+
56
  #### word_dict 目录
57
  本文件夹存放着多个核心词典文件,包括:
58
 
dict_data/vocab/error_pronunciation.txt CHANGED
@@ -12,4 +12,9 @@
12
  御#e6
13
  帅#suai3
14
  尬#ga3
15
- 抚#hu2|bu2
 
 
 
 
 
 
12
  御#e6
13
  帅#suai3
14
  尬#ga3
15
+ 抚#hu2|bu2
16
+ 葩#ba1
17
+ 农#nong5
18
+ 宁#nêng5
19
+ 员#nguêng5
20
+ 率#suai3
dict_data/vocab/vocab_extension.txt CHANGED
@@ -130,9 +130,6 @@
130
  䠧#tu5
131
  坺#puêh8
132
  𢞴#ng3
133
- 烁烁sih4
134
- sih4
135
- le5 ge5
136
  A#êi1
137
  B#bi1
138
  C#si1
 
130
  䠧#tu5
131
  坺#puêh8
132
  𢞴#ng3
 
 
 
133
  A#êi1
134
  B#bi1
135
  C#si1
dict_data/word_dict/teochew_local_dict.txt CHANGED
@@ -696,12 +696,12 @@
696
  头戆#tao5 gong5
697
  吱吱啹啹#gih4 gih4 geh8 geh8
698
  珍珠花菜#zing1 zu1 huê1 cai3
699
- 深山林内#cim1 suan1 lim5 lai6
700
  卤贡菜#lou6 gong3 cai3
701
  大大粒#dua7 dua7 liab8
702
  拄拄#du2 du2
703
  崎岖暴瘘#ki1 ku1 bao6 lu6
704
- 腰痀暴瘘#ki1 ku1 bao6 lu6
705
  癞瘑#tai2 go1
706
  搁啰#goh4 lo5
707
  眩倒#hing5 do2
 
696
  头戆#tao5 gong5
697
  吱吱啹啹#gih4 gih4 geh8 geh8
698
  珍珠花菜#zing1 zu1 huê1 cai3
699
+ 深山林内#cim1 suan1 na5 lai6
700
  卤贡菜#lou6 gong3 cai3
701
  大大粒#dua7 dua7 liab8
702
  拄拄#du2 du2
703
  崎岖暴瘘#ki1 ku1 bao6 lu6
704
+ 腰痀暴瘘#iê1 gu1 bao6 lu6
705
  癞瘑#tai2 go1
706
  搁啰#goh4 lo5
707
  眩倒#hing5 do2
script/__pycache__/pyPengIm.cpython-38.pyc CHANGED
Binary files a/script/__pycache__/pyPengIm.cpython-38.pyc and b/script/__pycache__/pyPengIm.cpython-38.pyc differ
 
script/pyPengIm.py CHANGED
@@ -4,10 +4,8 @@ import types
4
  import yaml
5
  import os
6
 
7
-
8
  jieba.load_userdict('./dict_data/word_dict/jieba_cut.txt')
9
 
10
-
11
  class pyPengIm():
12
  def __init__(self, history=False) -> None:
13
  self._dict_paths = {
@@ -30,7 +28,7 @@ class pyPengIm():
30
  if history:
31
  self.word_dict.update(utils.load_dict("./dict_data/word_dict/history.txt"))
32
  self.word_dict.update(utils.load_dict("./dict_data/word_dict/reign_title.txt"))
33
-
34
  jieba.cut('')# 预热
35
 
36
  def __getattr__(self, name):
 
4
  import yaml
5
  import os
6
 
 
7
  jieba.load_userdict('./dict_data/word_dict/jieba_cut.txt')
8
 
 
9
  class pyPengIm():
10
  def __init__(self, history=False) -> None:
11
  self._dict_paths = {
 
28
  if history:
29
  self.word_dict.update(utils.load_dict("./dict_data/word_dict/history.txt"))
30
  self.word_dict.update(utils.load_dict("./dict_data/word_dict/reign_title.txt"))
31
+
32
  jieba.cut('')# 预热
33
 
34
  def __getattr__(self, name):