Spaces:
Running
Running
fix error
Browse files
dict_data/readme.md
CHANGED
|
@@ -3,7 +3,7 @@
|
|
| 3 |
|
| 4 |
|
| 5 |
## accent_convert 目录
|
| 6 |
-
|
| 7 |
|
| 8 |
## vocab 目录
|
| 9 |
|
|
@@ -16,7 +16,7 @@
|
|
| 16 |
该文件记录了 origin_vocab.txt 中剔除的较为低频读音,其中带星号(*)表示极为低频。
|
| 17 |
|
| 18 |
#### 3、vocab_extension.txt
|
| 19 |
-
|
| 20 |
|
| 21 |
#### 4、Surname.txt
|
| 22 |
该文件整理了常用姓氏的潮汕话读音情况
|
|
@@ -25,7 +25,7 @@
|
|
| 25 |
该文件将拼音映射为更小的音素,也就是 `声母 + 韵母` 的模式
|
| 26 |
|
| 27 |
#### 6、IPA_lexicon.txt
|
| 28 |
-
该文件将拼音映射到国际音标IPA
|
| 29 |
|
| 30 |
#### 7、 reign_title.txt
|
| 31 |
记录古代皇帝年号专用词。
|
|
@@ -50,6 +50,9 @@
|
|
| 50 |
9、homophonic_substitution.txt
|
| 51 |
谐音字替换。记录潮汕人在微信、抖音等平台习惯喜欢用的谐音字。
|
| 52 |
|
|
|
|
|
|
|
|
|
|
| 53 |
#### word_dict 目录
|
| 54 |
本文件夹存放着多个核心词典文件,包括:
|
| 55 |
|
|
|
|
| 3 |
|
| 4 |
|
| 5 |
## accent_convert 目录
|
| 6 |
+
顾名思义,本目录存放着口音转换字典,几个txt文件分别是府城音到汕头(Swatow)、揭阳(Kityall)、澄海(Tenhigh)、金石、庵埠等地口音的映射对照。
|
| 7 |
|
| 8 |
## vocab 目录
|
| 9 |
|
|
|
|
| 16 |
该文件记录了 origin_vocab.txt 中剔除的较为低频读音,其中带星号(*)表示极为低频。
|
| 17 |
|
| 18 |
#### 3、vocab_extension.txt
|
| 19 |
+
该文件记录了原字典里没有收录汉字,或者针对有音无字问题引入、改造的新字。也包括了部分英语字母。
|
| 20 |
|
| 21 |
#### 4、Surname.txt
|
| 22 |
该文件整理了常用姓氏的潮汕话读音情况
|
|
|
|
| 25 |
该文件将拼音映射为更小的音素,也就是 `声母 + 韵母` 的模式
|
| 26 |
|
| 27 |
#### 6、IPA_lexicon.txt
|
| 28 |
+
该文件将拼音映射到国际音标IPA,方便与现有多语言语音大模型接轨。
|
| 29 |
|
| 30 |
#### 7、 reign_title.txt
|
| 31 |
记录古代皇帝年号专用词。
|
|
|
|
| 50 |
9、homophonic_substitution.txt
|
| 51 |
谐音字替换。记录潮汕人在微信、抖音等平台习惯喜欢用的谐音字。
|
| 52 |
|
| 53 |
+
10、history.txt
|
| 54 |
+
存放历史相关词汇。
|
| 55 |
+
|
| 56 |
#### word_dict 目录
|
| 57 |
本文件夹存放着多个核心词典文件,包括:
|
| 58 |
|
dict_data/vocab/error_pronunciation.txt
CHANGED
|
@@ -12,4 +12,9 @@
|
|
| 12 |
御#e6
|
| 13 |
帅#suai3
|
| 14 |
尬#ga3
|
| 15 |
-
抚#hu2|bu2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 12 |
御#e6
|
| 13 |
帅#suai3
|
| 14 |
尬#ga3
|
| 15 |
+
抚#hu2|bu2
|
| 16 |
+
葩#ba1
|
| 17 |
+
农#nong5
|
| 18 |
+
宁#nêng5
|
| 19 |
+
员#nguêng5
|
| 20 |
+
率#suai3
|
dict_data/vocab/vocab_extension.txt
CHANGED
|
@@ -130,9 +130,6 @@
|
|
| 130 |
䠧#tu5
|
| 131 |
坺#puêh8
|
| 132 |
𢞴#ng3
|
| 133 |
-
烁烁sih4
|
| 134 |
-
sih4
|
| 135 |
-
le5 ge5
|
| 136 |
A#êi1
|
| 137 |
B#bi1
|
| 138 |
C#si1
|
|
|
|
| 130 |
䠧#tu5
|
| 131 |
坺#puêh8
|
| 132 |
𢞴#ng3
|
|
|
|
|
|
|
|
|
|
| 133 |
A#êi1
|
| 134 |
B#bi1
|
| 135 |
C#si1
|
dict_data/word_dict/teochew_local_dict.txt
CHANGED
|
@@ -696,12 +696,12 @@
|
|
| 696 |
头戆#tao5 gong5
|
| 697 |
吱吱啹啹#gih4 gih4 geh8 geh8
|
| 698 |
珍珠花菜#zing1 zu1 huê1 cai3
|
| 699 |
-
深山林内#cim1 suan1
|
| 700 |
卤贡菜#lou6 gong3 cai3
|
| 701 |
大大粒#dua7 dua7 liab8
|
| 702 |
拄拄#du2 du2
|
| 703 |
崎岖暴瘘#ki1 ku1 bao6 lu6
|
| 704 |
-
腰痀暴瘘#
|
| 705 |
癞瘑#tai2 go1
|
| 706 |
搁啰#goh4 lo5
|
| 707 |
眩倒#hing5 do2
|
|
|
|
| 696 |
头戆#tao5 gong5
|
| 697 |
吱吱啹啹#gih4 gih4 geh8 geh8
|
| 698 |
珍珠花菜#zing1 zu1 huê1 cai3
|
| 699 |
+
深山林内#cim1 suan1 na5 lai6
|
| 700 |
卤贡菜#lou6 gong3 cai3
|
| 701 |
大大粒#dua7 dua7 liab8
|
| 702 |
拄拄#du2 du2
|
| 703 |
崎岖暴瘘#ki1 ku1 bao6 lu6
|
| 704 |
+
腰痀暴瘘#iê1 gu1 bao6 lu6
|
| 705 |
癞瘑#tai2 go1
|
| 706 |
搁啰#goh4 lo5
|
| 707 |
眩倒#hing5 do2
|
script/__pycache__/pyPengIm.cpython-38.pyc
CHANGED
|
Binary files a/script/__pycache__/pyPengIm.cpython-38.pyc and b/script/__pycache__/pyPengIm.cpython-38.pyc differ
|
|
|
script/pyPengIm.py
CHANGED
|
@@ -4,10 +4,8 @@ import types
|
|
| 4 |
import yaml
|
| 5 |
import os
|
| 6 |
|
| 7 |
-
|
| 8 |
jieba.load_userdict('./dict_data/word_dict/jieba_cut.txt')
|
| 9 |
|
| 10 |
-
|
| 11 |
class pyPengIm():
|
| 12 |
def __init__(self, history=False) -> None:
|
| 13 |
self._dict_paths = {
|
|
@@ -30,7 +28,7 @@ class pyPengIm():
|
|
| 30 |
if history:
|
| 31 |
self.word_dict.update(utils.load_dict("./dict_data/word_dict/history.txt"))
|
| 32 |
self.word_dict.update(utils.load_dict("./dict_data/word_dict/reign_title.txt"))
|
| 33 |
-
|
| 34 |
jieba.cut('')# 预热
|
| 35 |
|
| 36 |
def __getattr__(self, name):
|
|
|
|
| 4 |
import yaml
|
| 5 |
import os
|
| 6 |
|
|
|
|
| 7 |
jieba.load_userdict('./dict_data/word_dict/jieba_cut.txt')
|
| 8 |
|
|
|
|
| 9 |
class pyPengIm():
|
| 10 |
def __init__(self, history=False) -> None:
|
| 11 |
self._dict_paths = {
|
|
|
|
| 28 |
if history:
|
| 29 |
self.word_dict.update(utils.load_dict("./dict_data/word_dict/history.txt"))
|
| 30 |
self.word_dict.update(utils.load_dict("./dict_data/word_dict/reign_title.txt"))
|
| 31 |
+
|
| 32 |
jieba.cut('')# 预热
|
| 33 |
|
| 34 |
def __getattr__(self, name):
|