Upload 4 files

Browse files

Files changed (4) hide show

hmm_model.pkl.bz2 +3 -0
hmm_model_large.pkl.bz2 +3 -0
py2hz.py +144 -0
readme.md +58 -0

hmm_model.pkl.bz2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfdce3ba8dba202798b09e74a34950e54c5c9014dbdd5d89395f466ecd053f8b
+size 2343356

hmm_model_large.pkl.bz2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d5214166cb693789749314a5bfc362fd317b24ecf9ae339f4fc8ea78c7c5cc6
+size 3808875

py2hz.py ADDED Viewed

	@@ -0,0 +1,144 @@

+# _*_ coding:utf-8 _*_
+"""
+@Version  : 1.0.0
+@Time     : 2024年12月27日
+@Author   : DuYu (@duyu09, 202103180009@stu.qlu.edu.cn)
+@File     : py2hz.py
+@Describe : 基于隐马尔可夫模型(HMM)的拼音转汉字程序。
+@Copyright: Copyright (c) 2024 DuYu (No.202103180009), Faculty of Computer Science & Technology, Qilu University of Technology (Shandong Academy of Sciences).
+@Note     : 训练集csv文件，要求第一列为由汉语拼音构成的句子，第二列为由汉字构成的句子。
+"""
+import re
+import bz2
+import pickle
+import numpy as np
+import pandas as pd
+from hmmlearn import hmm
+# 1. 数据预处理：加载CSV数据集
+def load_dataset(file_path):
+    data = pd.read_csv(file_path)
+    sentences = data.iloc[:, 0].tolist()  # 第一列：汉字句子
+    pinyins = data.iloc[:, 1].tolist()  # 第二列：拼音句子
+    return sentences, pinyins
+# 分词函数，确保英文单词保持完整
+def segment_sentence(sentence):
+    tokens = re.findall(r'[a-zA-Z]+|[一-鿿]', sentence)  # 使用正则表达式分割句子，确保英文单词保持完整
+    return tokens
+# 2. 构建字典和状态观测集合
+def build_vocab(sentences, pinyins):
+    hanzi_set = set()
+    pinyin_set = set()
+    for sentence, pinyin in zip(sentences, pinyins):
+        hanzi_set.update(segment_sentence(sentence))
+        pinyin_set.update(pinyin.split())
+    hanzi_list = list(hanzi_set)
+    pinyin_list = list(pinyin_set)
+    hanzi2id = {h: i for i, h in enumerate(hanzi_list)}
+    id2hanzi = {i: h for i, h in enumerate(hanzi_list)}
+    pinyin2id = {p: i for i, p in enumerate(pinyin_list)}
+    id2pinyin = {i: p for i, p in enumerate(pinyin_list)}
+    return hanzi2id, id2hanzi, pinyin2id, id2pinyin
+# 3. 模型训练
+def train_hmm(sentences, pinyins, hanzi2id, pinyin2id):
+    n_states = len(hanzi2id)
+    n_observations = len(pinyin2id)
+    model = hmm.MultinomialHMM(n_components=n_states, n_iter=100, tol=1e-4)
+    # 统计初始状态概率、转移概率和发射概率
+    start_prob = np.zeros(n_states)
+    trans_prob = np.zeros((n_states, n_states))
+    emit_prob = np.zeros((n_states, n_observations))
+    for sentence, pinyin in zip(sentences, pinyins):
+        # print(sentence, pinyin)
+        hanzi_seq = [hanzi2id[h] for h in segment_sentence(sentence)]
+        pinyin_seq = [pinyin2id[p] for p in pinyin.split()]
+        # 初始状态概率
+        start_prob[hanzi_seq[0]] += 1
+        # 转移概率
+        for i in range(len(hanzi_seq) - 1):
+            trans_prob[hanzi_seq[i], hanzi_seq[i + 1]] += 1
+        # 发射概率
+        for h, p in zip(hanzi_seq, pinyin_seq):
+            emit_prob[h, p] += 1
+    # 确保矩阵行和为1，并处理全零行
+    if start_prob.sum() == 0:
+        start_prob += 1
+    start_prob /= start_prob.sum()
+    row_sums = trans_prob.sum(axis=1, keepdims=True)
+    zero_rows = (row_sums == 0).flatten()  # 修复索引错误
+    trans_prob[zero_rows, :] = 1.0 / n_states  # 用均匀分布填充全零行
+    trans_prob /= trans_prob.sum(axis=1, keepdims=True)
+    emit_sums = emit_prob.sum(axis=1, keepdims=True)
+    zero_emit_rows = (emit_sums == 0).flatten()
+    emit_prob[zero_emit_rows, :] = 1.0 / n_observations  # 均匀填充
+    emit_prob /= emit_prob.sum(axis=1, keepdims=True)
+    model.startprob_ = start_prob
+    model.transmat_ = trans_prob
+    model.emissionprob_ = emit_prob
+    return model
+# 4. 保存和加载模型
+def save_model(model, filepath):
+    with bz2.BZ2File(filepath, 'wb') as f:
+        pickle.dump(model, f)
+def load_model(filepath):
+    with bz2.BZ2File(filepath, 'rb') as f:
+        return pickle.load(f)
+def predict(model, pinyin_seq, pinyin2id, id2hanzi):
+    obs_seq = np.zeros((len(pinyin_seq), len(pinyin2id)))  # 转换观测序列为 one-hot 格式
+    for t, p in enumerate(pinyin_seq):
+        if p in pinyin2id:
+            obs_seq[t, pinyin2id[p]] = 1
+        else:
+            obs_seq[t, 0] = 1  # 未知拼音默认处理
+    # 解码预测
+    model.n_trials = 3  # 运行3次
+    log_prob, state_seq = model.decode(obs_seq, algorithm='viterbi')
+    result = ''.join([id2hanzi[s] for s in state_seq])
+    return result
+def train(dataset_path='train.csv', model_path='hmm_model.pkl.bz2'):
+    sentences, pinyins = load_dataset(dataset_path)  # 加载数据集
+    hanzi2id, id2hanzi, pinyin2id, id2pinyin = build_vocab(sentences, pinyins)  # 构建字典
+    model = train_hmm(sentences, pinyins, hanzi2id, pinyin2id)  # 训练模型
+    model.pinyin2id = pinyin2id
+    model.id2hanzi = id2hanzi
+    model.hanzi2id = hanzi2id
+    model.id2pinyin = id2pinyin
+    save_model(model, model_path)  # 保存模型
+def pred(model_path='hmm_model.pkl.bz2', pinyin_str='ce4 shi4'):
+    model = load_model(model_path)  # 加载模型
+    pinyin_list = pinyin_str.split()
+    result = predict(model, pinyin_list, model.pinyin2id, model.id2hanzi)
+    print('预测结果：', result)
+if __name__ == '__main__':
+    # train(dataset_path='train.csv', model_path='hmm_model.pkl.bz2')
+    pred(model_path='hmm_model.pkl.bz2', pinyin_str='hong2 yan2 bo2 ming4')

readme.md ADDED Viewed

	@@ -0,0 +1,58 @@

+## 基于预训练隐马尔可夫模型的汉语拼音序列转汉字语句序列程序
+**Chinese Pinyin (Hanyu pinyin) to Chinese Character (Hanzi) Conversion Program Based on Pretrained Hidden Markov Model (HMM)**
+### 项目原理
+本项目基于 **隐马尔可夫模型 (HMM)** 实现汉语拼音序列到汉字序列的转换。HMM是一种概率模型，假设观察序列（拼音）由隐藏状态序列（汉字）生成，并通过状态转移和发射概率描述序列关系。模型训练时，程序首先加载训练数据，提取拼音和汉字构建词汇表，并统计初始状态、状态转移和发射概率矩阵。训练过程中，HMM使用**最大似然估计**优化这些概率，以捕捉拼音与汉字的映射关系。解码阶段，利用**维特比算法 (Viterbi Algorithm)** 寻找最可能的汉字序列作为输出结果。本项目适合处理语言序列建模和序列标注等的任务。
+### 数据集准备
+- 需要`CSV`格式文件，其应包含两列，要求第一列为由汉语拼音构成的句子，第二列为由汉字构成的句子。
+- 数据集示例：
+| 第一列 (汉字语句) | 第二列 (拼音语句) |
+| ----- | ----- |
+| 我们试试看！ | wo3 men shi4 shi4 kan4 ！ |
+| 我该去睡觉了。 | wo3 gai1 qu4 shui4 jiao4 le 。 |
+| 你在干什么啊？ | ni3 zai4 gan4 shen2 me a ？ |
+| 这是什么啊？ | zhe4 shi4 shen2 me a ？ |
+| 我会尽量不打扰你复习。 | wo3 hui4 jin3 liang4 bu4 da3 rao3 ni3 fu4 xi2 。 |
+### 训练和推理方法
+修改`py2hz.py`的主函数代码以运行。我们已开源了基于多领域文本的预训练的模型权重`hmm_model.pkl.bz2`和`hmm_model_large.pkl.bz2`，可以直接使用。`hmm_model.pkl.bz2`规模稍小，可满足日常汉语的转换需求，其解压缩后约为800MB左右；`hmm_model_large.pkl.bz2`覆盖了几乎所有汉字的读音，并在规模更大的语料库上进行训练，其解压缩后约为4.5GB左右。
+若需自行训练则取消train函数的注释，并修改函数参数。训练完成后模型将会被压缩保存，原因是模型中存在非常稀疏的大矩阵，适合压缩存储。
+```python
+# dataset_path：数据集路径
+# model_path：模型保存路径
+# pinyin_str：待解析的拼音语句。
+if __name__ == '__main__':
+    train(dataset_path='train.csv', model_path='hmm_model.pkl.bz2')
+    pred(model_path='hmm_model.pkl.bz2', pinyin_str='hong2 yan2 bo2 ming4')
+```
+### 预训练模型效果
+下表展示了预训练模型`hmm_model.pkl.bz2`的使用效果。
+| 输入 | 输出 |
+| ----- | ----- |
+| hong2 yan2 bo2 ming4 | 红颜薄命 |
+| guo2 jia1 chao1 suan4 ji3 nan2 zhong1 xin1 | 国家超算济南中心 |
+| liu3 an4 hua1 ming2 you4 yi1 cun1 | 柳暗花明又一村 |
+| gu3 zhi4 shu1 song1 zheng4 | 骨质疏松症 |
+| xi1 an1 dian4 zi3 ke1 ji4 da4 xue2 | 西安电子科技大学 |
+| ye4 mian4 zhi4 huan4 suan4 fa3 | 页面置换算法 |
+### 作者声明及访客统计
+Author: Du Yu (202103180009@stu.qlu.edu.cn),
+Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences).
+<div><b>Number of Total Visits (All of Duyu09's GitHub Projects): </b><br><img src="https://profile-counter.glitch.me/duyu09/count.svg" /></div>
+<div><b>Number of Total Visits (py2hz): </b>
+<br><img src="https://profile-counter.glitch.me/py2hz/count.svg" /></div>