forthezero commited on Mar 15

Commit

2651102

verified ·

1 Parent(s): d0ea892

Upload 28 files

Browse files

Files changed (28) hide show

.cache/tokenizer_en.json +0 -0
.cache/tokenizer_zh.json +5631 -0
PLAN.md +299 -0
README.md +284 -0
TASK.md +40 -0
TASK_NEXT.md +13 -0
checkpoints/best.pt +3 -0
checkpoints/epoch_1.pt +3 -0
checkpoints/interrupted.pt +3 -0
config.py +128 -0
dataset.py +300 -0
diffusion.py +290 -0
embedding.py +203 -0
export_onnx.py +245 -0
hfspace/README.md +28 -0
hfspace/__pycache__/app.cpython-312.pyc +0 -0
hfspace/app.py +889 -0
hfspace/best.pt +3 -0
hfspace/requirements.txt +2 -0
hfspace/tokenizer_en.json +0 -0
hfspace/tokenizer_zh.json +5631 -0
inference.py +347 -0
main.py +107 -0
model.py +287 -0
switcher.py +191 -0
tokenizer.py +326 -0
train.py +447 -0
utils.py +176 -0

.cache/tokenizer_en.json ADDED Viewed

The diff for this file is too large to render. See raw diff

.cache/tokenizer_zh.json ADDED Viewed

	@@ -0,0 +1,5631 @@

+{
+  "vocab_size": 8000,
+  "lang": "zh",
+  "token_to_id": {
+    "<pad>": 0,
+    "<sos>": 1,
+    "<eos>": 2,
+    "<unk>": 3,
+    "<mask>": 4,
+    "!</w>": 5,
+    "\"</w>": 6,
+    ",</w>": 7,
+    ".</w>": 8,
+    "0</w>": 9,
+    "10": 10,
+    "100</w>": 11,
+    "10</w>": 12,
+    "18": 13,
+    "18</w>": 14,
+    "1</w>": 15,
+    "20</w>": 16,
+    "21</w>": 17,
+    "2</w>": 18,
+    "3</w>": 19,
+    "40</w>": 20,
+    "56</w>": 21,
+    "5</w>": 22,
+    "6</w>": 23,
+    "7</w>": 24,
+    "?</w>": 25,
+    "ali": 26,
+    "alice</w>": 27,
+    "ancy</w>": 28,
+    "ce</w>": 29,
+    "cy</w>": 30,
+    "e</w>": 31,
+    "el": 32,
+    "iel": 33,
+    "ir": 34,
+    "ja": 35,
+    "jac": 36,
+    "jack</w>": 37,
+    "jake</w>": 38,
+    "k</w>": 39,
+    "ka": 40,
+    "kate</w>": 41,
+    "ke": 42,
+    "ke</w>": 43,
+    "ken</w>": 44,
+    "li": 45,
+    "m</w>": 46,
+    "muir": 47,
+    "muiriel": 48,
+    "muiriel</w>": 49,
+    "n</w>": 50,
+    "nancy</w>": 51,
+    "ncy</w>": 52,
+    "om</w>": 53,
+    "te</w>": 54,
+    "tom</w>": 55,
+    "uir": 56,
+    "y</w>": 57,
+    "“</w>": 58,
+    "”</w>": 59,
+    "…</w>": 60,
+    "、</w>": 61,
+    "。</w>": 62,
+    "一</w>": 63,
+    "七</w>": 64,
+    "万</w>": 65,
+    "三</w>": 66,
+    "上</w>": 67,
+    "下</w>": 68,
+    "不</w>": 69,
+    "丑</w>": 70,
+    "世</w>": 71,
+    "业</w>": 72,
+    "两</w>": 73,
+    "严</w>": 74,
+    "个</w>": 75,
+    "中</w>": 76,
+    "丰</w>": 77,
+    "为</w>": 78,
+    "举</w>": 79,
+    "久</w>": 80,
+    "么</w>": 81,
+    "义</w>": 82,
+    "之</w>": 83,
+    "乎</w>": 84,
+    "乐</w>": 85,
+    "乘</w>": 86,
+    "九</w>": 87,
+    "也</w>": 88,
+    "习</w>": 89,
+    "书</w>": 90,
+    "买</w>": 91,
+    "了</w>": 92,
+    "予</w>": 93,
+    "争</w>": 94,
+    "事</w>": 95,
+    "于</w>": 96,
+    "互</w>": 97,
+    "些</w>": 98,
+    "交</w>": 99,
+    "亲</w>": 100,
+    "人</w>": 101,
+    "什</w>": 102,
+    "仅</w>": 103,
+    "今</w>": 104,
+    "从</w>": 105,
+    "他</w>": 106,
+    "付</w>": 107,
+    "代</w>": 108,
+    "以</w>": 109,
+    "仪</w>": 110,
+    "们</w>": 111,
+    "件</w>": 112,
+    "价</w>": 113,
+    "任</w>": 114,
+    "份</w>": 115,
+    "休</w>": 116,
+    "众</w>": 117,
+    "会</w>": 118,
+    "伟</w>": 119,
+    "传</w>": 120,
+    "伦</w>": 121,
+    "似</w>": 122,
+    "但</w>": 123,
+    "位</w>": 124,
+    "低</w>": 125,
+    "住</w>": 126,
+    "体</w>": 127,
+    "何</w>": 128,
+    "作</w>": 129,
+    "你</w>": 130,
+    "使</w>": 131,
+    "來</w>": 132,
+    "例</w>": 133,
+    "保</w>": 134,
+    "信</w>": 135,
+    "俱</w>": 136,
+    "個</w>": 137,
+    "們</w>": 138,
+    "候</w>": 139,
+    "借</w>": 140,
+    "倦</w>": 141,
+    "债</w>": 142,
+    "值</w>": 143,
+    "假</w>": 144,
+    "偏</w>": 145,
+    "做</w>": 146,
+    "停</w>": 147,
+    "偶</w>": 148,
+    "偷</w>": 149,
+    "像</w>": 150,
+    "僵</w>": 151,
+    "儿</w>": 152,
+    "元</w>": 153,
+    "先</w>": 154,
+    "光</w>": 155,
+    "克</w>": 156,
+    "免</w>": 157,
+    "兔</w>": 158,
+    "入</w>": 159,
+    "全</w>": 160,
+    "公</w>": 161,
+    "六</w>": 162,
+    "兰</w>": 163,
+    "关</w>": 164,
+    "兴</w>": 165,
+    "其</w>": 166,
+    "兼</w>": 167,
+    "内</w>": 168,
+    "再</w>": 169,
+    "冒</w>": 170,
+    "写</w>": 171,
+    "冰</w>": 172,
+    "冲</w>": 173,
+    "决</w>": 174,
+    "况</w>": 175,
+    "冷</w>": 176,
+    "准</w>": 177,
+    "几</w>": 178,
+    "出</w>": 179,
+    "分</w>": 180,
+    "切</w>": 181,
+    "划</w>": 182,
+    "则</w>": 183,
+    "创</w>": 184,
+    "利</w>": 185,
+    "到</w>": 186,
+    "制</w>": 187,
+    "前</w>": 188,
+    "劃</w>": 189,
+    "力</w>": 190,
+    "办</w>": 191,
+    "功</w>": 192,
+    "加</w>": 193,
+    "务</w>": 194,
+    "动</w>": 195,
+    "助</w>": 196,
+    "努</w>": 197,
+    "劳</w>": 198,
+    "勃</w>": 199,
+    "包</w>": 200,
+    "化</w>": 201,
+    "医</w>": 202,
+    "十</w>": 203,
+    "千</w>": 204,
+    "升</w>": 205,
+    "午</w>": 206,
+    "半</w>": 207,
+    "华</w>": 208,
+    "单</w>": 209,
+    "卖</w>": 210,
+    "卫</w>": 211,
+    "危</w>": 212,
+    "即</w>": 213,
+    "却</w>": 214,
+    "历</w>": 215,
+    "厌</w>": 216,
+    "厕</w>": 217,
+    "去</w>": 218,
+    "参</w>": 219,
+    "又</w>": 220,
+    "友</w>": 221,
+    "反</w>": 222,
+    "发</w>": 223,
+    "叔</w>": 224,
+    "取</w>": 225,
+    "受</w>": 226,
+    "变</w>": 227,
+    "口</w>": 228,
+    "古</w>": 229,
+    "另</w>": 230,
+    "只</w>": 231,
+    "叫</w>": 232,
+    "可</w>": 233,
+    "史</w>": 234,
+    "右</w>": 235,
+    "号</w>": 236,
+    "吃</w>": 237,
+    "��</w>": 238,
+    "同</w>": 239,
+    "名</w>": 240,
+    "后</w>": 241,
+    "向</w>": 242,
+    "吗</w>": 243,
+    "吧</w>": 244,
+    "听</w>": 245,
+    "告</w>": 246,
+    "员</w>": 247,
+    "呢</w>": 248,
+    "周</w>": 249,
+    "味</w>": 250,
+    "命</w>": 251,
+    "和</w>": 252,
+    "咖</w>": 253,
+    "品</w>": 254,
+    "响</w>": 255,
+    "哥</w>": 256,
+    "哦</w>": 257,
+    "哪</w>": 258,
+    "售</w>": 259,
+    "唯</w>": 260,
+    "唱</w>": 261,
+    "啊</w>": 262,
+    "問</w>": 263,
+    "啡</w>": 264,
+    "喜</w>": 265,
+    "喝</w>": 266,
+    "嗨</w>": 267,
+    "囚</w>": 268,
+    "回</w>": 269,
+    "因</w>": 270,
+    "团</w>": 271,
+    "园</w>": 272,
+    "困</w>": 273,
+    "国</w>": 274,
+    "图</w>": 275,
+    "圈</w>": 276,
+    "國</w>": 277,
+    "圣</w>": 278,
+    "在</w>": 279,
+    "地</w>": 280,
+    "场</w>": 281,
+    "坐</w>": 282,
+    "块</w>": 283,
+    "坚</w>": 284,
+    "城</w>": 285,
+    "堡</w>": 286,
+    "增</w>": 287,
+    "士</w>": 288,
+    "声</w>": 289,
+    "处</w>": 290,
+    "备</w>": 291,
+    "复</w>": 292,
+    "夏</w>": 293,
+    "外</w>": 294,
+    "多</w>": 295,
+    "夜</w>": 296,
+    "够</w>": 297,
+    "大</w>": 298,
+    "天</w>": 299,
+    "太</w>": 300,
+    "失</w>": 301,
+    "头</w>": 302,
+    "奇</w>": 303,
+    "奶</w>": 304,
+    "她</w>": 305,
+    "好</w>": 306,
+    "如</w>": 307,
+    "妈</w>": 308,
+    "妹</w>": 309,
+    "妻</w>": 310,
+    "始</w>": 311,
+    "姐</w>": 312,
+    "威</w>": 313,
+    "婚</w>": 314,
+    "子</w>": 315,
+    "字</w>": 316,
+    "季</w>": 317,
+    "学</w>": 318,
+    "孩</w>": 319,
+    "學</w>": 320,
+    "它</w>": 321,
+    "宇</w>": 322,
+    "守</w>": 323,
+    "安</w>": 324,
+    "完</w>": 325,
+    "宙</w>": 326,
+    "定</w>": 327,
+    "宝</w>": 328,
+    "实</w>": 329,
+    "客</w>": 330,
+    "宣</w>": 331,
+    "室</w>": 332,
+    "宵</w>": 333,
+    "家</w>": 334,
+    "寄</w>": 335,
+    "密</w>": 336,
+    "富</w>": 337,
+    "对</w>": 338,
+    "寻</w>": 339,
+    "将</w>": 340,
+    "尊</w>": 341,
+    "小</w>": 342,
+    "少</w>": 343,
+    "就</w>": 344,
+    "尼</w>": 345,
+    "局</w>": 346,
+    "屈</w>": 347,
+    "属</w>": 348,
+    "山</w>": 349,
+    "岁</w>": 350,
+    "岩</w>": 351,
+    "工</w>": 352,
+    "己</w>": 353,
+    "已</w>": 354,
+    "市</w>": 355,
+    "布</w>": 356,
+    "师</w>": 357,
+    "帖</w>": 358,
+    "带</w>": 359,
+    "席</w>": 360,
+    "帮</w>": 361,
+    "常</w>": 362,
+    "帽</w>": 363,
+    "干</w>": 364,
+    "平</w>": 365,
+    "年</w>": 366,
+    "幸</w>": 367,
+    "幹</w>": 368,
+    "广</w>": 369,
+    "庄</w>": 370,
+    "庆</w>": 371,
+    "床</w>": 372,
+    "应</w>": 373,
+    "底</w>": 374,
+    "庙</w>": 375,
+    "庞</w>": 376,
+    "度</w>": 377,
+    "座</w>": 378,
+    "庭</w>": 379,
+    "延</w>": 380,
+    "建</w>": 381,
+    "开</w>": 382,
+    "弃</w>": 383,
+    "式</w>": 384,
+    "弟</w>": 385,
+    "张</w>": 386,
+    "張</w>": 387,
+    "强</w>": 388,
+    "当</w>": 389,
+    "影</w>": 390,
+    "彻</w>": 391,
+    "往</w>": 392,
+    "径</w>": 393,
+    "待</w>": 394,
+    "很</w>": 395,
+    "後</w>": 396,
+    "徒</w>": 397,
+    "得</w>": 398,
+    "從</w>": 399,
+    "微</w>": 400,
+    "德</w>": 401,
+    "心</w>": 402,
+    "必</w>": 403,
+    "志</w>": 404,
+    "忙</w>": 405,
+    "快</w>": 406,
+    "念</w>": 407,
+    "怀</w>": 408,
+    "怎</w>": 409,
+    "急</w>": 410,
+    "总</w>": 411,
+    "息</w>": 412,
+    "悔</w>": 413,
+    "情</w>": 414,
+    "惊</w>": 415,
+    "惜</w>": 416,
+    "惡</w>": 417,
+    "想</w>": 418,
+    "愉</w>": 419,
+    "意</w>": 420,
+    "感</w>": 421,
+    "慢</w>": 422,
+    "應</w>": 423,
+    "戏</w>": 424,
+    "成</w>": 425,
+    "我</w>": 426,
+    "戒</w>": 427,
+    "或</w>": 428,
+    "戴</w>": 429,
+    "户</w>": 430,
+    "房</w>": 431,
+    "所</w>": 432,
+    "扇</w>": 433,
+    "手</w>": 434,
+    "才</w>": 435,
+    "打</w>": 436,
+    "托</w>": 437,
+    "扰</w>": 438,
+    "批</w>": 439,
+    "找</w>": 440,
+    "把</w>": 441,
+    "抓</w>": 442,
+    "护</w>": 443,
+    "报</w>": 444,
+    "抱</w>": 445,
+    "拆</w>": 446,
+    "拉</w>": 447,
+    "拜</w>": 448,
+    "拥</w>": 449,
+    "择</w>": 450,
+    "持</w>": 451,
+    "指</w>": 452,
+    "按</w>": 453,
+    "挑</w>": 454,
+    "挤</w>": 455,
+    "挥</w>": 456,
+    "据</w>": 457,
+    "接</w>": 458,
+    "推</w>": 459,
+    "措</w>": 460,
+    "揉</w>": 461,
+    "插</w>": 462,
+    "揭</w>": 463,
+    "携</w>": 464,
+    "摄</w>": 465,
+    "摇</w>": 466,
+    "摩</w>": 467,
+    "撒</w>": 468,
+    "播</w>": 469,
+    "擔</w>": 470,
+    "支</w>": 471,
+    "收</w>": 472,
+    "改</w>": 473,
+    "放</w>": 474,
+    "故</w>": 475,
+    "救</w>": 476,
+    "教</w>": 477,
+    "散</w>": 478,
+    "敦</w>": 479,
+    "敬</w>": 480,
+    "数</w>": 481,
+    "整</w>": 482,
+    "斯</w>": 483,
+    "新</w>": 484,
+    "方</w>": 485,
+    "施</w>": 486,
+    "旅</w>": 487,
+    "无</w>": 488,
+    "日</w>": 489,
+    "旦</w>": 490,
+    "早</w>": 491,
+    "时</w>": 492,
+    "明</w>": 493,
+    "星</w>": 494,
+    "昨</w>": 495,
+    "是</w>": 496,
+    "時</w>": 497,
+    "晃</w>": 498,
+    "晚</w>": 499,
+    "景</w>": 500,
+    "更</w>": 501,
+    "曾</w>": 502,
+    "最</w>": 503,
+    "會</w>": 504,
+    "月</w>": 505,
+    "有</w>": 506,
+    "朋</w>": 507,
+    "服</w>": 508,
+    "望</w>": 509,
+    "朝</w>": 510,
+    "期</w>": 511,
+    "本</w>": 512,
+    "术</w>": 513,
+    "机</w>": 514,
+    "杀</w>": 515,
+    "杂</w>": 516,
+    "权</w>": 517,
+    "村</w>": 518,
+    "条</w>": 519,
+    "来</w>": 520,
+    "杯</w>": 521,
+    "杰</w>": 522,
+    "松</w>": 523,
+    "果</w>": 524,
+    "架</w>": 525,
+    "某</w>": 526,
+    "标</w>": 527,
+    "栋</w>": 528,
+    "校</w>": 529,
+    "样</w>": 530,
+    "格</w>": 531,
+    "桌</w>": 532,
+    "桥</w>": 533,
+    "楼</w>": 534,
+    "概</w>": 535,
+    "樣</w>": 536,
+    "欠</w>": 537,
+    "次</w>": 538,
+    "欢</w>": 539,
+    "欲</w>": 540,
+    "款</w>": 541,
+    "歉</w>": 542,
+    "歌</w>": 543,
+    "歐</w>": 544,
+    "歡</w>": 545,
+    "止</w>": 546,
+    "正</w>": 547,
+    "步</w>": 548,
+    "死</w>": 549,
+    "段</w>": 550,
+    "母</w>": 551,
+    "每</w>": 552,
+    "比</w>": 553,
+    "毕</w>": 554,
+    "毛</w>": 555,
+    "毫</w>": 556,
+    "气</w>": 557,
+    "水</w>": 558,
+    "永</w>": 559,
+    "池</w>": 560,
+    "汽</w>": 561,
+    "沒</w>": 562,
+    "没</w>": 563,
+    "河</w>": 564,
+    "沸</w>": 565,
+    "油</w>": 566,
+    "沿</w>": 567,
+    "法</w>": 568,
+    "泪</w>": 569,
+    "泳</w>": 570,
+    "洗</w>": 571,
+    "津</w>": 572,
+    "活</w>": 573,
+    "派</w>": 574,
+    "流</w>": 575,
+    "济</w>": 576,
+    "消</w>": 577,
+    "涌</w>": 578,
+    "涨</w>": 579,
+    "清</w>": 580,
+    "温</w>": 581,
+    "港</w>": 582,
+    "游</w>": 583,
+    "湖</w>": 584,
+    "溜</w>": 585,
+    "滑</w>": 586,
+    "满</w>": 587,
+    "演</w>": 588,
+    "澄</w>": 589,
+    "澡</w>": 590,
+    "火</w>": 591,
+    "灯</w>": 592,
+    "灰</w>": 593,
+    "点</w>": 594,
+    "烟</w>": 595,
+    "烦</w>": 596,
+    "热</w>": 597,
+    "然</w>": 598,
+    "照</w>": 599,
+    "爱</w>": 600,
+    "父</w>": 601,
+    "爸</w>": 602,
+    "片</w>": 603,
+    "牛</w>": 604,
+    "物</w>": 605,
+    "狗</w>": 606,
+    "独</w>": 607,
+    "猫</w>": 608,
+    "王</w>": 609,
+    "玩</w>": 610,
+    "环</w>": 611,
+    "现</w>": 612,
+    "班</w>": 613,
+    "球</w>": 614,
+    "理</w>": 615,
+    "生</w>": 616,
+    "用</w>": 617,
+    "由</w>": 618,
+    "电</w>": 619,
+    "男</w>": 620,
+    "界</w>": 621,
+    "留</w>": 622,
+    "當</w>": 623,
+    "疑</w>": 624,
+    "疯</w>": 625,
+    "病</w>": 626,
+    "痛</w>": 627,
+    "瘋</w>": 628,
+    "發</w>": 629,
+    "白</w>": 630,
+    "百</w>": 631,
+    "的</w>": 632,
+    "盐</w>": 633,
+    "盖</w>": 634,
+    "盛</w>": 635,
+    "目</w>": 636,
+    "直</w>": 637,
+    "相</w>": 638,
+    "盹</w>": 639,
+    "看</w>": 640,
+    "真</w>": 641,
+    "眠</w>": 642,
+    "眼</w>": 643,
+    "着</w>": 644,
+    "睛</w>": 645,
+    "睡</w>": 646,
+    "知</w>": 647,
+    "短</w>": 648,
+    "石</w>": 649,
+    "码</w>": 650,
+    "破</w>": 651,
+    "确</w>": 652,
+    "碎</w>": 653,
+    "示</w>": 654,
+    "社</w>": 655,
+    "祝</w>": 656,
+    "神</w>": 657,
+    "票</w>": 658,
+    "福</w>": 659,
+    "离</w>": 660,
+    "私</w>": 661,
+    "种</w>": 662,
+    "秘</w>": 663,
+    "移</w>": 664,
+    "程</w>": 665,
+    "空</w>": 666,
+    "窗</w>": 667,
+    "窜</w>": 668,
+    "站</w>": 669,
+    "童</w>": 670,
+    "笑</w>": 671,
+    "笔</w>": 672,
+    "笛</w>": 673,
+    "第</w>": 674,
+    "笼</w>": 675,
+    "等</w>": 676,
+    "筑</w>": 677,
+    "答</w>": 678,
+    "简</w>": 679,
+    "籍</w>": 680,
+    "粗</w>": 681,
+    "精</w>": 682,
+    "糕</w>": 683,
+    "糟</w>": 684,
+    "素</w>": 685,
+    "索</w>": 686,
+    "給</w>": 687,
+    "經</w>": 688,
+    "總</w>": 689,
+    "红</w>": 690,
+    "纪</w>": 691,
+    "纯</w>": 692,
+    "纸</w>": 693,
+    "线</w>": 694,
+    "绅</w>": 695,
+    "终</w>": 696,
+    "经</w>": 697,
+    "结</w>": 698,
+    "给</w>": 699,
+    "统</w>": 700,
+    "绿</w>": 701,
+    "缺</w>": 702,
+    "网</w>": 703,
+    "罗</w>": 704,
+    "罚</w>": 705,
+    "置</w>": 706,
+    "美</w>": 707,
+    "群</w>": 708,
+    "習</w>": 709,
+    "老</w>": 710,
+    "考</w>": 711,
+    "者</w>": 712,
+    "而</w>": 713,
+    "耍</w>": 714,
+    "耗</w>": 715,
+    "职</w>": 716,
+    "肯</w>": 717,
+    "胖</w>": 718,
+    "能</w>": 719,
+    "脑</w>": 720,
+    "脚</w>": 721,
+    "脸</w>": 722,
+    "腾</w>": 723,
+    "腿</w>": 724,
+    "自</w>": 725,
+    "至</w>": 726,
+    "船</w>": 727,
+    "艰</w>": 728,
+    "色</w>": 729,
+    "艺</w>": 730,
+    "花</w>": 731,
+    "苏</w>": 732,
+    "英</w>": 733,
+    "茶</w>": 734,
+    "药</w>": 735,
+    "落</w>": 736,
+    "著</w>": 737,
+    "虑</w>": 738,
+    "虾</w>": 739,
+    "蜂</w>": 740,
+    "蝴</w>": 741,
+    "蝶</w>": 742,
+    "蠢</w>": 743,
+    "血</w>": 744,
+    "行</w>": 745,
+    "衣</w>": 746,
+    "表</w>": 747,
+    "被</w>": 748,
+    "裡</w>": 749,
+    "要</w>": 750,
+    "覆</w>": 751,
+    "覺</w>": 752,
+    "见</w>": 753,
+    "观</w>": 754,
+    "规</w>": 755,
+    "视</w>": 756,
+    "觉</w>": 757,
+    "解</w>": 758,
+    "言</w>": 759,
+    "計</w>": 760,
+    "試</w>": 761,
+    "話</w>": 762,
+    "該</w>": 763,
+    "誓</w>": 764,
+    "說</w>": 765,
+    "請</w>": 766,
+    "讀</w>": 767,
+    "變</w>": 768,
+    "计</w>": 769,
+    "订</w>": 770,
+    "认</w>": 771,
+    "让</w>": 772,
+    "训</w>": 773,
+    "议</w>": 774,
+    "记</w>": 775,
+    "讲</w>": 776,
+    "讶</w>": 777,
+    "许</w>": 778,
+    "论</w>": 779,
+    "设</w>": 780,
+    "访</w>": 781,
+    "证</w>": 782,
+    "评</w>": 783,
+    "识</w>": 784,
+    "诉</w>": 785,
+    "试</w>": 786,
+    "诗</w>": 787,
+    "诚</w>": 788,
+    "话</w>": 789,
+    "该</w>": 790,
+    "语</w>": 791,
+    "误</w>": 792,
+    "说</w>": 793,
+    "请</w>": 794,
+    "诺</w>": 795,
+    "读</w>": 796,
+    "课</w>": 797,
+    "谁</w>": 798,
+    "谈</w>": 799,
+    "谎</w>": 800,
+    "谢</w>": 801,
+    "象</w>": 802,
+    "賺</w>": 803,
+    "负</w>": 804,
+    "货</w>": 805,
+    "购</w>": 806,
+    "贷</w>": 807,
+    "费</w>": 808,
+    "赛</w>": 809,
+    "赢</w>": 810,
+    "走</w>": 811,
+    "赶</w>": 812,
+    "起</w>": 813,
+    "趕</w>": 814,
+    "趣</w>": 815,
+    "足</w>": 816,
+    "跑</w>": 817,
+    "跟</w>": 818,
+    "路</w>": 819,
+    "踢</w>": 820,
+    "躲</w>": 821,
+    "較</w>": 822,
+    "车</w>": 823,
+    "轨</w>": 824,
+    "转</w>": 825,
+    "轻</w>": 826,
+    "较</w>": 827,
+    "辆</w>": 828,
+    "辈</w>": 829,
+    "辜</w>": 830,
+    "辩</w>": 831,
+    "达</w>": 832,
+    "迅</w>": 833,
+    "过</w>": 834,
+    "近</w>": 835,
+    "还</w>": 836,
+    "这</w>": 837,
+    "进</w>": 838,
+    "远</w>": 839,
+    "迟</w>": 840,
+    "述</w>": 841,
+    "迷</w>": 842,
+    "迹</w>": 843,
+    "送</w>": 844,
+    "适</w>": 845,
+    "逃</w>": 846,
+    "选</w>": 847,
+    "透</w>": 848,
+    "递</w>": 849,
+    "途</w>": 850,
+    "這</w>": 851,
+    "通</w>": 852,
+    "速</w>": 853,
+    "造</w>": 854,
+    "進</w>": 855,
+    "過</w>": 856,
+    "道</w>": 857,
+    "遛</w>": 858,
+    "遠</w>": 859,
+    "邀</w>": 860,
+    "那</w>": 861,
+    "邻</w>": 862,
+    "部</w>": 863,
+    "都</w>": 864,
+    "酒</w>": 865,
+    "采</w>": 866,
+    "里</w>": 867,
+    "重</w>": 868,
+    "金</w>": 869,
+    "钟</w>": 870,
+    "钱</w>": 871,
+    "铁</w>": 872,
+    "铃</w>": 873,
+    "铭</w>": 874,
+    "银</w>": 875,
+    "销</w>": 876,
+    "错</w>": 877,
+    "镜</w>": 878,
+    "長</w>": 879,
+    "长</w>": 880,
+    "間</w>": 881,
+    "问</w>": 882,
+    "间</w>": 883,
+    "闻</w>": 884,
+    "阅</w>": 885,
+    "阐</w>": 886,
+    "防</w>": 887,
+    "阳</w>": 888,
+    "附</w>": 889,
+    "限</w>": 890,
+    "除</w>": 891,
+    "险</w>": 892,
+    "随</w>": 893,
+    "隻</w>": 894,
+    "难</w>": 895,
+    "雨</w>": 896,
+    "雪</w>": 897,
+    "零</w>": 898,
+    "雹</w>": 899,
+    "需</w>": 900,
+    "震</w>": 901,
+    "露</w>": 902,
+    "非</w>": 903,
+    "靠</w>": 904,
+    "面</w>": 905,
+    "音</w>": 906,
+    "題</w>": 907,
+    "项</w>": 908,
+    "须</w>": 909,
+    "顾</w>": 910,
+    "预</w>": 911,
+    "题</w>": 912,
+    "风</w>": 913,
+    "飞</w>": 914,
+    "食</w>": 915,
+    "餐</w>": 916,
+    "饭</w>": 917,
+    "饿</w>": 918,
+    "首</w>": 919,
+    "马</w>": 920,
+    "驶</w>": 921,
+    "验</w>": 922,
+    "骑</w>": 923,
+    "骗</w>": 924,
+    "高</w>": 925,
+    "鬼</w>": 926,
+    "鱼</w>": 927,
+    "鲍</w>": 928,
+    "鲜</w>": 929,
+    "麻</w>": 930,
+    "麼</w>": 931,
+    "點</w>": 932,
+    "鼠</w>": 933,
+    "龙</w>": 934,
+    "﹐</w>": 935,
+    "！</w>": 936,
+    "，</w>": 937,
+    "？</w>": 938
+  },
+  "id_to_token": {
+    "0": "<pad>",
+    "1": "<sos>",
+    "2": "<eos>",
+    "3": "<unk>",
+    "4": "<mask>",
+    "5": "!</w>",
+    "6": "\"</w>",
+    "7": ",</w>",
+    "8": ".</w>",
+    "9": "0</w>",
+    "10": "10",
+    "11": "100</w>",
+    "12": "10</w>",
+    "13": "18",
+    "14": "18</w>",
+    "15": "1</w>",
+    "16": "20</w>",
+    "17": "21</w>",
+    "18": "2</w>",
+    "19": "3</w>",
+    "20": "40</w>",
+    "21": "56</w>",
+    "22": "5</w>",
+    "23": "6</w>",
+    "24": "7</w>",
+    "25": "?</w>",
+    "26": "ali",
+    "27": "alice</w>",
+    "28": "ancy</w>",
+    "29": "ce</w>",
+    "30": "cy</w>",
+    "31": "e</w>",
+    "32": "el",
+    "33": "iel",
+    "34": "ir",
+    "35": "ja",
+    "36": "jac",
+    "37": "jack</w>",
+    "38": "jake</w>",
+    "39": "k</w>",
+    "40": "ka",
+    "41": "kate</w>",
+    "42": "ke",
+    "43": "ke</w>",
+    "44": "ken</w>",
+    "45": "li",
+    "46": "m</w>",
+    "47": "muir",
+    "48": "muiriel",
+    "49": "muiriel</w>",
+    "50": "n</w>",
+    "51": "nancy</w>",
+    "52": "ncy</w>",
+    "53": "om</w>",
+    "54": "te</w>",
+    "55": "tom</w>",
+    "56": "uir",
+    "57": "y</w>",
+    "58": "“</w>",
+    "59": "”</w>",
+    "60": "…</w>",
+    "61": "、</w>",
+    "62": "。</w>",
+    "63": "一</w>",
+    "64": "七</w>",
+    "65": "万</w>",
+    "66": "三</w>",
+    "67": "上</w>",
+    "68": "下</w>",
+    "69": "不</w>",
+    "70": "丑</w>",
+    "71": "世</w>",
+    "72": "业</w>",
+    "73": "两</w>",
+    "74": "严</w>",
+    "75": "个</w>",
+    "76": "中</w>",
+    "77": "丰</w>",
+    "78": "为</w>",
+    "79": "举</w>",
+    "80": "久</w>",
+    "81": "么</w>",
+    "82": "义</w>",
+    "83": "之</w>",
+    "84": "乎</w>",
+    "85": "乐</w>",
+    "86": "乘</w>",
+    "87": "九</w>",
+    "88": "也</w>",
+    "89": "习</w>",
+    "90": "书</w>",
+    "91": "买</w>",
+    "92": "了</w>",
+    "93": "予</w>",
+    "94": "争</w>",
+    "95": "事</w>",
+    "96": "于</w>",
+    "97": "互</w>",
+    "98": "些</w>",
+    "99": "交</w>",
+    "100": "亲</w>",
+    "101": "人</w>",
+    "102": "什</w>",
+    "103": "仅</w>",
+    "104": "今</w>",
+    "105": "从</w>",
+    "106": "他</w>",
+    "107": "付</w>",
+    "108": "代</w>",
+    "109": "以</w>",
+    "110": "仪</w>",
+    "111": "们</w>",
+    "112": "件</w>",
+    "113": "价</w>",
+    "114": "任</w>",
+    "115": "份</w>",
+    "116": "休</w>",
+    "117": "众</w>",
+    "118": "会</w>",
+    "119": "伟</w>",
+    "120": "传</w>",
+    "121": "伦</w>",
+    "122": "似</w>",
+    "123": "但</w>",
+    "124": "位</w>",
+    "125": "低</w>",
+    "126": "住</w>",
+    "127": "体</w>",
+    "128": "何</w>",
+    "129": "作</w>",
+    "130": "你</w>",
+    "131": "使</w>",
+    "132": "來</w>",
+    "133": "例</w>",
+    "134": "保</w>",
+    "135": "信</w>",
+    "136": "俱</w>",
+    "137": "個</w>",
+    "138": "們</w>",
+    "139": "候</w>",
+    "140": "借</w>",
+    "141": "倦</w>",
+    "142": "债</w>",
+    "143": "值</w>",
+    "144": "假</w>",
+    "145": "偏</w>",
+    "146": "做</w>",
+    "147": "停</w>",
+    "148": "偶</w>",
+    "149": "偷</w>",
+    "150": "像</w>",
+    "151": "僵</w>",
+    "152": "儿</w>",
+    "153": "元</w>",
+    "154": "先</w>",
+    "155": "光</w>",
+    "156": "克</w>",
+    "157": "免</w>",
+    "158": "兔</w>",
+    "159": "入</w>",
+    "160": "全</w>",
+    "161": "公</w>",
+    "162": "六</w>",
+    "163": "兰</w>",
+    "164": "关</w>",
+    "165": "兴</w>",
+    "166": "其</w>",
+    "167": "兼</w>",
+    "168": "内</w>",
+    "169": "再</w>",
+    "170": "冒</w>",
+    "171": "写</w>",
+    "172": "冰</w>",
+    "173": "冲</w>",
+    "174": "决</w>",
+    "175": "况</w>",
+    "176": "冷</w>",
+    "177": "准</w>",
+    "178": "几</w>",
+    "179": "出</w>",
+    "180": "分</w>",
+    "181": "切</w>",
+    "182": "划</w>",
+    "183": "则</w>",
+    "184": "创</w>",
+    "185": "利</w>",
+    "186": "到</w>",
+    "187": "制</w>",
+    "188": "前</w>",
+    "189": "劃</w>",
+    "190": "力</w>",
+    "191": "办</w>",
+    "192": "功</w>",
+    "193": "加</w>",
+    "194": "务</w>",
+    "195": "动</w>",
+    "196": "助</w>",
+    "197": "努</w>",
+    "198": "劳</w>",
+    "199": "勃</w>",
+    "200": "包</w>",
+    "201": "化</w>",
+    "202": "医</w>",
+    "203": "十</w>",
+    "204": "千</w>",
+    "205": "升</w>",
+    "206": "午</w>",
+    "207": "半</w>",
+    "208": "华</w>",
+    "209": "单</w>",
+    "210": "卖</w>",
+    "211": "卫</w>",
+    "212": "危</w>",
+    "213": "即</w>",
+    "214": "却</w>",
+    "215": "历</w>",
+    "216": "厌</w>",
+    "217": "厕</w>",
+    "218": "去</w>",
+    "219": "参</w>",
+    "220": "又</w>",
+    "221": "友</w>",
+    "222": "反</w>",
+    "223": "发</w>",
+    "224": "叔</w>",
+    "225": "取</w>",
+    "226": "受</w>",
+    "227": "变</w>",
+    "228": "口</w>",
+    "229": "古</w>",
+    "230": "另</w>",
+    "231": "只</w>",
+    "232": "叫</w>",
+    "233": "可</w>",
+    "234": "史</w>",
+    "235": "右</w>",
+    "236": "号</w>",
+    "237": "吃</w>",
+    "238": "合</w>",
+    "239": "同</w>",
+    "240": "名</w>",
+    "241": "后</w>",
+    "242": "向</w>",
+    "243": "吗</w>",
+    "244": "吧</w>",
+    "245": "听</w>",
+    "246": "告</w>",
+    "247": "员</w>",
+    "248": "呢</w>",
+    "249": "周</w>",
+    "250": "味</w>",
+    "251": "命</w>",
+    "252": "和</w>",
+    "253": "咖</w>",
+    "254": "品</w>",
+    "255": "响</w>",
+    "256": "哥</w>",
+    "257": "哦</w>",
+    "258": "哪</w>",
+    "259": "售</w>",
+    "260": "唯</w>",
+    "261": "唱</w>",
+    "262": "啊</w>",
+    "263": "問</w>",
+    "264": "啡</w>",
+    "265": "喜</w>",
+    "266": "喝</w>",
+    "267": "嗨</w>",
+    "268": "囚</w>",
+    "269": "回</w>",
+    "270": "因</w>",
+    "271": "团</w>",
+    "272": "园</w>",
+    "273": "困</w>",
+    "274": "国</w>",
+    "275": "图</w>",
+    "276": "圈</w>",
+    "277": "國</w>",
+    "278": "圣</w>",
+    "279": "在</w>",
+    "280": "地</w>",
+    "281": "场</w>",
+    "282": "坐</w>",
+    "283": "块</w>",
+    "284": "坚</w>",
+    "285": "城</w>",
+    "286": "堡</w>",
+    "287": "增</w>",
+    "288": "士</w>",
+    "289": "声</w>",
+    "290": "处</w>",
+    "291": "备</w>",
+    "292": "复</w>",
+    "293": "夏</w>",
+    "294": "外</w>",
+    "295": "多</w>",
+    "296": "夜</w>",
+    "297": "够</w>",
+    "298": "大</w>",
+    "299": "天</w>",
+    "300": "太</w>",
+    "301": "失</w>",
+    "302": "头</w>",
+    "303": "奇</w>",
+    "304": "奶</w>",
+    "305": "她</w>",
+    "306": "好</w>",
+    "307": "如</w>",
+    "308": "妈</w>",
+    "309": "妹</w>",
+    "310": "妻</w>",
+    "311": "始</w>",
+    "312": "姐</w>",
+    "313": "威</w>",
+    "314": "婚</w>",
+    "315": "子</w>",
+    "316": "字</w>",
+    "317": "季</w>",
+    "318": "学</w>",
+    "319": "孩</w>",
+    "320": "學</w>",
+    "321": "它</w>",
+    "322": "宇</w>",
+    "323": "守</w>",
+    "324": "安</w>",
+    "325": "完</w>",
+    "326": "宙</w>",
+    "327": "定</w>",
+    "328": "宝</w>",
+    "329": "实</w>",
+    "330": "客</w>",
+    "331": "宣</w>",
+    "332": "室</w>",
+    "333": "宵</w>",
+    "334": "家</w>",
+    "335": "寄</w>",
+    "336": "密</w>",
+    "337": "富</w>",
+    "338": "对</w>",
+    "339": "寻</w>",
+    "340": "将</w>",
+    "341": "尊</w>",
+    "342": "小</w>",
+    "343": "少</w>",
+    "344": "就</w>",
+    "345": "尼</w>",
+    "346": "局</w>",
+    "347": "屈</w>",
+    "348": "属</w>",
+    "349": "山</w>",
+    "350": "岁</w>",
+    "351": "岩</w>",
+    "352": "工</w>",
+    "353": "己</w>",
+    "354": "已</w>",
+    "355": "市</w>",
+    "356": "布</w>",
+    "357": "师</w>",
+    "358": "帖</w>",
+    "359": "带</w>",
+    "360": "席</w>",
+    "361": "帮</w>",
+    "362": "常</w>",
+    "363": "帽</w>",
+    "364": "干</w>",
+    "365": "平</w>",
+    "366": "年</w>",
+    "367": "幸</w>",
+    "368": "幹</w>",
+    "369": "广</w>",
+    "370": "庄</w>",
+    "371": "庆</w>",
+    "372": "床</w>",
+    "373": "应</w>",
+    "374": "底</w>",
+    "375": "庙</w>",
+    "376": "庞</w>",
+    "377": "度</w>",
+    "378": "座</w>",
+    "379": "庭</w>",
+    "380": "延</w>",
+    "381": "建</w>",
+    "382": "开</w>",
+    "383": "弃</w>",
+    "384": "式</w>",
+    "385": "弟</w>",
+    "386": "张</w>",
+    "387": "張</w>",
+    "388": "强</w>",
+    "389": "当</w>",
+    "390": "影</w>",
+    "391": "彻</w>",
+    "392": "往</w>",
+    "393": "径</w>",
+    "394": "待</w>",
+    "395": "很</w>",
+    "396": "後</w>",
+    "397": "徒</w>",
+    "398": "得</w>",
+    "399": "從</w>",
+    "400": "微</w>",
+    "401": "德</w>",
+    "402": "心</w>",
+    "403": "必</w>",
+    "404": "志</w>",
+    "405": "忙</w>",
+    "406": "快</w>",
+    "407": "念</w>",
+    "408": "怀</w>",
+    "409": "怎</w>",
+    "410": "急</w>",
+    "411": "总</w>",
+    "412": "息</w>",
+    "413": "悔</w>",
+    "414": "情</w>",
+    "415": "惊</w>",
+    "416": "惜</w>",
+    "417": "惡</w>",
+    "418": "想</w>",
+    "419": "愉</w>",
+    "420": "意</w>",
+    "421": "感</w>",
+    "422": "慢</w>",
+    "423": "應</w>",
+    "424": "戏</w>",
+    "425": "成</w>",
+    "426": "我</w>",
+    "427": "戒</w>",
+    "428": "或</w>",
+    "429": "戴</w>",
+    "430": "户</w>",
+    "431": "房</w>",
+    "432": "所</w>",
+    "433": "扇</w>",
+    "434": "手</w>",
+    "435": "才</w>",
+    "436": "打</w>",
+    "437": "托</w>",
+    "438": "扰</w>",
+    "439": "批</w>",
+    "440": "找</w>",
+    "441": "把</w>",
+    "442": "抓</w>",
+    "443": "护</w>",
+    "444": "报</w>",
+    "445": "抱</w>",
+    "446": "拆</w>",
+    "447": "拉</w>",
+    "448": "拜</w>",
+    "449": "拥</w>",
+    "450": "择</w>",
+    "451": "持</w>",
+    "452": "指</w>",
+    "453": "按</w>",
+    "454": "挑</w>",
+    "455": "挤</w>",
+    "456": "挥</w>",
+    "457": "据</w>",
+    "458": "接</w>",
+    "459": "推</w>",
+    "460": "措</w>",
+    "461": "揉</w>",
+    "462": "插</w>",
+    "463": "揭</w>",
+    "464": "携</w>",
+    "465": "摄</w>",
+    "466": "摇</w>",
+    "467": "摩</w>",
+    "468": "撒</w>",
+    "469": "播</w>",
+    "470": "擔</w>",
+    "471": "支</w>",
+    "472": "收</w>",
+    "473": "改</w>",
+    "474": "放</w>",
+    "475": "故</w>",
+    "476": "救</w>",
+    "477": "教</w>",
+    "478": "散</w>",
+    "479": "敦</w>",
+    "480": "敬</w>",
+    "481": "数</w>",
+    "482": "整</w>",
+    "483": "斯</w>",
+    "484": "新</w>",
+    "485": "方</w>",
+    "486": "施</w>",
+    "487": "旅</w>",
+    "488": "无</w>",
+    "489": "日</w>",
+    "490": "旦</w>",
+    "491": "早</w>",
+    "492": "时</w>",
+    "493": "明</w>",
+    "494": "星</w>",
+    "495": "昨</w>",
+    "496": "是</w>",
+    "497": "時</w>",
+    "498": "晃</w>",
+    "499": "晚</w>",
+    "500": "景</w>",
+    "501": "更</w>",
+    "502": "曾</w>",
+    "503": "最</w>",
+    "504": "會</w>",
+    "505": "月</w>",
+    "506": "有</w>",
+    "507": "朋</w>",
+    "508": "服</w>",
+    "509": "望</w>",
+    "510": "朝</w>",
+    "511": "期</w>",
+    "512": "本</w>",
+    "513": "术</w>",
+    "514": "机</w>",
+    "515": "杀</w>",
+    "516": "杂</w>",
+    "517": "权</w>",
+    "518": "村</w>",
+    "519": "条</w>",
+    "520": "来</w>",
+    "521": "杯</w>",
+    "522": "杰</w>",
+    "523": "松</w>",
+    "524": "果</w>",
+    "525": "架</w>",
+    "526": "某</w>",
+    "527": "标</w>",
+    "528": "栋</w>",
+    "529": "校</w>",
+    "530": "样</w>",
+    "531": "格</w>",
+    "532": "桌</w>",
+    "533": "桥</w>",
+    "534": "楼</w>",
+    "535": "概</w>",
+    "536": "樣</w>",
+    "537": "欠</w>",
+    "538": "次</w>",
+    "539": "欢</w>",
+    "540": "欲</w>",
+    "541": "款</w>",
+    "542": "歉</w>",
+    "543": "歌</w>",
+    "544": "歐</w>",
+    "545": "歡</w>",
+    "546": "止</w>",
+    "547": "正</w>",
+    "548": "步</w>",
+    "549": "死</w>",
+    "550": "段</w>",
+    "551": "母</w>",
+    "552": "每</w>",
+    "553": "比</w>",
+    "554": "毕</w>",
+    "555": "毛</w>",
+    "556": "毫</w>",
+    "557": "气</w>",
+    "558": "水</w>",
+    "559": "永</w>",
+    "560": "池</w>",
+    "561": "汽</w>",
+    "562": "沒</w>",
+    "563": "没</w>",
+    "564": "河</w>",
+    "565": "沸</w>",
+    "566": "油</w>",
+    "567": "沿</w>",
+    "568": "法</w>",
+    "569": "泪</w>",
+    "570": "泳</w>",
+    "571": "洗</w>",
+    "572": "津</w>",
+    "573": "活</w>",
+    "574": "派</w>",
+    "575": "流</w>",
+    "576": "济</w>",
+    "577": "消</w>",
+    "578": "涌</w>",
+    "579": "涨</w>",
+    "580": "清</w>",
+    "581": "温</w>",
+    "582": "港</w>",
+    "583": "游</w>",
+    "584": "湖</w>",
+    "585": "溜</w>",
+    "586": "滑</w>",
+    "587": "满</w>",
+    "588": "演</w>",
+    "589": "澄</w>",
+    "590": "澡</w>",
+    "591": "火</w>",
+    "592": "灯</w>",
+    "593": "灰</w>",
+    "594": "点</w>",
+    "595": "烟</w>",
+    "596": "烦</w>",
+    "597": "热</w>",
+    "598": "然</w>",
+    "599": "照</w>",
+    "600": "爱</w>",
+    "601": "父</w>",
+    "602": "爸</w>",
+    "603": "片</w>",
+    "604": "牛</w>",
+    "605": "物</w>",
+    "606": "狗</w>",
+    "607": "独</w>",
+    "608": "猫</w>",
+    "609": "王</w>",
+    "610": "玩</w>",
+    "611": "环</w>",
+    "612": "现</w>",
+    "613": "班</w>",
+    "614": "球</w>",
+    "615": "理</w>",
+    "616": "生</w>",
+    "617": "用</w>",
+    "618": "由</w>",
+    "619": "电</w>",
+    "620": "男</w>",
+    "621": "界</w>",
+    "622": "留</w>",
+    "623": "當</w>",
+    "624": "疑</w>",
+    "625": "疯</w>",
+    "626": "病</w>",
+    "627": "痛</w>",
+    "628": "瘋</w>",
+    "629": "發</w>",
+    "630": "白</w>",
+    "631": "百</w>",
+    "632": "的</w>",
+    "633": "盐</w>",
+    "634": "盖</w>",
+    "635": "盛</w>",
+    "636": "目</w>",
+    "637": "直</w>",
+    "638": "相</w>",
+    "639": "盹</w>",
+    "640": "看</w>",
+    "641": "真</w>",
+    "642": "眠</w>",
+    "643": "眼</w>",
+    "644": "着</w>",
+    "645": "睛</w>",
+    "646": "睡</w>",
+    "647": "知</w>",
+    "648": "短</w>",
+    "649": "石</w>",
+    "650": "码</w>",
+    "651": "破</w>",
+    "652": "确</w>",
+    "653": "碎</w>",
+    "654": "示</w>",
+    "655": "社</w>",
+    "656": "祝</w>",
+    "657": "神</w>",
+    "658": "票</w>",
+    "659": "福</w>",
+    "660": "离</w>",
+    "661": "私</w>",
+    "662": "种</w>",
+    "663": "秘</w>",
+    "664": "移</w>",
+    "665": "程</w>",
+    "666": "空</w>",
+    "667": "窗</w>",
+    "668": "窜</w>",
+    "669": "站</w>",
+    "670": "童</w>",
+    "671": "笑</w>",
+    "672": "笔</w>",
+    "673": "笛</w>",
+    "674": "第</w>",
+    "675": "笼</w>",
+    "676": "等</w>",
+    "677": "筑</w>",
+    "678": "答</w>",
+    "679": "简</w>",
+    "680": "籍</w>",
+    "681": "粗</w>",
+    "682": "精</w>",
+    "683": "糕</w>",
+    "684": "糟</w>",
+    "685": "素</w>",
+    "686": "索</w>",
+    "687": "給</w>",
+    "688": "經</w>",
+    "689": "總</w>",
+    "690": "红</w>",
+    "691": "纪</w>",
+    "692": "纯</w>",
+    "693": "纸</w>",
+    "694": "线</w>",
+    "695": "绅</w>",
+    "696": "终</w>",
+    "697": "经</w>",
+    "698": "结</w>",
+    "699": "给</w>",
+    "700": "统</w>",
+    "701": "绿</w>",
+    "702": "缺</w>",
+    "703": "网</w>",
+    "704": "罗</w>",
+    "705": "罚</w>",
+    "706": "置</w>",
+    "707": "美</w>",
+    "708": "群</w>",
+    "709": "習</w>",
+    "710": "老</w>",
+    "711": "考</w>",
+    "712": "者</w>",
+    "713": "而</w>",
+    "714": "耍</w>",
+    "715": "耗</w>",
+    "716": "职</w>",
+    "717": "肯</w>",
+    "718": "胖</w>",
+    "719": "能</w>",
+    "720": "脑</w>",
+    "721": "脚</w>",
+    "722": "脸</w>",
+    "723": "腾</w>",
+    "724": "腿</w>",
+    "725": "自</w>",
+    "726": "至</w>",
+    "727": "船</w>",
+    "728": "艰</w>",
+    "729": "色</w>",
+    "730": "艺</w>",
+    "731": "花</w>",
+    "732": "苏</w>",
+    "733": "英</w>",
+    "734": "茶</w>",
+    "735": "药</w>",
+    "736": "落</w>",
+    "737": "著</w>",
+    "738": "虑</w>",
+    "739": "虾</w>",
+    "740": "蜂</w>",
+    "741": "蝴</w>",
+    "742": "蝶</w>",
+    "743": "蠢</w>",
+    "744": "血</w>",
+    "745": "行</w>",
+    "746": "衣</w>",
+    "747": "表</w>",
+    "748": "被</w>",
+    "749": "裡</w>",
+    "750": "要</w>",
+    "751": "覆</w>",
+    "752": "覺</w>",
+    "753": "见</w>",
+    "754": "观</w>",
+    "755": "规</w>",
+    "756": "视</w>",
+    "757": "觉</w>",
+    "758": "解</w>",
+    "759": "言</w>",
+    "760": "計</w>",
+    "761": "試</w>",
+    "762": "話</w>",
+    "763": "該</w>",
+    "764": "誓</w>",
+    "765": "說</w>",
+    "766": "請</w>",
+    "767": "讀</w>",
+    "768": "變</w>",
+    "769": "计</w>",
+    "770": "订</w>",
+    "771": "认</w>",
+    "772": "让</w>",
+    "773": "训</w>",
+    "774": "议</w>",
+    "775": "记</w>",
+    "776": "讲</w>",
+    "777": "讶</w>",
+    "778": "许</w>",
+    "779": "论</w>",
+    "780": "设</w>",
+    "781": "访</w>",
+    "782": "证</w>",
+    "783": "评</w>",
+    "784": "识</w>",
+    "785": "诉</w>",
+    "786": "试</w>",
+    "787": "诗</w>",
+    "788": "诚</w>",
+    "789": "话</w>",
+    "790": "该</w>",
+    "791": "语</w>",
+    "792": "误</w>",
+    "793": "说</w>",
+    "794": "请</w>",
+    "795": "诺</w>",
+    "796": "读</w>",
+    "797": "课</w>",
+    "798": "谁</w>",
+    "799": "谈</w>",
+    "800": "谎</w>",
+    "801": "谢</w>",
+    "802": "象</w>",
+    "803": "賺</w>",
+    "804": "负</w>",
+    "805": "货</w>",
+    "806": "购</w>",
+    "807": "贷</w>",
+    "808": "费</w>",
+    "809": "赛</w>",
+    "810": "赢</w>",
+    "811": "走</w>",
+    "812": "赶</w>",
+    "813": "起</w>",
+    "814": "趕</w>",
+    "815": "趣</w>",
+    "816": "足</w>",
+    "817": "跑</w>",
+    "818": "跟</w>",
+    "819": "路</w>",
+    "820": "踢</w>",
+    "821": "躲</w>",
+    "822": "較</w>",
+    "823": "车</w>",
+    "824": "轨</w>",
+    "825": "转</w>",
+    "826": "轻</w>",
+    "827": "较</w>",
+    "828": "辆</w>",
+    "829": "辈</w>",
+    "830": "辜</w>",
+    "831": "辩</w>",
+    "832": "达</w>",
+    "833": "迅</w>",
+    "834": "过</w>",
+    "835": "近</w>",
+    "836": "还</w>",
+    "837": "这</w>",
+    "838": "进</w>",
+    "839": "远</w>",
+    "840": "迟</w>",
+    "841": "述</w>",
+    "842": "迷</w>",
+    "843": "迹</w>",
+    "844": "送</w>",
+    "845": "适</w>",
+    "846": "逃</w>",
+    "847": "选</w>",
+    "848": "透</w>",
+    "849": "递</w>",
+    "850": "途</w>",
+    "851": "這</w>",
+    "852": "通</w>",
+    "853": "速</w>",
+    "854": "造</w>",
+    "855": "進</w>",
+    "856": "過</w>",
+    "857": "道</w>",
+    "858": "遛</w>",
+    "859": "遠</w>",
+    "860": "邀</w>",
+    "861": "那</w>",
+    "862": "邻</w>",
+    "863": "部</w>",
+    "864": "都</w>",
+    "865": "酒</w>",
+    "866": "采</w>",
+    "867": "里</w>",
+    "868": "重</w>",
+    "869": "金</w>",
+    "870": "钟</w>",
+    "871": "钱</w>",
+    "872": "铁</w>",
+    "873": "铃</w>",
+    "874": "铭</w>",
+    "875": "银</w>",
+    "876": "销</w>",
+    "877": "错</w>",
+    "878": "镜</w>",
+    "879": "長</w>",
+    "880": "长</w>",
+    "881": "間</w>",
+    "882": "问</w>",
+    "883": "间</w>",
+    "884": "闻</w>",
+    "885": "阅</w>",
+    "886": "阐</w>",
+    "887": "防</w>",
+    "888": "阳</w>",
+    "889": "附</w>",
+    "890": "限</w>",
+    "891": "除</w>",
+    "892": "险</w>",
+    "893": "随</w>",
+    "894": "隻</w>",
+    "895": "难</w>",
+    "896": "雨</w>",
+    "897": "雪</w>",
+    "898": "零</w>",
+    "899": "雹</w>",
+    "900": "需</w>",
+    "901": "震</w>",
+    "902": "露</w>",
+    "903": "非</w>",
+    "904": "靠</w>",
+    "905": "面</w>",
+    "906": "音</w>",
+    "907": "題</w>",
+    "908": "项</w>",
+    "909": "须</w>",
+    "910": "顾</w>",
+    "911": "预</w>",
+    "912": "题</w>",
+    "913": "风</w>",
+    "914": "飞</w>",
+    "915": "食</w>",
+    "916": "餐</w>",
+    "917": "饭</w>",
+    "918": "饿</w>",
+    "919": "首</w>",
+    "920": "马</w>",
+    "921": "驶</w>",
+    "922": "验</w>",
+    "923": "骑</w>",
+    "924": "骗</w>",
+    "925": "高</w>",
+    "926": "鬼</w>",
+    "927": "鱼</w>",
+    "928": "鲍</w>",
+    "929": "鲜</w>",
+    "930": "麻</w>",
+    "931": "麼</w>",
+    "932": "點</w>",
+    "933": "鼠</w>",
+    "934": "龙</w>",
+    "935": "﹐</w>",
+    "936": "！</w>",
+    "937": "，</w>",
+    "938": "？</w>"
+  },
+  "merges": [
+    [
+      "。",
+      "</w>"
+    ],
+    [
+      "我",
+      "</w>"
+    ],
+    [
+      "的",
+      "</w>"
+    ],
+    [
+      "了",
+      "</w>"
+    ],
+    [
+      "他",
+      "</w>"
+    ],
+    [
+      "是",
+      "</w>"
+    ],
+    [
+      "你",
+      "</w>"
+    ],
+    [
+      "这",
+      "</w>"
+    ],
+    [
+      "一",
+      "</w>"
+    ],
+    [
+      "，",
+      "</w>"
+    ],
+    [
+      "不",
+      "</w>"
+    ],
+    [
+      "在",
+      "</w>"
+    ],
+    [
+      "们",
+      "</w>"
+    ],
+    [
+      "有",
+      "</w>"
+    ],
+    [
+      "个",
+      "</w>"
+    ],
+    [
+      "？",
+      "</w>"
+    ],
+    [
+      "她",
+      "</w>"
+    ],
+    [
+      "很",
+      "</w>"
+    ],
+    [
+      "会",
+      "</w>"
+    ],
+    [
+      "去",
+      "</w>"
+    ],
+    [
+      "人",
+      "</w>"
+    ],
+    [
+      "要",
+      "</w>"
+    ],
+    [
+      "来",
+      "</w>"
+    ],
+    [
+      "生",
+      "</w>"
+    ],
+    [
+      "得",
+      "</w>"
+    ],
+    [
+      "上",
+      "</w>"
+    ],
+    [
+      "天",
+      "</w>"
+    ],
+    [
+      "就",
+      "</w>"
+    ],
+    [
+      "子",
+      "</w>"
+    ],
+    [
+      "到",
+      "</w>"
+    ],
+    [
+      "车",
+      "</w>"
+    ],
+    [
+      "么",
+      "</w>"
+    ],
+    [
+      "吗",
+      "</w>"
+    ],
+    [
+      "没",
+      "</w>"
+    ],
+    [
+      "里",
+      "</w>"
+    ],
+    [
+      "能",
+      "</w>"
+    ],
+    [
+      "想",
+      "</w>"
+    ],
+    [
+      "大",
+      "</w>"
+    ],
+    [
+      "可",
+      "</w>"
+    ],
+    [
+      "说",
+      "</w>"
+    ],
+    [
+      "那",
+      "</w>"
+    ],
+    [
+      "什",
+      "</w>"
+    ],
+    [
+      "下",
+      "</w>"
+    ],
+    [
+      "对",
+      "</w>"
+    ],
+    [
+      "看",
+      "</w>"
+    ],
+    [
+      "多",
+      "</w>"
+    ],
+    [
+      "！",
+      "</w>"
+    ],
+    [
+      "喜",
+      "</w>"
+    ],
+    [
+      "以",
+      "</w>"
+    ],
+    [
+      "学",
+      "</w>"
+    ],
+    [
+      "过",
+      "</w>"
+    ],
+    [
+      "知",
+      "</w>"
+    ],
+    [
+      "给",
+      "</w>"
+    ],
+    [
+      "都",
+      "</w>"
+    ],
+    [
+      "日",
+      "</w>"
+    ],
+    [
+      "家",
+      "</w>"
+    ],
+    [
+      "事",
+      "</w>"
+    ],
+    [
+      "好",
+      "</w>"
+    ],
+    [
+      "为",
+      "</w>"
+    ],
+    [
+      "行",
+      "</w>"
+    ],
+    [
+      "成",
+      "</w>"
+    ],
+    [
+      "欢",
+      "</w>"
+    ],
+    [
+      "时",
+      "</w>"
+    ],
+    [
+      "也",
+      "</w>"
+    ],
+    [
+      "道",
+      "</w>"
+    ],
+    [
+      "问",
+      "</w>"
+    ],
+    [
+      "开",
+      "</w>"
+    ],
+    [
+      "和",
+      "</w>"
+    ],
+    [
+      "孩",
+      "</w>"
+    ],
+    [
+      "出",
+      "</w>"
+    ],
+    [
+      "快",
+      "</w>"
+    ],
+    [
+      "常",
+      "</w>"
+    ],
+    [
+      "现",
+      "</w>"
+    ],
+    [
+      "间",
+      "</w>"
+    ],
+    [
+      "如",
+      "</w>"
+    ],
+    [
+      "无",
+      "</w>"
+    ],
+    [
+      "法",
+      "</w>"
+    ],
+    [
+      "地",
+      "</w>"
+    ],
+    [
+      "比",
+      "</w>"
+    ],
+    [
+      "回",
+      "</w>"
+    ],
+    [
+      "果",
+      "</w>"
+    ],
+    [
+      "“",
+      "</w>"
+    ],
+    [
+      "样",
+      "</w>"
+    ],
+    [
+      "”",
+      "</w>"
+    ],
+    [
+      "試",
+      "</w>"
+    ],
+    [
+      "从",
+      "</w>"
+    ],
+    [
+      "把",
+      "</w>"
+    ],
+    [
+      "做",
+      "</w>"
+    ],
+    [
+      "老",
+      "</w>"
+    ],
+    [
+      "?",
+      "</w>"
+    ],
+    [
+      "听",
+      "</w>"
+    ],
+    [
+      "本",
+      "</w>"
+    ],
+    [
+      "爸",
+      "</w>"
+    ],
+    [
+      "妈",
+      "</w>"
+    ],
+    [
+      "还",
+      "</w>"
+    ],
+    [
+      "這",
+      "</w>"
+    ],
+    [
+      "年",
+      "</w>"
+    ],
+    [
+      "用",
+      "</w>"
+    ],
+    [
+      "话",
+      "</w>"
+    ],
+    [
+      "旅",
+      "</w>"
+    ],
+    [
+      "明",
+      "</w>"
+    ],
+    [
+      "点",
+      "</w>"
+    ],
+    [
+      "完",
+      "</w>"
+    ],
+    [
+      "月",
+      "</w>"
+    ],
+    [
+      "着",
+      "</w>"
+    ],
+    [
+      "之",
+      "</w>"
+    ],
+    [
+      "周",
+      "</w>"
+    ],
+    [
+      "怎",
+      "</w>"
+    ],
+    [
+      "意",
+      "</w>"
+    ],
+    [
+      "重",
+      "</w>"
+    ],
+    [
+      "工",
+      "</w>"
+    ],
+    [
+      "哪",
+      "</w>"
+    ],
+    [
+      "国",
+      "</w>"
+    ],
+    [
+      "正",
+      "</w>"
+    ],
+    [
+      "游",
+      "</w>"
+    ],
+    [
+      "发",
+      "</w>"
+    ],
+    [
+      "起",
+      "</w>"
+    ],
+    [
+      "作",
+      "</w>"
+    ],
+    [
+      "些",
+      "</w>"
+    ],
+    [
+      "麼",
+      "</w>"
+    ],
+    [
+      "走",
+      "</w>"
+    ],
+    [
+      "后",
+      "</w>"
+    ],
+    [
+      "认",
+      "</w>"
+    ],
+    [
+      "前",
+      "</w>"
+    ],
+    [
+      ".",
+      "</w>"
+    ],
+    [
+      "物",
+      "</w>"
+    ],
+    [
+      "0",
+      "</w>"
+    ],
+    [
+      "美",
+      "</w>"
+    ],
+    [
+      "元",
+      "</w>"
+    ],
+    [
+      "它",
+      "</w>"
+    ],
+    [
+      "房",
+      "</w>"
+    ],
+    [
+      "员",
+      "</w>"
+    ],
+    [
+      "太",
+      "</w>"
+    ],
+    [
+      "几",
+      "</w>"
+    ],
+    [
+      "期",
+      "</w>"
+    ],
+    [
+      "球",
+      "</w>"
+    ],
+    [
+      "乐",
+      "</w>"
+    ],
+    [
+      "部",
+      "</w>"
+    ],
+    [
+      "书",
+      "</w>"
+    ],
+    [
+      "候",
+      "</w>"
+    ],
+    [
+      "但",
+      "</w>"
+    ],
+    [
+      "小",
+      "</w>"
+    ],
+    [
+      "自",
+      "</w>"
+    ],
+    [
+      "情",
+      "</w>"
+    ],
+    [
+      "讲",
+      "</w>"
+    ],
+    [
+      "经",
+      "</w>"
+    ],
+    [
+      "电",
+      "</w>"
+    ],
+    [
+      "高",
+      "</w>"
+    ],
+    [
+      "觉",
+      "</w>"
+    ],
+    [
+      "感",
+      "</w>"
+    ],
+    [
+      "直",
+      "</w>"
+    ],
+    [
+      "请",
+      "</w>"
+    ],
+    [
+      "告",
+      "</w>"
+    ],
+    [
+      "妹",
+      "</w>"
+    ],
+    [
+      "住",
+      "</w>"
+    ],
+    [
+      "让",
+      "</w>"
+    ],
+    [
+      "活",
+      "</w>"
+    ],
+    [
+      "真",
+      "</w>"
+    ],
+    [
+      "個",
+      "</w>"
+    ],
+    [
+      "始",
+      "</w>"
+    ],
+    [
+      "信",
+      "</w>"
+    ],
+    [
+      "更",
+      "</w>"
+    ],
+    [
+      "号",
+      "</w>"
+    ],
+    [
+      "們",
+      "</w>"
+    ],
+    [
+      "件",
+      "</w>"
+    ],
+    [
+      "外",
+      "</w>"
+    ],
+    [
+      "见",
+      "</w>"
+    ],
+    [
+      "于",
+      "</w>"
+    ],
+    [
+      "喝",
+      "</w>"
+    ],
+    [
+      "爱",
+      "</w>"
+    ],
+    [
+      "班",
+      "</w>"
+    ],
+    [
+      "少",
+      "</w>"
+    ],
+    [
+      "单",
+      "</w>"
+    ],
+    [
+      "世",
+      "</w>"
+    ],
+    [
+      "校",
+      "</w>"
+    ],
+    [
+      "最",
+      "</w>"
+    ],
+    [
+      "定",
+      "</w>"
+    ],
+    [
+      "力",
+      "</w>"
+    ],
+    [
+      "何",
+      "</w>"
+    ],
+    [
+      "吧",
+      "</w>"
+    ],
+    [
+      "该",
+      "</w>"
+    ],
+    [
+      "接",
+      "</w>"
+    ],
+    [
+      "将",
+      "</w>"
+    ],
+    [
+      "难",
+      "</w>"
+    ],
+    [
+      "识",
+      "</w>"
+    ],
+    [
+      "密",
+      "</w>"
+    ],
+    [
+      "打",
+      "</w>"
+    ],
+    [
+      "非",
+      "</w>"
+    ],
+    [
+      "中",
+      "</w>"
+    ],
+    [
+      "诉",
+      "</w>"
+    ],
+    [
+      "许",
+      "</w>"
+    ],
+    [
+      "i",
+      "r"
+    ],
+    [
+      "u",
+      "ir"
+    ],
+    [
+      "e",
+      "l"
+    ],
+    [
+      "m",
+      "uir"
+    ],
+    [
+      "i",
+      "el"
+    ],
+    [
+      "muir",
+      "iel"
+    ],
+    [
+      "muiriel",
+      "</w>"
+    ],
+    [
+      "再",
+      "</w>"
+    ],
+    [
+      "相",
+      "</w>"
+    ],
+    [
+      "其",
+      "</w>"
+    ],
+    [
+      "心",
+      "</w>"
+    ],
+    [
+      "长",
+      "</w>"
+    ],
+    [
+      "取",
+      "</w>"
+    ],
+    [
+      "语",
+      "</w>"
+    ],
+    [
+      "网",
+      "</w>"
+    ],
+    [
+      "消",
+      "</w>"
+    ],
+    [
+      "息",
+      "</w>"
+    ],
+    [
+      "惊",
+      "</w>"
+    ],
+    [
+      "等",
+      "</w>"
+    ],
+    [
+      "公",
+      "</w>"
+    ],
+    [
+      "简",
+      "</w>"
+    ],
+    [
+      "被",
+      "</w>"
+    ],
+    [
+      "种",
+      "</w>"
+    ],
+    [
+      "趣",
+      "</w>"
+    ],
+    [
+      "已",
+      "</w>"
+    ],
+    [
+      "影",
+      "</w>"
+    ],
+    [
+      "疑",
+      "</w>"
+    ],
+    [
+      "史",
+      "</w>"
+    ],
+    [
+      "题",
+      "</w>"
+    ],
+    [
+      "啊",
+      "</w>"
+    ],
+    [
+      "同",
+      "</w>"
+    ],
+    [
+      "睡",
+      "</w>"
+    ],
+    [
+      "离",
+      "</w>"
+    ],
+    [
+      "三",
+      "</w>"
+    ],
+    [
+      "方",
+      "</w>"
+    ],
+    [
+      "响",
+      "</w>"
+    ],
+    [
+      "兴",
+      "</w>"
+    ],
+    [
+      "医",
+      "</w>"
+    ],
+    [
+      "建",
+      "</w>"
+    ],
+    [
+      "议",
+      "</w>"
+    ],
+    [
+      "戒",
+      "</w>"
+    ],
+    [
+      "坐",
+      "</w>"
+    ],
+    [
+      "向",
+      "</w>"
+    ],
+    [
+      "切",
+      "</w>"
+    ],
+    [
+      "读",
+      "</w>"
+    ],
+    [
+      "火",
+      "</w>"
+    ],
+    [
+      "斯",
+      "</w>"
+    ],
+    [
+      "计",
+      "</w>"
+    ],
+    [
+      "往",
+      "</w>"
+    ],
+    [
+      "問",
+      "</w>"
+    ],
+    [
+      "除",
+      "</w>"
+    ],
+    [
+      "罗",
+      "</w>"
+    ],
+    [
+      "马",
+      "</w>"
+    ],
+    [
+      "任",
+      "</w>"
+    ],
+    [
+      "必",
+      "</w>"
+    ],
+    [
+      "须",
+      "</w>"
+    ],
+    [
+      "新",
+      "</w>"
+    ],
+    [
+      "客",
+      "</w>"
+    ],
+    [
+      "今",
+      "</w>"
+    ],
+    [
+      "而",
+      "</w>"
+    ],
+    [
+      "水",
+      "</w>"
+    ],
+    [
+      "名",
+      "</w>"
+    ],
+    [
+      "变",
+      "</w>"
+    ],
+    [
+      "界",
+      "</w>"
+    ],
+    [
+      "加",
+      "</w>"
+    ],
+    [
+      "使",
+      "</w>"
+    ],
+    [
+      "毫",
+      "</w>"
+    ],
+    [
+      "习",
+      "</w>"
+    ],
+    [
+      "玩",
+      "</w>"
+    ],
+    [
+      "耍",
+      "</w>"
+    ],
+    [
+      "记",
+      "</w>"
+    ],
+    [
+      "分",
+      "</w>"
+    ],
+    [
+      "待",
+      "</w>"
+    ],
+    [
+      "男",
+      "</w>"
+    ],
+    [
+      "俱",
+      "</w>"
+    ],
+    [
+      "图",
+      "</w>"
+    ],
+    [
+      "笑",
+      "</w>"
+    ],
+    [
+      "述",
+      "</w>"
+    ],
+    [
+      "理",
+      "</w>"
+    ],
+    [
+      "由",
+      "</w>"
+    ],
+    [
+      "山",
+      "</w>"
+    ],
+    [
+      "式",
+      "</w>"
+    ],
+    [
+      "己",
+      "</w>"
+    ],
+    [
+      "學",
+      "</w>"
+    ],
+    [
+      "目",
+      "</w>"
+    ],
+    [
+      "面",
+      "</w>"
+    ],
+    [
+      "骑",
+      "</w>"
+    ],
+    [
+      "实",
+      "</w>"
+    ],
+    [
+      "時",
+      "</w>"
+    ],
+    [
+      "服",
+      "</w>"
+    ],
+    [
+      "合",
+      "</w>"
+    ],
+    [
+      "手",
+      "</w>"
+    ],
+    [
+      "第",
+      "</w>"
+    ],
+    [
+      "母",
+      "</w>"
+    ],
+    [
+      "留",
+      "</w>"
+    ],
+    [
+      "买",
+      "</w>"
+    ],
+    [
+      "准",
+      "</w>"
+    ],
+    [
+      "权",
+      "</w>"
+    ],
+    [
+      "烟",
+      "</w>"
+    ],
+    [
+      "忙",
+      "</w>"
+    ],
+    [
+      "找",
+      "</w>"
+    ],
+    [
+      "應",
+      "</w>"
+    ],
+    [
+      "該",
+      "</w>"
+    ],
+    [
+      "乎",
+      "</w>"
+    ],
+    [
+      "放",
+      "</w>"
+    ],
+    [
+      "站",
+      "</w>"
+    ],
+    [
+      "早",
+      "</w>"
+    ],
+    [
+      "度",
+      "</w>"
+    ],
+    [
+      "交",
+      "</w>"
+    ],
+    [
+      "樣",
+      "</w>"
+    ],
+    [
+      "十",
+      "</w>"
+    ],
+    [
+      "足",
+      "</w>"
+    ],
+    [
+      "解",
+      "</w>"
+    ],
+    [
+      "底",
+      "</w>"
+    ],
+    [
+      "題",
+      "</w>"
+    ],
+    [
+      "死",
+      "</w>"
+    ],
+    [
+      "宇",
+      "</w>"
+    ],
+    [
+      "限",
+      "</w>"
+    ],
+    [
+      "通",
+      "</w>"
+    ],
+    [
+      "庭",
+      "</w>"
+    ],
+    [
+      "秘",
+      "</w>"
+    ],
+    [
+      "光",
+      "</w>"
+    ],
+    [
+      "错",
+      "</w>"
+    ],
+    [
+      "务",
+      "</w>"
+    ],
+    [
+      "當",
+      "</w>"
+    ],
+    [
+      "广",
+      "</w>"
+    ],
+    [
+      "场",
+      "</w>"
+    ],
+    [
+      "险",
+      "</w>"
+    ],
+    [
+      "昨",
+      "</w>"
+    ],
+    [
+      "e",
+      "</w>"
+    ],
+    [
+      "望",
+      "</w>"
+    ],
+    [
+      "轻",
+      "</w>"
+    ],
+    [
+      "所",
+      "</w>"
+    ],
+    [
+      "需",
+      "</w>"
+    ],
+    [
+      "帮",
+      "</w>"
+    ],
+    [
+      "偷",
+      "</w>"
+    ],
+    [
+      "岁",
+      "</w>"
+    ],
+    [
+      "酒",
+      "</w>"
+    ],
+    [
+      "园",
+      "</w>"
+    ],
+    [
+      "雨",
+      "</w>"
+    ],
+    [
+      "然",
+      "</w>"
+    ],
+    [
+      "每",
+      "</w>"
+    ],
+    [
+      "像",
+      "</w>"
+    ],
+    [
+      "功",
+      "</w>"
+    ],
+    [
+      "6",
+      "</w>"
+    ],
+    [
+      "写",
+      "</w>"
+    ],
+    [
+      "照",
+      "</w>"
+    ],
+    [
+      "猫",
+      "</w>"
+    ],
+    [
+      "划",
+      "</w>"
+    ],
+    [
+      "赛",
+      "</w>"
+    ],
+    [
+      "增",
+      "</w>"
+    ],
+    [
+      "则",
+      "</w>"
+    ],
+    [
+      "全",
+      "</w>"
+    ],
+    [
+      "洗",
+      "</w>"
+    ],
+    [
+      "1",
+      "0</w>"
+    ],
+    [
+      "义",
+      "</w>"
+    ],
+    [
+      "儿",
+      "</w>"
+    ],
+    [
+      "籍",
+      "</w>"
+    ],
+    [
+      "哦",
+      "</w>"
+    ],
+    [
+      "尊",
+      "</w>"
+    ],
+    [
+      "敬",
+      "</w>"
+    ],
+    [
+      "辈",
+      "</w>"
+    ],
+    [
+      "另",
+      "</w>"
+    ],
+    [
+      "程",
+      "</w>"
+    ],
+    [
+      "英",
+      "</w>"
+    ],
+    [
+      "师",
+      "</w>"
+    ],
+    [
+      "例",
+      "</w>"
+    ],
+    [
+      "腾",
+      "</w>"
+    ],
+    [
+      "钟",
+      "</w>"
+    ],
+    [
+      "吃",
+      "</w>"
+    ],
+    [
+      "脸",
+      "</w>"
+    ],
+    [
+      "据",
+      "</w>"
+    ],
+    [
+      "座",
+      "</w>"
+    ],
+    [
+      "雪",
+      "</w>"
+    ],
+    [
+      "款",
+      "</w>"
+    ],
+    [
+      "帽",
+      "</w>"
+    ],
+    [
+      "当",
+      "</w>"
+    ],
+    [
+      "办",
+      "</w>"
+    ],
+    [
+      "後",
+      "</w>"
+    ],
+    [
+      "厌",
+      "</w>"
+    ],
+    [
+      "倦",
+      "</w>"
+    ],
+    [
+      "观",
+      "</w>"
+    ],
+    [
+      "众",
+      "</w>"
+    ],
+    [
+      "制",
+      "</w>"
+    ],
+    [
+      "造",
+      "</w>"
+    ],
+    [
+      "借",
+      "</w>"
+    ],
+    [
+      "口",
+      "</w>"
+    ],
+    [
+      "石",
+      "</w>"
+    ],
+    [
+      "故",
+      "</w>"
+    ],
+    [
+      "艺",
+      "</w>"
+    ],
+    [
+      "术",
+      "</w>"
+    ],
+    [
+      "采",
+      "</w>"
+    ],
+    [
+      "预",
+      "</w>"
+    ],
+    [
+      "沒",
+      "</w>"
+    ],
+    [
+      "历",
+      "</w>"
+    ],
+    [
+      "肯",
+      "</w>"
+    ],
+    [
+      "毛",
+      "</w>"
+    ],
+    [
+      "条",
+      "</w>"
+    ],
+    [
+      "路",
+      "</w>"
+    ],
+    [
+      "父",
+      "</w>"
+    ],
+    [
+      "两",
+      "</w>"
+    ],
+    [
+      "受",
+      "</w>"
+    ],
+    [
+      "船",
+      "</w>"
+    ],
+    [
+      "朝",
+      "</w>"
+    ],
+    [
+      "确",
+      "</w>"
+    ],
+    [
+      "保",
+      "</w>"
+    ],
+    [
+      "覺",
+      "</w>"
+    ],
+    [
+      "先",
+      "</w>"
+    ],
+    [
+      "示",
+      "</w>"
+    ],
+    [
+      "温",
+      "</w>"
+    ],
+    [
+      "零",
+      "</w>"
+    ],
+    [
+      "报",
+      "</w>"
+    ],
+    [
+      "失",
+      "</w>"
+    ],
+    [
+      "视",
+      "</w>"
+    ],
+    [
+      "线",
+      "</w>"
+    ],
+    [
+      "士",
+      "</w>"
+    ],
+    [
+      "只",
+      "</w>"
+    ],
+    [
+      "宙",
+      "</w>"
+    ],
+    [
+      "晚",
+      "</w>"
+    ],
+    [
+      "声",
+      "</w>"
+    ],
+    [
+      "星",
+      "</w>"
+    ],
+    [
+      "歐",
+      "</w>"
+    ],
+    [
+      "歡",
+      "</w>"
+    ],
+    [
+      "神",
+      "</w>"
+    ],
+    [
+      "點",
+      "</w>"
+    ],
+    [
+      "热",
+      "</w>"
+    ],
+    [
+      "收",
+      "</w>"
+    ],
+    [
+      "短",
+      "</w>"
+    ],
+    [
+      "食",
+      "</w>"
+    ],
+    [
+      "欲",
+      "</w>"
+    ],
+    [
+      "钱",
+      "</w>"
+    ],
+    [
+      "圣",
+      "</w>"
+    ],
+    [
+      "夏",
+      "</w>"
+    ],
+    [
+      "总",
+      "</w>"
+    ],
+    [
+      "满",
+      "</w>"
+    ],
+    [
+      "室",
+      "</w>"
+    ],
+    [
+      "河",
+      "</w>"
+    ],
+    [
+      "危",
+      "</w>"
+    ],
+    [
+      "破",
+      "</w>"
+    ],
+    [
+      "惜",
+      "</w>"
+    ],
+    [
+      "蠢",
+      "</w>"
+    ],
+    [
+      "來",
+      "</w>"
+    ],
+    [
+      "過",
+      "</w>"
+    ],
+    [
+      "拥",
+      "</w>"
+    ],
+    [
+      "位",
+      "</w>"
+    ],
+    [
+      "冰",
+      "</w>"
+    ],
+    [
+      "乘",
+      "</w>"
+    ],
+    [
+      "备",
+      "</w>"
+    ],
+    [
+      "杯",
+      "</w>"
+    ],
+    [
+      "床",
+      "</w>"
+    ],
+    [
+      "說",
+      "</w>"
+    ],
+    [
+      "才",
+      "</w>"
+    ],
+    [
+      "支",
+      "</w>"
+    ],
+    [
+      "布",
+      "</w>"
+    ],
+    [
+      "订",
+      "</w>"
+    ],
+    [
+      "慢",
+      "</w>"
+    ],
+    [
+      "半",
+      "</w>"
+    ],
+    [
+      "會",
+      "</w>"
+    ],
+    [
+      "决",
+      "</w>"
+    ],
+    [
+      "某",
+      "</w>"
+    ],
+    [
+      "业",
+      "</w>"
+    ],
+    [
+      "城",
+      "</w>"
+    ],
+    [
+      "市",
+      "</w>"
+    ],
+    [
+      "应",
+      "</w>"
+    ],
+    [
+      "付",
+      "</w>"
+    ],
+    [
+      "2",
+      "0</w>"
+    ],
+    [
+      "隻",
+      "</w>"
+    ],
+    [
+      "严",
+      "</w>"
+    ],
+    [
+      "庙",
+      "</w>"
+    ],
+    [
+      "考",
+      "</w>"
+    ],
+    [
+      "虑",
+      "</w>"
+    ],
+    [
+      "停",
+      "</w>"
+    ],
+    [
+      "码",
+      "</w>"
+    ],
+    [
+      "眼",
+      "</w>"
+    ],
+    [
+      "色",
+      "</w>"
+    ],
+    [
+      "弟",
+      "</w>"
+    ],
+    [
+      "夜",
+      "</w>"
+    ],
+    [
+      "話",
+      "</w>"
+    ],
+    [
+      "缺",
+      "</w>"
+    ],
+    [
+      "验",
+      "</w>"
+    ],
+    [
+      "费",
+      "</w>"
+    ],
+    [
+      "票",
+      "</w>"
+    ],
+    [
+      "格",
+      "</w>"
+    ],
+    [
+      "批",
+      "</w>"
+    ],
+    [
+      "评",
+      "</w>"
+    ],
+    [
+      "达",
+      "</w>"
+    ],
+    [
+      "干",
+      "</w>"
+    ],
+    [
+      "…",
+      "</w>"
+    ],
+    [
+      "架",
+      "</w>"
+    ],
+    [
+      "次",
+      "</w>"
+    ],
+    [
+      "跑",
+      "</w>"
+    ],
+    [
+      "金",
+      "</w>"
+    ],
+    [
+      "屈",
+      "</w>"
+    ],
+    [
+      "止",
+      "</w>"
+    ],
+    [
+      "松",
+      "</w>"
+    ],
+    [
+      "牛",
+      "</w>"
+    ],
+    [
+      "j",
+      "a"
+    ],
+    [
+      "教",
+      "</w>"
+    ],
+    [
+      "言",
+      "</w>"
+    ],
+    [
+      "终",
+      "</w>"
+    ],
+    [
+      "讶",
+      "</w>"
+    ],
+    [
+      "、",
+      "</w>"
+    ],
+    [
+      "奇",
+      "</w>"
+    ],
+    [
+      "白",
+      "</w>"
+    ],
+    [
+      "谢",
+      "</w>"
+    ],
+    [
+      "况",
+      "</w>"
+    ],
+    [
+      "念",
+      "</w>"
+    ],
+    [
+      "裡",
+      "</w>"
+    ],
+    [
+      "\"",
+      "</w>"
+    ],
+    [
+      "参",
+      "</w>"
+    ],
+    [
+      "动",
+      "</w>"
+    ],
+    [
+      "茶",
+      "</w>"
+    ],
+    [
+      "午",
+      "</w>"
+    ],
+    [
+      "疯",
+      "</w>"
+    ],
+    [
+      "囚",
+      "</w>"
+    ],
+    [
+      "笼",
+      "</w>"
+    ],
+    [
+      "叔",
+      "</w>"
+    ],
+    [
+      "幸",
+      "</w>"
+    ],
+    [
+      "!",
+      "</w>"
+    ],
+    [
+      "狗",
+      "</w>"
+    ],
+    [
+      "字",
+      "</w>"
+    ],
+    [
+      "迟",
+      "</w>"
+    ],
+    [
+      "改",
+      "</w>"
+    ],
+    [
+      "宝",
+      "</w>"
+    ],
+    [
+      "随",
+      "</w>"
+    ],
+    [
+      "推",
+      "</w>"
+    ],
+    [
+      "移",
+      "</w>"
+    ],
+    [
+      "规",
+      "</w>"
+    ],
+    [
+      "安",
+      "</w>"
+    ],
+    [
+      "脚",
+      "</w>"
+    ],
+    [
+      "欠",
+      "</w>"
+    ],
+    [
+      "嗨",
+      "</w>"
+    ],
+    [
+      "至",
+      "</w>"
+    ],
+    [
+      "关",
+      "</w>"
+    ],
+    [
+      "偏",
+      "</w>"
+    ],
+    [
+      "胖",
+      "</w>"
+    ],
+    [
+      "铭",
+      "</w>"
+    ],
+    [
+      "咖",
+      "</w>"
+    ],
+    [
+      "啡",
+      "</w>"
+    ],
+    [
+      "揉",
+      "</w>"
+    ],
+    [
+      "碎",
+      "</w>"
+    ],
+    [
+      "代",
+      "</w>"
+    ],
+    [
+      "雹",
+      "</w>"
+    ],
+    [
+      "按",
+      "</w>"
+    ],
+    [
+      "处",
+      "</w>"
+    ],
+    [
+      "罚",
+      "</w>"
+    ],
+    [
+      "送",
+      "</w>"
+    ],
+    [
+      "货",
+      "</w>"
+    ],
+    [
+      "精",
+      "</w>"
+    ],
+    [
+      "插",
+      "</w>"
+    ],
+    [
+      "微",
+      "</w>"
+    ],
+    [
+      "试",
+      "</w>"
+    ],
+    [
+      "5",
+      "</w>"
+    ],
+    [
+      "丑",
+      "</w>"
+    ],
+    [
+      "鬼",
+      "</w>"
+    ],
+    [
+      "拉",
+      "</w>"
+    ],
+    [
+      "腿",
+      "</w>"
+    ],
+    [
+      "阐",
+      "</w>"
+    ],
+    [
+      "撒",
+      "</w>"
+    ],
+    [
+      "谎",
+      "</w>"
+    ],
+    [
+      "覆",
+      "</w>"
+    ],
+    [
+      "盖",
+      "</w>"
+    ],
+    [
+      "流",
+      "</w>"
+    ],
+    [
+      "靠",
+      "</w>"
+    ],
+    [
+      "習",
+      "</w>"
+    ],
+    [
+      "坚",
+      "</w>"
+    ],
+    [
+      "标",
+      "</w>"
+    ],
+    [
+      "数",
+      "</w>"
+    ],
+    [
+      "庞",
+      "</w>"
+    ],
+    [
+      "块",
+      "</w>"
+    ],
+    [
+      "岩",
+      "</w>"
+    ],
+    [
+      "落",
+      "</w>"
+    ],
+    [
+      "徒",
+      "</w>"
+    ],
+    [
+      "劳",
+      "</w>"
+    ],
+    [
+      "努",
+      "</w>"
+    ],
+    [
+      "伟",
+      "</w>"
+    ],
+    [
+      "强",
+      "</w>"
+    ],
+    [
+      "防",
+      "</w>"
+    ],
+    [
+      "措",
+      "</w>"
+    ],
+    [
+      "施",
+      "</w>"
+    ],
+    [
+      "摩",
+      "</w>"
+    ],
+    [
+      "托",
+      "</w>"
+    ],
+    [
+      "遛",
+      "</w>"
+    ],
+    [
+      "圈",
+      "</w>"
+    ],
+    [
+      "证",
+      "</w>"
+    ],
+    [
+      "怀",
+      "</w>"
+    ],
+    [
+      "間",
+      "</w>"
+    ],
+    [
+      "克",
+      "</w>"
+    ],
+    [
+      "升",
+      "</w>"
+    ],
+    [
+      "庆",
+      "</w>"
+    ],
+    [
+      "祝",
+      "</w>"
+    ],
+    [
+      "衣",
+      "</w>"
+    ],
+    [
+      "拜",
+      "</w>"
+    ],
+    [
+      "访",
+      "</w>"
+    ],
+    [
+      "因",
+      "</w>"
+    ],
+    [
+      "冒",
+      "</w>"
+    ],
+    [
+      "沿",
+      "</w>"
+    ],
+    [
+      "红",
+      "</w>"
+    ],
+    [
+      "绿",
+      "</w>"
+    ],
+    [
+      "灯",
+      "</w>"
+    ],
+    [
+      "右",
+      "</w>"
+    ],
+    [
+      "转",
+      "</w>"
+    ],
+    [
+      "跟",
+      "</w>"
+    ],
+    [
+      "千",
+      "</w>"
+    ],
+    [
+      "杀",
+      "</w>"
+    ],
+    [
+      "予",
+      "</w>"
+    ],
+    [
+      "寻",
+      "</w>"
+    ],
+    [
+      "逃",
+      "</w>"
+    ],
+    [
+      "途",
+      "</w>"
+    ],
+    [
+      "径",
+      "</w>"
+    ],
+    [
+      "伦",
+      "</w>"
+    ],
+    [
+      "敦",
+      "</w>"
+    ],
+    [
+      "似",
+      "</w>"
+    ],
+    [
+      "派",
+      "</w>"
+    ],
+    [
+      "头",
+      "</w>"
+    ],
+    [
+      "痛",
+      "</w>"
+    ],
+    [
+      "盐",
+      "</w>"
+    ],
+    [
+      "递",
+      "</w>"
+    ],
+    [
+      "指",
+      "</w>"
+    ],
+    [
+      "九",
+      "</w>"
+    ],
+    [
+      "低",
+      "</w>"
+    ],
+    [
+      "挥",
+      "</w>"
+    ],
+    [
+      "段",
+      "</w>"
+    ],
+    [
+      "y",
+      "</w>"
+    ],
+    [
+      "c",
+      "y</w>"
+    ],
+    [
+      "n",
+      "cy</w>"
+    ],
+    [
+      "a",
+      "ncy</w>"
+    ],
+    [
+      "n",
+      "ancy</w>"
+    ],
+    [
+      "私",
+      "</w>"
+    ],
+    [
+      "谈",
+      "</w>"
+    ],
+    [
+      "又",
+      "</w>"
+    ],
+    [
+      "绅",
+      "</w>"
+    ],
+    [
+      "味",
+      "</w>"
+    ],
+    [
+      "哥",
+      "</w>"
+    ],
+    [
+      "华",
+      "</w>"
+    ],
+    [
+      "m",
+      "</w>"
+    ],
+    [
+      "o",
+      "m</w>"
+    ],
+    [
+      "t",
+      "om</w>"
+    ],
+    [
+      "躲",
+      "</w>"
+    ],
+    [
+      "桌",
+      "</w>"
+    ],
+    [
+      "表",
+      "</w>"
+    ],
+    [
+      "澡",
+      "</w>"
+    ],
+    [
+      "筑",
+      "</w>"
+    ],
+    [
+      "震",
+      "</w>"
+    ],
+    [
+      "摇",
+      "</w>"
+    ],
+    [
+      "晃",
+      "</w>"
+    ],
+    [
+      "戴",
+      "</w>"
+    ],
+    [
+      "麻",
+      "</w>"
+    ],
+    [
+      "烦",
+      "</w>"
+    ],
+    [
+      "邻",
+      "</w>"
+    ],
+    [
+      "村",
+      "</w>"
+    ],
+    [
+      "象",
+      "</w>"
+    ],
+    [
+      "賺",
+      "</w>"
+    ],
+    [
+      "百",
+      "</w>"
+    ],
+    [
+      "較",
+      "</w>"
+    ],
+    [
+      "仅",
+      "</w>"
+    ],
+    [
+      "席",
+      "</w>"
+    ],
+    [
+      "血",
+      "</w>"
+    ],
+    [
+      "沸",
+      "</w>"
+    ],
+    [
+      "帖",
+      "</w>"
+    ],
+    [
+      "2",
+      "</w>"
+    ],
+    [
+      "休",
+      "</w>"
+    ],
+    [
+      "假",
+      "</w>"
+    ],
+    [
+      "阳",
+      "</w>"
+    ],
+    [
+      "选",
+      "</w>"
+    ],
+    [
+      "择",
+      "</w>"
+    ],
+    [
+      "或",
+      "</w>"
+    ],
+    [
+      "项",
+      "</w>"
+    ],
+    [
+      "艰",
+      "</w>"
+    ],
+    [
+      "却",
+      "</w>"
+    ],
+    [
+      "鲜",
+      "</w>"
+    ],
+    [
+      "龙",
+      "</w>"
+    ],
+    [
+      "虾",
+      "</w>"
+    ],
+    [
+      "著",
+      "</w>"
+    ],
+    [
+      "進",
+      "</w>"
+    ],
+    [
+      "計",
+      "</w>"
+    ],
+    [
+      "劃",
+      "</w>"
+    ],
+    [
+      "總",
+      "</w>"
+    ],
+    [
+      "發",
+      "</w>"
+    ],
+    [
+      "够",
+      "</w>"
+    ],
+    [
+      "威",
+      "</w>"
+    ],
+    [
+      "尼",
+      "</w>"
+    ],
+    [
+      "季",
+      "</w>"
+    ],
+    [
+      "挤",
+      "</w>"
+    ],
+    [
+      "诗",
+      "</w>"
+    ],
+    [
+      "兼",
+      "</w>"
+    ],
+    [
+      "者",
+      "</w>"
+    ],
+    [
+      "泳",
+      "</w>"
+    ],
+    [
+      "持",
+      "</w>"
+    ],
+    [
+      "传",
+      "</w>"
+    ],
+    [
+      "统",
+      "</w>"
+    ],
+    [
+      "设",
+      "</w>"
+    ],
+    [
+      "僵",
+      "</w>"
+    ],
+    [
+      "局",
+      "</w>"
+    ],
+    [
+      "從",
+      "</w>"
+    ],
+    [
+      "c",
+      "e</w>"
+    ],
+    [
+      "l",
+      "i"
+    ],
+    [
+      "a",
+      "li"
+    ],
+    [
+      "ali",
+      "ce</w>"
+    ],
+    [
+      "演",
+      "</w>"
+    ],
+    [
+      "唱",
+      "</w>"
+    ],
+    [
+      "骗",
+      "</w>"
+    ],
+    [
+      "争",
+      "</w>"
+    ],
+    [
+      "辩",
+      "</w>"
+    ],
+    [
+      "适",
+      "</w>"
+    ],
+    [
+      "职",
+      "</w>"
+    ],
+    [
+      "溜",
+      "</w>"
+    ],
+    [
+      "7",
+      "</w>"
+    ],
+    [
+      "铁",
+      "</w>"
+    ],
+    [
+      "摄",
+      "</w>"
+    ],
+    [
+      "糟",
+      "</w>"
+    ],
+    [
+      "糕",
+      "</w>"
+    ],
+    [
+      "透",
+      "</w>"
+    ],
+    [
+      "t",
+      "e</w>"
+    ],
+    [
+      "k",
+      "a"
+    ],
+    [
+      "ka",
+      "te</w>"
+    ],
+    [
+      ",",
+      "</w>"
+    ],
+    [
+      "急",
+      "</w>"
+    ],
+    [
+      "救",
+      "</w>"
+    ],
+    [
+      "池",
+      "</w>"
+    ],
+    [
+      "鱼",
+      "</w>"
+    ],
+    [
+      "挑",
+      "</w>"
+    ],
+    [
+      "病",
+      "</w>"
+    ],
+    [
+      "笔",
+      "</w>"
+    ],
+    [
+      "曾",
+      "</w>"
+    ],
+    [
+      "經",
+      "</w>"
+    ],
+    [
+      "空",
+      "</w>"
+    ],
+    [
+      "整",
+      "</w>"
+    ],
+    [
+      "愉",
+      "</w>"
+    ],
+    [
+      "杰",
+      "</w>"
+    ],
+    [
+      "姐",
+      "</w>"
+    ],
+    [
+      "��",
+      "</w>"
+    ],
+    [
+      "婚",
+      "</w>"
+    ],
+    [
+      "汽",
+      "</w>"
+    ],
+    [
+      "笛",
+      "</w>"
+    ],
+    [
+      "驶",
+      "</w>"
+    ],
+    [
+      "港",
+      "</w>"
+    ],
+    [
+      "包",
+      "</w>"
+    ],
+    [
+      "眠",
+      "</w>"
+    ],
+    [
+      "命",
+      "</w>"
+    ],
+    [
+      "困",
+      "</w>"
+    ],
+    [
+      "蝴",
+      "</w>"
+    ],
+    [
+      "蝶",
+      "</w>"
+    ],
+    [
+      "滑",
+      "</w>"
+    ],
+    [
+      "诚",
+      "</w>"
+    ],
+    [
+      "德",
+      "</w>"
+    ],
+    [
+      "仪",
+      "</w>"
+    ],
+    [
+      "庄",
+      "</w>"
+    ],
+    [
+      "举",
+      "</w>"
+    ],
+    [
+      "内",
+      "</w>"
+    ],
+    [
+      "反",
+      "</w>"
+    ],
+    [
+      "论",
+      "</w>"
+    ],
+    [
+      "擔",
+      "</w>"
+    ],
+    [
+      "揭",
+      "</w>"
+    ],
+    [
+      "露",
+      "</w>"
+    ],
+    [
+      "平",
+      "</w>"
+    ],
+    [
+      "涌",
+      "</w>"
+    ],
+    [
+      "泪",
+      "</w>"
+    ],
+    [
+      "景",
+      "</w>"
+    ],
+    [
+      "誓",
+      "</w>"
+    ],
+    [
+      "赢",
+      "</w>"
+    ],
+    [
+      "彻",
+      "</w>"
+    ],
+    [
+      "进",
+      "</w>"
+    ],
+    [
+      "铃",
+      "</w>"
+    ],
+    [
+      "亲",
+      "</w>"
+    ],
+    [
+      "独",
+      "</w>"
+    ],
+    [
+      "赶",
+      "</w>"
+    ],
+    [
+      "份",
+      "</w>"
+    ],
+    [
+      "瘋",
+      "</w>"
+    ],
+    [
+      "永",
+      "</w>"
+    ],
+    [
+      "遠",
+      "</w>"
+    ],
+    [
+      "踢",
+      "</w>"
+    ],
+    [
+      "長",
+      "</w>"
+    ],
+    [
+      "國",
+      "</w>"
+    ],
+    [
+      "王",
+      "</w>"
+    ],
+    [
+      "1",
+      "</w>"
+    ],
+    [
+      "2",
+      "1</w>"
+    ],
+    [
+      "惡",
+      "</w>"
+    ],
+    [
+      "兔",
+      "</w>"
+    ],
+    [
+      "免",
+      "</w>"
+    ],
+    [
+      "辜",
+      "</w>"
+    ],
+    [
+      "负",
+      "</w>"
+    ],
+    [
+      "饿",
+      "</w>"
+    ],
+    [
+      "請",
+      "</w>"
+    ],
+    [
+      "寄",
+      "</w>"
+    ],
+    [
+      "給",
+      "</w>"
+    ],
+    [
+      "張",
+      "</w>"
+    ],
+    [
+      "远",
+      "</w>"
+    ],
+    [
+      "银",
+      "</w>"
+    ],
+    [
+      "风",
+      "</w>"
+    ],
+    [
+      "户",
+      "</w>"
+    ],
+    [
+      "较",
+      "</w>"
+    ],
+    [
+      "贷",
+      "</w>"
+    ],
+    [
+      "利",
+      "</w>"
+    ],
+    [
+      "课",
+      "</w>"
+    ],
+    [
+      "济",
+      "</w>"
+    ],
+    [
+      "蜂",
+      "</w>"
+    ],
+    [
+      "即",
+      "</w>"
+    ],
+    [
+      "餐",
+      "</w>"
+    ],
+    [
+      "体",
+      "</w>"
+    ],
+    [
+      "销",
+      "</w>"
+    ],
+    [
+      "售",
+      "</w>"
+    ],
+    [
+      "宵",
+      "</w>"
+    ],
+    [
+      "旦",
+      "</w>"
+    ],
+    [
+      "花",
+      "</w>"
+    ],
+    [
+      "k",
+      "e"
+    ],
+    [
+      "n",
+      "</w>"
+    ],
+    [
+      "ke",
+      "n</w>"
+    ],
+    [
+      "七",
+      "</w>"
+    ],
+    [
+      "拆",
+      "</w>"
+    ],
+    [
+      "桥",
+      "</w>"
+    ],
+    [
+      "朋",
+      "</w>"
+    ],
+    [
+      "友",
+      "</w>"
+    ],
+    [
+      "讀",
+      "</w>"
+    ],
+    [
+      "﹐",
+      "</w>"
+    ],
+    [
+      "六",
+      "</w>"
+    ],
+    [
+      "弃",
+      "</w>"
+    ],
+    [
+      "盹",
+      "</w>"
+    ],
+    [
+      "飞",
+      "</w>"
+    ],
+    [
+      "机",
+      "</w>"
+    ],
+    [
+      "携",
+      "</w>"
+    ],
+    [
+      "带",
+      "</w>"
+    ],
+    [
+      "4",
+      "0</w>"
+    ],
+    [
+      "护",
+      "</w>"
+    ],
+    [
+      "扰",
+      "</w>"
+    ],
+    [
+      "唯",
+      "</w>"
+    ],
+    [
+      "卫",
+      "</w>"
+    ],
+    [
+      "3",
+      "</w>"
+    ],
+    [
+      "纯",
+      "</w>"
+    ],
+    [
+      "属",
+      "</w>"
+    ],
+    [
+      "偶",
+      "</w>"
+    ],
+    [
+      "津",
+      "</w>"
+    ],
+    [
+      "音",
+      "</w>"
+    ],
+    [
+      "值",
+      "</w>"
+    ],
+    [
+      "睛",
+      "</w>"
+    ],
+    [
+      "k",
+      "e</w>"
+    ],
+    [
+      "ja",
+      "ke</w>"
+    ],
+    [
+      "扇",
+      "</w>"
+    ],
+    [
+      "窗",
+      "</w>"
+    ],
+    [
+      "叫",
+      "</w>"
+    ],
+    [
+      "ja",
+      "c"
+    ],
+    [
+      "k",
+      "</w>"
+    ],
+    [
+      "jac",
+      "k</w>"
+    ],
+    [
+      "幹",
+      "</w>"
+    ],
+    [
+      "鲍",
+      "</w>"
+    ],
+    [
+      "勃",
+      "</w>"
+    ],
+    [
+      "丰",
+      "</w>"
+    ],
+    [
+      "富",
+      "</w>"
+    ],
+    [
+      "答",
+      "</w>"
+    ],
+    [
+      "复",
+      "</w>"
+    ],
+    [
+      "悔",
+      "</w>"
+    ],
+    [
+      "概",
+      "</w>"
+    ],
+    [
+      "澄",
+      "</w>"
+    ],
+    [
+      "清",
+      "</w>"
+    ],
+    [
+      "价",
+      "</w>"
+    ],
+    [
+      "涨",
+      "</w>"
+    ],
+    [
+      "守",
+      "</w>"
+    ],
+    [
+      "诺",
+      "</w>"
+    ],
+    [
+      "顾",
+      "</w>"
+    ],
+    [
+      "迷",
+      "</w>"
+    ],
+    [
+      "社",
+      "</w>"
+    ],
+    [
+      "团",
+      "</w>"
+    ],
+    [
+      "抓",
+      "</w>"
+    ],
+    [
+      "鼠",
+      "</w>"
+    ],
+    [
+      "纪",
+      "</w>"
+    ],
+    [
+      "品",
+      "</w>"
+    ],
+    [
+      "阅",
+      "</w>"
+    ],
+    [
+      "饭",
+      "</w>"
+    ],
+    [
+      "购",
+      "</w>"
+    ],
+    [
+      "镜",
+      "</w>"
+    ],
+    [
+      "迅",
+      "</w>"
+    ],
+    [
+      "速",
+      "</w>"
+    ],
+    [
+      "窜",
+      "</w>"
+    ],
+    [
+      "入",
+      "</w>"
+    ],
+    [
+      "群",
+      "</w>"
+    ],
+    [
+      "耗",
+      "</w>"
+    ],
+    [
+      "气",
+      "</w>"
+    ],
+    [
+      "化",
+      "</w>"
+    ],
+    [
+      "附",
+      "</w>"
+    ],
+    [
+      "近",
+      "</w>"
+    ],
+    [
+      "张",
+      "</w>"
+    ],
+    [
+      "片",
+      "</w>"
+    ],
+    [
+      "童",
+      "</w>"
+    ],
+    [
+      "福",
+      "</w>"
+    ],
+    [
+      "药",
+      "</w>"
+    ],
+    [
+      "创",
+      "</w>"
+    ],
+    [
+      "迹",
+      "</w>"
+    ],
+    [
+      "厕",
+      "</w>"
+    ],
+    [
+      "冲",
+      "</w>"
+    ],
+    [
+      "轨",
+      "</w>"
+    ],
+    [
+      "1",
+      "8"
+    ],
+    [
+      "18",
+      "</w>"
+    ],
+    [
+      "环",
+      "</w>"
+    ],
+    [
+      "素",
+      "</w>"
+    ],
+    [
+      "5",
+      "6</w>"
+    ],
+    [
+      "粗",
+      "</w>"
+    ],
+    [
+      "趕",
+      "</w>"
+    ],
+    [
+      "久",
+      "</w>"
+    ],
+    [
+      "妻",
+      "</w>"
+    ],
+    [
+      "互",
+      "</w>"
+    ],
+    [
+      "助",
+      "</w>"
+    ],
+    [
+      "训",
+      "</w>"
+    ],
+    [
+      "脑",
+      "</w>"
+    ],
+    [
+      "戏",
+      "</w>"
+    ],
+    [
+      "散",
+      "</w>"
+    ],
+    [
+      "步",
+      "</w>"
+    ],
+    [
+      "油",
+      "</w>"
+    ],
+    [
+      "置",
+      "</w>"
+    ],
+    [
+      "债",
+      "</w>"
+    ],
+    [
+      "冷",
+      "</w>"
+    ],
+    [
+      "湖",
+      "</w>"
+    ],
+    [
+      "结",
+      "</w>"
+    ],
+    [
+      "首",
+      "</w>"
+    ],
+    [
+      "歌",
+      "</w>"
+    ],
+    [
+      "1",
+      "0"
+    ],
+    [
+      "10",
+      "0</w>"
+    ],
+    [
+      "万",
+      "</w>"
+    ],
+    [
+      "辆",
+      "</w>"
+    ],
+    [
+      "呢",
+      "</w>"
+    ],
+    [
+      "變",
+      "</w>"
+    ],
+    [
+      "卖",
+      "</w>"
+    ],
+    [
+      "栋",
+      "</w>"
+    ],
+    [
+      "灰",
+      "</w>"
+    ],
+    [
+      "楼",
+      "</w>"
+    ],
+    [
+      "毕",
+      "</w>"
+    ],
+    [
+      "索",
+      "</w>"
+    ],
+    [
+      "抱",
+      "</w>"
+    ],
+    [
+      "歉",
+      "</w>"
+    ],
+    [
+      "盛",
+      "</w>"
+    ],
+    [
+      "邀",
+      "</w>"
+    ],
+    [
+      "延",
+      "</w>"
+    ],
+    [
+      "误",
+      "</w>"
+    ],
+    [
+      "苏",
+      "</w>"
+    ],
+    [
+      "兰",
+      "</w>"
+    ],
+    [
+      "古",
+      "</w>"
+    ],
+    [
+      "堡",
+      "</w>"
+    ],
+    [
+      "谁",
+      "</w>"
+    ],
+    [
+      "纸",
+      "</w>"
+    ],
+    [
+      "杂",
+      "</w>"
+    ],
+    [
+      "志",
+      "</w>"
+    ],
+    [
+      "闻",
+      "</w>"
+    ],
+    [
+      "播",
+      "</w>"
+    ],
+    [
+      "奶",
+      "</w>"
+    ]
+  ],
+  "special_tokens": [
+    "<pad>",
+    "<sos>",
+    "<eos>",
+    "<unk>",
+    "<mask>"
+  ]
+}

PLAN.md ADDED Viewed

	@@ -0,0 +1,299 @@

+# Diffutslator 实现计划
+基于扩散模型的中英互译系统
+## 一、架构概述
+```
+┌─────────────────────────────────────────────────────────────────┐
+│                        噪声空间 (共享)                           │
+│                          [L×D]                                   │
+│              ┌─────────────────────────┐                         │
+│              │                         │                         │
+│    中文扩散 ↗     语言切换判断器     ↖ 英文扩散                  │
+│    (加噪)          [分类器]          (加噪)                      │
+│              │                         │                         │
+│              └─────────────────────────┘                         │
+│              ↓                         ↓                         │
+│        中文逆扩散                 英文逆扩散                      │
+│         (去噪)                    (去噪)                         │
+│              ↓                         ↓                         │
+│     ┌────────────┐            ┌────────────┐                    │
+│     │ 中文解码器  │            │ 英文解码器  │                    │
+│     └────────────┘            └────────────┘                    │
+│           ↓                         ↓                           │
+│       中文输出                  英文输出                         │
+└─────────────────────────────────────────────────────────────────┘
+```
+### 核心设计决策
+| 问题 | 决策 | 理由 |
+|------|------|------|
+| 扩散空间 | 词嵌入连续空间 | 实现成熟、CPU友好、训练稳定 |
+| 长度处理 | 变长序列 + 长度嵌入 | 扩散可变长，逆扩散收敛到目标长度 |
+| 双向切换 | 可学习分类器 | 让模型自己判断何时切换 |
+## 二、模块设计
+### 2.1 分词器 (tokenizer.py)
+**中文分词**：字符级 + BPE
+- 字符级处理中文字符
+- BPE处理罕见词和数字
+**英文分词**：BPE
+- 使用相同的BPE算法
+- 与中文共享词表大小设置
+**词表**：
+- 中文词表：8000 tokens
+- 英文词表：8000 tokens
+- 特殊token：`<pad>`, `<sos>`, `<eos>`, `<mask>`, `<unk>`
+### 2.2 嵌入层 (embedding.py)
+```python
+class LanguageEmbedding:
+    """语言特定的嵌入层"""
+    - token_embedding: [vocab_size, d_model]
+    - position_embedding: [max_len, d_model]
+    - length_embedding: [max_len, d_model]  # 长度编码
+```
+**参数**：
+- `d_model = 256`（CPU环境下适中）
+- `max_len = 128`（最大序列长度）
+### 2.3 扩散核心 (diffusion.py)
+**前向扩散（加噪）**：
+```python
+def forward_diffusion(x_0, t):
+    """
+    x_0: 初始嵌入 [batch, len, d_model]
+    t: 时间步 [batch]
+    返回: x_t, noise
+    """
+    # 线性噪声调度
+    alpha_t = 1 - t / T  # 简化调度
+    noise = randn_like(x_0)
+    x_t = sqrt(alpha_t) * x_0 + sqrt(1 - alpha_t) * noise
+    return x_t, noise
+```
+**反向扩散（去噪）**：
+```python
+def reverse_diffusion(x_t, t, model):
+    """
+    x_t: 当前噪声状态
+    t: 当前时间步
+    model: 噪声预测网络
+    """
+    predicted_noise = model(x_t, t)
+    x_t_minus_1 = denoise_step(x_t, predicted_noise, t)
+    return x_t_minus_1
+```
+**时间调度**：
+- 训练时：T = 1000 步
+- 推理时：DDIM加速，可降到 10-50 步
+### 2.4 噪声预测网络 (model.py)
+```python
+class DiffusionTransformer:
+    """预测噪声的Transformer"""
+    - 输入: x_t [batch, len, d_model], t [batch]
+    - 输出: predicted_noise [batch, len, d_model]
+    结构:
+    - 语言特定的输入投影
+    - 时间步嵌入 (sinusoidal)
+    - N层 Transformer blocks
+    - 语言特定的输出投影
+```
+**参数**（CPU优化）：
+- `n_layers = 4`
+- `n_heads = 4`
+- `d_ff = 512`
+- 总参数量：约 2M
+### 2.5 语言切换器 (switcher.py)
+```python
+class LanguageSwitcher:
+    """判断当前噪声更接近哪种语言"""
+    - 输入: x_t [batch, len, d_model]
+    - 输出: 语言概率 [batch, 2]  # [中文, 英文]
+    结构:
+    - 全局平均池化
+    - 2层MLP
+    - Softmax输出
+```
+### 2.6 训练流程 (train.py)
+```
+训练步骤:
+1. 加载中英平行句对 (zh, en)
+2. 分别嵌入到连续空间
+3. 随机采样时间步 t
+4. 对中文嵌入做前向扩散到 t 步 → zh_t
+5. 对英文嵌入做前向扩散到 t 步 → en_t
+6. 训练噪声预��网络预测噪声
+7. 训练切换器判断语言
+8. 反向传播更新参数
+```
+**损失函数**：
+```python
+L_total = L_noise_zh + L_noise_en + λ * L_switcher
+L_noise: 噪声预测MSE损失
+L_switcher: 语言分类交叉熵损失
+```
+### 2.7 推理流程 (inference.py)
+**中文→英文翻译**：
+```
+1. 中文输入 → 中文嵌入
+2. 完整前向扩散到纯噪声 (T步)
+3. 迭代反向扩散:
+   for t in [T, T-1, ..., 1]:
+       - 切换器判断当前语言
+       - 若判断为中文→用中文去噪
+       - 若判断为英文→切换到英文去噪
+       - 输出当前步骤状态（可视化）
+4. 最终噪声状态 → 英文解码 → 英文输出
+```
+**英文→中文翻译**：对称过程
+## 三、文件结构
+```
+diffutslator/
+├── TASK.md              # 任务描述
+├── PLAN.md              # 本文件
+├── config.py            # 超参数配置
+├── tokenizer.py         # 分词器
+├── embedding.py         # 嵌入层
+├── model.py             # 扩散模型
+├── diffusion.py         # 扩散过程
+├── switcher.py          # 语言切换器
+├── dataset.py           # 数据集加载
+├── train.py             # 训练脚本
+├── inference.py         # 推理脚本
+├── main.py              # 主入口
+├── utils.py             # 工具函数
+└── checkpoints/         # 模型检查点
+```
+## 四、实现步骤
+### Phase 1: 基础框架（确保可训练）
+1. **配置文件** - 定义所有超参数
+2. **分词器** - 实现中英文分词
+3. **数据集** - 加载tatoeba数据
+4. **嵌入层** - 简单的token嵌入
+5. **扩散核心** - 前向和反向扩散
+6. **简单模型** - 基础噪声预测网络
+7. **训练脚本** - 带进度条的训练循环
+**验证目标**：能在少量数据上跑通训练，loss下降
+### Phase 2: 完整架构
+1. **语言切换器** - 实现切换判断
+2. **变长处理** - 实现长度嵌入
+3. **完整模型** - 整合所有模块
+4. **推理脚本** - 可视化扩散过程
+**验证目标**：完整训练流程，能输出翻译结果
+### Phase 3: 优化加速
+1. **DDIM采样** - 减少推理步数
+2. **训练加速** - 混合精度、梯度累积
+3. **模型调优** - 调整超参数
+**验证目标**：提升训练和推理速度，改善翻译质量
+## 五、训练策略
+### 快速验证模式
+```bash
+# 使用tatoeba前1000条数据
+# batch_size=8, epochs=10
+python train.py --quick --samples 1000
+```
+### 完整训练模式
+```bash
+# 使用全部数据
+# 支持暂停/继续
+python train.py --full
+# Ctrl+C 暂停，自动保存检查点
+# python train.py --resume 继续训练
+```
+### 训练输出
+```
+Epoch 1/10: 100%|████████| 125/125 [02:30<00:00, loss=0.452]
+  预计剩余: 22:30 | 速度: 0.5 it/s
+  最新检查点: checkpoints/model_epoch1.pt
+按 Ctrl+C 停止训练（自动保存）
+```
+## 六、推理展示
+```
+$ python inference.py --zh "你好世界"
+翻译模式: 中文 → 英文
+输入: 你好世界
+扩散过程:
+Step 1000: [噪声状态 - 切换器: 中文 95%]
+Step 900:  [噪声状态 - 切换器: 中文 78%]
+Step 800:  [噪声状态 - 切换器: 中文 52%]
+Step 700:  [噪声状态 - 切换器: 英文 61%] ← 语言切换!
+Step 600:  [噪声状态 - 切换器: 英文 89%]
+...
+Step 50:   [接近完整句子 - 切换器: 英文 99%]
+Step 1:    [完整句子]
+输出: Hello world
+```
+## 七、环境适配
+针对CPU环境的优化：
+1. **小模型**：参数量控制在2-5M
+2. **小批量**：batch_size = 4-16
+3. **梯度累积**：模拟更大batch
+4. **简单架构**：减少层数和维度
+5. **内存优化**：及时释放中间变量
+## 八、预期效果
+| 指标 | 目标 |
+|------|------|
+| 训练速度 | 1-2 it/s (CPU) |
+| 推理速度 | 1-5秒/句 (DDIM 50步) |
+| 翻译质量 | 简单句子可理解 |
+| 模型大小 | < 50MB |
+---
+*计划制定完成，待用户确认后开始实现*

README.md ADDED Viewed

	@@ -0,0 +1,284 @@

+# Diffutslator
+基于扩散模型的中英互译系统。使用非自回归并行生成，通过DDIM加速推理
+## 原理
+### 扩散翻译的核心思想
+传统翻译模型（如Transformer）是自回归的，逐token生成。扩散模型则是非自回归的，并行生成所有token：
+```
+自回归:  [SOS] → [token1] → [token2] → [token3] → [EOS]
+                  ↓           ↓           ↓
+扩散:    噪声 ──同时去噪──→ 完整句子（一步生成所有token）
+```
+### 双向翻译架构
+```
+┌─────────────────────────────────────────────────────────────────────┐
+│                           噪声空间 (共享)                            │
+│                             [L × D]                                 │
+│                                                                     │
+│    中文嵌入 ──前向扩散(q_sample)──→ 噪声 ←──前向扩散── 英文嵌入      │
+│                    ↓                       ↓                        │
+│              中文去噪网络            英文去噪网络                    │
+│                    ↓                       ↓                        │
+│              中文逆扩散              英文逆扩散                      │
+│                    ↓                       ↓                        │
+│                中文输出               英文输出                       │
+└─────────────────────────────────────────────────────────────────────┘
+```
+### 翻译流程
+以 **中译英** 为例：
+1. **编码**: 中文句子 → 中文token → 中文嵌入向量
+2. **前向扩散**: 中文嵌入添加噪声到指定时间步（或到纯噪声）
+3. **逆扩散去噪**:
+   - 前半段：用中文去噪网络（保持源语言特征）
+   - 后半段：切换到英文去噪网络（转向目标语言）
+4. **解码**: 最终嵌入 → 英文token → 英文句子
+### 为什么扩散能做翻译？
+扩散过程将数据逐步加噪变成纯噪声，逆扩散则从噪声恢复数据。关键洞察：
+- 两种语言嵌入经过充分加噪后，在噪声空间中变得"不可区分"
+- 从这个共享噪声空间出发，用不同语言的去噪路径，可以恢复到不同语言
+- 类比：把中文和英文都"打散"成同样的积木，再用英文的说明书拼回去
+## 安装
+### 依赖
+```bash
+pip install torch tqdm
+```
+### 硬件要求
+- CPU训练可用（本项目针对CPU优化）
+- 内存：至少4GB
+- 推荐：GPU可大幅加速
+## 快速开始
+### 训练
+```bash
+# 快速验证模式（1000条数据，5轮）
+python train.py --quick
+# 完整训练
+python train.py
+# 从检查点续训
+python train.py --resume checkpoints/epoch_1.pt
+```
+训练中按 `Ctrl+C` 可安全中断，自动保存 `checkpoints/interrupted.pt`。
+### 推理
+```bash
+# 中译英
+python inference.py --text "你好世界" --zh
+# 英译中
+python inference.py --text "Hello world" --en
+# 交互模式
+python inference.py --interactive
+```
+## 详细使用
+### 训练命令
+```bash
+# 基本训练
+python train.py
+# 快速验证（小数据集，少轮次）
+python train.py --quick
+# 从检查点续训
+python train.py --resume checkpoints/best.pt
+# 使用更多数据
+python train.py --max-samples 10000
+# 指定轮次和批量
+python train.py --epochs 20 --batch-size 32
+```
+### 推理命令
+```bash
+# 基本推理（中译英）
+python inference.py --text "今天天气很好" --zh
+# 英译中
+python inference.py --text "The weather is nice today" --en
+# 使用DDPM（更慢但可能更准）
+python inference.py --text "你好" --zh --ddpm
+# 交互模式
+python inference.py --interactive
+# 指定检查点
+python inference.py --text "你好" --zh --checkpoint checkpoints/best.pt
+# 静默模式（不显示扩散过程）
+python inference.py --text "你好" --zh --quiet
+```
+## 配置参数
+### 模型配置 (ModelConfig)
+| 参数 | 默认值 | 说明 |
+|------|--------|------|
+| `d_model` | 256 | 嵌入维度，影响模型容量 |
+| `n_heads` | 4 | 多头注意力头数 |
+| `n_layers` | 4 | Transformer编码器层数 |
+| `d_ff` | 512 | 前馈网络隐藏层维度 |
+| `max_len` | 128 | 最大序列长度 |
+| `dropout` | 0.1 | Dropout比率 |
+| `vocab_size_zh` | 8000 | 中文词表大小 |
+| `vocab_size_en` | 8000 | 英文词表大小 |
+### 扩散配置 (DiffusionConfig)
+| 参数 | 默认值 | 说明 |
+|------|--------|------|
+| `timesteps` | 1000 | 训练时的扩散总步数 |
+| `ddim_steps` | 50 | DDIM推理采样步数 |
+| `beta_start` | 0.0001 | 噪声调度起始值 |
+| `beta_end` | 0.02 | 噪声调度结束值 |
+### 训练配置 (TrainingConfig)
+| 参数 | 默认值 | 说明 |
+|------|--------|------|
+| `batch_size` | 64 | 批量大小 |
+| `learning_rate` | 1e-4 | 学习率 |
+| `weight_decay` | 0.01 | 权重衰减 |
+| `warmup_steps` | 500 | 学习率预热步数 |
+| `epochs` | 10 | 训练轮次 |
+| `save_every` | 1 | 每N轮保存检查点 |
+### 数据配置 (DataConfig)
+| 参数 | 默认值 | 说明 |
+|------|--------|------|
+| `max_samples` | None | 最大样本数（None=全部） |
+| `min_len` | 2 | 最小句子长度 |
+| `max_len` | 128 | 最大句子长度 |
+## 架构说明
+### 分词器 (tokenizer.py)
+使用BPE（Byte Pair Encoding）算法：
+- **中文**: 字符级为主，BPE处理罕见词和数字
+- **英文**: 标准BPE子词分割
+- 词表大小：各8000 tokens
+- 特殊token: `<pad>`, `<sos>`, `<eos>`, `<unk>`, `<mask>`
+```python
+# 示例
+tokenizer_zh.encode("你好世界")  # [123, 456, 789]
+tokenizer_en.encode("hello world")  # [234, 567]
+```
+### 嵌入层 (embedding.py)
+```python
+class LanguageEmbedding:
+    token_embedding    # [vocab_size, d_model]
+    position_embedding # [max_len, d_model]
+    length_embedding   # [max_len, d_model]
+```
+将离散token转换为连续向量，加入位置信息。
+### 噪声预测网络 (model.py)
+```python
+class DiffusionTransformer:
+    """基于Transformer的噪声预测网络"""
+    # 输入: x_t [batch, len, d_model], t [batch], lang [str]
+    # 输出: predicted_noise [batch, len, d_model]
+    # 结构:
+    # 1. 时间步嵌入 (sinusoidal)
+    # 2. 语言特定输入投影
+    # 3. N层 Transformer blocks
+    # 4. 语言特定输出投影
+```
+### 扩散过程 (diffusion.py)
+```python
+# 前向扩散（加噪）
+x_t, noise = diffusion.q_sample(x_0, t)  # x_0 → x_t
+# 反向扩散（去噪）
+x_t_minus_1 = diffusion.p_sample(x_t, t, predicted_noise)
+```
+使用线性噪声调度，支持DDIM加速采样。
+### 语言切换器 (switcher.py)
+```python
+class LanguageSwitcher:
+    """判断当前噪声状态更接近哪种语言"""
+    # 输入: x_t [batch, len, d_model]
+    # 输出: lang_prob [batch, 2]  # [中文概率, 英文概率]
+```
+在推理时判断何时切换去噪路径。
+## 文件结构
+```
+diffutslator/
+├── config.py       # 超参数配置
+├── tokenizer.py    # BPE分词器
+├── embedding.py    # 嵌入层
+├── model.py        # 噪声预测网络 (Transformer)
+├── diffusion.py    # 扩散过程 + DDIM采样
+├── switcher.py     # 语言切换分类器
+├── dataset.py      # 数据加载（流式）
+├── train.py        # 训练脚本
+├── inference.py    # 推理脚本
+├── main.py         # 主入口
+├── utils.py        # 工具函数
+├── .cache/         # 分词器缓存
+│   ├── tokenizer_zh.json
+│   └── tokenizer_en.json
+└── checkpoints/    # 模型检查点
+    ├── best.pt
+    ├── epoch_1.pt
+    └── interrupted.pt
+```
+## 数据集
+- `_dataset/cveto/`
+- `_dataset/tatoeba.tsv`
+---
+上面是AI生成的，我到这补充一下
+生成这个项目的模型是GLM-5，用iflow cli，在我的电脑上训练了九个半小时，用了2.8w条数据，权重在checkpoints下

TASK.md ADDED Viewed

	@@ -0,0 +1,40 @@

+## 项目目标
+基于扩散模型的翻译AI，实现两种语言的互译。
+- 并行生成：非自回归，同时生成所有token
+- 推理效率：通过DDIM加速，减少采样步数
+要求：
+1. 首要确保最终能够训练出来
+2. 最好提升训练和推理速度
+3. 其次提升效果
+---
+## 架构设计
+分为两个部分：中文处理和英文处理
+```
+中文处理 ←→ 英文处理
+中文源语言/翻译后语言 ←扩散/逆扩散→ 噪声 ←扩散/逆扩散→ 英文源语言/翻译后语言
+```
+以中文翻译成英文为例，先将中文通过中文翻译部分进行扩散为噪声，同时中文和英文部分识别这个噪声谁更加接近，但英文部分识别到接近英文比例大于中文时，切换英文部分逆扩散，也就是通过扩散在两种语言之间相互转换
+扩散可以是将一个字符扩散为更多，也可以更少，也可以改变相对位置，也可以增删
+## 交互
+训练：命令行操作，带进度条，可看到数据集训练进度，可以看到预计时间和速度，可以随时暂停和停止训练，停止训练后保存权重
+先做一个用少量数据训练的模式确保可用，再让我在另一个终端做完整的训练
+运行：也是命令行操作，每一步扩散都要输出一行，可以看到每一步
+## 数据集
+- `../_dataset/tatoeba.tsv`：tsv文件，一行一个句子，格式为：`编号（不用管）\t中文\t编号\t英文`
+- `../_dataset/cveto/train.en`和`../_dataset/cveto/train.zh`：一行一个干净的句子，两个文件相同行号对应相同含义句子，即`trian.en`的第123行对应`train.zh`的第123行

TASK_NEXT.md ADDED Viewed

	@@ -0,0 +1,13 @@

+# TASK第二部分
+创建前端交互页面，不要动其它已有文件
+能调的参数都能在网页调
+## hf space网页
+创建文件夹`hfspace`
+在hf space上运行的一个演示站，没什么要求，用hf的资源进行推理
+需要告诉我启动的命令让我本地调试

checkpoints/best.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:283c995651aa11ebde09858ad5002cd932c1dd6dd5ede16be733c16cbb5c4c55
+size 47986610

checkpoints/epoch_1.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebb5b81a9af19c5db8f418954484be00a0a238d2f8c297c76211f0e6600d21e2
+size 48004138

checkpoints/interrupted.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47d11cef59cb881a28ae4ecfcfe787babca789843354bcce9946b9bc04cc397d
+size 48006090

config.py ADDED Viewed

	@@ -0,0 +1,128 @@

+"""
+Diffutslator 配置文件
+所有超参数集中管理
+"""
+from dataclasses import dataclass, field
+from typing import Optional
+import os
+@dataclass
+class ModelConfig:
+    """模型配置"""
+    d_model: int = 256           # 嵌入维度
+    n_heads: int = 4             # 注意力头数
+    n_layers: int = 4            # Transformer层数
+    d_ff: int = 512              # 前馈网络维度
+    max_len: int = 128           # 最大序列长度
+    dropout: float = 0.1         # Dropout率
+    # 词表
+    vocab_size_zh: int = 8000    # 中文词表大小
+    vocab_size_en: int = 8000    # 英文词表大小
+    # 特殊token
+    pad_token: str = "<pad>"
+    sos_token: str = "<sos>"
+    eos_token: str = "<eos>"
+    unk_token: str = "<unk>"
+    mask_token: str = "<mask>"
+@dataclass
+class DiffusionConfig:
+    """扩散过程配置"""
+    timesteps: int = 1000        # 训练时的扩散步数
+    ddim_steps: int = 50         # DDIM推理步数
+    # 噪声调度 - 线性
+    beta_start: float = 0.0001
+    beta_end: float = 0.02
+    # 长度变化
+    length_noise_scale: float = 0.3  # 扩散时长度变化的噪声程度
+@dataclass
+class TrainingConfig:
+    """训练配置"""
+    batch_size: int = 64         # 批量大小（CPU擅长大批量）
+    gradient_accumulation: int = 1  # 梯度累积步数
+    learning_rate: float = 1e-4
+    weight_decay: float = 0.01
+    warmup_steps: int = 500
+    epochs: int = 10
+    save_every: int = 1          # 每多少epoch保存一次
+    eval_every: int = 100        # 每多少步评估一次
+    # 快速验证模式
+    quick_mode: bool = False
+    quick_samples: int = 1000
+    # 检查点
+    checkpoint_dir: str = "checkpoints"
+    resume: Optional[str] = None  # 恢复训练的检查点路径
+@dataclass
+class DataConfig:
+    """数据配置"""
+    # 数据集路径
+    tatoeba_path: str = "../_dataset/tatoeba.tsv"
+    cveto_zh_path: str = "../_dataset/cveto/train.zh"
+    cveto_en_path: str = "../_dataset/cveto/train.en"
+    # 数据处理
+    max_samples: Optional[int] = None  # 最大样本数（None=全部）
+    min_len: int = 2             # 最小句子长度
+    max_len: int = 128           # 最大句子长度
+    # 缓存
+    use_cache: bool = True       # 是否缓存预处理后的数据
+    cache_dir: str = ".cache"
+@dataclass
+class Config:
+    """总配置"""
+    model: ModelConfig = field(default_factory=ModelConfig)
+    diffusion: DiffusionConfig = field(default_factory=DiffusionConfig)
+    training: TrainingConfig = field(default_factory=TrainingConfig)
+    data: DataConfig = field(default_factory=DataConfig)
+    # 项目根目录
+    project_dir: str = ""
+    def __post_init__(self):
+        # 设置项目根目录
+        self.project_dir = os.path.dirname(os.path.abspath(__file__))
+        # 更新相对路径为绝对路径
+        if not os.path.isabs(self.data.tatoeba_path):
+            self.data.tatoeba_path = os.path.join(self.project_dir, self.data.tatoeba_path)
+        if not os.path.isabs(self.data.cveto_zh_path):
+            self.data.cveto_zh_path = os.path.join(self.project_dir, self.data.cveto_zh_path)
+        if not os.path.isabs(self.data.cveto_en_path):
+            self.data.cveto_en_path = os.path.join(self.project_dir, self.data.cveto_en_path)
+        # 创建必要目录
+        os.makedirs(os.path.join(self.project_dir, self.training.checkpoint_dir), exist_ok=True)
+        os.makedirs(os.path.join(self.project_dir, self.data.cache_dir), exist_ok=True)
+    @classmethod
+    def quick(cls) -> "Config":
+        """快速验证模式配置"""
+        config = cls()
+        config.training.quick_mode = True
+        config.training.quick_samples = 1000
+        config.training.epochs = 5
+        config.training.batch_size = 32  # CPU擅长大批量
+        config.data.max_samples = 1000
+        return config
+# 默认配置实例
+default_config = Config()

dataset.py ADDED Viewed

	@@ -0,0 +1,300 @@

+"""
+数据集加载
+支持tatoeba和cveto数据集
+"""
+import os
+import sys
+import random
+import psutil
+from typing import List, Tuple, Optional, Dict, Any
+from dataclasses import dataclass
+import torch
+from torch.utils.data import Dataset, DataLoader
+from tokenizer import Tokenizer
+def check_memory():
+    """检查可用内存"""
+    mem = psutil.virtual_memory()
+    available_gb = mem.available / (1024**3)
+    return available_gb
+@dataclass
+class TranslationPair:
+    """翻译句对"""
+    zh: str
+    en: str
+class TranslationDataset(Dataset):
+    """翻译数据集 - 流式处理，内存友好"""
+    def __init__(
+        self,
+        pairs: List[TranslationPair],
+        zh_tokenizer: Tokenizer,
+        en_tokenizer: Tokenizer,
+        max_len: int = 128,
+        cache_tokenized: bool = True,
+    ):
+        self.pairs = pairs
+        self.zh_tokenizer = zh_tokenizer
+        self.en_tokenizer = en_tokenizer
+        self.max_len = max_len
+        # 小缓存，只缓存最近访问的数据
+        self._cache: Dict[int, Dict[str, Any]] = {}
+        self._cache_size = min(5000, len(pairs) // 10)  # 缓存10%或最多5000条
+        print(f"  数据集: {len(pairs)} 条 (流式处理)")
+    def __len__(self) -> int:
+        return len(self.pairs)
+    def __getitem__(self, idx: int) -> Dict[str, torch.Tensor]:
+        # 检查缓存
+        if idx in self._cache:
+            return self._cache[idx]
+        # 处理数据
+        pair = self.pairs[idx]
+        zh_ids = self.zh_tokenizer.encode(pair.zh, add_sos=True, add_eos=True)[:self.max_len]
+        en_ids = self.en_tokenizer.encode(pair.en, add_sos=True, add_eos=True)[:self.max_len]
+        result = {
+            'zh_ids': torch.tensor(zh_ids, dtype=torch.long),
+            'en_ids': torch.tensor(en_ids, dtype=torch.long),
+            'zh_len': len(zh_ids),
+            'en_len': len(en_ids),
+            'zh_text': pair.zh,
+            'en_text': pair.en,
+        }
+        # 添加到缓存
+        if len(self._cache) < self._cache_size:
+            self._cache[idx] = result
+        return result
+def collate_fn(batch: List[Dict[str, Any]]) -> Dict[str, torch.Tensor]:
+    """批处理函数，动态padding"""
+    zh_ids_list = [item['zh_ids'] for item in batch]
+    en_ids_list = [item['en_ids'] for item in batch]
+    # 找最大长度
+    max_zh_len = max(len(ids) for ids in zh_ids_list)
+    max_en_len = max(len(ids) for ids in en_ids_list)
+    # Padding
+    zh_padded = torch.zeros(len(batch), max_zh_len, dtype=torch.long)
+    en_padded = torch.zeros(len(batch), max_en_len, dtype=torch.long)
+    zh_lens = []
+    en_lens = []
+    for i, (zh_ids, en_ids) in enumerate(zip(zh_ids_list, en_ids_list)):
+        zh_padded[i, :len(zh_ids)] = zh_ids
+        en_padded[i, :len(en_ids)] = en_ids
+        zh_lens.append(len(zh_ids))
+        en_lens.append(len(en_ids))
+    return {
+        'zh_ids': zh_padded,
+        'en_ids': en_padded,
+        'zh_lens': torch.tensor(zh_lens, dtype=torch.long),
+        'en_lens': torch.tensor(en_lens, dtype=torch.long),
+        'zh_texts': [item['zh_text'] for item in batch],
+        'en_texts': [item['en_text'] for item in batch],
+    }
+def load_tatoeba(path: str, max_samples: Optional[int] = None) -> List[TranslationPair]:
+    """加载tatoeba数据集
+    格式: 编号\t中文\t编号\t英文
+    """
+    pairs = []
+    seen = set()
+    with open(path, 'r', encoding='utf-8') as f:
+        for line in f:
+            line = line.strip()
+            if not line:
+                continue
+            parts = line.split('\t')
+            if len(parts) < 4:
+                continue
+            zh = parts[1].strip()
+            en = parts[3].strip()
+            # 去重
+            key = (zh, en)
+            if key in seen:
+                continue
+            seen.add(key)
+            pairs.append(TranslationPair(zh=zh, en=en))
+            if max_samples and len(pairs) >= max_samples:
+                break
+    return pairs
+def load_cveto(zh_path: str, en_path: str, max_samples: Optional[int] = None) -> List[TranslationPair]:
+    """加载cveto数据集
+    两个文件，行号对应
+    """
+    pairs = []
+    # 先统计总行数
+    print("    统计文件行数...", end="", flush=True)
+    with open(zh_path, 'r', encoding='utf-8') as f:
+        total_lines = sum(1 for _ in f)
+    print(f" {total_lines:,} 行")
+    print("    读取数据...", end="", flush=True)
+    last_print = 0
+    with open(zh_path, 'r', encoding='utf-8') as zh_f, \
+         open(en_path, 'r', encoding='utf-8') as en_f:
+        for i, (zh_line, en_line) in enumerate(zip(zh_f, en_f)):
+            zh = zh_line.strip()
+            en = en_line.strip()
+            if zh and en:
+                pairs.append(TranslationPair(zh=zh, en=en))
+            # 每10万行打印一次进度
+            if i - last_print >= 100000:
+                print(f".{i//100000}", end="", flush=True)
+                last_print = i
+            if max_samples and len(pairs) >= max_samples:
+                break
+    print(f" 完成")
+    return pairs
+def load_all_data(config) -> Tuple[List[TranslationPair], List[TranslationPair], List[TranslationPair]]:
+    """加载所有数据，返回训练集、验证集、测试集"""
+    print("加载数据集...")
+    # 加载tatoeba
+    tatoeba_path = config.data.tatoeba_path
+    if os.path.exists(tatoeba_path):
+        print(f"  加载 tatoeba: {tatoeba_path}")
+        tatoeba_pairs = load_tatoeba(tatoeba_path, max_samples=config.data.max_samples)
+        print(f"    句对数: {len(tatoeba_pairs)}")
+    else:
+        tatoeba_pairs = []
+        print(f"  警告: tatoeba路径不存在: {tatoeba_path}")
+    # 合并所有数据
+    all_pairs = tatoeba_pairs.copy()
+    # 如果还需要更多数据，加载cveto
+    if config.data.max_samples is None or len(all_pairs) < config.data.max_samples:
+        cveto_zh_path = config.data.cveto_zh_path
+        cveto_en_path = config.data.cveto_en_path
+        if os.path.exists(cveto_zh_path) and os.path.exists(cveto_en_path):
+            print(f"  加载 cveto...")
+            remaining = None
+            if config.data.max_samples:
+                remaining = config.data.max_samples - len(all_pairs)
+            cveto_pairs = load_cveto(cveto_zh_path, cveto_en_path, max_samples=remaining)
+            print(f"    句对数: {len(cveto_pairs)}")
+            all_pairs.extend(cveto_pairs)
+    # 过滤长度
+    print(f"  过滤数据...", end="", flush=True)
+    filtered_pairs = []
+    total = len(all_pairs)
+    last_print = 0
+    for i, pair in enumerate(all_pairs):
+        zh_len = len(pair.zh)
+        en_len = len(pair.en)
+        if config.data.min_len <= zh_len <= config.data.max_len and \
+           config.data.min_len <= en_len <= config.data.max_len:
+            filtered_pairs.append(pair)
+        # 每10万条打印进度
+        if i - last_print >= 100000:
+            progress = (i + 1) / total * 100
+            print(f".{progress:.0f}%", end="", flush=True)
+            last_print = i
+    print(f" 完成")
+    print(f"  过滤后句对数: {len(filtered_pairs)}")
+    # 打乱并分割
+    random.shuffle(filtered_pairs)
+    n = len(filtered_pairs)
+    # 80% 训练, 10% 验证, 10% 测试
+    train_end = int(n * 0.8)
+    val_end = int(n * 0.9)
+    train_pairs = filtered_pairs[:train_end]
+    val_pairs = filtered_pairs[train_end:val_end]
+    test_pairs = filtered_pairs[val_end:]
+    print(f"  训练集: {len(train_pairs)}")
+    print(f"  验证集: {len(val_pairs)}")
+    print(f"  测试集: {len(test_pairs)}")
+    return train_pairs, val_pairs, test_pairs
+def create_dataloaders(
+    train_pairs: List[TranslationPair],
+    val_pairs: List[TranslationPair],
+    zh_tokenizer: Tokenizer,
+    en_tokenizer: Tokenizer,
+    config,
+) -> Tuple[DataLoader, DataLoader]:
+    """创建数据加载器"""
+    train_dataset = TranslationDataset(
+        train_pairs,
+        zh_tokenizer,
+        en_tokenizer,
+        max_len=config.model.max_len,
+    )
+    val_dataset = TranslationDataset(
+        val_pairs,
+        zh_tokenizer,
+        en_tokenizer,
+        max_len=config.model.max_len,
+    )
+    train_loader = DataLoader(
+        train_dataset,
+        batch_size=config.training.batch_size,
+        shuffle=True,
+        collate_fn=collate_fn,
+        num_workers=0,  # CPU环境不用多进程
+        pin_memory=False,
+    )
+    val_loader = DataLoader(
+        val_dataset,
+        batch_size=config.training.batch_size,
+        shuffle=False,
+        collate_fn=collate_fn,
+        num_workers=0,
+        pin_memory=False,
+    )
+    return train_loader, val_loader

diffusion.py ADDED Viewed

	@@ -0,0 +1,290 @@

+"""
+扩散核心
+实现前向扩散和反向扩散，支持DDIM加速
+"""
+import math
+import torch
+import torch.nn as nn
+from typing import Tuple, Optional, List, Callable
+class NoiseScheduler:
+    """噪声调度器"""
+    def __init__(
+        self,
+        timesteps: int = 1000,
+        beta_start: float = 0.0001,
+        beta_end: float = 0.02,
+        schedule: str = "linear",
+    ):
+        self.timesteps = timesteps
+        # 计算beta
+        if schedule == "linear":
+            self.betas = torch.linspace(beta_start, beta_end, timesteps)
+        elif schedule == "cosine":
+            # Cosine schedule
+            steps = timesteps + 1
+            x = torch.linspace(0, timesteps, steps)
+            alphas_cumprod = torch.cos(((x / timesteps) + 0.008) / 1.008 * math.pi * 0.5) ** 2
+            alphas_cumprod = alphas_cumprod / alphas_cumprod[0]
+            self.betas = 1 - (alphas_cumprod[1:] / alphas_cumprod[:-1])
+            self.betas = torch.clip(self.betas, 0.0001, 0.9999)
+        else:
+            self.betas = torch.linspace(beta_start, beta_end, timesteps)
+        # 计算alpha
+        self.alphas = 1.0 - self.betas
+        self.alphas_cumprod = torch.cumprod(self.alphas, dim=0)
+        self.alphas_cumprod_prev = torch.cat([torch.tensor([1.0]), self.alphas_cumprod[:-1]])
+        # 前向扩散系数
+        self.sqrt_alphas_cumprod = torch.sqrt(self.alphas_cumprod)
+        self.sqrt_one_minus_alphas_cumprod = torch.sqrt(1.0 - self.alphas_cumprod)
+        # 反向扩散系数
+        self.sqrt_recip_alphas = torch.sqrt(1.0 / self.alphas)
+        self.posterior_variance = self.betas * (1.0 - self.alphas_cumprod_prev) / (1.0 - self.alphas_cumprod)
+    def to(self, device: torch.device) -> "NoiseScheduler":
+        """移动到指定设备"""
+        self.betas = self.betas.to(device)
+        self.alphas = self.alphas.to(device)
+        self.alphas_cumprod = self.alphas_cumprod.to(device)
+        self.alphas_cumprod_prev = self.alphas_cumprod_prev.to(device)
+        self.sqrt_alphas_cumprod = self.sqrt_alphas_cumprod.to(device)
+        self.sqrt_one_minus_alphas_cumprod = self.sqrt_one_minus_alphas_cumprod.to(device)
+        self.sqrt_recip_alphas = self.sqrt_recip_alphas.to(device)
+        self.posterior_variance = self.posterior_variance.to(device)
+        return self
+class DiffusionProcess:
+    """扩散过程"""
+    def __init__(self, scheduler: NoiseScheduler):
+        self.scheduler = scheduler
+        self.timesteps = scheduler.timesteps
+    def q_sample(
+        self,
+        x_0: torch.Tensor,
+        t: torch.Tensor,
+        noise: Optional[torch.Tensor] = None,
+    ) -> Tuple[torch.Tensor, torch.Tensor]:
+        """前向扩散：从x_0采样x_t
+        Args:
+            x_0: 初始嵌入 [batch, seq_len, d_model]
+            t: 时间步 [batch]
+            noise: 可选噪声
+        Returns:
+            x_t: 加噪后的嵌入
+            noise: 使用的噪声
+        """
+        if noise is None:
+            noise = torch.randn_like(x_0)
+        # 获取系数
+        sqrt_alpha = self.scheduler.sqrt_alphas_cumprod[t]
+        sqrt_one_minus_alpha = self.scheduler.sqrt_one_minus_alphas_cumprod[t]
+        # 扩展维度以匹配序列
+        sqrt_alpha = sqrt_alpha.view(-1, 1, 1)
+        sqrt_one_minus_alpha = sqrt_one_minus_alpha.view(-1, 1, 1)
+        # 加噪
+        x_t = sqrt_alpha * x_0 + sqrt_one_minus_alpha * noise
+        return x_t, noise
+    def p_sample(
+        self,
+        x_t: torch.Tensor,
+        t: torch.Tensor,
+        predicted_noise: torch.Tensor,
+    ) -> torch.Tensor:
+        """反向扩散：从x_t采样x_{t-1}
+        Args:
+            x_t: 当前噪声状态 [batch, seq_len, d_model]
+            t: 当前时间步 [batch]
+            predicted_noise: 预测的噪声
+        Returns:
+            x_{t-1}
+        """
+        # 获取系数
+        sqrt_recip_alpha = self.scheduler.sqrt_recip_alphas[t]
+        sqrt_one_minus_alpha = self.scheduler.sqrt_one_minus_alphas_cumprod[t]
+        beta = self.scheduler.betas[t]
+        # 扩展维度
+        sqrt_recip_alpha = sqrt_recip_alpha.view(-1, 1, 1)
+        sqrt_one_minus_alpha = sqrt_one_minus_alpha.view(-1, 1, 1)
+        beta = beta.view(-1, 1, 1)
+        # 计算均值
+        mean = sqrt_recip_alpha * (x_t - beta * predicted_noise / sqrt_one_minus_alpha)
+        # 添加噪声（除了t=0）
+        if t[0] > 0:
+            posterior_var = self.scheduler.posterior_variance[t].view(-1, 1, 1)
+            noise = torch.randn_like(x_t)
+            x_t_minus_1 = mean + torch.sqrt(posterior_var) * noise
+        else:
+            x_t_minus_1 = mean
+        return x_t_minus_1
+    def q_sample_full(
+        self,
+        x_0: torch.Tensor,
+        target_len: Optional[int] = None,
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        """完整前向扩散到纯噪声
+        Args:
+            x_0: 初始嵌入
+            target_len: 目标长度（用于变长序列）
+        Returns:
+            x_T: 纯噪声
+            noises: 所有时间步的噪声
+            t: 最终时间步
+        """
+        batch_size = x_0.size(0)
+        t = torch.full((batch_size,), self.timesteps - 1, dtype=torch.long, device=x_0.device)
+        noise = torch.randn_like(x_0)
+        x_T, _ = self.q_sample(x_0, t, noise)
+        return x_T, noise, t
+class DDIMSampler:
+    """DDIM采样器，加速推理"""
+    def __init__(self, scheduler: NoiseScheduler, ddim_steps: int = 50):
+        self.scheduler = scheduler
+        self.timesteps = scheduler.timesteps
+        self.ddim_steps = ddim_steps
+        # 计算DDIM时间步
+        self.ddim_timesteps = self._get_ddim_timesteps()
+    def _get_ddim_timesteps(self) -> List[int]:
+        """获取DDIM采样使用的时间步"""
+        c = self.timesteps // self.ddim_steps
+        ddim_timesteps = [i * c for i in range(self.ddim_steps)]
+        ddim_timesteps = list(reversed(ddim_timesteps))
+        return ddim_timesteps
+    def ddim_step(
+        self,
+        x_t: torch.Tensor,
+        t: int,
+        t_prev: int,
+        predicted_noise: torch.Tensor,
+        eta: float = 0.0,
+    ) -> torch.Tensor:
+        """DDIM单步采样
+        Args:
+            x_t: 当前状态
+            t: 当前时间步
+            t_prev: 前一时间步
+            predicted_noise: 预测的噪声
+            eta: 随机性参数 (0=deterministic, 1=DDPM)
+        Returns:
+            x_{t-1}
+        """
+        device = x_t.device
+        batch_size = x_t.size(0)
+        # 获取alpha
+        alpha_t = self.scheduler.alphas_cumprod[t]
+        alpha_t_prev = self.scheduler.alphas_cumprod[t_prev] if t_prev >= 0 else torch.tensor(1.0).to(device)
+        # 预测x_0
+        sqrt_alpha_t = torch.sqrt(alpha_t)
+        sqrt_one_minus_alpha_t = torch.sqrt(1 - alpha_t)
+        sqrt_alpha_t = sqrt_alpha_t.view(1, 1, 1)
+        sqrt_one_minus_alpha_t = sqrt_one_minus_alpha_t.view(1, 1, 1)
+        pred_x0 = (x_t - sqrt_one_minus_alpha_t * predicted_noise) / sqrt_alpha_t
+        # 计算方差
+        sigma = eta * torch.sqrt(
+            (1 - alpha_t_prev) / (1 - alpha_t) * (1 - alpha_t / alpha_t_prev)
+        )
+        # 计算方向指向x_t
+        sqrt_one_minus_alpha_t_prev = torch.sqrt(1 - alpha_t_prev - sigma ** 2)
+        sqrt_one_minus_alpha_t_prev = sqrt_one_minus_alpha_t_prev.view(1, 1, 1)
+        # 计算均值
+        sqrt_alpha_t_prev = torch.sqrt(alpha_t_prev).view(1, 1, 1)
+        mean = sqrt_alpha_t_prev * pred_x0 + sqrt_one_minus_alpha_t_prev * predicted_noise
+        # 添加噪声
+        if eta > 0:
+            noise = torch.randn_like(x_t)
+            x_t_prev = mean + sigma.view(1, 1, 1) * noise
+        else:
+            x_t_prev = mean
+        return x_t_prev
+    def sample(
+        self,
+        x_T: torch.Tensor,
+        predict_noise_fn: Callable,
+        callback: Optional[Callable] = None,
+    ) -> torch.Tensor:
+        """完整DDIM采样
+        Args:
+            x_T: 纯噪声
+            predict_noise_fn: 噪声预测函数 (x_t, t) -> noise
+            callback: 回调函数，用于可视化
+        Returns:
+            x_0
+        """
+        x_t = x_T
+        for i, t in enumerate(self.ddim_timesteps[:-1]):
+            t_prev = self.ddim_timesteps[i + 1]
+            # 预测噪声
+            t_tensor = torch.full((x_t.size(0),), t, dtype=torch.long, device=x_t.device)
+            predicted_noise = predict_noise_fn(x_t, t_tensor)
+            # DDIM步骤
+            x_t = self.ddim_step(x_t, t, t_prev, predicted_noise, eta=0.0)
+            # 回调
+            if callback:
+                callback(t, x_t)
+        return x_t
+def get_diffusion(config) -> Tuple[DiffusionProcess, DDIMSampler]:
+    """创建扩散过程和采样器"""
+    scheduler = NoiseScheduler(
+        timesteps=config.diffusion.timesteps,
+        beta_start=config.diffusion.beta_start,
+        beta_end=config.diffusion.beta_end,
+    )
+    diffusion = DiffusionProcess(scheduler)
+    ddim_sampler = DDIMSampler(scheduler, ddim_steps=config.diffusion.ddim_steps)
+    return diffusion, ddim_sampler

embedding.py ADDED Viewed

	@@ -0,0 +1,203 @@

+"""
+嵌入层
+语言特定的嵌入，包含位置编码和长度编码
+"""
+import math
+import torch
+import torch.nn as nn
+from typing import Optional
+class PositionalEncoding(nn.Module):
+    """正弦位置编码"""
+    def __init__(self, d_model: int, max_len: int = 128, dropout: float = 0.1):
+        super().__init__()
+        self.dropout = nn.Dropout(p=dropout)
+        # 计算位置编码
+        pe = torch.zeros(max_len, d_model)
+        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
+        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0)  # [1, max_len, d_model]
+        self.register_buffer('pe', pe)
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        """
+        x: [batch, seq_len, d_model]
+        """
+        x = x + self.pe[:, :x.size(1), :]
+        return self.dropout(x)
+class SinusoidalTimeEmbedding(nn.Module):
+    """时间步的正弦嵌入（用于扩散）"""
+    def __init__(self, d_model: int):
+        super().__init__()
+        self.d_model = d_model
+    def forward(self, t: torch.Tensor) -> torch.Tensor:
+        """
+        t: [batch] 时间步，范围 [0, T]
+        返回: [batch, d_model]
+        """
+        # 归一化到 [0, 1]
+        t = t.float().unsqueeze(-1)  # [batch, 1]
+        half_dim = self.d_model // 2
+        emb = math.log(10000) / (half_dim - 1)
+        emb = torch.exp(torch.arange(half_dim, device=t.device) * -emb)
+        emb = t * emb.unsqueeze(0)  # [batch, half_dim]
+        emb = torch.cat([torch.sin(emb), torch.cos(emb)], dim=-1)
+        return emb
+class LanguageEmbedding(nn.Module):
+    """语言特定的嵌入层"""
+    def __init__(
+        self,
+        vocab_size: int,
+        d_model: int,
+        max_len: int = 128,
+        dropout: float = 0.1,
+    ):
+        super().__init__()
+        self.d_model = d_model
+        # Token嵌入
+        self.token_embedding = nn.Embedding(vocab_size, d_model)
+        # 位置编码
+        self.position_encoding = PositionalEncoding(d_model, max_len, dropout)
+        # 长度嵌入（用于变长序列）
+        self.length_embedding = nn.Embedding(max_len + 1, d_model)
+        # 缩放
+        self.scale = math.sqrt(d_model)
+        # 初始化
+        nn.init.normal_(self.token_embedding.weight, mean=0.0, std=0.02)
+        nn.init.normal_(self.length_embedding.weight, mean=0.0, std=0.02)
+    def forward(
+        self,
+        token_ids: torch.Tensor,
+        lengths: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """
+        token_ids: [batch, seq_len]
+        lengths: [batch] 可选，序列实际长度
+        返回: [batch, seq_len, d_model]
+        """
+        # Token嵌入
+        x = self.token_embedding(token_ids) * self.scale
+        # 位置编码
+        x = self.position_encoding(x)
+        # 长度嵌入
+        if lengths is not None:
+            # 将长度信息广播到每个位置
+            len_emb = self.length_embedding(lengths)  # [batch, d_model]
+            x = x + len_emb.unsqueeze(1)  # 广播到序列长度
+        return x
+    def embed_noise(self, shape: tuple, device: torch.device) -> torch.Tensor:
+        """生成纯噪声嵌入
+        shape: (batch, seq_len, d_model)
+        """
+        return torch.randn(shape, device=device)
+class DualLanguageEmbedding(nn.Module):
+    """双语嵌入层，管理中英文嵌入"""
+    def __init__(
+        self,
+        vocab_size_zh: int,
+        vocab_size_en: int,
+        d_model: int,
+        max_len: int = 128,
+        dropout: float = 0.1,
+    ):
+        super().__init__()
+        self.d_model = d_model
+        self.zh_embedding = LanguageEmbedding(vocab_size_zh, d_model, max_len, dropout)
+        self.en_embedding = LanguageEmbedding(vocab_size_en, d_model, max_len, dropout)
+    def forward(
+        self,
+        token_ids: torch.Tensor,
+        lang: str,
+        lengths: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """
+        lang: 'zh' 或 'en'
+        """
+        if lang == 'zh':
+            return self.zh_embedding(token_ids, lengths)
+        else:
+            return self.en_embedding(token_ids, lengths)
+    def embed_tokens(
+        self,
+        zh_ids: Optional[torch.Tensor] = None,
+        en_ids: Optional[torch.Tensor] = None,
+        zh_lens: Optional[torch.Tensor] = None,
+        en_lens: Optional[torch.Tensor] = None,
+    ) -> tuple:
+        """同时嵌入中英文"""
+        zh_emb = None
+        en_emb = None
+        if zh_ids is not None:
+            zh_emb = self.zh_embedding(zh_ids, zh_lens)
+        if en_ids is not None:
+            en_emb = self.en_embedding(en_ids, en_lens)
+        return zh_emb, en_emb
+class OutputProjection(nn.Module):
+    """输出投影层，将隐藏状态投影回词表空间"""
+    def __init__(self, d_model: int, vocab_size: int):
+        super().__init__()
+        self.projection = nn.Linear(d_model, vocab_size, bias=False)
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        """
+        x: [batch, seq_len, d_model]
+        返回: [batch, seq_len, vocab_size] logits
+        """
+        return self.projection(x)
+class DualOutputProjection(nn.Module):
+    """双语输出投影层"""
+    def __init__(self, d_model: int, vocab_size_zh: int, vocab_size_en: int):
+        super().__init__()
+        self.zh_projection = OutputProjection(d_model, vocab_size_zh)
+        self.en_projection = OutputProjection(d_model, vocab_size_en)
+    def forward(self, x: torch.Tensor, lang: str) -> torch.Tensor:
+        if lang == 'zh':
+            return self.zh_projection(x)
+        else:
+            return self.en_projection(x)

export_onnx.py ADDED Viewed

	@@ -0,0 +1,245 @@

+"""
+导出模型为JSON格式，用于WebGPU推理
+"""
+import os
+import json
+import argparse
+import torch
+import torch.nn as nn
+import numpy as np
+from typing import Dict, Any, List
+from config import Config
+from tokenizer import Tokenizer
+from embedding import DualLanguageEmbedding, DualOutputProjection
+from model import create_model
+from diffusion import get_diffusion
+def tensor_to_list(t) -> list:
+    """将tensor转换为list"""
+    if isinstance(t, torch.Tensor):
+        return t.detach().cpu().numpy().tolist()
+    return t
+def export_model(config: Config, checkpoint_path: str, output_dir: str):
+    """导出模型为JSON格式"""
+    print(f"加载检查点: {checkpoint_path}")
+    state = torch.load(checkpoint_path, map_location="cpu", weights_only=False)
+    # 加载分词器
+    cache_dir = os.path.join(config.project_dir, config.data.cache_dir)
+    zh_tokenizer = Tokenizer.load(os.path.join(cache_dir, "tokenizer_zh.json"))
+    en_tokenizer = Tokenizer.load(os.path.join(cache_dir, "tokenizer_en.json"))
+    # 创建模型
+    embedding = DualLanguageEmbedding(
+        vocab_size_zh=zh_tokenizer.vocab_size_actual,
+        vocab_size_en=en_tokenizer.vocab_size_actual,
+        d_model=config.model.d_model,
+        max_len=config.model.max_len,
+        dropout=0.0,
+    )
+    output_proj = DualOutputProjection(
+        d_model=config.model.d_model,
+        vocab_size_zh=zh_tokenizer.vocab_size_actual,
+        vocab_size_en=en_tokenizer.vocab_size_actual,
+    )
+    model = create_model(config)
+    # 加载权重
+    embedding.load_state_dict(state['embedding'])
+    output_proj.load_state_dict(state['output_proj'])
+    model.load_state_dict(state['model'])
+    embedding.eval()
+    output_proj.eval()
+    model.eval()
+    # 创建输出目录
+    os.makedirs(output_dir, exist_ok=True)
+    # 导出扩散参数
+    diffusion, ddim_sampler = get_diffusion(config)
+    scheduler = diffusion.scheduler
+    diffusion_params = {
+        'timesteps': config.diffusion.timesteps,
+        'ddim_steps': config.diffusion.ddim_steps,
+        'betas': tensor_to_list(scheduler.betas),
+        'alphas': tensor_to_list(scheduler.alphas),
+        'alphas_cumprod': tensor_to_list(scheduler.alphas_cumprod),
+        'sqrt_alphas_cumprod': tensor_to_list(scheduler.sqrt_alphas_cumprod),
+        'sqrt_one_minus_alphas_cumprod': tensor_to_list(scheduler.sqrt_one_minus_alphas_cumprod),
+        'ddim_timesteps': ddim_sampler.ddim_timesteps,
+    }
+    with open(os.path.join(output_dir, 'diffusion_params.json'), 'w') as f:
+        json.dump(diffusion_params, f)
+    print("导出扩散参数完成")
+    # 导出分词器
+    zh_vocab = {
+        'token_to_id': zh_tokenizer.token_to_id,
+        'id_to_token': {str(k): v for k, v in zh_tokenizer.id_to_token.items()},
+        'merges': zh_tokenizer.merges,
+        'special_tokens': zh_tokenizer.special_tokens,
+        'lang': 'zh',
+    }
+    en_vocab = {
+        'token_to_id': en_tokenizer.token_to_id,
+        'id_to_token': {str(k): v for k, v in en_tokenizer.id_to_token.items()},
+        'merges': en_tokenizer.merges,
+        'special_tokens': en_tokenizer.special_tokens,
+        'lang': 'en',
+    }
+    with open(os.path.join(output_dir, 'tokenizer_zh.json'), 'w', encoding='utf-8') as f:
+        json.dump(zh_vocab, f, ensure_ascii=False)
+    with open(os.path.join(output_dir, 'tokenizer_en.json'), 'w', encoding='utf-8') as f:
+        json.dump(en_vocab, f, ensure_ascii=False)
+    print("导出分词器完成")
+    # 导出嵌入层权重为JSON
+    def extract_embedding_weights(lang_emb):
+        """提取嵌入层权重"""
+        return {
+            'token_embedding': tensor_to_list(lang_emb.token_embedding.weight),
+            'position_encoding': tensor_to_list(lang_emb.position_encoding.pe),
+            'length_embedding': tensor_to_list(lang_emb.length_embedding.weight),
+            'scale': lang_emb.scale,
+        }
+    embedding_weights = {
+        'zh': extract_embedding_weights(embedding.zh_embedding),
+        'en': extract_embedding_weights(embedding.en_embedding),
+    }
+    with open(os.path.join(output_dir, 'embedding.json'), 'w') as f:
+        json.dump(embedding_weights, f)
+    print("导出嵌入层完成")
+    # 导出输出投影权重
+    output_weights = {
+        'zh_projection': tensor_to_list(output_proj.zh_projection.projection.weight),
+        'en_projection': tensor_to_list(output_proj.en_projection.projection.weight),
+    }
+    with open(os.path.join(output_dir, 'output_proj.json'), 'w') as f:
+        json.dump(output_weights, f)
+    print("导出输出投影完成")
+    # 导出噪声预测模型权重
+    def extract_model_weights(model):
+        """提取模型权重"""
+        weights = {}
+        # 时间嵌入
+        weights['time_mlp'] = {
+            '0.weight': tensor_to_list(model.time_mlp[0].weight),
+            '0.bias': tensor_to_list(model.time_mlp[0].bias),
+            '2.weight': tensor_to_list(model.time_mlp[2].weight),
+            '2.bias': tensor_to_list(model.time_mlp[2].bias),
+        }
+        # 语言特定投影
+        weights['zh_input_proj'] = {
+            'weight': tensor_to_list(model.zh_input_proj.weight),
+            'bias': tensor_to_list(model.zh_input_proj.bias),
+        }
+        weights['en_input_proj'] = {
+            'weight': tensor_to_list(model.en_input_proj.weight),
+            'bias': tensor_to_list(model.en_input_proj.bias),
+        }
+        weights['zh_output_proj'] = {
+            'weight': tensor_to_list(model.zh_output_proj.weight),
+            'bias': tensor_to_list(model.zh_output_proj.bias),
+        }
+        weights['en_output_proj'] = {
+            'weight': tensor_to_list(model.en_output_proj.weight),
+            'bias': tensor_to_list(model.en_output_proj.bias),
+        }
+        # 输出归一化
+        weights['output_norm'] = {
+            'weight': tensor_to_list(model.output_norm.weight),
+            'bias': tensor_to_list(model.output_norm.bias),
+        }
+        # Transformer层
+        weights['layers'] = []
+        for i, layer in enumerate(model.layers):
+            layer_weights = {
+                # 自注意力
+                'w_q.weight': tensor_to_list(layer.attn.w_q.weight),
+                'w_q.bias': tensor_to_list(layer.attn.w_q.bias),
+                'w_k.weight': tensor_to_list(layer.attn.w_k.weight),
+                'w_k.bias': tensor_to_list(layer.attn.w_k.bias),
+                'w_v.weight': tensor_to_list(layer.attn.w_v.weight),
+                'w_v.bias': tensor_to_list(layer.attn.w_v.bias),
+                'w_o.weight': tensor_to_list(layer.attn.w_o.weight),
+                'w_o.bias': tensor_to_list(layer.attn.w_o.bias),
+                # 前馈网络
+                'w1.weight': tensor_to_list(layer.ff.w1.weight),
+                'w1.bias': tensor_to_list(layer.ff.w1.bias),
+                'w2.weight': tensor_to_list(layer.ff.w2.weight),
+                'w2.bias': tensor_to_list(layer.ff.w2.bias),
+                # LayerNorm
+                'norm1.weight': tensor_to_list(layer.norm1.weight),
+                'norm1.bias': tensor_to_list(layer.norm1.bias),
+                'norm2.weight': tensor_to_list(layer.norm2.weight),
+                'norm2.bias': tensor_to_list(layer.norm2.bias),
+            }
+            weights['layers'].append(layer_weights)
+        return weights
+    model_weights = extract_model_weights(model)
+    with open(os.path.join(output_dir, 'model.json'), 'w') as f:
+        json.dump(model_weights, f)
+    print("导出模型权重完成")
+    # 导出配置
+    config_dict = {
+        'd_model': config.model.d_model,
+        'n_heads': config.model.n_heads,
+        'n_layers': config.model.n_layers,
+        'd_ff': config.model.d_ff,
+        'max_len': config.model.max_len,
+        'vocab_size_zh': zh_tokenizer.vocab_size_actual,
+        'vocab_size_en': en_tokenizer.vocab_size_actual,
+    }
+    with open(os.path.join(output_dir, 'config.json'), 'w') as f:
+        json.dump(config_dict, f)
+    print(f"\n导出完成! 文件保存在: {output_dir}")
+    print("文件列表:")
+    for f in os.listdir(output_dir):
+        path = os.path.join(output_dir, f)
+        size = os.path.getsize(path) / 1024 / 1024
+        print(f"  {f}: {size:.2f} MB")
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="导出模型为JSON格式")
+    parser.add_argument("--checkpoint", type=str, default="checkpoints/best.pt", help="检查点路径")
+    parser.add_argument("--output", type=str, default="web/models", help="输出目录")
+    args = parser.parse_args()
+    config = Config()
+    export_model(config, args.checkpoint, args.output)

hfspace/README.md ADDED Viewed

	@@ -0,0 +1,28 @@

+---
+title: Diffutslator
+emoji: 🌐
+colorFrom: blue
+colorTo: purple
+sdk: gradio
+sdk_version: 4.44.0
+app_file: app.py
+pinned: false
+license: mit
+---
+# Diffutslator 扩散翻译器
+基于扩散模型的机器翻译系统。模型在翻译过程中可视化语言嵌入空间的渐变。
+## 功能
+- 中英文互译
+- 可调节DDIM推理步数
+- 可视化扩散过程
+## 使用方法
+1. 输入要翻译的文本
+2. 选择翻译方向（或自动检测）
+3. 调整DDIM步数（越多质量越高，速度越慢）
+4. 点击翻译

hfspace/__pycache__/app.cpython-312.pyc ADDED Viewed

Binary file (48.1 kB). View file

hfspace/app.py ADDED Viewed

	@@ -0,0 +1,889 @@

+"""
+Diffutslator Hugging Face Space 应用
+基于扩散模型的机器翻译演示
+"""
+import os
+import sys
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import math
+import gradio as gr
+from typing import Optional, Tuple, List
+from dataclasses import dataclass, field
+import json
+# ==================== 配置（与config.py保持一致，用于加载检查点）====================
+@dataclass
+class ModelConfig:
+    d_model: int = 256
+    n_heads: int = 4
+    n_layers: int = 4
+    d_ff: int = 512
+    max_len: int = 128
+    dropout: float = 0.1
+    vocab_size_zh: int = 8000
+    vocab_size_en: int = 8000
+    pad_token: str = "<pad>"
+    sos_token: str = "<sos>"
+    eos_token: str = "<eos>"
+    unk_token: str = "<unk>"
+    mask_token: str = "<mask>"
+@dataclass
+class DiffusionConfig:
+    timesteps: int = 1000
+    ddim_steps: int = 50
+    beta_start: float = 0.0001
+    beta_end: float = 0.02
+    length_noise_scale: float = 0.3
+@dataclass
+class TrainingConfig:
+    batch_size: int = 64
+    gradient_accumulation: int = 1
+    learning_rate: float = 1e-4
+    weight_decay: float = 0.01
+    warmup_steps: int = 500
+    epochs: int = 10
+    save_every: int = 1
+    eval_every: int = 100
+    quick_mode: bool = False
+    quick_samples: int = 1000
+    checkpoint_dir: str = "checkpoints"
+    resume: Optional[str] = None
+@dataclass
+class DataConfig:
+    tatoeba_path: str = ""
+    cveto_zh_path: str = ""
+    cveto_en_path: str = ""
+    max_samples: Optional[int] = None
+    min_len: int = 2
+    max_len: int = 128
+    use_cache: bool = True
+    cache_dir: str = ".cache"
+@dataclass
+class Config:
+    model: ModelConfig = field(default_factory=ModelConfig)
+    diffusion: DiffusionConfig = field(default_factory=DiffusionConfig)
+    training: TrainingConfig = field(default_factory=TrainingConfig)
+    data: DataConfig = field(default_factory=DataConfig)
+    project_dir: str = ""
+# 创建一个假的config模块，用于加载检查点时反序列化
+class _FakeConfigModule:
+    Config = Config
+    ModelConfig = ModelConfig
+    DiffusionConfig = DiffusionConfig
+    TrainingConfig = TrainingConfig
+    DataConfig = DataConfig
+# 将假模块注入sys.modules
+sys.modules['config'] = _FakeConfigModule()
+# ==================== 分词器 ====================
+import re
+class Tokenizer:
+    """BPE分词器（与tokenizer.py兼容）"""
+    def __init__(self, vocab_size: int = 8000, lang: str = "zh"):
+        self.vocab_size = vocab_size
+        self.lang = lang
+        # 特殊token
+        self.pad_token = "<pad>"
+        self.sos_token = "<sos>"
+        self.eos_token = "<eos>"
+        self.unk_token = "<unk>"
+        self.mask_token = "<mask>"
+        self.special_tokens = [self.pad_token, self.sos_token, self.eos_token, self.unk_token, self.mask_token]
+        # 词表
+        self.token_to_id: dict = {}
+        self.id_to_token: dict = {}
+        # BPE合并规则
+        self.merges: list = []
+        self.bpe_ranks: dict = {}
+    @property
+    def vocab_size_actual(self) -> int:
+        return len(self.token_to_id)
+    @property
+    def pad_id(self) -> int:
+        return self.token_to_id[self.pad_token]
+    @property
+    def sos_id(self) -> int:
+        return self.token_to_id[self.sos_token]
+    @property
+    def eos_id(self) -> int:
+        return self.token_to_id[self.eos_token]
+    @property
+    def unk_id(self) -> int:
+        return self.token_to_id[self.unk_token]
+    def _is_chinese(self, char: str) -> bool:
+        return '\u4e00' <= char <= '\u9fff'
+    def _pre_tokenize(self, text: str) -> List[str]:
+        """预分词"""
+        if self.lang == "zh":
+            tokens = []
+            current = ""
+            for char in text:
+                if self._is_chinese(char):
+                    if current:
+                        tokens.append(current)
+                        current = ""
+                    tokens.append(char)
+                elif char.isalnum():
+                    current += char.lower()
+                else:
+                    if current:
+                        tokens.append(current)
+                        current = ""
+                    if char.strip():
+                        tokens.append(char)
+            if current:
+                tokens.append(current)
+            return tokens
+        else:
+            text = text.lower()
+            tokens = re.findall(r"\w+|[^\w\s]", text)
+            return tokens
+    def _get_pairs(self, word: tuple) -> set:
+        """获取词中的所有相邻字符对"""
+        pairs = set()
+        prev = word[0]
+        for char in word[1:]:
+            pairs.add((prev, char))
+            prev = char
+        return pairs
+    def _apply_bpe(self, token: str) -> List[str]:
+        """对单个token应用BPE"""
+        if not token:
+            return []
+        word = tuple(token) + ('</w>',)
+        while True:
+            pairs = self._get_pairs(word)
+            if not pairs:
+                break
+            # 找到rank最高的pair
+            min_pair = None
+            min_rank = float('inf')
+            for pair in pairs:
+                rank = self.bpe_ranks.get(pair, float('inf'))
+                if rank < min_rank:
+                    min_rank = rank
+                    min_pair = pair
+            if min_pair is None or min_rank == float('inf'):
+                break
+            # 合并
+            new_word = []
+            i = 0
+            while i < len(word):
+                if i < len(word) - 1 and word[i] == min_pair[0] and word[i + 1] == min_pair[1]:
+                    new_word.append(min_pair[0] + min_pair[1])
+                    i += 2
+                else:
+                    new_word.append(word[i])
+                    i += 1
+            word = tuple(new_word)
+        return [t for t in word if t != '</w>']
+    def encode(self, text: str, add_sos: bool = True, add_eos: bool = True) -> List[int]:
+        """编码文本为token id序列"""
+        tokens = self._pre_tokenize(text)
+        ids = []
+        if add_sos:
+            ids.append(self.sos_id)
+        for token in tokens:
+            bpe_tokens = self._apply_bpe(token)
+            for t in bpe_tokens:
+                ids.append(self.token_to_id.get(t, self.unk_id))
+        if add_eos:
+            ids.append(self.eos_id)
+        return ids
+    def decode(self, ids: List[int], skip_special: bool = True) -> str:
+        """解码token id序列为文本"""
+        tokens = []
+        for id in ids:
+            token = self.id_to_token.get(id, self.unk_token)
+            if skip_special and token in self.special_tokens:
+                continue
+            token = token.replace('</w>', '')
+            if token:
+                tokens.append(token)
+        if self.lang == "en":
+            text = ' '.join(tokens)
+            text = re.sub(r'\s+([.,!?;:\'\"])', r'\1', text)
+            text = re.sub(r'([.,!?;:])([a-zA-Z])', r'\1 \2', text)
+            text = re.sub(r'\s+', ' ', text).strip()
+        else:
+            text = ''.join(tokens)
+        return text
+    @classmethod
+    def load(cls, path: str) -> "Tokenizer":
+        """加载分词器"""
+        with open(path, "r", encoding="utf-8") as f:
+            data = json.load(f)
+        tokenizer = cls(vocab_size=data["vocab_size"], lang=data["lang"])
+        tokenizer.token_to_id = data["token_to_id"]
+        tokenizer.id_to_token = {int(k): v for k, v in data["id_to_token"].items()}
+        tokenizer.merges = [tuple(m) for m in data["merges"]]
+        tokenizer.bpe_ranks = {pair: i for i, pair in enumerate(tokenizer.merges)}
+        tokenizer.special_tokens = data["special_tokens"]
+        return tokenizer
+# ==================== 模型组件 ====================
+class PositionalEncoding(nn.Module):
+    """正弦位置编码"""
+    def __init__(self, d_model: int, max_len: int = 128, dropout: float = 0.1):
+        super().__init__()
+        self.dropout = nn.Dropout(p=dropout)
+        pe = torch.zeros(max_len, d_model)
+        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
+        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0)
+        self.register_buffer("pe", pe)
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = x + self.pe[:, :x.size(1), :]
+        return self.dropout(x)
+class SinusoidalTimeEmbedding(nn.Module):
+    """时间步的正弦嵌入（用于扩散）"""
+    def __init__(self, d_model: int):
+        super().__init__()
+        self.d_model = d_model
+    def forward(self, t: torch.Tensor) -> torch.Tensor:
+        t = t.float().unsqueeze(-1)
+        half_dim = self.d_model // 2
+        emb = math.log(10000) / (half_dim - 1)
+        emb = torch.exp(torch.arange(half_dim, device=t.device) * -emb)
+        emb = t * emb.unsqueeze(0)
+        emb = torch.cat([torch.sin(emb), torch.cos(emb)], dim=-1)
+        return emb
+class LanguageEmbedding(nn.Module):
+    """语言特定的嵌入层"""
+    def __init__(self, vocab_size: int, d_model: int, max_len: int = 128, dropout: float = 0.1):
+        super().__init__()
+        self.d_model = d_model
+        self.token_embedding = nn.Embedding(vocab_size, d_model)
+        self.position_encoding = PositionalEncoding(d_model, max_len, dropout)
+        self.length_embedding = nn.Embedding(max_len + 1, d_model)
+        self.scale = math.sqrt(d_model)
+    def forward(self, token_ids: torch.Tensor, lengths: Optional[torch.Tensor] = None) -> torch.Tensor:
+        x = self.token_embedding(token_ids) * self.scale
+        x = self.position_encoding(x)
+        if lengths is not None:
+            len_emb = self.length_embedding(lengths)
+            x = x + len_emb.unsqueeze(1)
+        return x
+class DualLanguageEmbedding(nn.Module):
+    """双语嵌入层"""
+    def __init__(self, vocab_size_zh: int, vocab_size_en: int, d_model: int, max_len: int = 128, dropout: float = 0.1):
+        super().__init__()
+        self.d_model = d_model
+        self.zh_embedding = LanguageEmbedding(vocab_size_zh, d_model, max_len, dropout)
+        self.en_embedding = LanguageEmbedding(vocab_size_en, d_model, max_len, dropout)
+    def forward(self, token_ids: torch.Tensor, lang: str, lengths: Optional[torch.Tensor] = None) -> torch.Tensor:
+        if lang == 'zh':
+            return self.zh_embedding(token_ids, lengths)
+        else:
+            return self.en_embedding(token_ids, lengths)
+class OutputProjection(nn.Module):
+    """输出投影层"""
+    def __init__(self, d_model: int, vocab_size: int):
+        super().__init__()
+        self.projection = nn.Linear(d_model, vocab_size, bias=False)
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.projection(x)
+class DualOutputProjection(nn.Module):
+    """双语输出投影层"""
+    def __init__(self, d_model: int, vocab_size_zh: int, vocab_size_en: int):
+        super().__init__()
+        self.zh_projection = OutputProjection(d_model, vocab_size_zh)
+        self.en_projection = OutputProjection(d_model, vocab_size_en)
+    def forward(self, x: torch.Tensor, lang: str) -> torch.Tensor:
+        if lang == 'zh':
+            return self.zh_projection(x)
+        else:
+            return self.en_projection(x)
+class MultiHeadAttention(nn.Module):
+    """多头自注意力"""
+    def __init__(self, d_model: int, n_heads: int, dropout: float = 0.1):
+        super().__init__()
+        assert d_model % n_heads == 0
+        self.d_model = d_model
+        self.n_heads = n_heads
+        self.d_k = d_model // n_heads
+        self.w_q = nn.Linear(d_model, d_model)
+        self.w_k = nn.Linear(d_model, d_model)
+        self.w_v = nn.Linear(d_model, d_model)
+        self.w_o = nn.Linear(d_model, d_model)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        batch_size = q.size(0)
+        q = self.w_q(q).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
+        k = self.w_k(k).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
+        v = self.w_v(v).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
+        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.d_k)
+        if mask is not None:
+            scores = scores.masked_fill(mask == 0, float('-inf'))
+        attn = F.softmax(scores, dim=-1)
+        attn = self.dropout(attn)
+        out = torch.matmul(attn, v)
+        out = out.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)
+        return self.w_o(out)
+class FeedForward(nn.Module):
+    """前馈网络"""
+    def __init__(self, d_model: int, d_ff: int, dropout: float = 0.1):
+        super().__init__()
+        self.w1 = nn.Linear(d_model, d_ff)
+        self.w2 = nn.Linear(d_ff, d_model)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.dropout(self.w2(F.gelu(self.w1(x))))
+class TransformerBlock(nn.Module):
+    """Transformer块"""
+    def __init__(self, d_model: int, n_heads: int, d_ff: int, dropout: float = 0.1):
+        super().__init__()
+        self.attn = MultiHeadAttention(d_model, n_heads, dropout)
+        self.ff = FeedForward(d_model, d_ff, dropout)
+        self.norm1 = nn.LayerNorm(d_model)
+        self.norm2 = nn.LayerNorm(d_model)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x: torch.Tensor, mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        x = x + self.dropout(self.attn(self.norm1(x), self.norm1(x), self.norm1(x), mask))
+        x = x + self.dropout(self.ff(self.norm2(x)))
+        return x
+class DualNoisePredictor(nn.Module):
+    """双语言噪声预测器"""
+    def __init__(self, d_model: int = 256, n_heads: int = 4, n_layers: int = 4, d_ff: int = 512, max_len: int = 128, dropout: float = 0.1):
+        super().__init__()
+        self.d_model = d_model
+        # 时间步嵌入（共享）
+        self.time_embedding = SinusoidalTimeEmbedding(d_model)
+        self.time_mlp = nn.Sequential(
+            nn.Linear(d_model, d_model * 4),
+            nn.GELU(),
+            nn.Linear(d_model * 4, d_model),
+        )
+        # 语言特定的输入投影
+        self.zh_input_proj = nn.Linear(d_model, d_model)
+        self.en_input_proj = nn.Linear(d_model, d_model)
+        # 共享Transformer层
+        self.layers = nn.ModuleList([
+            TransformerBlock(d_model, n_heads, d_ff, dropout)
+            for _ in range(n_layers)
+        ])
+        # 语言特定的输出投影
+        self.zh_output_proj = nn.Linear(d_model, d_model)
+        self.en_output_proj = nn.Linear(d_model, d_model)
+        self.output_norm = nn.LayerNorm(d_model)
+    def forward(self, x_t: torch.Tensor, t: torch.Tensor, lang: str = "zh", mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        # 时间步嵌入
+        t_emb = self.time_embedding(t)
+        t_emb = self.time_mlp(t_emb)
+        # 语言特定输入投影
+        if lang == "zh":
+            x = self.zh_input_proj(x_t)
+        else:
+            x = self.en_input_proj(x_t)
+        # 添加时间信息
+        x = x + t_emb.unsqueeze(1)
+        # 共享Transformer
+        for layer in self.layers:
+            x = layer(x, mask)
+        # 输出归一化
+        x = self.output_norm(x)
+        # 语言特定输出投影
+        if lang == "zh":
+            noise_pred = self.zh_output_proj(x)
+        else:
+            noise_pred = self.en_output_proj(x)
+        return noise_pred
+class LanguageSwitcher(nn.Module):
+    """语言切换分类器"""
+    def __init__(self, d_model: int = 256, hidden_dim: int = 128, dropout: float = 0.1):
+        super().__init__()
+        self.global_pool = nn.AdaptiveAvgPool1d(1)
+        self.classifier = nn.Sequential(
+            nn.Linear(d_model, hidden_dim),
+            nn.GELU(),
+            nn.Dropout(dropout),
+            nn.Linear(hidden_dim, hidden_dim),
+            nn.GELU(),
+            nn.Dropout(dropout),
+            nn.Linear(hidden_dim, 2),
+        )
+    def forward(self, x_t: torch.Tensor, mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        if mask is not None:
+            x_t = x_t * mask.unsqueeze(-1)
+        x = x_t.transpose(1, 2)
+        x = self.global_pool(x).squeeze(-1)
+        logits = self.classifier(x)
+        return logits
+    def predict(self, x_t: torch.Tensor, mask: Optional[torch.Tensor] = None) -> Tuple[str, float]:
+        self.eval()
+        with torch.no_grad():
+            logits = self.forward(x_t, mask)
+            probs = F.softmax(logits, dim=-1)
+            zh_prob = probs[0, 0].item()
+            en_prob = probs[0, 1].item()
+            if zh_prob > en_prob:
+                return "zh", zh_prob
+            else:
+                return "en", en_prob
+# ==================== 扩散过程 ====================
+class Diffusion:
+    def __init__(self, config: DiffusionConfig):
+        self.config = config
+        self.timesteps = config.timesteps
+        # Beta schedule (linear)
+        betas = torch.linspace(config.beta_start, config.beta_end, self.timesteps)
+        alphas = 1.0 - betas
+        alphas_cumprod = torch.cumprod(alphas, dim=0)
+        self.register_buffer("betas", betas)
+        self.register_buffer("alphas", alphas)
+        self.register_buffer("alphas_cumprod", alphas_cumprod)
+        self.register_buffer("sqrt_alphas_cumprod", torch.sqrt(alphas_cumprod))
+        self.register_buffer("sqrt_one_minus_alphas_cumprod", torch.sqrt(1 - alphas_cumprod))
+    def register_buffer(self, name: str, tensor: torch.Tensor):
+        setattr(self, name, tensor)
+    def q_sample(self, x_0: torch.Tensor, t: torch.Tensor, noise: Optional[torch.Tensor] = None) -> Tuple[torch.Tensor, torch.Tensor]:
+        if noise is None:
+            noise = torch.randn_like(x_0)
+        sqrt_alpha = self.sqrt_alphas_cumprod[t]
+        sqrt_one_minus_alpha = self.sqrt_one_minus_alphas_cumprod[t]
+        x_t = sqrt_alpha.view(-1, 1, 1) * x_0 + sqrt_one_minus_alpha.view(-1, 1, 1) * noise
+        return x_t, noise
+    def p_sample(self, x_t: torch.Tensor, t: torch.Tensor, predicted_noise: torch.Tensor) -> torch.Tensor:
+        beta = self.betas[t]
+        sqrt_one_minus_alpha = self.sqrt_one_minus_alphas_cumprod[t]
+        sqrt_recip_alpha = 1.0 / torch.sqrt(self.alphas[t])
+        # 去噪
+        x_0_pred = sqrt_recip_alpha.view(-1, 1, 1) * (x_t - sqrt_one_minus_alpha.view(-1, 1, 1) * predicted_noise)
+        # 添加噪声（除了最后一步）
+        if t[0] > 0:
+            noise = torch.randn_like(x_t)
+            x_prev = x_0_pred + torch.sqrt(beta).view(-1, 1, 1) * noise
+        else:
+            x_prev = x_0_pred
+        return x_prev
+class DDIMSampler:
+    def __init__(self, diffusion: Diffusion, ddim_steps: int = 50):
+        self.diffusion = diffusion
+        self.ddim_steps = ddim_steps
+        # 选择均匀分布的时间步，从高到低（从噪声到干净）
+        c = self.diffusion.timesteps // ddim_steps
+        ddim_timesteps = [i * c for i in range(ddim_steps)]
+        self.ddim_timesteps = torch.tensor(list(reversed(ddim_timesteps)))
+    def ddim_step(self, x_t: torch.Tensor, t: int, t_prev: int,
+                  predicted_noise: torch.Tensor, eta: float = 0.0) -> torch.Tensor:
+        """DDIM单步"""
+        alpha_t = self.diffusion.alphas_cumprod[t]
+        alpha_prev = self.diffusion.alphas_cumprod[t_prev] if t_prev >= 0 else torch.tensor(1.0)
+        # 预测 x_0
+        x_0_pred = (x_t - torch.sqrt(1 - alpha_t) * predicted_noise) / torch.sqrt(alpha_t)
+        # 方差
+        sigma = eta * torch.sqrt((1 - alpha_prev) / (1 - alpha_t)) * torch.sqrt(1 - alpha_t / alpha_prev)
+        # DDIM更新
+        dir_xt = torch.sqrt(1 - alpha_prev - sigma ** 2) * predicted_noise
+        if t_prev >= 0:
+            noise = torch.randn_like(x_t)
+            x_prev = torch.sqrt(alpha_prev) * x_0_pred + dir_xt + sigma * noise
+        else:
+            x_prev = x_0_pred
+        return x_prev
+# ==================== 翻译器 ====================
+class Translator:
+    def __init__(self, model_dir: str = "."):
+        self.device = torch.device("cpu")
+        # 配置
+        self.model_config = ModelConfig()
+        self.diffusion_config = DiffusionConfig()
+        # 加载分词器
+        self.zh_tokenizer = Tokenizer.load(os.path.join(model_dir, "tokenizer_zh.json"))
+        self.en_tokenizer = Tokenizer.load(os.path.join(model_dir, "tokenizer_en.json"))
+        # 初始化模型
+        self.embedding = DualLanguageEmbedding(
+            vocab_size_zh=self.zh_tokenizer.vocab_size_actual,
+            vocab_size_en=self.en_tokenizer.vocab_size_actual,
+            d_model=self.model_config.d_model,
+            max_len=self.model_config.max_len,
+            dropout=0.0,
+        )
+        self.output_proj = DualOutputProjection(
+            d_model=self.model_config.d_model,
+            vocab_size_zh=self.zh_tokenizer.vocab_size_actual,
+            vocab_size_en=self.en_tokenizer.vocab_size_actual,
+        )
+        self.model = DualNoisePredictor(
+            d_model=self.model_config.d_model,
+            n_heads=self.model_config.n_heads,
+            n_layers=self.model_config.n_layers,
+            d_ff=self.model_config.d_ff,
+            max_len=self.model_config.max_len,
+            dropout=0.0,
+        )
+        self.switcher = LanguageSwitcher(
+            d_model=self.model_config.d_model,
+            hidden_dim=self.model_config.d_model // 2,
+            dropout=0.0,
+        )
+        self.diffusion = Diffusion(self.diffusion_config)
+        # 加载权重
+        self._load_checkpoint(os.path.join(model_dir, "best.pt"))
+    def _load_checkpoint(self, path: str):
+        state = torch.load(path, map_location=self.device, weights_only=False)
+        self.embedding.load_state_dict(state['embedding'])
+        self.output_proj.load_state_dict(state['output_proj'])
+        self.model.load_state_dict(state['model'])
+        self.switcher.load_state_dict(state['switcher'])
+        print(f"已加载模型: {path}")
+    def _encode(self, text: str, lang: str) -> torch.Tensor:
+        if lang == "zh":
+            ids = self.zh_tokenizer.encode(text, add_sos=True, add_eos=True)
+        else:
+            ids = self.en_tokenizer.encode(text, add_sos=True, add_eos=True)
+        return torch.tensor(ids, dtype=torch.long).unsqueeze(0)
+    def _decode(self, ids: torch.Tensor, lang: str) -> str:
+        ids = ids[0].tolist()
+        if lang == "zh":
+            return self.zh_tokenizer.decode(ids, skip_special=True)
+        else:
+            return self.en_tokenizer.decode(ids, skip_special=True)
+    def _embed_to_tokens(self, x: torch.Tensor, lang: str) -> torch.Tensor:
+        logits = self.output_proj(x, lang)
+        return logits.argmax(dim=-1)
+    @torch.no_grad()
+    def translate(
+        self,
+        text: str,
+        source_lang: str,
+        ddim_steps: int = 50,
+        show_process: bool = False,
+    ) -> Tuple[str, List[str]]:
+        """翻译文本，返回结果和中间过程"""
+        self.model.eval()
+        self.embedding.eval()
+        self.output_proj.eval()
+        self.switcher.eval()
+        target_lang = "en" if source_lang == "zh" else "zh"
+        # 更新DDIM步数
+        self.diffusion_config.ddim_steps = ddim_steps
+        ddim_sampler = DDIMSampler(self.diffusion, ddim_steps)
+        # 编码源语言
+        source_ids = self._encode(text, source_lang)
+        source_len = torch.tensor([source_ids.size(1)])
+        # 嵌入源语言
+        source_emb = self.embedding(source_ids, source_lang, source_len)
+        # 前向扩散到纯噪声
+        batch_size = source_emb.size(0)
+        t_full = torch.full((batch_size,), self.diffusion_config.timesteps - 1, dtype=torch.long)
+        noise = torch.randn_like(source_emb)
+        x_t, _ = self.diffusion.q_sample(source_emb, t_full, noise)
+        # DDIM反向扩散
+        timesteps = ddim_sampler.ddim_timesteps
+        total_steps = len(timesteps)
+        switch_point = total_steps // 2
+        process_steps = []
+        for i, t in enumerate(timesteps[:-1]):
+            t_prev = timesteps[i + 1]
+            # 语言切换
+            if i < switch_point:
+                current_lang = source_lang
+            else:
+                current_lang = target_lang
+            # 预测噪声
+            t_tensor = torch.full((x_t.size(0),), t.item(), dtype=torch.long)
+            predicted_noise = self.model(x_t, t_tensor, lang=current_lang)
+            # 记录过程
+            if show_process and i % max(1, total_steps // 10) == 0:
+                current_ids = self._embed_to_tokens(x_t, current_lang)
+                current_text = self._decode(current_ids, current_lang)
+                process_steps.append(f"Step {t.item()}: {current_text[:50]}")
+            # DDIM步骤
+            x_t = ddim_sampler.ddim_step(x_t, t.item(), t_prev.item(), predicted_noise, eta=0.0)
+        # 最终解码
+        final_ids = self._embed_to_tokens(x_t, target_lang)
+        result = self._decode(final_ids, target_lang)
+        return result, process_steps
+# ==================== Gradio 应用 ====================
+def create_app():
+    # 加载模型
+    print("正在加载模型...")
+    # 使用脚本所在目录作为模型目录
+    script_dir = os.path.dirname(os.path.abspath(__file__))
+    translator = Translator(model_dir=script_dir)
+    print("模型加载完成!")
+    def translate_text(text: str, language: str, ddim_steps: int, show_process: bool):
+        if not text.strip():
+            return "", []
+        # 自动检测或手动选择
+        if language == "自动检测":
+            if any('\u4e00' <= c <= '\u9fff' for c in text):
+                source_lang = "zh"
+            else:
+                source_lang = "en"
+        else:
+            source_lang = "zh" if language == "中文 → 英文" else "en"
+        try:
+            result, process = translator.translate(
+                text, source_lang, ddim_steps, show_process
+            )
+            process_text = "\n".join(process) if process else "（过程未显示）"
+            return result, process_text
+        except Exception as e:
+            return f"翻译出错: {str(e)}", ""
+    # 创建界面
+    with gr.Blocks(
+        title="Diffutslator",
+        theme=gr.themes.Soft(),
+        css="""
+        .output-box { min-height: 100px; }
+        .process-box { font-family: monospace; font-size: 12px; }
+        """
+    ) as app:
+        gr.Markdown(
+            """
+            # Diffutslator 扩散翻译器
+            基于扩散模型的机器翻译系统，可视化翻译过程中的语言渐变。
+            """
+        )
+        with gr.Row():
+            with gr.Column(scale=2):
+                input_text = gr.Textbox(
+                    label="输入文本",
+                    placeholder="输入要翻译的中文或英文...",
+                    lines=5,
+                )
+                with gr.Row():
+                    language = gr.Dropdown(
+                        choices=["自动检测", "中文 → 英文", "英文 → 中文"],
+                        value="自动检测",
+                        label="翻译方向",
+                    )
+                    ddim_steps = gr.Slider(
+                        minimum=10,
+                        maximum=100,
+                        value=50,
+                        step=5,
+                        label="DDIM步数",
+                        info="步数越多质量越高，速度越慢",
+                    )
+                show_process = gr.Checkbox(
+                    value=False,
+                    label="显示扩散过程",
+                    info="显示翻译中间步骤（会增加推理时间）",
+                )
+                translate_btn = gr.Button("翻译", variant="primary", size="lg")
+            with gr.Column(scale=2):
+                output_text = gr.Textbox(
+                    label="翻译结果",
+                    lines=5,
+                    interactive=False,
+                    elem_classes=["output-box"],
+                )
+                process_text = gr.Textbox(
+                    label="扩散过程",
+                    lines=5,
+                    interactive=False,
+                    visible=False,
+                    elem_classes=["process-box"],
+                )
+        # 示例
+        gr.Examples(
+            examples=[
+                ["你好，世界！", "自动检测"],
+                ["Hello, how are you today?", "自动检测"],
+                ["机器学习正在改变世界。", "中文 → 英文"],
+                ["The quick brown fox jumps over the lazy dog.", "英文 → 中文"],
+            ],
+            inputs=[input_text, language],
+        )
+        # 事件处理
+        def toggle_process(show):
+            return gr.Textbox(visible=show)
+        show_process.change(
+            fn=toggle_process,
+            inputs=[show_process],
+            outputs=[process_text],
+        )
+        translate_btn.click(
+            fn=translate_text,
+            inputs=[input_text, language, ddim_steps, show_process],
+            outputs=[output_text, process_text],
+        )
+        # 回车提交
+        input_text.submit(
+            fn=translate_text,
+            inputs=[input_text, language, ddim_steps, show_process],
+            outputs=[output_text, process_text],
+        )
+    return app
+if __name__ == "__main__":
+    app = create_app()
+    app.launch()

hfspace/best.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:283c995651aa11ebde09858ad5002cd932c1dd6dd5ede16be733c16cbb5c4c55
+size 47986610

hfspace/requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gradio>=4.0.0
2	+ torch>=2.0.0

hfspace/tokenizer_en.json ADDED Viewed

The diff for this file is too large to render. See raw diff

hfspace/tokenizer_zh.json ADDED Viewed

	@@ -0,0 +1,5631 @@

+{
+  "vocab_size": 8000,
+  "lang": "zh",
+  "token_to_id": {
+    "<pad>": 0,
+    "<sos>": 1,
+    "<eos>": 2,
+    "<unk>": 3,
+    "<mask>": 4,
+    "!</w>": 5,
+    "\"</w>": 6,
+    ",</w>": 7,
+    ".</w>": 8,
+    "0</w>": 9,
+    "10": 10,
+    "100</w>": 11,
+    "10</w>": 12,
+    "18": 13,
+    "18</w>": 14,
+    "1</w>": 15,
+    "20</w>": 16,
+    "21</w>": 17,
+    "2</w>": 18,
+    "3</w>": 19,
+    "40</w>": 20,
+    "56</w>": 21,
+    "5</w>": 22,
+    "6</w>": 23,
+    "7</w>": 24,
+    "?</w>": 25,
+    "ali": 26,
+    "alice</w>": 27,
+    "ancy</w>": 28,
+    "ce</w>": 29,
+    "cy</w>": 30,
+    "e</w>": 31,
+    "el": 32,
+    "iel": 33,
+    "ir": 34,
+    "ja": 35,
+    "jac": 36,
+    "jack</w>": 37,
+    "jake</w>": 38,
+    "k</w>": 39,
+    "ka": 40,
+    "kate</w>": 41,
+    "ke": 42,
+    "ke</w>": 43,
+    "ken</w>": 44,
+    "li": 45,
+    "m</w>": 46,
+    "muir": 47,
+    "muiriel": 48,
+    "muiriel</w>": 49,
+    "n</w>": 50,
+    "nancy</w>": 51,
+    "ncy</w>": 52,
+    "om</w>": 53,
+    "te</w>": 54,
+    "tom</w>": 55,
+    "uir": 56,
+    "y</w>": 57,
+    "“</w>": 58,
+    "”</w>": 59,
+    "…</w>": 60,
+    "、</w>": 61,
+    "。</w>": 62,
+    "一</w>": 63,
+    "七</w>": 64,
+    "万</w>": 65,
+    "三</w>": 66,
+    "上</w>": 67,
+    "下</w>": 68,
+    "不</w>": 69,
+    "丑</w>": 70,
+    "世</w>": 71,
+    "业</w>": 72,
+    "两</w>": 73,
+    "严</w>": 74,
+    "个</w>": 75,
+    "中</w>": 76,
+    "丰</w>": 77,
+    "为</w>": 78,
+    "举</w>": 79,
+    "久</w>": 80,
+    "么</w>": 81,
+    "义</w>": 82,
+    "之</w>": 83,
+    "乎</w>": 84,
+    "乐</w>": 85,
+    "乘</w>": 86,
+    "九</w>": 87,
+    "也</w>": 88,
+    "习</w>": 89,
+    "书</w>": 90,
+    "买</w>": 91,
+    "了</w>": 92,
+    "予</w>": 93,
+    "争</w>": 94,
+    "事</w>": 95,
+    "于</w>": 96,
+    "互</w>": 97,
+    "些</w>": 98,
+    "交</w>": 99,
+    "亲</w>": 100,
+    "人</w>": 101,
+    "什</w>": 102,
+    "仅</w>": 103,
+    "今</w>": 104,
+    "从</w>": 105,
+    "他</w>": 106,
+    "付</w>": 107,
+    "代</w>": 108,
+    "以</w>": 109,
+    "仪</w>": 110,
+    "们</w>": 111,
+    "件</w>": 112,
+    "价</w>": 113,
+    "任</w>": 114,
+    "份</w>": 115,
+    "休</w>": 116,
+    "众</w>": 117,
+    "会</w>": 118,
+    "伟</w>": 119,
+    "传</w>": 120,
+    "伦</w>": 121,
+    "似</w>": 122,
+    "但</w>": 123,
+    "位</w>": 124,
+    "低</w>": 125,
+    "住</w>": 126,
+    "体</w>": 127,
+    "何</w>": 128,
+    "作</w>": 129,
+    "你</w>": 130,
+    "使</w>": 131,
+    "來</w>": 132,
+    "例</w>": 133,
+    "保</w>": 134,
+    "信</w>": 135,
+    "俱</w>": 136,
+    "個</w>": 137,
+    "們</w>": 138,
+    "候</w>": 139,
+    "借</w>": 140,
+    "倦</w>": 141,
+    "债</w>": 142,
+    "值</w>": 143,
+    "假</w>": 144,
+    "偏</w>": 145,
+    "做</w>": 146,
+    "停</w>": 147,
+    "偶</w>": 148,
+    "偷</w>": 149,
+    "像</w>": 150,
+    "僵</w>": 151,
+    "儿</w>": 152,
+    "元</w>": 153,
+    "先</w>": 154,
+    "光</w>": 155,
+    "克</w>": 156,
+    "免</w>": 157,
+    "兔</w>": 158,
+    "入</w>": 159,
+    "全</w>": 160,
+    "公</w>": 161,
+    "六</w>": 162,
+    "兰</w>": 163,
+    "关</w>": 164,
+    "兴</w>": 165,
+    "其</w>": 166,
+    "兼</w>": 167,
+    "内</w>": 168,
+    "再</w>": 169,
+    "冒</w>": 170,
+    "写</w>": 171,
+    "冰</w>": 172,
+    "冲</w>": 173,
+    "决</w>": 174,
+    "况</w>": 175,
+    "冷</w>": 176,
+    "准</w>": 177,
+    "几</w>": 178,
+    "出</w>": 179,
+    "分</w>": 180,
+    "切</w>": 181,
+    "划</w>": 182,
+    "则</w>": 183,
+    "创</w>": 184,
+    "利</w>": 185,
+    "到</w>": 186,
+    "制</w>": 187,
+    "前</w>": 188,
+    "劃</w>": 189,
+    "力</w>": 190,
+    "办</w>": 191,
+    "功</w>": 192,
+    "加</w>": 193,
+    "务</w>": 194,
+    "动</w>": 195,
+    "助</w>": 196,
+    "努</w>": 197,
+    "劳</w>": 198,
+    "勃</w>": 199,
+    "包</w>": 200,
+    "化</w>": 201,
+    "医</w>": 202,
+    "十</w>": 203,
+    "千</w>": 204,
+    "升</w>": 205,
+    "午</w>": 206,
+    "半</w>": 207,
+    "华</w>": 208,
+    "单</w>": 209,
+    "卖</w>": 210,
+    "卫</w>": 211,
+    "危</w>": 212,
+    "即</w>": 213,
+    "却</w>": 214,
+    "历</w>": 215,
+    "厌</w>": 216,
+    "厕</w>": 217,
+    "去</w>": 218,
+    "参</w>": 219,
+    "又</w>": 220,
+    "友</w>": 221,
+    "反</w>": 222,
+    "发</w>": 223,
+    "叔</w>": 224,
+    "取</w>": 225,
+    "受</w>": 226,
+    "变</w>": 227,
+    "口</w>": 228,
+    "古</w>": 229,
+    "另</w>": 230,
+    "只</w>": 231,
+    "叫</w>": 232,
+    "可</w>": 233,
+    "史</w>": 234,
+    "右</w>": 235,
+    "号</w>": 236,
+    "吃</w>": 237,
+    "��</w>": 238,
+    "同</w>": 239,
+    "名</w>": 240,
+    "后</w>": 241,
+    "向</w>": 242,
+    "吗</w>": 243,
+    "吧</w>": 244,
+    "听</w>": 245,
+    "告</w>": 246,
+    "员</w>": 247,
+    "呢</w>": 248,
+    "周</w>": 249,
+    "味</w>": 250,
+    "命</w>": 251,
+    "和</w>": 252,
+    "咖</w>": 253,
+    "品</w>": 254,
+    "响</w>": 255,
+    "哥</w>": 256,
+    "哦</w>": 257,
+    "哪</w>": 258,
+    "售</w>": 259,
+    "唯</w>": 260,
+    "唱</w>": 261,
+    "啊</w>": 262,
+    "問</w>": 263,
+    "啡</w>": 264,
+    "喜</w>": 265,
+    "喝</w>": 266,
+    "嗨</w>": 267,
+    "囚</w>": 268,
+    "回</w>": 269,
+    "因</w>": 270,
+    "团</w>": 271,
+    "园</w>": 272,
+    "困</w>": 273,
+    "国</w>": 274,
+    "图</w>": 275,
+    "圈</w>": 276,
+    "國</w>": 277,
+    "圣</w>": 278,
+    "在</w>": 279,
+    "地</w>": 280,
+    "场</w>": 281,
+    "坐</w>": 282,
+    "块</w>": 283,
+    "坚</w>": 284,
+    "城</w>": 285,
+    "堡</w>": 286,
+    "增</w>": 287,
+    "士</w>": 288,
+    "声</w>": 289,
+    "处</w>": 290,
+    "备</w>": 291,
+    "复</w>": 292,
+    "夏</w>": 293,
+    "外</w>": 294,
+    "多</w>": 295,
+    "夜</w>": 296,
+    "够</w>": 297,
+    "大</w>": 298,
+    "天</w>": 299,
+    "太</w>": 300,
+    "失</w>": 301,
+    "头</w>": 302,
+    "奇</w>": 303,
+    "奶</w>": 304,
+    "她</w>": 305,
+    "好</w>": 306,
+    "如</w>": 307,
+    "妈</w>": 308,
+    "妹</w>": 309,
+    "妻</w>": 310,
+    "始</w>": 311,
+    "姐</w>": 312,
+    "威</w>": 313,
+    "婚</w>": 314,
+    "子</w>": 315,
+    "字</w>": 316,
+    "季</w>": 317,
+    "学</w>": 318,
+    "孩</w>": 319,
+    "學</w>": 320,
+    "它</w>": 321,
+    "宇</w>": 322,
+    "守</w>": 323,
+    "安</w>": 324,
+    "完</w>": 325,
+    "宙</w>": 326,
+    "定</w>": 327,
+    "宝</w>": 328,
+    "实</w>": 329,
+    "客</w>": 330,
+    "宣</w>": 331,
+    "室</w>": 332,
+    "宵</w>": 333,
+    "家</w>": 334,
+    "寄</w>": 335,
+    "密</w>": 336,
+    "富</w>": 337,
+    "对</w>": 338,
+    "寻</w>": 339,
+    "将</w>": 340,
+    "尊</w>": 341,
+    "小</w>": 342,
+    "少</w>": 343,
+    "就</w>": 344,
+    "尼</w>": 345,
+    "局</w>": 346,
+    "屈</w>": 347,
+    "属</w>": 348,
+    "山</w>": 349,
+    "岁</w>": 350,
+    "岩</w>": 351,
+    "工</w>": 352,
+    "己</w>": 353,
+    "已</w>": 354,
+    "市</w>": 355,
+    "布</w>": 356,
+    "师</w>": 357,
+    "帖</w>": 358,
+    "带</w>": 359,
+    "席</w>": 360,
+    "帮</w>": 361,
+    "常</w>": 362,
+    "帽</w>": 363,
+    "干</w>": 364,
+    "平</w>": 365,
+    "年</w>": 366,
+    "幸</w>": 367,
+    "幹</w>": 368,
+    "广</w>": 369,
+    "庄</w>": 370,
+    "庆</w>": 371,
+    "床</w>": 372,
+    "应</w>": 373,
+    "底</w>": 374,
+    "庙</w>": 375,
+    "庞</w>": 376,
+    "度</w>": 377,
+    "座</w>": 378,
+    "庭</w>": 379,
+    "延</w>": 380,
+    "建</w>": 381,
+    "开</w>": 382,
+    "弃</w>": 383,
+    "式</w>": 384,
+    "弟</w>": 385,
+    "张</w>": 386,
+    "張</w>": 387,
+    "强</w>": 388,
+    "当</w>": 389,
+    "影</w>": 390,
+    "彻</w>": 391,
+    "往</w>": 392,
+    "径</w>": 393,
+    "待</w>": 394,
+    "很</w>": 395,
+    "後</w>": 396,
+    "徒</w>": 397,
+    "得</w>": 398,
+    "從</w>": 399,
+    "微</w>": 400,
+    "德</w>": 401,
+    "心</w>": 402,
+    "必</w>": 403,
+    "志</w>": 404,
+    "忙</w>": 405,
+    "快</w>": 406,
+    "念</w>": 407,
+    "怀</w>": 408,
+    "怎</w>": 409,
+    "急</w>": 410,
+    "总</w>": 411,
+    "息</w>": 412,
+    "悔</w>": 413,
+    "情</w>": 414,
+    "惊</w>": 415,
+    "惜</w>": 416,
+    "惡</w>": 417,
+    "想</w>": 418,
+    "愉</w>": 419,
+    "意</w>": 420,
+    "感</w>": 421,
+    "慢</w>": 422,
+    "應</w>": 423,
+    "戏</w>": 424,
+    "成</w>": 425,
+    "我</w>": 426,
+    "戒</w>": 427,
+    "或</w>": 428,
+    "戴</w>": 429,
+    "户</w>": 430,
+    "房</w>": 431,
+    "所</w>": 432,
+    "扇</w>": 433,
+    "手</w>": 434,
+    "才</w>": 435,
+    "打</w>": 436,
+    "托</w>": 437,
+    "扰</w>": 438,
+    "批</w>": 439,
+    "找</w>": 440,
+    "把</w>": 441,
+    "抓</w>": 442,
+    "护</w>": 443,
+    "报</w>": 444,
+    "抱</w>": 445,
+    "拆</w>": 446,
+    "拉</w>": 447,
+    "拜</w>": 448,
+    "拥</w>": 449,
+    "择</w>": 450,
+    "持</w>": 451,
+    "指</w>": 452,
+    "按</w>": 453,
+    "挑</w>": 454,
+    "挤</w>": 455,
+    "挥</w>": 456,
+    "据</w>": 457,
+    "接</w>": 458,
+    "推</w>": 459,
+    "措</w>": 460,
+    "揉</w>": 461,
+    "插</w>": 462,
+    "揭</w>": 463,
+    "携</w>": 464,
+    "摄</w>": 465,
+    "摇</w>": 466,
+    "摩</w>": 467,
+    "撒</w>": 468,
+    "播</w>": 469,
+    "擔</w>": 470,
+    "支</w>": 471,
+    "收</w>": 472,
+    "改</w>": 473,
+    "放</w>": 474,
+    "故</w>": 475,
+    "救</w>": 476,
+    "教</w>": 477,
+    "散</w>": 478,
+    "敦</w>": 479,
+    "敬</w>": 480,
+    "数</w>": 481,
+    "整</w>": 482,
+    "斯</w>": 483,
+    "新</w>": 484,
+    "方</w>": 485,
+    "施</w>": 486,
+    "旅</w>": 487,
+    "无</w>": 488,
+    "日</w>": 489,
+    "旦</w>": 490,
+    "早</w>": 491,
+    "时</w>": 492,
+    "明</w>": 493,
+    "星</w>": 494,
+    "昨</w>": 495,
+    "是</w>": 496,
+    "時</w>": 497,
+    "晃</w>": 498,
+    "晚</w>": 499,
+    "景</w>": 500,
+    "更</w>": 501,
+    "曾</w>": 502,
+    "最</w>": 503,
+    "會</w>": 504,
+    "月</w>": 505,
+    "有</w>": 506,
+    "朋</w>": 507,
+    "服</w>": 508,
+    "望</w>": 509,
+    "朝</w>": 510,
+    "期</w>": 511,
+    "本</w>": 512,
+    "术</w>": 513,
+    "机</w>": 514,
+    "杀</w>": 515,
+    "杂</w>": 516,
+    "权</w>": 517,
+    "村</w>": 518,
+    "条</w>": 519,
+    "来</w>": 520,
+    "杯</w>": 521,
+    "杰</w>": 522,
+    "松</w>": 523,
+    "果</w>": 524,
+    "架</w>": 525,
+    "某</w>": 526,
+    "标</w>": 527,
+    "栋</w>": 528,
+    "校</w>": 529,
+    "样</w>": 530,
+    "格</w>": 531,
+    "桌</w>": 532,
+    "桥</w>": 533,
+    "楼</w>": 534,
+    "概</w>": 535,
+    "樣</w>": 536,
+    "欠</w>": 537,
+    "次</w>": 538,
+    "欢</w>": 539,
+    "欲</w>": 540,
+    "款</w>": 541,
+    "歉</w>": 542,
+    "歌</w>": 543,
+    "歐</w>": 544,
+    "歡</w>": 545,
+    "止</w>": 546,
+    "正</w>": 547,
+    "步</w>": 548,
+    "死</w>": 549,
+    "段</w>": 550,
+    "母</w>": 551,
+    "每</w>": 552,
+    "比</w>": 553,
+    "毕</w>": 554,
+    "毛</w>": 555,
+    "毫</w>": 556,
+    "气</w>": 557,
+    "水</w>": 558,
+    "永</w>": 559,
+    "池</w>": 560,
+    "汽</w>": 561,
+    "沒</w>": 562,
+    "没</w>": 563,
+    "河</w>": 564,
+    "沸</w>": 565,
+    "油</w>": 566,
+    "沿</w>": 567,
+    "法</w>": 568,
+    "泪</w>": 569,
+    "泳</w>": 570,
+    "洗</w>": 571,
+    "津</w>": 572,
+    "活</w>": 573,
+    "派</w>": 574,
+    "流</w>": 575,
+    "济</w>": 576,
+    "消</w>": 577,
+    "涌</w>": 578,
+    "涨</w>": 579,
+    "清</w>": 580,
+    "温</w>": 581,
+    "港</w>": 582,
+    "游</w>": 583,
+    "湖</w>": 584,
+    "溜</w>": 585,
+    "滑</w>": 586,
+    "满</w>": 587,
+    "演</w>": 588,
+    "澄</w>": 589,
+    "澡</w>": 590,
+    "火</w>": 591,
+    "灯</w>": 592,
+    "灰</w>": 593,
+    "点</w>": 594,
+    "烟</w>": 595,
+    "烦</w>": 596,
+    "热</w>": 597,
+    "然</w>": 598,
+    "照</w>": 599,
+    "爱</w>": 600,
+    "父</w>": 601,
+    "爸</w>": 602,
+    "片</w>": 603,
+    "牛</w>": 604,
+    "物</w>": 605,
+    "狗</w>": 606,
+    "独</w>": 607,
+    "猫</w>": 608,
+    "王</w>": 609,
+    "玩</w>": 610,
+    "环</w>": 611,
+    "现</w>": 612,
+    "班</w>": 613,
+    "球</w>": 614,
+    "理</w>": 615,
+    "生</w>": 616,
+    "用</w>": 617,
+    "由</w>": 618,
+    "电</w>": 619,
+    "男</w>": 620,
+    "界</w>": 621,
+    "留</w>": 622,
+    "當</w>": 623,
+    "疑</w>": 624,
+    "疯</w>": 625,
+    "病</w>": 626,
+    "痛</w>": 627,
+    "瘋</w>": 628,
+    "發</w>": 629,
+    "白</w>": 630,
+    "百</w>": 631,
+    "的</w>": 632,
+    "盐</w>": 633,
+    "盖</w>": 634,
+    "盛</w>": 635,
+    "目</w>": 636,
+    "直</w>": 637,
+    "相</w>": 638,
+    "盹</w>": 639,
+    "看</w>": 640,
+    "真</w>": 641,
+    "眠</w>": 642,
+    "眼</w>": 643,
+    "着</w>": 644,
+    "睛</w>": 645,
+    "睡</w>": 646,
+    "知</w>": 647,
+    "短</w>": 648,
+    "石</w>": 649,
+    "码</w>": 650,
+    "破</w>": 651,
+    "确</w>": 652,
+    "碎</w>": 653,
+    "示</w>": 654,
+    "社</w>": 655,
+    "祝</w>": 656,
+    "神</w>": 657,
+    "票</w>": 658,
+    "福</w>": 659,
+    "离</w>": 660,
+    "私</w>": 661,
+    "种</w>": 662,
+    "秘</w>": 663,
+    "移</w>": 664,
+    "程</w>": 665,
+    "空</w>": 666,
+    "窗</w>": 667,
+    "窜</w>": 668,
+    "站</w>": 669,
+    "童</w>": 670,
+    "笑</w>": 671,
+    "笔</w>": 672,
+    "笛</w>": 673,
+    "第</w>": 674,
+    "笼</w>": 675,
+    "等</w>": 676,
+    "筑</w>": 677,
+    "答</w>": 678,
+    "简</w>": 679,
+    "籍</w>": 680,
+    "粗</w>": 681,
+    "精</w>": 682,
+    "糕</w>": 683,
+    "糟</w>": 684,
+    "素</w>": 685,
+    "索</w>": 686,
+    "給</w>": 687,
+    "經</w>": 688,
+    "總</w>": 689,
+    "红</w>": 690,
+    "纪</w>": 691,
+    "纯</w>": 692,
+    "纸</w>": 693,
+    "线</w>": 694,
+    "绅</w>": 695,
+    "终</w>": 696,
+    "经</w>": 697,
+    "结</w>": 698,
+    "给</w>": 699,
+    "统</w>": 700,
+    "绿</w>": 701,
+    "缺</w>": 702,
+    "网</w>": 703,
+    "罗</w>": 704,
+    "罚</w>": 705,
+    "置</w>": 706,
+    "美</w>": 707,
+    "群</w>": 708,
+    "習</w>": 709,
+    "老</w>": 710,
+    "考</w>": 711,
+    "者</w>": 712,
+    "而</w>": 713,
+    "耍</w>": 714,
+    "耗</w>": 715,
+    "职</w>": 716,
+    "肯</w>": 717,
+    "胖</w>": 718,
+    "能</w>": 719,
+    "脑</w>": 720,
+    "脚</w>": 721,
+    "脸</w>": 722,
+    "腾</w>": 723,
+    "腿</w>": 724,
+    "自</w>": 725,
+    "至</w>": 726,
+    "船</w>": 727,
+    "艰</w>": 728,
+    "色</w>": 729,
+    "艺</w>": 730,
+    "花</w>": 731,
+    "苏</w>": 732,
+    "英</w>": 733,
+    "茶</w>": 734,
+    "药</w>": 735,
+    "落</w>": 736,
+    "著</w>": 737,
+    "虑</w>": 738,
+    "虾</w>": 739,
+    "蜂</w>": 740,
+    "蝴</w>": 741,
+    "蝶</w>": 742,
+    "蠢</w>": 743,
+    "血</w>": 744,
+    "行</w>": 745,
+    "衣</w>": 746,
+    "表</w>": 747,
+    "被</w>": 748,
+    "裡</w>": 749,
+    "要</w>": 750,
+    "覆</w>": 751,
+    "覺</w>": 752,
+    "见</w>": 753,
+    "观</w>": 754,
+    "规</w>": 755,
+    "视</w>": 756,
+    "觉</w>": 757,
+    "解</w>": 758,
+    "言</w>": 759,
+    "計</w>": 760,
+    "試</w>": 761,
+    "話</w>": 762,
+    "該</w>": 763,
+    "誓</w>": 764,
+    "說</w>": 765,
+    "請</w>": 766,
+    "讀</w>": 767,
+    "變</w>": 768,
+    "计</w>": 769,
+    "订</w>": 770,
+    "认</w>": 771,
+    "让</w>": 772,
+    "训</w>": 773,
+    "议</w>": 774,
+    "记</w>": 775,
+    "讲</w>": 776,
+    "讶</w>": 777,
+    "许</w>": 778,
+    "论</w>": 779,
+    "设</w>": 780,
+    "访</w>": 781,
+    "证</w>": 782,
+    "评</w>": 783,
+    "识</w>": 784,
+    "诉</w>": 785,
+    "试</w>": 786,
+    "诗</w>": 787,
+    "诚</w>": 788,
+    "话</w>": 789,
+    "该</w>": 790,
+    "语</w>": 791,
+    "误</w>": 792,
+    "说</w>": 793,
+    "请</w>": 794,
+    "诺</w>": 795,
+    "读</w>": 796,
+    "课</w>": 797,
+    "谁</w>": 798,
+    "谈</w>": 799,
+    "谎</w>": 800,
+    "谢</w>": 801,
+    "象</w>": 802,
+    "賺</w>": 803,
+    "负</w>": 804,
+    "货</w>": 805,
+    "购</w>": 806,
+    "贷</w>": 807,
+    "费</w>": 808,
+    "赛</w>": 809,
+    "赢</w>": 810,
+    "走</w>": 811,
+    "赶</w>": 812,
+    "起</w>": 813,
+    "趕</w>": 814,
+    "趣</w>": 815,
+    "足</w>": 816,
+    "跑</w>": 817,
+    "跟</w>": 818,
+    "路</w>": 819,
+    "踢</w>": 820,
+    "躲</w>": 821,
+    "較</w>": 822,
+    "车</w>": 823,
+    "轨</w>": 824,
+    "转</w>": 825,
+    "轻</w>": 826,
+    "较</w>": 827,
+    "辆</w>": 828,
+    "辈</w>": 829,
+    "辜</w>": 830,
+    "辩</w>": 831,
+    "达</w>": 832,
+    "迅</w>": 833,
+    "过</w>": 834,
+    "近</w>": 835,
+    "还</w>": 836,
+    "这</w>": 837,
+    "进</w>": 838,
+    "远</w>": 839,
+    "迟</w>": 840,
+    "述</w>": 841,
+    "迷</w>": 842,
+    "迹</w>": 843,
+    "送</w>": 844,
+    "适</w>": 845,
+    "逃</w>": 846,
+    "选</w>": 847,
+    "透</w>": 848,
+    "递</w>": 849,
+    "途</w>": 850,
+    "這</w>": 851,
+    "通</w>": 852,
+    "速</w>": 853,
+    "造</w>": 854,
+    "進</w>": 855,
+    "過</w>": 856,
+    "道</w>": 857,
+    "遛</w>": 858,
+    "遠</w>": 859,
+    "邀</w>": 860,
+    "那</w>": 861,
+    "邻</w>": 862,
+    "部</w>": 863,
+    "都</w>": 864,
+    "酒</w>": 865,
+    "采</w>": 866,
+    "里</w>": 867,
+    "重</w>": 868,
+    "金</w>": 869,
+    "钟</w>": 870,
+    "钱</w>": 871,
+    "铁</w>": 872,
+    "铃</w>": 873,
+    "铭</w>": 874,
+    "银</w>": 875,
+    "销</w>": 876,
+    "错</w>": 877,
+    "镜</w>": 878,
+    "長</w>": 879,
+    "长</w>": 880,
+    "間</w>": 881,
+    "问</w>": 882,
+    "间</w>": 883,
+    "闻</w>": 884,
+    "阅</w>": 885,
+    "阐</w>": 886,
+    "防</w>": 887,
+    "阳</w>": 888,
+    "附</w>": 889,
+    "限</w>": 890,
+    "除</w>": 891,
+    "险</w>": 892,
+    "随</w>": 893,
+    "隻</w>": 894,
+    "难</w>": 895,
+    "雨</w>": 896,
+    "雪</w>": 897,
+    "零</w>": 898,
+    "雹</w>": 899,
+    "需</w>": 900,
+    "震</w>": 901,
+    "露</w>": 902,
+    "非</w>": 903,
+    "靠</w>": 904,
+    "面</w>": 905,
+    "音</w>": 906,
+    "題</w>": 907,
+    "项</w>": 908,
+    "须</w>": 909,
+    "顾</w>": 910,
+    "预</w>": 911,
+    "题</w>": 912,
+    "风</w>": 913,
+    "飞</w>": 914,
+    "食</w>": 915,
+    "餐</w>": 916,
+    "饭</w>": 917,
+    "饿</w>": 918,
+    "首</w>": 919,
+    "马</w>": 920,
+    "驶</w>": 921,
+    "验</w>": 922,
+    "骑</w>": 923,
+    "骗</w>": 924,
+    "高</w>": 925,
+    "鬼</w>": 926,
+    "鱼</w>": 927,
+    "鲍</w>": 928,
+    "鲜</w>": 929,
+    "麻</w>": 930,
+    "麼</w>": 931,
+    "點</w>": 932,
+    "鼠</w>": 933,
+    "龙</w>": 934,
+    "﹐</w>": 935,
+    "！</w>": 936,
+    "，</w>": 937,
+    "？</w>": 938
+  },
+  "id_to_token": {
+    "0": "<pad>",
+    "1": "<sos>",
+    "2": "<eos>",
+    "3": "<unk>",
+    "4": "<mask>",
+    "5": "!</w>",
+    "6": "\"</w>",
+    "7": ",</w>",
+    "8": ".</w>",
+    "9": "0</w>",
+    "10": "10",
+    "11": "100</w>",
+    "12": "10</w>",
+    "13": "18",
+    "14": "18</w>",
+    "15": "1</w>",
+    "16": "20</w>",
+    "17": "21</w>",
+    "18": "2</w>",
+    "19": "3</w>",
+    "20": "40</w>",
+    "21": "56</w>",
+    "22": "5</w>",
+    "23": "6</w>",
+    "24": "7</w>",
+    "25": "?</w>",
+    "26": "ali",
+    "27": "alice</w>",
+    "28": "ancy</w>",
+    "29": "ce</w>",
+    "30": "cy</w>",
+    "31": "e</w>",
+    "32": "el",
+    "33": "iel",
+    "34": "ir",
+    "35": "ja",
+    "36": "jac",
+    "37": "jack</w>",
+    "38": "jake</w>",
+    "39": "k</w>",
+    "40": "ka",
+    "41": "kate</w>",
+    "42": "ke",
+    "43": "ke</w>",
+    "44": "ken</w>",
+    "45": "li",
+    "46": "m</w>",
+    "47": "muir",
+    "48": "muiriel",
+    "49": "muiriel</w>",
+    "50": "n</w>",
+    "51": "nancy</w>",
+    "52": "ncy</w>",
+    "53": "om</w>",
+    "54": "te</w>",
+    "55": "tom</w>",
+    "56": "uir",
+    "57": "y</w>",
+    "58": "“</w>",
+    "59": "”</w>",
+    "60": "…</w>",
+    "61": "、</w>",
+    "62": "。</w>",
+    "63": "一</w>",
+    "64": "七</w>",
+    "65": "万</w>",
+    "66": "三</w>",
+    "67": "上</w>",
+    "68": "下</w>",
+    "69": "不</w>",
+    "70": "丑</w>",
+    "71": "世</w>",
+    "72": "业</w>",
+    "73": "两</w>",
+    "74": "严</w>",
+    "75": "个</w>",
+    "76": "中</w>",
+    "77": "丰</w>",
+    "78": "为</w>",
+    "79": "举</w>",
+    "80": "久</w>",
+    "81": "么</w>",
+    "82": "义</w>",
+    "83": "之</w>",
+    "84": "乎</w>",
+    "85": "乐</w>",
+    "86": "乘</w>",
+    "87": "九</w>",
+    "88": "也</w>",
+    "89": "习</w>",
+    "90": "书</w>",
+    "91": "买</w>",
+    "92": "了</w>",
+    "93": "予</w>",
+    "94": "争</w>",
+    "95": "事</w>",
+    "96": "于</w>",
+    "97": "互</w>",
+    "98": "些</w>",
+    "99": "交</w>",
+    "100": "亲</w>",
+    "101": "人</w>",
+    "102": "什</w>",
+    "103": "仅</w>",
+    "104": "今</w>",
+    "105": "从</w>",
+    "106": "他</w>",
+    "107": "付</w>",
+    "108": "代</w>",
+    "109": "以</w>",
+    "110": "仪</w>",
+    "111": "们</w>",
+    "112": "件</w>",
+    "113": "价</w>",
+    "114": "任</w>",
+    "115": "份</w>",
+    "116": "休</w>",
+    "117": "众</w>",
+    "118": "会</w>",
+    "119": "伟</w>",
+    "120": "传</w>",
+    "121": "伦</w>",
+    "122": "似</w>",
+    "123": "但</w>",
+    "124": "位</w>",
+    "125": "低</w>",
+    "126": "住</w>",
+    "127": "体</w>",
+    "128": "何</w>",
+    "129": "作</w>",
+    "130": "你</w>",
+    "131": "使</w>",
+    "132": "來</w>",
+    "133": "例</w>",
+    "134": "保</w>",
+    "135": "信</w>",
+    "136": "俱</w>",
+    "137": "個</w>",
+    "138": "們</w>",
+    "139": "候</w>",
+    "140": "借</w>",
+    "141": "倦</w>",
+    "142": "债</w>",
+    "143": "值</w>",
+    "144": "假</w>",
+    "145": "偏</w>",
+    "146": "做</w>",
+    "147": "停</w>",
+    "148": "偶</w>",
+    "149": "偷</w>",
+    "150": "像</w>",
+    "151": "僵</w>",
+    "152": "儿</w>",
+    "153": "元</w>",
+    "154": "先</w>",
+    "155": "光</w>",
+    "156": "克</w>",
+    "157": "免</w>",
+    "158": "兔</w>",
+    "159": "入</w>",
+    "160": "全</w>",
+    "161": "公</w>",
+    "162": "六</w>",
+    "163": "兰</w>",
+    "164": "关</w>",
+    "165": "兴</w>",
+    "166": "其</w>",
+    "167": "兼</w>",
+    "168": "内</w>",
+    "169": "再</w>",
+    "170": "冒</w>",
+    "171": "写</w>",
+    "172": "冰</w>",
+    "173": "冲</w>",
+    "174": "决</w>",
+    "175": "况</w>",
+    "176": "冷</w>",
+    "177": "准</w>",
+    "178": "几</w>",
+    "179": "出</w>",
+    "180": "分</w>",
+    "181": "切</w>",
+    "182": "划</w>",
+    "183": "则</w>",
+    "184": "创</w>",
+    "185": "利</w>",
+    "186": "到</w>",
+    "187": "制</w>",
+    "188": "前</w>",
+    "189": "劃</w>",
+    "190": "力</w>",
+    "191": "办</w>",
+    "192": "功</w>",
+    "193": "加</w>",
+    "194": "务</w>",
+    "195": "动</w>",
+    "196": "助</w>",
+    "197": "努</w>",
+    "198": "劳</w>",
+    "199": "勃</w>",
+    "200": "包</w>",
+    "201": "化</w>",
+    "202": "医</w>",
+    "203": "十</w>",
+    "204": "千</w>",
+    "205": "升</w>",
+    "206": "午</w>",
+    "207": "半</w>",
+    "208": "华</w>",
+    "209": "单</w>",
+    "210": "卖</w>",
+    "211": "卫</w>",
+    "212": "危</w>",
+    "213": "即</w>",
+    "214": "却</w>",
+    "215": "历</w>",
+    "216": "厌</w>",
+    "217": "厕</w>",
+    "218": "去</w>",
+    "219": "参</w>",
+    "220": "又</w>",
+    "221": "友</w>",
+    "222": "反</w>",
+    "223": "发</w>",
+    "224": "叔</w>",
+    "225": "取</w>",
+    "226": "受</w>",
+    "227": "变</w>",
+    "228": "口</w>",
+    "229": "古</w>",
+    "230": "另</w>",
+    "231": "只</w>",
+    "232": "叫</w>",
+    "233": "可</w>",
+    "234": "史</w>",
+    "235": "右</w>",
+    "236": "号</w>",
+    "237": "吃</w>",
+    "238": "合</w>",
+    "239": "同</w>",
+    "240": "名</w>",
+    "241": "后</w>",
+    "242": "向</w>",
+    "243": "吗</w>",
+    "244": "吧</w>",
+    "245": "听</w>",
+    "246": "告</w>",
+    "247": "员</w>",
+    "248": "呢</w>",
+    "249": "周</w>",
+    "250": "味</w>",
+    "251": "命</w>",
+    "252": "和</w>",
+    "253": "咖</w>",
+    "254": "品</w>",
+    "255": "响</w>",
+    "256": "哥</w>",
+    "257": "哦</w>",
+    "258": "哪</w>",
+    "259": "售</w>",
+    "260": "唯</w>",
+    "261": "唱</w>",
+    "262": "啊</w>",
+    "263": "問</w>",
+    "264": "啡</w>",
+    "265": "喜</w>",
+    "266": "喝</w>",
+    "267": "嗨</w>",
+    "268": "囚</w>",
+    "269": "回</w>",
+    "270": "因</w>",
+    "271": "团</w>",
+    "272": "园</w>",
+    "273": "困</w>",
+    "274": "国</w>",
+    "275": "图</w>",
+    "276": "圈</w>",
+    "277": "國</w>",
+    "278": "圣</w>",
+    "279": "在</w>",
+    "280": "地</w>",
+    "281": "场</w>",
+    "282": "坐</w>",
+    "283": "块</w>",
+    "284": "坚</w>",
+    "285": "城</w>",
+    "286": "堡</w>",
+    "287": "增</w>",
+    "288": "士</w>",
+    "289": "声</w>",
+    "290": "处</w>",
+    "291": "备</w>",
+    "292": "复</w>",
+    "293": "夏</w>",
+    "294": "外</w>",
+    "295": "多</w>",
+    "296": "夜</w>",
+    "297": "够</w>",
+    "298": "大</w>",
+    "299": "天</w>",
+    "300": "太</w>",
+    "301": "失</w>",
+    "302": "头</w>",
+    "303": "奇</w>",
+    "304": "奶</w>",
+    "305": "她</w>",
+    "306": "好</w>",
+    "307": "如</w>",
+    "308": "妈</w>",
+    "309": "妹</w>",
+    "310": "妻</w>",
+    "311": "始</w>",
+    "312": "姐</w>",
+    "313": "威</w>",
+    "314": "婚</w>",
+    "315": "子</w>",
+    "316": "字</w>",
+    "317": "季</w>",
+    "318": "学</w>",
+    "319": "孩</w>",
+    "320": "學</w>",
+    "321": "它</w>",
+    "322": "宇</w>",
+    "323": "守</w>",
+    "324": "安</w>",
+    "325": "完</w>",
+    "326": "宙</w>",
+    "327": "定</w>",
+    "328": "宝</w>",
+    "329": "实</w>",
+    "330": "客</w>",
+    "331": "宣</w>",
+    "332": "室</w>",
+    "333": "宵</w>",
+    "334": "家</w>",
+    "335": "寄</w>",
+    "336": "密</w>",
+    "337": "富</w>",
+    "338": "对</w>",
+    "339": "寻</w>",
+    "340": "将</w>",
+    "341": "尊</w>",
+    "342": "小</w>",
+    "343": "少</w>",
+    "344": "就</w>",
+    "345": "尼</w>",
+    "346": "局</w>",
+    "347": "屈</w>",
+    "348": "属</w>",
+    "349": "山</w>",
+    "350": "岁</w>",
+    "351": "岩</w>",
+    "352": "工</w>",
+    "353": "己</w>",
+    "354": "已</w>",
+    "355": "市</w>",
+    "356": "布</w>",
+    "357": "师</w>",
+    "358": "帖</w>",
+    "359": "带</w>",
+    "360": "席</w>",
+    "361": "帮</w>",
+    "362": "常</w>",
+    "363": "帽</w>",
+    "364": "干</w>",
+    "365": "平</w>",
+    "366": "年</w>",
+    "367": "幸</w>",
+    "368": "幹</w>",
+    "369": "广</w>",
+    "370": "庄</w>",
+    "371": "庆</w>",
+    "372": "床</w>",
+    "373": "应</w>",
+    "374": "底</w>",
+    "375": "庙</w>",
+    "376": "庞</w>",
+    "377": "度</w>",
+    "378": "座</w>",
+    "379": "庭</w>",
+    "380": "延</w>",
+    "381": "建</w>",
+    "382": "开</w>",
+    "383": "弃</w>",
+    "384": "式</w>",
+    "385": "弟</w>",
+    "386": "张</w>",
+    "387": "張</w>",
+    "388": "强</w>",
+    "389": "当</w>",
+    "390": "影</w>",
+    "391": "彻</w>",
+    "392": "往</w>",
+    "393": "径</w>",
+    "394": "待</w>",
+    "395": "很</w>",
+    "396": "後</w>",
+    "397": "徒</w>",
+    "398": "得</w>",
+    "399": "從</w>",
+    "400": "微</w>",
+    "401": "德</w>",
+    "402": "心</w>",
+    "403": "必</w>",
+    "404": "志</w>",
+    "405": "忙</w>",
+    "406": "快</w>",
+    "407": "念</w>",
+    "408": "怀</w>",
+    "409": "怎</w>",
+    "410": "急</w>",
+    "411": "总</w>",
+    "412": "息</w>",
+    "413": "悔</w>",
+    "414": "情</w>",
+    "415": "惊</w>",
+    "416": "惜</w>",
+    "417": "惡</w>",
+    "418": "想</w>",
+    "419": "愉</w>",
+    "420": "意</w>",
+    "421": "感</w>",
+    "422": "慢</w>",
+    "423": "應</w>",
+    "424": "戏</w>",
+    "425": "成</w>",
+    "426": "我</w>",
+    "427": "戒</w>",
+    "428": "或</w>",
+    "429": "戴</w>",
+    "430": "户</w>",
+    "431": "房</w>",
+    "432": "所</w>",
+    "433": "扇</w>",
+    "434": "手</w>",
+    "435": "才</w>",
+    "436": "打</w>",
+    "437": "托</w>",
+    "438": "扰</w>",
+    "439": "批</w>",
+    "440": "找</w>",
+    "441": "把</w>",
+    "442": "抓</w>",
+    "443": "护</w>",
+    "444": "报</w>",
+    "445": "抱</w>",
+    "446": "拆</w>",
+    "447": "拉</w>",
+    "448": "拜</w>",
+    "449": "拥</w>",
+    "450": "择</w>",
+    "451": "持</w>",
+    "452": "指</w>",
+    "453": "按</w>",
+    "454": "挑</w>",
+    "455": "挤</w>",
+    "456": "挥</w>",
+    "457": "据</w>",
+    "458": "接</w>",
+    "459": "推</w>",
+    "460": "措</w>",
+    "461": "揉</w>",
+    "462": "插</w>",
+    "463": "揭</w>",
+    "464": "携</w>",
+    "465": "摄</w>",
+    "466": "摇</w>",
+    "467": "摩</w>",
+    "468": "撒</w>",
+    "469": "播</w>",
+    "470": "擔</w>",
+    "471": "支</w>",
+    "472": "收</w>",
+    "473": "改</w>",
+    "474": "放</w>",
+    "475": "故</w>",
+    "476": "救</w>",
+    "477": "教</w>",
+    "478": "散</w>",
+    "479": "敦</w>",
+    "480": "敬</w>",
+    "481": "数</w>",
+    "482": "整</w>",
+    "483": "斯</w>",
+    "484": "新</w>",
+    "485": "方</w>",
+    "486": "施</w>",
+    "487": "旅</w>",
+    "488": "无</w>",
+    "489": "日</w>",
+    "490": "旦</w>",
+    "491": "早</w>",
+    "492": "时</w>",
+    "493": "明</w>",
+    "494": "星</w>",
+    "495": "昨</w>",
+    "496": "是</w>",
+    "497": "時</w>",
+    "498": "晃</w>",
+    "499": "晚</w>",
+    "500": "景</w>",
+    "501": "更</w>",
+    "502": "曾</w>",
+    "503": "最</w>",
+    "504": "會</w>",
+    "505": "月</w>",
+    "506": "有</w>",
+    "507": "朋</w>",
+    "508": "服</w>",
+    "509": "望</w>",
+    "510": "朝</w>",
+    "511": "期</w>",
+    "512": "本</w>",
+    "513": "术</w>",
+    "514": "机</w>",
+    "515": "杀</w>",
+    "516": "杂</w>",
+    "517": "权</w>",
+    "518": "村</w>",
+    "519": "条</w>",
+    "520": "来</w>",
+    "521": "杯</w>",
+    "522": "杰</w>",
+    "523": "松</w>",
+    "524": "果</w>",
+    "525": "架</w>",
+    "526": "某</w>",
+    "527": "标</w>",
+    "528": "栋</w>",
+    "529": "校</w>",
+    "530": "样</w>",
+    "531": "格</w>",
+    "532": "桌</w>",
+    "533": "桥</w>",
+    "534": "楼</w>",
+    "535": "概</w>",
+    "536": "樣</w>",
+    "537": "欠</w>",
+    "538": "次</w>",
+    "539": "欢</w>",
+    "540": "欲</w>",
+    "541": "款</w>",
+    "542": "歉</w>",
+    "543": "歌</w>",
+    "544": "歐</w>",
+    "545": "歡</w>",
+    "546": "止</w>",
+    "547": "正</w>",
+    "548": "步</w>",
+    "549": "死</w>",
+    "550": "段</w>",
+    "551": "母</w>",
+    "552": "每</w>",
+    "553": "比</w>",
+    "554": "毕</w>",
+    "555": "毛</w>",
+    "556": "毫</w>",
+    "557": "气</w>",
+    "558": "水</w>",
+    "559": "永</w>",
+    "560": "池</w>",
+    "561": "汽</w>",
+    "562": "沒</w>",
+    "563": "没</w>",
+    "564": "河</w>",
+    "565": "沸</w>",
+    "566": "油</w>",
+    "567": "沿</w>",
+    "568": "法</w>",
+    "569": "泪</w>",
+    "570": "泳</w>",
+    "571": "洗</w>",
+    "572": "津</w>",
+    "573": "活</w>",
+    "574": "派</w>",
+    "575": "流</w>",
+    "576": "济</w>",
+    "577": "消</w>",
+    "578": "涌</w>",
+    "579": "涨</w>",
+    "580": "清</w>",
+    "581": "温</w>",
+    "582": "港</w>",
+    "583": "游</w>",
+    "584": "湖</w>",
+    "585": "溜</w>",
+    "586": "滑</w>",
+    "587": "满</w>",
+    "588": "演</w>",
+    "589": "澄</w>",
+    "590": "澡</w>",
+    "591": "火</w>",
+    "592": "灯</w>",
+    "593": "灰</w>",
+    "594": "点</w>",
+    "595": "烟</w>",
+    "596": "烦</w>",
+    "597": "热</w>",
+    "598": "然</w>",
+    "599": "照</w>",
+    "600": "爱</w>",
+    "601": "父</w>",
+    "602": "爸</w>",
+    "603": "片</w>",
+    "604": "牛</w>",
+    "605": "物</w>",
+    "606": "狗</w>",
+    "607": "独</w>",
+    "608": "猫</w>",
+    "609": "王</w>",
+    "610": "玩</w>",
+    "611": "环</w>",
+    "612": "现</w>",
+    "613": "班</w>",
+    "614": "球</w>",
+    "615": "理</w>",
+    "616": "生</w>",
+    "617": "用</w>",
+    "618": "由</w>",
+    "619": "电</w>",
+    "620": "男</w>",
+    "621": "界</w>",
+    "622": "留</w>",
+    "623": "當</w>",
+    "624": "疑</w>",
+    "625": "疯</w>",
+    "626": "病</w>",
+    "627": "痛</w>",
+    "628": "瘋</w>",
+    "629": "發</w>",
+    "630": "白</w>",
+    "631": "百</w>",
+    "632": "的</w>",
+    "633": "盐</w>",
+    "634": "盖</w>",
+    "635": "盛</w>",
+    "636": "目</w>",
+    "637": "直</w>",
+    "638": "相</w>",
+    "639": "盹</w>",
+    "640": "看</w>",
+    "641": "真</w>",
+    "642": "眠</w>",
+    "643": "眼</w>",
+    "644": "着</w>",
+    "645": "睛</w>",
+    "646": "睡</w>",
+    "647": "知</w>",
+    "648": "短</w>",
+    "649": "石</w>",
+    "650": "码</w>",
+    "651": "破</w>",
+    "652": "确</w>",
+    "653": "碎</w>",
+    "654": "示</w>",
+    "655": "社</w>",
+    "656": "祝</w>",
+    "657": "神</w>",
+    "658": "票</w>",
+    "659": "福</w>",
+    "660": "离</w>",
+    "661": "私</w>",
+    "662": "种</w>",
+    "663": "秘</w>",
+    "664": "移</w>",
+    "665": "程</w>",
+    "666": "空</w>",
+    "667": "窗</w>",
+    "668": "窜</w>",
+    "669": "站</w>",
+    "670": "童</w>",
+    "671": "笑</w>",
+    "672": "笔</w>",
+    "673": "笛</w>",
+    "674": "第</w>",
+    "675": "笼</w>",
+    "676": "等</w>",
+    "677": "筑</w>",
+    "678": "答</w>",
+    "679": "简</w>",
+    "680": "籍</w>",
+    "681": "粗</w>",
+    "682": "精</w>",
+    "683": "糕</w>",
+    "684": "糟</w>",
+    "685": "素</w>",
+    "686": "索</w>",
+    "687": "給</w>",
+    "688": "經</w>",
+    "689": "總</w>",
+    "690": "红</w>",
+    "691": "纪</w>",
+    "692": "纯</w>",
+    "693": "纸</w>",
+    "694": "线</w>",
+    "695": "绅</w>",
+    "696": "终</w>",
+    "697": "经</w>",
+    "698": "结</w>",
+    "699": "给</w>",
+    "700": "统</w>",
+    "701": "绿</w>",
+    "702": "缺</w>",
+    "703": "网</w>",
+    "704": "罗</w>",
+    "705": "罚</w>",
+    "706": "置</w>",
+    "707": "美</w>",
+    "708": "群</w>",
+    "709": "習</w>",
+    "710": "老</w>",
+    "711": "考</w>",
+    "712": "者</w>",
+    "713": "而</w>",
+    "714": "耍</w>",
+    "715": "耗</w>",
+    "716": "职</w>",
+    "717": "肯</w>",
+    "718": "胖</w>",
+    "719": "能</w>",
+    "720": "脑</w>",
+    "721": "脚</w>",
+    "722": "脸</w>",
+    "723": "腾</w>",
+    "724": "腿</w>",
+    "725": "自</w>",
+    "726": "至</w>",
+    "727": "船</w>",
+    "728": "艰</w>",
+    "729": "色</w>",
+    "730": "艺</w>",
+    "731": "花</w>",
+    "732": "苏</w>",
+    "733": "英</w>",
+    "734": "茶</w>",
+    "735": "药</w>",
+    "736": "落</w>",
+    "737": "著</w>",
+    "738": "虑</w>",
+    "739": "虾</w>",
+    "740": "蜂</w>",
+    "741": "蝴</w>",
+    "742": "蝶</w>",
+    "743": "蠢</w>",
+    "744": "血</w>",
+    "745": "行</w>",
+    "746": "衣</w>",
+    "747": "表</w>",
+    "748": "被</w>",
+    "749": "裡</w>",
+    "750": "要</w>",
+    "751": "覆</w>",
+    "752": "覺</w>",
+    "753": "见</w>",
+    "754": "观</w>",
+    "755": "规</w>",
+    "756": "视</w>",
+    "757": "觉</w>",
+    "758": "解</w>",
+    "759": "言</w>",
+    "760": "計</w>",
+    "761": "試</w>",
+    "762": "話</w>",
+    "763": "該</w>",
+    "764": "誓</w>",
+    "765": "說</w>",
+    "766": "請</w>",
+    "767": "讀</w>",
+    "768": "變</w>",
+    "769": "计</w>",
+    "770": "订</w>",
+    "771": "认</w>",
+    "772": "让</w>",
+    "773": "训</w>",
+    "774": "议</w>",
+    "775": "记</w>",
+    "776": "讲</w>",
+    "777": "讶</w>",
+    "778": "许</w>",
+    "779": "论</w>",
+    "780": "设</w>",
+    "781": "访</w>",
+    "782": "证</w>",
+    "783": "评</w>",
+    "784": "识</w>",
+    "785": "诉</w>",
+    "786": "试</w>",
+    "787": "诗</w>",
+    "788": "诚</w>",
+    "789": "话</w>",
+    "790": "该</w>",
+    "791": "语</w>",
+    "792": "误</w>",
+    "793": "说</w>",
+    "794": "请</w>",
+    "795": "诺</w>",
+    "796": "读</w>",
+    "797": "课</w>",
+    "798": "谁</w>",
+    "799": "谈</w>",
+    "800": "谎</w>",
+    "801": "谢</w>",
+    "802": "象</w>",
+    "803": "賺</w>",
+    "804": "负</w>",
+    "805": "货</w>",
+    "806": "购</w>",
+    "807": "贷</w>",
+    "808": "费</w>",
+    "809": "赛</w>",
+    "810": "赢</w>",
+    "811": "走</w>",
+    "812": "赶</w>",
+    "813": "起</w>",
+    "814": "趕</w>",
+    "815": "趣</w>",
+    "816": "足</w>",
+    "817": "跑</w>",
+    "818": "跟</w>",
+    "819": "路</w>",
+    "820": "踢</w>",
+    "821": "躲</w>",
+    "822": "較</w>",
+    "823": "车</w>",
+    "824": "轨</w>",
+    "825": "转</w>",
+    "826": "轻</w>",
+    "827": "较</w>",
+    "828": "辆</w>",
+    "829": "辈</w>",
+    "830": "辜</w>",
+    "831": "辩</w>",
+    "832": "达</w>",
+    "833": "迅</w>",
+    "834": "过</w>",
+    "835": "近</w>",
+    "836": "还</w>",
+    "837": "这</w>",
+    "838": "进</w>",
+    "839": "远</w>",
+    "840": "迟</w>",
+    "841": "述</w>",
+    "842": "迷</w>",
+    "843": "迹</w>",
+    "844": "送</w>",
+    "845": "适</w>",
+    "846": "逃</w>",
+    "847": "选</w>",
+    "848": "透</w>",
+    "849": "递</w>",
+    "850": "途</w>",
+    "851": "這</w>",
+    "852": "通</w>",
+    "853": "速</w>",
+    "854": "造</w>",
+    "855": "進</w>",
+    "856": "過</w>",
+    "857": "道</w>",
+    "858": "遛</w>",
+    "859": "遠</w>",
+    "860": "邀</w>",
+    "861": "那</w>",
+    "862": "邻</w>",
+    "863": "部</w>",
+    "864": "都</w>",
+    "865": "酒</w>",
+    "866": "采</w>",
+    "867": "里</w>",
+    "868": "重</w>",
+    "869": "金</w>",
+    "870": "钟</w>",
+    "871": "钱</w>",
+    "872": "铁</w>",
+    "873": "铃</w>",
+    "874": "铭</w>",
+    "875": "银</w>",
+    "876": "销</w>",
+    "877": "错</w>",
+    "878": "镜</w>",
+    "879": "長</w>",
+    "880": "长</w>",
+    "881": "間</w>",
+    "882": "问</w>",
+    "883": "间</w>",
+    "884": "闻</w>",
+    "885": "阅</w>",
+    "886": "阐</w>",
+    "887": "防</w>",
+    "888": "阳</w>",
+    "889": "附</w>",
+    "890": "限</w>",
+    "891": "除</w>",
+    "892": "险</w>",
+    "893": "随</w>",
+    "894": "隻</w>",
+    "895": "难</w>",
+    "896": "雨</w>",
+    "897": "雪</w>",
+    "898": "零</w>",
+    "899": "雹</w>",
+    "900": "需</w>",
+    "901": "震</w>",
+    "902": "露</w>",
+    "903": "非</w>",
+    "904": "靠</w>",
+    "905": "面</w>",
+    "906": "音</w>",
+    "907": "題</w>",
+    "908": "项</w>",
+    "909": "须</w>",
+    "910": "顾</w>",
+    "911": "预</w>",
+    "912": "题</w>",
+    "913": "风</w>",
+    "914": "飞</w>",
+    "915": "食</w>",
+    "916": "餐</w>",
+    "917": "饭</w>",
+    "918": "饿</w>",
+    "919": "首</w>",
+    "920": "马</w>",
+    "921": "驶</w>",
+    "922": "验</w>",
+    "923": "骑</w>",
+    "924": "骗</w>",
+    "925": "高</w>",
+    "926": "鬼</w>",
+    "927": "鱼</w>",
+    "928": "鲍</w>",
+    "929": "鲜</w>",
+    "930": "麻</w>",
+    "931": "麼</w>",
+    "932": "點</w>",
+    "933": "鼠</w>",
+    "934": "龙</w>",
+    "935": "﹐</w>",
+    "936": "！</w>",
+    "937": "，</w>",
+    "938": "？</w>"
+  },
+  "merges": [
+    [
+      "。",
+      "</w>"
+    ],
+    [
+      "我",
+      "</w>"
+    ],
+    [
+      "的",
+      "</w>"
+    ],
+    [
+      "了",
+      "</w>"
+    ],
+    [
+      "他",
+      "</w>"
+    ],
+    [
+      "是",
+      "</w>"
+    ],
+    [
+      "你",
+      "</w>"
+    ],
+    [
+      "这",
+      "</w>"
+    ],
+    [
+      "一",
+      "</w>"
+    ],
+    [
+      "，",
+      "</w>"
+    ],
+    [
+      "不",
+      "</w>"
+    ],
+    [
+      "在",
+      "</w>"
+    ],
+    [
+      "们",
+      "</w>"
+    ],
+    [
+      "有",
+      "</w>"
+    ],
+    [
+      "个",
+      "</w>"
+    ],
+    [
+      "？",
+      "</w>"
+    ],
+    [
+      "她",
+      "</w>"
+    ],
+    [
+      "很",
+      "</w>"
+    ],
+    [
+      "会",
+      "</w>"
+    ],
+    [
+      "去",
+      "</w>"
+    ],
+    [
+      "人",
+      "</w>"
+    ],
+    [
+      "要",
+      "</w>"
+    ],
+    [
+      "来",
+      "</w>"
+    ],
+    [
+      "生",
+      "</w>"
+    ],
+    [
+      "得",
+      "</w>"
+    ],
+    [
+      "上",
+      "</w>"
+    ],
+    [
+      "天",
+      "</w>"
+    ],
+    [
+      "就",
+      "</w>"
+    ],
+    [
+      "子",
+      "</w>"
+    ],
+    [
+      "到",
+      "</w>"
+    ],
+    [
+      "车",
+      "</w>"
+    ],
+    [
+      "么",
+      "</w>"
+    ],
+    [
+      "吗",
+      "</w>"
+    ],
+    [
+      "没",
+      "</w>"
+    ],
+    [
+      "里",
+      "</w>"
+    ],
+    [
+      "能",
+      "</w>"
+    ],
+    [
+      "想",
+      "</w>"
+    ],
+    [
+      "大",
+      "</w>"
+    ],
+    [
+      "可",
+      "</w>"
+    ],
+    [
+      "说",
+      "</w>"
+    ],
+    [
+      "那",
+      "</w>"
+    ],
+    [
+      "什",
+      "</w>"
+    ],
+    [
+      "下",
+      "</w>"
+    ],
+    [
+      "对",
+      "</w>"
+    ],
+    [
+      "看",
+      "</w>"
+    ],
+    [
+      "多",
+      "</w>"
+    ],
+    [
+      "！",
+      "</w>"
+    ],
+    [
+      "喜",
+      "</w>"
+    ],
+    [
+      "以",
+      "</w>"
+    ],
+    [
+      "学",
+      "</w>"
+    ],
+    [
+      "过",
+      "</w>"
+    ],
+    [
+      "知",
+      "</w>"
+    ],
+    [
+      "给",
+      "</w>"
+    ],
+    [
+      "都",
+      "</w>"
+    ],
+    [
+      "日",
+      "</w>"
+    ],
+    [
+      "家",
+      "</w>"
+    ],
+    [
+      "事",
+      "</w>"
+    ],
+    [
+      "好",
+      "</w>"
+    ],
+    [
+      "为",
+      "</w>"
+    ],
+    [
+      "行",
+      "</w>"
+    ],
+    [
+      "成",
+      "</w>"
+    ],
+    [
+      "欢",
+      "</w>"
+    ],
+    [
+      "时",
+      "</w>"
+    ],
+    [
+      "也",
+      "</w>"
+    ],
+    [
+      "道",
+      "</w>"
+    ],
+    [
+      "问",
+      "</w>"
+    ],
+    [
+      "开",
+      "</w>"
+    ],
+    [
+      "和",
+      "</w>"
+    ],
+    [
+      "孩",
+      "</w>"
+    ],
+    [
+      "出",
+      "</w>"
+    ],
+    [
+      "快",
+      "</w>"
+    ],
+    [
+      "常",
+      "</w>"
+    ],
+    [
+      "现",
+      "</w>"
+    ],
+    [
+      "间",
+      "</w>"
+    ],
+    [
+      "如",
+      "</w>"
+    ],
+    [
+      "无",
+      "</w>"
+    ],
+    [
+      "法",
+      "</w>"
+    ],
+    [
+      "地",
+      "</w>"
+    ],
+    [
+      "比",
+      "</w>"
+    ],
+    [
+      "回",
+      "</w>"
+    ],
+    [
+      "果",
+      "</w>"
+    ],
+    [
+      "“",
+      "</w>"
+    ],
+    [
+      "样",
+      "</w>"
+    ],
+    [
+      "”",
+      "</w>"
+    ],
+    [
+      "試",
+      "</w>"
+    ],
+    [
+      "从",
+      "</w>"
+    ],
+    [
+      "把",
+      "</w>"
+    ],
+    [
+      "做",
+      "</w>"
+    ],
+    [
+      "老",
+      "</w>"
+    ],
+    [
+      "?",
+      "</w>"
+    ],
+    [
+      "听",
+      "</w>"
+    ],
+    [
+      "本",
+      "</w>"
+    ],
+    [
+      "爸",
+      "</w>"
+    ],
+    [
+      "妈",
+      "</w>"
+    ],
+    [
+      "还",
+      "</w>"
+    ],
+    [
+      "這",
+      "</w>"
+    ],
+    [
+      "年",
+      "</w>"
+    ],
+    [
+      "用",
+      "</w>"
+    ],
+    [
+      "话",
+      "</w>"
+    ],
+    [
+      "旅",
+      "</w>"
+    ],
+    [
+      "明",
+      "</w>"
+    ],
+    [
+      "点",
+      "</w>"
+    ],
+    [
+      "完",
+      "</w>"
+    ],
+    [
+      "月",
+      "</w>"
+    ],
+    [
+      "着",
+      "</w>"
+    ],
+    [
+      "之",
+      "</w>"
+    ],
+    [
+      "周",
+      "</w>"
+    ],
+    [
+      "怎",
+      "</w>"
+    ],
+    [
+      "意",
+      "</w>"
+    ],
+    [
+      "重",
+      "</w>"
+    ],
+    [
+      "工",
+      "</w>"
+    ],
+    [
+      "哪",
+      "</w>"
+    ],
+    [
+      "国",
+      "</w>"
+    ],
+    [
+      "正",
+      "</w>"
+    ],
+    [
+      "游",
+      "</w>"
+    ],
+    [
+      "发",
+      "</w>"
+    ],
+    [
+      "起",
+      "</w>"
+    ],
+    [
+      "作",
+      "</w>"
+    ],
+    [
+      "些",
+      "</w>"
+    ],
+    [
+      "麼",
+      "</w>"
+    ],
+    [
+      "走",
+      "</w>"
+    ],
+    [
+      "后",
+      "</w>"
+    ],
+    [
+      "认",
+      "</w>"
+    ],
+    [
+      "前",
+      "</w>"
+    ],
+    [
+      ".",
+      "</w>"
+    ],
+    [
+      "物",
+      "</w>"
+    ],
+    [
+      "0",
+      "</w>"
+    ],
+    [
+      "美",
+      "</w>"
+    ],
+    [
+      "元",
+      "</w>"
+    ],
+    [
+      "它",
+      "</w>"
+    ],
+    [
+      "房",
+      "</w>"
+    ],
+    [
+      "员",
+      "</w>"
+    ],
+    [
+      "太",
+      "</w>"
+    ],
+    [
+      "几",
+      "</w>"
+    ],
+    [
+      "期",
+      "</w>"
+    ],
+    [
+      "球",
+      "</w>"
+    ],
+    [
+      "乐",
+      "</w>"
+    ],
+    [
+      "部",
+      "</w>"
+    ],
+    [
+      "书",
+      "</w>"
+    ],
+    [
+      "候",
+      "</w>"
+    ],
+    [
+      "但",
+      "</w>"
+    ],
+    [
+      "小",
+      "</w>"
+    ],
+    [
+      "自",
+      "</w>"
+    ],
+    [
+      "情",
+      "</w>"
+    ],
+    [
+      "讲",
+      "</w>"
+    ],
+    [
+      "经",
+      "</w>"
+    ],
+    [
+      "电",
+      "</w>"
+    ],
+    [
+      "高",
+      "</w>"
+    ],
+    [
+      "觉",
+      "</w>"
+    ],
+    [
+      "感",
+      "</w>"
+    ],
+    [
+      "直",
+      "</w>"
+    ],
+    [
+      "请",
+      "</w>"
+    ],
+    [
+      "告",
+      "</w>"
+    ],
+    [
+      "妹",
+      "</w>"
+    ],
+    [
+      "住",
+      "</w>"
+    ],
+    [
+      "让",
+      "</w>"
+    ],
+    [
+      "活",
+      "</w>"
+    ],
+    [
+      "真",
+      "</w>"
+    ],
+    [
+      "個",
+      "</w>"
+    ],
+    [
+      "始",
+      "</w>"
+    ],
+    [
+      "信",
+      "</w>"
+    ],
+    [
+      "更",
+      "</w>"
+    ],
+    [
+      "号",
+      "</w>"
+    ],
+    [
+      "們",
+      "</w>"
+    ],
+    [
+      "件",
+      "</w>"
+    ],
+    [
+      "外",
+      "</w>"
+    ],
+    [
+      "见",
+      "</w>"
+    ],
+    [
+      "于",
+      "</w>"
+    ],
+    [
+      "喝",
+      "</w>"
+    ],
+    [
+      "爱",
+      "</w>"
+    ],
+    [
+      "班",
+      "</w>"
+    ],
+    [
+      "少",
+      "</w>"
+    ],
+    [
+      "单",
+      "</w>"
+    ],
+    [
+      "世",
+      "</w>"
+    ],
+    [
+      "校",
+      "</w>"
+    ],
+    [
+      "最",
+      "</w>"
+    ],
+    [
+      "定",
+      "</w>"
+    ],
+    [
+      "力",
+      "</w>"
+    ],
+    [
+      "何",
+      "</w>"
+    ],
+    [
+      "吧",
+      "</w>"
+    ],
+    [
+      "该",
+      "</w>"
+    ],
+    [
+      "接",
+      "</w>"
+    ],
+    [
+      "将",
+      "</w>"
+    ],
+    [
+      "难",
+      "</w>"
+    ],
+    [
+      "识",
+      "</w>"
+    ],
+    [
+      "密",
+      "</w>"
+    ],
+    [
+      "打",
+      "</w>"
+    ],
+    [
+      "非",
+      "</w>"
+    ],
+    [
+      "中",
+      "</w>"
+    ],
+    [
+      "诉",
+      "</w>"
+    ],
+    [
+      "许",
+      "</w>"
+    ],
+    [
+      "i",
+      "r"
+    ],
+    [
+      "u",
+      "ir"
+    ],
+    [
+      "e",
+      "l"
+    ],
+    [
+      "m",
+      "uir"
+    ],
+    [
+      "i",
+      "el"
+    ],
+    [
+      "muir",
+      "iel"
+    ],
+    [
+      "muiriel",
+      "</w>"
+    ],
+    [
+      "再",
+      "</w>"
+    ],
+    [
+      "相",
+      "</w>"
+    ],
+    [
+      "其",
+      "</w>"
+    ],
+    [
+      "心",
+      "</w>"
+    ],
+    [
+      "长",
+      "</w>"
+    ],
+    [
+      "取",
+      "</w>"
+    ],
+    [
+      "语",
+      "</w>"
+    ],
+    [
+      "网",
+      "</w>"
+    ],
+    [
+      "消",
+      "</w>"
+    ],
+    [
+      "息",
+      "</w>"
+    ],
+    [
+      "惊",
+      "</w>"
+    ],
+    [
+      "等",
+      "</w>"
+    ],
+    [
+      "公",
+      "</w>"
+    ],
+    [
+      "简",
+      "</w>"
+    ],
+    [
+      "被",
+      "</w>"
+    ],
+    [
+      "种",
+      "</w>"
+    ],
+    [
+      "趣",
+      "</w>"
+    ],
+    [
+      "已",
+      "</w>"
+    ],
+    [
+      "影",
+      "</w>"
+    ],
+    [
+      "疑",
+      "</w>"
+    ],
+    [
+      "史",
+      "</w>"
+    ],
+    [
+      "题",
+      "</w>"
+    ],
+    [
+      "啊",
+      "</w>"
+    ],
+    [
+      "同",
+      "</w>"
+    ],
+    [
+      "睡",
+      "</w>"
+    ],
+    [
+      "离",
+      "</w>"
+    ],
+    [
+      "三",
+      "</w>"
+    ],
+    [
+      "方",
+      "</w>"
+    ],
+    [
+      "响",
+      "</w>"
+    ],
+    [
+      "兴",
+      "</w>"
+    ],
+    [
+      "医",
+      "</w>"
+    ],
+    [
+      "建",
+      "</w>"
+    ],
+    [
+      "议",
+      "</w>"
+    ],
+    [
+      "戒",
+      "</w>"
+    ],
+    [
+      "坐",
+      "</w>"
+    ],
+    [
+      "向",
+      "</w>"
+    ],
+    [
+      "切",
+      "</w>"
+    ],
+    [
+      "读",
+      "</w>"
+    ],
+    [
+      "火",
+      "</w>"
+    ],
+    [
+      "斯",
+      "</w>"
+    ],
+    [
+      "计",
+      "</w>"
+    ],
+    [
+      "往",
+      "</w>"
+    ],
+    [
+      "問",
+      "</w>"
+    ],
+    [
+      "除",
+      "</w>"
+    ],
+    [
+      "罗",
+      "</w>"
+    ],
+    [
+      "马",
+      "</w>"
+    ],
+    [
+      "任",
+      "</w>"
+    ],
+    [
+      "必",
+      "</w>"
+    ],
+    [
+      "须",
+      "</w>"
+    ],
+    [
+      "新",
+      "</w>"
+    ],
+    [
+      "客",
+      "</w>"
+    ],
+    [
+      "今",
+      "</w>"
+    ],
+    [
+      "而",
+      "</w>"
+    ],
+    [
+      "水",
+      "</w>"
+    ],
+    [
+      "名",
+      "</w>"
+    ],
+    [
+      "变",
+      "</w>"
+    ],
+    [
+      "界",
+      "</w>"
+    ],
+    [
+      "加",
+      "</w>"
+    ],
+    [
+      "使",
+      "</w>"
+    ],
+    [
+      "毫",
+      "</w>"
+    ],
+    [
+      "习",
+      "</w>"
+    ],
+    [
+      "玩",
+      "</w>"
+    ],
+    [
+      "耍",
+      "</w>"
+    ],
+    [
+      "记",
+      "</w>"
+    ],
+    [
+      "分",
+      "</w>"
+    ],
+    [
+      "待",
+      "</w>"
+    ],
+    [
+      "男",
+      "</w>"
+    ],
+    [
+      "俱",
+      "</w>"
+    ],
+    [
+      "图",
+      "</w>"
+    ],
+    [
+      "笑",
+      "</w>"
+    ],
+    [
+      "述",
+      "</w>"
+    ],
+    [
+      "理",
+      "</w>"
+    ],
+    [
+      "由",
+      "</w>"
+    ],
+    [
+      "山",
+      "</w>"
+    ],
+    [
+      "式",
+      "</w>"
+    ],
+    [
+      "己",
+      "</w>"
+    ],
+    [
+      "學",
+      "</w>"
+    ],
+    [
+      "目",
+      "</w>"
+    ],
+    [
+      "面",
+      "</w>"
+    ],
+    [
+      "骑",
+      "</w>"
+    ],
+    [
+      "实",
+      "</w>"
+    ],
+    [
+      "時",
+      "</w>"
+    ],
+    [
+      "服",
+      "</w>"
+    ],
+    [
+      "合",
+      "</w>"
+    ],
+    [
+      "手",
+      "</w>"
+    ],
+    [
+      "第",
+      "</w>"
+    ],
+    [
+      "母",
+      "</w>"
+    ],
+    [
+      "留",
+      "</w>"
+    ],
+    [
+      "买",
+      "</w>"
+    ],
+    [
+      "准",
+      "</w>"
+    ],
+    [
+      "权",
+      "</w>"
+    ],
+    [
+      "烟",
+      "</w>"
+    ],
+    [
+      "忙",
+      "</w>"
+    ],
+    [
+      "找",
+      "</w>"
+    ],
+    [
+      "應",
+      "</w>"
+    ],
+    [
+      "該",
+      "</w>"
+    ],
+    [
+      "乎",
+      "</w>"
+    ],
+    [
+      "放",
+      "</w>"
+    ],
+    [
+      "站",
+      "</w>"
+    ],
+    [
+      "早",
+      "</w>"
+    ],
+    [
+      "度",
+      "</w>"
+    ],
+    [
+      "交",
+      "</w>"
+    ],
+    [
+      "樣",
+      "</w>"
+    ],
+    [
+      "十",
+      "</w>"
+    ],
+    [
+      "足",
+      "</w>"
+    ],
+    [
+      "解",
+      "</w>"
+    ],
+    [
+      "底",
+      "</w>"
+    ],
+    [
+      "題",
+      "</w>"
+    ],
+    [
+      "死",
+      "</w>"
+    ],
+    [
+      "宇",
+      "</w>"
+    ],
+    [
+      "限",
+      "</w>"
+    ],
+    [
+      "通",
+      "</w>"
+    ],
+    [
+      "庭",
+      "</w>"
+    ],
+    [
+      "秘",
+      "</w>"
+    ],
+    [
+      "光",
+      "</w>"
+    ],
+    [
+      "错",
+      "</w>"
+    ],
+    [
+      "务",
+      "</w>"
+    ],
+    [
+      "當",
+      "</w>"
+    ],
+    [
+      "广",
+      "</w>"
+    ],
+    [
+      "场",
+      "</w>"
+    ],
+    [
+      "险",
+      "</w>"
+    ],
+    [
+      "昨",
+      "</w>"
+    ],
+    [
+      "e",
+      "</w>"
+    ],
+    [
+      "望",
+      "</w>"
+    ],
+    [
+      "轻",
+      "</w>"
+    ],
+    [
+      "所",
+      "</w>"
+    ],
+    [
+      "需",
+      "</w>"
+    ],
+    [
+      "帮",
+      "</w>"
+    ],
+    [
+      "偷",
+      "</w>"
+    ],
+    [
+      "岁",
+      "</w>"
+    ],
+    [
+      "酒",
+      "</w>"
+    ],
+    [
+      "园",
+      "</w>"
+    ],
+    [
+      "雨",
+      "</w>"
+    ],
+    [
+      "然",
+      "</w>"
+    ],
+    [
+      "每",
+      "</w>"
+    ],
+    [
+      "像",
+      "</w>"
+    ],
+    [
+      "功",
+      "</w>"
+    ],
+    [
+      "6",
+      "</w>"
+    ],
+    [
+      "写",
+      "</w>"
+    ],
+    [
+      "照",
+      "</w>"
+    ],
+    [
+      "猫",
+      "</w>"
+    ],
+    [
+      "划",
+      "</w>"
+    ],
+    [
+      "赛",
+      "</w>"
+    ],
+    [
+      "增",
+      "</w>"
+    ],
+    [
+      "则",
+      "</w>"
+    ],
+    [
+      "全",
+      "</w>"
+    ],
+    [
+      "洗",
+      "</w>"
+    ],
+    [
+      "1",
+      "0</w>"
+    ],
+    [
+      "义",
+      "</w>"
+    ],
+    [
+      "儿",
+      "</w>"
+    ],
+    [
+      "籍",
+      "</w>"
+    ],
+    [
+      "哦",
+      "</w>"
+    ],
+    [
+      "尊",
+      "</w>"
+    ],
+    [
+      "敬",
+      "</w>"
+    ],
+    [
+      "辈",
+      "</w>"
+    ],
+    [
+      "另",
+      "</w>"
+    ],
+    [
+      "程",
+      "</w>"
+    ],
+    [
+      "英",
+      "</w>"
+    ],
+    [
+      "师",
+      "</w>"
+    ],
+    [
+      "例",
+      "</w>"
+    ],
+    [
+      "腾",
+      "</w>"
+    ],
+    [
+      "钟",
+      "</w>"
+    ],
+    [
+      "吃",
+      "</w>"
+    ],
+    [
+      "脸",
+      "</w>"
+    ],
+    [
+      "据",
+      "</w>"
+    ],
+    [
+      "座",
+      "</w>"
+    ],
+    [
+      "雪",
+      "</w>"
+    ],
+    [
+      "款",
+      "</w>"
+    ],
+    [
+      "帽",
+      "</w>"
+    ],
+    [
+      "当",
+      "</w>"
+    ],
+    [
+      "办",
+      "</w>"
+    ],
+    [
+      "後",
+      "</w>"
+    ],
+    [
+      "厌",
+      "</w>"
+    ],
+    [
+      "倦",
+      "</w>"
+    ],
+    [
+      "观",
+      "</w>"
+    ],
+    [
+      "众",
+      "</w>"
+    ],
+    [
+      "制",
+      "</w>"
+    ],
+    [
+      "造",
+      "</w>"
+    ],
+    [
+      "借",
+      "</w>"
+    ],
+    [
+      "口",
+      "</w>"
+    ],
+    [
+      "石",
+      "</w>"
+    ],
+    [
+      "故",
+      "</w>"
+    ],
+    [
+      "艺",
+      "</w>"
+    ],
+    [
+      "术",
+      "</w>"
+    ],
+    [
+      "采",
+      "</w>"
+    ],
+    [
+      "预",
+      "</w>"
+    ],
+    [
+      "沒",
+      "</w>"
+    ],
+    [
+      "历",
+      "</w>"
+    ],
+    [
+      "肯",
+      "</w>"
+    ],
+    [
+      "毛",
+      "</w>"
+    ],
+    [
+      "条",
+      "</w>"
+    ],
+    [
+      "路",
+      "</w>"
+    ],
+    [
+      "父",
+      "</w>"
+    ],
+    [
+      "两",
+      "</w>"
+    ],
+    [
+      "受",
+      "</w>"
+    ],
+    [
+      "船",
+      "</w>"
+    ],
+    [
+      "朝",
+      "</w>"
+    ],
+    [
+      "确",
+      "</w>"
+    ],
+    [
+      "保",
+      "</w>"
+    ],
+    [
+      "覺",
+      "</w>"
+    ],
+    [
+      "先",
+      "</w>"
+    ],
+    [
+      "示",
+      "</w>"
+    ],
+    [
+      "温",
+      "</w>"
+    ],
+    [
+      "零",
+      "</w>"
+    ],
+    [
+      "报",
+      "</w>"
+    ],
+    [
+      "失",
+      "</w>"
+    ],
+    [
+      "视",
+      "</w>"
+    ],
+    [
+      "线",
+      "</w>"
+    ],
+    [
+      "士",
+      "</w>"
+    ],
+    [
+      "只",
+      "</w>"
+    ],
+    [
+      "宙",
+      "</w>"
+    ],
+    [
+      "晚",
+      "</w>"
+    ],
+    [
+      "声",
+      "</w>"
+    ],
+    [
+      "星",
+      "</w>"
+    ],
+    [
+      "歐",
+      "</w>"
+    ],
+    [
+      "歡",
+      "</w>"
+    ],
+    [
+      "神",
+      "</w>"
+    ],
+    [
+      "點",
+      "</w>"
+    ],
+    [
+      "热",
+      "</w>"
+    ],
+    [
+      "收",
+      "</w>"
+    ],
+    [
+      "短",
+      "</w>"
+    ],
+    [
+      "食",
+      "</w>"
+    ],
+    [
+      "欲",
+      "</w>"
+    ],
+    [
+      "钱",
+      "</w>"
+    ],
+    [
+      "圣",
+      "</w>"
+    ],
+    [
+      "夏",
+      "</w>"
+    ],
+    [
+      "总",
+      "</w>"
+    ],
+    [
+      "满",
+      "</w>"
+    ],
+    [
+      "室",
+      "</w>"
+    ],
+    [
+      "河",
+      "</w>"
+    ],
+    [
+      "危",
+      "</w>"
+    ],
+    [
+      "破",
+      "</w>"
+    ],
+    [
+      "惜",
+      "</w>"
+    ],
+    [
+      "蠢",
+      "</w>"
+    ],
+    [
+      "來",
+      "</w>"
+    ],
+    [
+      "過",
+      "</w>"
+    ],
+    [
+      "拥",
+      "</w>"
+    ],
+    [
+      "位",
+      "</w>"
+    ],
+    [
+      "冰",
+      "</w>"
+    ],
+    [
+      "乘",
+      "</w>"
+    ],
+    [
+      "备",
+      "</w>"
+    ],
+    [
+      "杯",
+      "</w>"
+    ],
+    [
+      "床",
+      "</w>"
+    ],
+    [
+      "說",
+      "</w>"
+    ],
+    [
+      "才",
+      "</w>"
+    ],
+    [
+      "支",
+      "</w>"
+    ],
+    [
+      "布",
+      "</w>"
+    ],
+    [
+      "订",
+      "</w>"
+    ],
+    [
+      "慢",
+      "</w>"
+    ],
+    [
+      "半",
+      "</w>"
+    ],
+    [
+      "會",
+      "</w>"
+    ],
+    [
+      "决",
+      "</w>"
+    ],
+    [
+      "某",
+      "</w>"
+    ],
+    [
+      "业",
+      "</w>"
+    ],
+    [
+      "城",
+      "</w>"
+    ],
+    [
+      "市",
+      "</w>"
+    ],
+    [
+      "应",
+      "</w>"
+    ],
+    [
+      "付",
+      "</w>"
+    ],
+    [
+      "2",
+      "0</w>"
+    ],
+    [
+      "隻",
+      "</w>"
+    ],
+    [
+      "严",
+      "</w>"
+    ],
+    [
+      "庙",
+      "</w>"
+    ],
+    [
+      "考",
+      "</w>"
+    ],
+    [
+      "虑",
+      "</w>"
+    ],
+    [
+      "停",
+      "</w>"
+    ],
+    [
+      "码",
+      "</w>"
+    ],
+    [
+      "眼",
+      "</w>"
+    ],
+    [
+      "色",
+      "</w>"
+    ],
+    [
+      "弟",
+      "</w>"
+    ],
+    [
+      "夜",
+      "</w>"
+    ],
+    [
+      "話",
+      "</w>"
+    ],
+    [
+      "缺",
+      "</w>"
+    ],
+    [
+      "验",
+      "</w>"
+    ],
+    [
+      "费",
+      "</w>"
+    ],
+    [
+      "票",
+      "</w>"
+    ],
+    [
+      "格",
+      "</w>"
+    ],
+    [
+      "批",
+      "</w>"
+    ],
+    [
+      "评",
+      "</w>"
+    ],
+    [
+      "达",
+      "</w>"
+    ],
+    [
+      "干",
+      "</w>"
+    ],
+    [
+      "…",
+      "</w>"
+    ],
+    [
+      "架",
+      "</w>"
+    ],
+    [
+      "次",
+      "</w>"
+    ],
+    [
+      "跑",
+      "</w>"
+    ],
+    [
+      "金",
+      "</w>"
+    ],
+    [
+      "屈",
+      "</w>"
+    ],
+    [
+      "止",
+      "</w>"
+    ],
+    [
+      "松",
+      "</w>"
+    ],
+    [
+      "牛",
+      "</w>"
+    ],
+    [
+      "j",
+      "a"
+    ],
+    [
+      "教",
+      "</w>"
+    ],
+    [
+      "言",
+      "</w>"
+    ],
+    [
+      "终",
+      "</w>"
+    ],
+    [
+      "讶",
+      "</w>"
+    ],
+    [
+      "、",
+      "</w>"
+    ],
+    [
+      "奇",
+      "</w>"
+    ],
+    [
+      "白",
+      "</w>"
+    ],
+    [
+      "谢",
+      "</w>"
+    ],
+    [
+      "况",
+      "</w>"
+    ],
+    [
+      "念",
+      "</w>"
+    ],
+    [
+      "裡",
+      "</w>"
+    ],
+    [
+      "\"",
+      "</w>"
+    ],
+    [
+      "参",
+      "</w>"
+    ],
+    [
+      "动",
+      "</w>"
+    ],
+    [
+      "茶",
+      "</w>"
+    ],
+    [
+      "午",
+      "</w>"
+    ],
+    [
+      "疯",
+      "</w>"
+    ],
+    [
+      "囚",
+      "</w>"
+    ],
+    [
+      "笼",
+      "</w>"
+    ],
+    [
+      "叔",
+      "</w>"
+    ],
+    [
+      "幸",
+      "</w>"
+    ],
+    [
+      "!",
+      "</w>"
+    ],
+    [
+      "狗",
+      "</w>"
+    ],
+    [
+      "字",
+      "</w>"
+    ],
+    [
+      "迟",
+      "</w>"
+    ],
+    [
+      "改",
+      "</w>"
+    ],
+    [
+      "宝",
+      "</w>"
+    ],
+    [
+      "随",
+      "</w>"
+    ],
+    [
+      "推",
+      "</w>"
+    ],
+    [
+      "移",
+      "</w>"
+    ],
+    [
+      "规",
+      "</w>"
+    ],
+    [
+      "安",
+      "</w>"
+    ],
+    [
+      "脚",
+      "</w>"
+    ],
+    [
+      "欠",
+      "</w>"
+    ],
+    [
+      "嗨",
+      "</w>"
+    ],
+    [
+      "至",
+      "</w>"
+    ],
+    [
+      "关",
+      "</w>"
+    ],
+    [
+      "偏",
+      "</w>"
+    ],
+    [
+      "胖",
+      "</w>"
+    ],
+    [
+      "铭",
+      "</w>"
+    ],
+    [
+      "咖",
+      "</w>"
+    ],
+    [
+      "啡",
+      "</w>"
+    ],
+    [
+      "揉",
+      "</w>"
+    ],
+    [
+      "碎",
+      "</w>"
+    ],
+    [
+      "代",
+      "</w>"
+    ],
+    [
+      "雹",
+      "</w>"
+    ],
+    [
+      "按",
+      "</w>"
+    ],
+    [
+      "处",
+      "</w>"
+    ],
+    [
+      "罚",
+      "</w>"
+    ],
+    [
+      "送",
+      "</w>"
+    ],
+    [
+      "货",
+      "</w>"
+    ],
+    [
+      "精",
+      "</w>"
+    ],
+    [
+      "插",
+      "</w>"
+    ],
+    [
+      "微",
+      "</w>"
+    ],
+    [
+      "试",
+      "</w>"
+    ],
+    [
+      "5",
+      "</w>"
+    ],
+    [
+      "丑",
+      "</w>"
+    ],
+    [
+      "鬼",
+      "</w>"
+    ],
+    [
+      "拉",
+      "</w>"
+    ],
+    [
+      "腿",
+      "</w>"
+    ],
+    [
+      "阐",
+      "</w>"
+    ],
+    [
+      "撒",
+      "</w>"
+    ],
+    [
+      "谎",
+      "</w>"
+    ],
+    [
+      "覆",
+      "</w>"
+    ],
+    [
+      "盖",
+      "</w>"
+    ],
+    [
+      "流",
+      "</w>"
+    ],
+    [
+      "靠",
+      "</w>"
+    ],
+    [
+      "習",
+      "</w>"
+    ],
+    [
+      "坚",
+      "</w>"
+    ],
+    [
+      "标",
+      "</w>"
+    ],
+    [
+      "数",
+      "</w>"
+    ],
+    [
+      "庞",
+      "</w>"
+    ],
+    [
+      "块",
+      "</w>"
+    ],
+    [
+      "岩",
+      "</w>"
+    ],
+    [
+      "落",
+      "</w>"
+    ],
+    [
+      "徒",
+      "</w>"
+    ],
+    [
+      "劳",
+      "</w>"
+    ],
+    [
+      "努",
+      "</w>"
+    ],
+    [
+      "伟",
+      "</w>"
+    ],
+    [
+      "强",
+      "</w>"
+    ],
+    [
+      "防",
+      "</w>"
+    ],
+    [
+      "措",
+      "</w>"
+    ],
+    [
+      "施",
+      "</w>"
+    ],
+    [
+      "摩",
+      "</w>"
+    ],
+    [
+      "托",
+      "</w>"
+    ],
+    [
+      "遛",
+      "</w>"
+    ],
+    [
+      "圈",
+      "</w>"
+    ],
+    [
+      "证",
+      "</w>"
+    ],
+    [
+      "怀",
+      "</w>"
+    ],
+    [
+      "間",
+      "</w>"
+    ],
+    [
+      "克",
+      "</w>"
+    ],
+    [
+      "升",
+      "</w>"
+    ],
+    [
+      "庆",
+      "</w>"
+    ],
+    [
+      "祝",
+      "</w>"
+    ],
+    [
+      "衣",
+      "</w>"
+    ],
+    [
+      "拜",
+      "</w>"
+    ],
+    [
+      "访",
+      "</w>"
+    ],
+    [
+      "因",
+      "</w>"
+    ],
+    [
+      "冒",
+      "</w>"
+    ],
+    [
+      "沿",
+      "</w>"
+    ],
+    [
+      "红",
+      "</w>"
+    ],
+    [
+      "绿",
+      "</w>"
+    ],
+    [
+      "灯",
+      "</w>"
+    ],
+    [
+      "右",
+      "</w>"
+    ],
+    [
+      "转",
+      "</w>"
+    ],
+    [
+      "跟",
+      "</w>"
+    ],
+    [
+      "千",
+      "</w>"
+    ],
+    [
+      "杀",
+      "</w>"
+    ],
+    [
+      "予",
+      "</w>"
+    ],
+    [
+      "寻",
+      "</w>"
+    ],
+    [
+      "逃",
+      "</w>"
+    ],
+    [
+      "途",
+      "</w>"
+    ],
+    [
+      "径",
+      "</w>"
+    ],
+    [
+      "伦",
+      "</w>"
+    ],
+    [
+      "敦",
+      "</w>"
+    ],
+    [
+      "似",
+      "</w>"
+    ],
+    [
+      "派",
+      "</w>"
+    ],
+    [
+      "头",
+      "</w>"
+    ],
+    [
+      "痛",
+      "</w>"
+    ],
+    [
+      "盐",
+      "</w>"
+    ],
+    [
+      "递",
+      "</w>"
+    ],
+    [
+      "指",
+      "</w>"
+    ],
+    [
+      "九",
+      "</w>"
+    ],
+    [
+      "低",
+      "</w>"
+    ],
+    [
+      "挥",
+      "</w>"
+    ],
+    [
+      "段",
+      "</w>"
+    ],
+    [
+      "y",
+      "</w>"
+    ],
+    [
+      "c",
+      "y</w>"
+    ],
+    [
+      "n",
+      "cy</w>"
+    ],
+    [
+      "a",
+      "ncy</w>"
+    ],
+    [
+      "n",
+      "ancy</w>"
+    ],
+    [
+      "私",
+      "</w>"
+    ],
+    [
+      "谈",
+      "</w>"
+    ],
+    [
+      "又",
+      "</w>"
+    ],
+    [
+      "绅",
+      "</w>"
+    ],
+    [
+      "味",
+      "</w>"
+    ],
+    [
+      "哥",
+      "</w>"
+    ],
+    [
+      "华",
+      "</w>"
+    ],
+    [
+      "m",
+      "</w>"
+    ],
+    [
+      "o",
+      "m</w>"
+    ],
+    [
+      "t",
+      "om</w>"
+    ],
+    [
+      "躲",
+      "</w>"
+    ],
+    [
+      "桌",
+      "</w>"
+    ],
+    [
+      "表",
+      "</w>"
+    ],
+    [
+      "澡",
+      "</w>"
+    ],
+    [
+      "筑",
+      "</w>"
+    ],
+    [
+      "震",
+      "</w>"
+    ],
+    [
+      "摇",
+      "</w>"
+    ],
+    [
+      "晃",
+      "</w>"
+    ],
+    [
+      "戴",
+      "</w>"
+    ],
+    [
+      "麻",
+      "</w>"
+    ],
+    [
+      "烦",
+      "</w>"
+    ],
+    [
+      "邻",
+      "</w>"
+    ],
+    [
+      "村",
+      "</w>"
+    ],
+    [
+      "象",
+      "</w>"
+    ],
+    [
+      "賺",
+      "</w>"
+    ],
+    [
+      "百",
+      "</w>"
+    ],
+    [
+      "較",
+      "</w>"
+    ],
+    [
+      "仅",
+      "</w>"
+    ],
+    [
+      "席",
+      "</w>"
+    ],
+    [
+      "血",
+      "</w>"
+    ],
+    [
+      "沸",
+      "</w>"
+    ],
+    [
+      "帖",
+      "</w>"
+    ],
+    [
+      "2",
+      "</w>"
+    ],
+    [
+      "休",
+      "</w>"
+    ],
+    [
+      "假",
+      "</w>"
+    ],
+    [
+      "阳",
+      "</w>"
+    ],
+    [
+      "选",
+      "</w>"
+    ],
+    [
+      "择",
+      "</w>"
+    ],
+    [
+      "或",
+      "</w>"
+    ],
+    [
+      "项",
+      "</w>"
+    ],
+    [
+      "艰",
+      "</w>"
+    ],
+    [
+      "却",
+      "</w>"
+    ],
+    [
+      "鲜",
+      "</w>"
+    ],
+    [
+      "龙",
+      "</w>"
+    ],
+    [
+      "虾",
+      "</w>"
+    ],
+    [
+      "著",
+      "</w>"
+    ],
+    [
+      "進",
+      "</w>"
+    ],
+    [
+      "計",
+      "</w>"
+    ],
+    [
+      "劃",
+      "</w>"
+    ],
+    [
+      "總",
+      "</w>"
+    ],
+    [
+      "發",
+      "</w>"
+    ],
+    [
+      "够",
+      "</w>"
+    ],
+    [
+      "威",
+      "</w>"
+    ],
+    [
+      "尼",
+      "</w>"
+    ],
+    [
+      "季",
+      "</w>"
+    ],
+    [
+      "挤",
+      "</w>"
+    ],
+    [
+      "诗",
+      "</w>"
+    ],
+    [
+      "兼",
+      "</w>"
+    ],
+    [
+      "者",
+      "</w>"
+    ],
+    [
+      "泳",
+      "</w>"
+    ],
+    [
+      "持",
+      "</w>"
+    ],
+    [
+      "传",
+      "</w>"
+    ],
+    [
+      "统",
+      "</w>"
+    ],
+    [
+      "设",
+      "</w>"
+    ],
+    [
+      "僵",
+      "</w>"
+    ],
+    [
+      "局",
+      "</w>"
+    ],
+    [
+      "從",
+      "</w>"
+    ],
+    [
+      "c",
+      "e</w>"
+    ],
+    [
+      "l",
+      "i"
+    ],
+    [
+      "a",
+      "li"
+    ],
+    [
+      "ali",
+      "ce</w>"
+    ],
+    [
+      "演",
+      "</w>"
+    ],
+    [
+      "唱",
+      "</w>"
+    ],
+    [
+      "骗",
+      "</w>"
+    ],
+    [
+      "争",
+      "</w>"
+    ],
+    [
+      "辩",
+      "</w>"
+    ],
+    [
+      "适",
+      "</w>"
+    ],
+    [
+      "职",
+      "</w>"
+    ],
+    [
+      "溜",
+      "</w>"
+    ],
+    [
+      "7",
+      "</w>"
+    ],
+    [
+      "铁",
+      "</w>"
+    ],
+    [
+      "摄",
+      "</w>"
+    ],
+    [
+      "糟",
+      "</w>"
+    ],
+    [
+      "糕",
+      "</w>"
+    ],
+    [
+      "透",
+      "</w>"
+    ],
+    [
+      "t",
+      "e</w>"
+    ],
+    [
+      "k",
+      "a"
+    ],
+    [
+      "ka",
+      "te</w>"
+    ],
+    [
+      ",",
+      "</w>"
+    ],
+    [
+      "急",
+      "</w>"
+    ],
+    [
+      "救",
+      "</w>"
+    ],
+    [
+      "池",
+      "</w>"
+    ],
+    [
+      "鱼",
+      "</w>"
+    ],
+    [
+      "挑",
+      "</w>"
+    ],
+    [
+      "病",
+      "</w>"
+    ],
+    [
+      "笔",
+      "</w>"
+    ],
+    [
+      "曾",
+      "</w>"
+    ],
+    [
+      "經",
+      "</w>"
+    ],
+    [
+      "空",
+      "</w>"
+    ],
+    [
+      "整",
+      "</w>"
+    ],
+    [
+      "愉",
+      "</w>"
+    ],
+    [
+      "杰",
+      "</w>"
+    ],
+    [
+      "姐",
+      "</w>"
+    ],
+    [
+      "��",
+      "</w>"
+    ],
+    [
+      "婚",
+      "</w>"
+    ],
+    [
+      "汽",
+      "</w>"
+    ],
+    [
+      "笛",
+      "</w>"
+    ],
+    [
+      "驶",
+      "</w>"
+    ],
+    [
+      "港",
+      "</w>"
+    ],
+    [
+      "包",
+      "</w>"
+    ],
+    [
+      "眠",
+      "</w>"
+    ],
+    [
+      "命",
+      "</w>"
+    ],
+    [
+      "困",
+      "</w>"
+    ],
+    [
+      "蝴",
+      "</w>"
+    ],
+    [
+      "蝶",
+      "</w>"
+    ],
+    [
+      "滑",
+      "</w>"
+    ],
+    [
+      "诚",
+      "</w>"
+    ],
+    [
+      "德",
+      "</w>"
+    ],
+    [
+      "仪",
+      "</w>"
+    ],
+    [
+      "庄",
+      "</w>"
+    ],
+    [
+      "举",
+      "</w>"
+    ],
+    [
+      "内",
+      "</w>"
+    ],
+    [
+      "反",
+      "</w>"
+    ],
+    [
+      "论",
+      "</w>"
+    ],
+    [
+      "擔",
+      "</w>"
+    ],
+    [
+      "揭",
+      "</w>"
+    ],
+    [
+      "露",
+      "</w>"
+    ],
+    [
+      "平",
+      "</w>"
+    ],
+    [
+      "涌",
+      "</w>"
+    ],
+    [
+      "泪",
+      "</w>"
+    ],
+    [
+      "景",
+      "</w>"
+    ],
+    [
+      "誓",
+      "</w>"
+    ],
+    [
+      "赢",
+      "</w>"
+    ],
+    [
+      "彻",
+      "</w>"
+    ],
+    [
+      "进",
+      "</w>"
+    ],
+    [
+      "铃",
+      "</w>"
+    ],
+    [
+      "亲",
+      "</w>"
+    ],
+    [
+      "独",
+      "</w>"
+    ],
+    [
+      "赶",
+      "</w>"
+    ],
+    [
+      "份",
+      "</w>"
+    ],
+    [
+      "瘋",
+      "</w>"
+    ],
+    [
+      "永",
+      "</w>"
+    ],
+    [
+      "遠",
+      "</w>"
+    ],
+    [
+      "踢",
+      "</w>"
+    ],
+    [
+      "長",
+      "</w>"
+    ],
+    [
+      "國",
+      "</w>"
+    ],
+    [
+      "王",
+      "</w>"
+    ],
+    [
+      "1",
+      "</w>"
+    ],
+    [
+      "2",
+      "1</w>"
+    ],
+    [
+      "惡",
+      "</w>"
+    ],
+    [
+      "兔",
+      "</w>"
+    ],
+    [
+      "免",
+      "</w>"
+    ],
+    [
+      "辜",
+      "</w>"
+    ],
+    [
+      "负",
+      "</w>"
+    ],
+    [
+      "饿",
+      "</w>"
+    ],
+    [
+      "請",
+      "</w>"
+    ],
+    [
+      "寄",
+      "</w>"
+    ],
+    [
+      "給",
+      "</w>"
+    ],
+    [
+      "張",
+      "</w>"
+    ],
+    [
+      "远",
+      "</w>"
+    ],
+    [
+      "银",
+      "</w>"
+    ],
+    [
+      "风",
+      "</w>"
+    ],
+    [
+      "户",
+      "</w>"
+    ],
+    [
+      "较",
+      "</w>"
+    ],
+    [
+      "贷",
+      "</w>"
+    ],
+    [
+      "利",
+      "</w>"
+    ],
+    [
+      "课",
+      "</w>"
+    ],
+    [
+      "济",
+      "</w>"
+    ],
+    [
+      "蜂",
+      "</w>"
+    ],
+    [
+      "即",
+      "</w>"
+    ],
+    [
+      "餐",
+      "</w>"
+    ],
+    [
+      "体",
+      "</w>"
+    ],
+    [
+      "销",
+      "</w>"
+    ],
+    [
+      "售",
+      "</w>"
+    ],
+    [
+      "宵",
+      "</w>"
+    ],
+    [
+      "旦",
+      "</w>"
+    ],
+    [
+      "花",
+      "</w>"
+    ],
+    [
+      "k",
+      "e"
+    ],
+    [
+      "n",
+      "</w>"
+    ],
+    [
+      "ke",
+      "n</w>"
+    ],
+    [
+      "七",
+      "</w>"
+    ],
+    [
+      "拆",
+      "</w>"
+    ],
+    [
+      "桥",
+      "</w>"
+    ],
+    [
+      "朋",
+      "</w>"
+    ],
+    [
+      "友",
+      "</w>"
+    ],
+    [
+      "讀",
+      "</w>"
+    ],
+    [
+      "﹐",
+      "</w>"
+    ],
+    [
+      "六",
+      "</w>"
+    ],
+    [
+      "弃",
+      "</w>"
+    ],
+    [
+      "盹",
+      "</w>"
+    ],
+    [
+      "飞",
+      "</w>"
+    ],
+    [
+      "机",
+      "</w>"
+    ],
+    [
+      "携",
+      "</w>"
+    ],
+    [
+      "带",
+      "</w>"
+    ],
+    [
+      "4",
+      "0</w>"
+    ],
+    [
+      "护",
+      "</w>"
+    ],
+    [
+      "扰",
+      "</w>"
+    ],
+    [
+      "唯",
+      "</w>"
+    ],
+    [
+      "卫",
+      "</w>"
+    ],
+    [
+      "3",
+      "</w>"
+    ],
+    [
+      "纯",
+      "</w>"
+    ],
+    [
+      "属",
+      "</w>"
+    ],
+    [
+      "偶",
+      "</w>"
+    ],
+    [
+      "津",
+      "</w>"
+    ],
+    [
+      "音",
+      "</w>"
+    ],
+    [
+      "值",
+      "</w>"
+    ],
+    [
+      "睛",
+      "</w>"
+    ],
+    [
+      "k",
+      "e</w>"
+    ],
+    [
+      "ja",
+      "ke</w>"
+    ],
+    [
+      "扇",
+      "</w>"
+    ],
+    [
+      "窗",
+      "</w>"
+    ],
+    [
+      "叫",
+      "</w>"
+    ],
+    [
+      "ja",
+      "c"
+    ],
+    [
+      "k",
+      "</w>"
+    ],
+    [
+      "jac",
+      "k</w>"
+    ],
+    [
+      "幹",
+      "</w>"
+    ],
+    [
+      "鲍",
+      "</w>"
+    ],
+    [
+      "勃",
+      "</w>"
+    ],
+    [
+      "丰",
+      "</w>"
+    ],
+    [
+      "富",
+      "</w>"
+    ],
+    [
+      "答",
+      "</w>"
+    ],
+    [
+      "复",
+      "</w>"
+    ],
+    [
+      "悔",
+      "</w>"
+    ],
+    [
+      "概",
+      "</w>"
+    ],
+    [
+      "澄",
+      "</w>"
+    ],
+    [
+      "清",
+      "</w>"
+    ],
+    [
+      "价",
+      "</w>"
+    ],
+    [
+      "涨",
+      "</w>"
+    ],
+    [
+      "守",
+      "</w>"
+    ],
+    [
+      "诺",
+      "</w>"
+    ],
+    [
+      "顾",
+      "</w>"
+    ],
+    [
+      "迷",
+      "</w>"
+    ],
+    [
+      "社",
+      "</w>"
+    ],
+    [
+      "团",
+      "</w>"
+    ],
+    [
+      "抓",
+      "</w>"
+    ],
+    [
+      "鼠",
+      "</w>"
+    ],
+    [
+      "纪",
+      "</w>"
+    ],
+    [
+      "品",
+      "</w>"
+    ],
+    [
+      "阅",
+      "</w>"
+    ],
+    [
+      "饭",
+      "</w>"
+    ],
+    [
+      "购",
+      "</w>"
+    ],
+    [
+      "镜",
+      "</w>"
+    ],
+    [
+      "迅",
+      "</w>"
+    ],
+    [
+      "速",
+      "</w>"
+    ],
+    [
+      "窜",
+      "</w>"
+    ],
+    [
+      "入",
+      "</w>"
+    ],
+    [
+      "群",
+      "</w>"
+    ],
+    [
+      "耗",
+      "</w>"
+    ],
+    [
+      "气",
+      "</w>"
+    ],
+    [
+      "化",
+      "</w>"
+    ],
+    [
+      "附",
+      "</w>"
+    ],
+    [
+      "近",
+      "</w>"
+    ],
+    [
+      "张",
+      "</w>"
+    ],
+    [
+      "片",
+      "</w>"
+    ],
+    [
+      "童",
+      "</w>"
+    ],
+    [
+      "福",
+      "</w>"
+    ],
+    [
+      "药",
+      "</w>"
+    ],
+    [
+      "创",
+      "</w>"
+    ],
+    [
+      "迹",
+      "</w>"
+    ],
+    [
+      "厕",
+      "</w>"
+    ],
+    [
+      "冲",
+      "</w>"
+    ],
+    [
+      "轨",
+      "</w>"
+    ],
+    [
+      "1",
+      "8"
+    ],
+    [
+      "18",
+      "</w>"
+    ],
+    [
+      "环",
+      "</w>"
+    ],
+    [
+      "素",
+      "</w>"
+    ],
+    [
+      "5",
+      "6</w>"
+    ],
+    [
+      "粗",
+      "</w>"
+    ],
+    [
+      "趕",
+      "</w>"
+    ],
+    [
+      "久",
+      "</w>"
+    ],
+    [
+      "妻",
+      "</w>"
+    ],
+    [
+      "互",
+      "</w>"
+    ],
+    [
+      "助",
+      "</w>"
+    ],
+    [
+      "训",
+      "</w>"
+    ],
+    [
+      "脑",
+      "</w>"
+    ],
+    [
+      "戏",
+      "</w>"
+    ],
+    [
+      "散",
+      "</w>"
+    ],
+    [
+      "步",
+      "</w>"
+    ],
+    [
+      "油",
+      "</w>"
+    ],
+    [
+      "置",
+      "</w>"
+    ],
+    [
+      "债",
+      "</w>"
+    ],
+    [
+      "冷",
+      "</w>"
+    ],
+    [
+      "湖",
+      "</w>"
+    ],
+    [
+      "结",
+      "</w>"
+    ],
+    [
+      "首",
+      "</w>"
+    ],
+    [
+      "歌",
+      "</w>"
+    ],
+    [
+      "1",
+      "0"
+    ],
+    [
+      "10",
+      "0</w>"
+    ],
+    [
+      "万",
+      "</w>"
+    ],
+    [
+      "辆",
+      "</w>"
+    ],
+    [
+      "呢",
+      "</w>"
+    ],
+    [
+      "變",
+      "</w>"
+    ],
+    [
+      "卖",
+      "</w>"
+    ],
+    [
+      "栋",
+      "</w>"
+    ],
+    [
+      "灰",
+      "</w>"
+    ],
+    [
+      "楼",
+      "</w>"
+    ],
+    [
+      "毕",
+      "</w>"
+    ],
+    [
+      "索",
+      "</w>"
+    ],
+    [
+      "抱",
+      "</w>"
+    ],
+    [
+      "歉",
+      "</w>"
+    ],
+    [
+      "盛",
+      "</w>"
+    ],
+    [
+      "邀",
+      "</w>"
+    ],
+    [
+      "延",
+      "</w>"
+    ],
+    [
+      "误",
+      "</w>"
+    ],
+    [
+      "苏",
+      "</w>"
+    ],
+    [
+      "兰",
+      "</w>"
+    ],
+    [
+      "古",
+      "</w>"
+    ],
+    [
+      "堡",
+      "</w>"
+    ],
+    [
+      "谁",
+      "</w>"
+    ],
+    [
+      "纸",
+      "</w>"
+    ],
+    [
+      "杂",
+      "</w>"
+    ],
+    [
+      "志",
+      "</w>"
+    ],
+    [
+      "闻",
+      "</w>"
+    ],
+    [
+      "播",
+      "</w>"
+    ],
+    [
+      "奶",
+      "</w>"
+    ]
+  ],
+  "special_tokens": [
+    "<pad>",
+    "<sos>",
+    "<eos>",
+    "<unk>",
+    "<mask>"
+  ]
+}

inference.py ADDED Viewed

	@@ -0,0 +1,347 @@

+"""
+推理脚本
+可视化扩散翻译过程
+"""
+import os
+import argparse
+import torch
+import torch.nn.functional as F
+from typing import Optional, Tuple, List
+from config import Config
+from tokenizer import Tokenizer
+from embedding import DualLanguageEmbedding, DualOutputProjection
+from model import create_model
+from diffusion import get_diffusion
+from switcher import create_switcher
+class Translator:
+    """翻译器"""
+    def __init__(self, config: Config, checkpoint_path: Optional[str] = None):
+        self.config = config
+        self.device = torch.device("cpu")
+        # 加载分词器
+        cache_dir = os.path.join(config.project_dir, config.data.cache_dir)
+        self.zh_tokenizer = Tokenizer.load(os.path.join(cache_dir, "tokenizer_zh.json"))
+        self.en_tokenizer = Tokenizer.load(os.path.join(cache_dir, "tokenizer_en.json"))
+        # 初始化模型组件
+        self.embedding = DualLanguageEmbedding(
+            vocab_size_zh=self.zh_tokenizer.vocab_size_actual,
+            vocab_size_en=self.en_tokenizer.vocab_size_actual,
+            d_model=config.model.d_model,
+            max_len=config.model.max_len,
+            dropout=0.0,  # 推理时不使用dropout
+        )
+        self.output_proj = DualOutputProjection(
+            d_model=config.model.d_model,
+            vocab_size_zh=self.zh_tokenizer.vocab_size_actual,
+            vocab_size_en=self.en_tokenizer.vocab_size_actual,
+        )
+        self.model = create_model(config)
+        self.switcher = create_switcher(config)
+        self.diffusion, self.ddim_sampler = get_diffusion(config)
+        # 加载权重
+        if checkpoint_path:
+            self._load_checkpoint(checkpoint_path)
+    def _load_checkpoint(self, path: str):
+        """加载检查点"""
+        state = torch.load(path, map_location=self.device, weights_only=False)
+        self.embedding.load_state_dict(state['embedding'])
+        self.output_proj.load_state_dict(state['output_proj'])
+        self.model.load_state_dict(state['model'])
+        self.switcher.load_state_dict(state['switcher'])
+        print(f"已加载检查点: {path}")
+    def _encode(self, text: str, lang: str) -> torch.Tensor:
+        """编码文本"""
+        if lang == "zh":
+            ids = self.zh_tokenizer.encode(text, add_sos=True, add_eos=True)
+            return torch.tensor(ids, dtype=torch.long).unsqueeze(0)
+        else:
+            ids = self.en_tokenizer.encode(text, add_sos=True, add_eos=True)
+            return torch.tensor(ids, dtype=torch.long).unsqueeze(0)
+    def _decode(self, ids: torch.Tensor, lang: str) -> str:
+        """解码为文本"""
+        ids = ids[0].tolist()
+        if lang == "zh":
+            return self.zh_tokenizer.decode(ids, skip_special=True)
+        else:
+            return self.en_tokenizer.decode(ids, skip_special=True)
+    def _embed_to_tokens(self, x: torch.Tensor, lang: str) -> torch.Tensor:
+        """从嵌入空间解码到token"""
+        logits = self.output_proj(x, lang)
+        ids = logits.argmax(dim=-1)
+        return ids
+    @torch.no_grad()
+    def translate(
+        self,
+        text: str,
+        source_lang: str,
+        verbose: bool = True,
+        ddim: bool = True,
+    ) -> str:
+        """翻译文本
+        Args:
+            text: 输入文本
+            source_lang: 源语言 "zh" 或 "en"
+            verbose: 是否打印扩散过程
+            ddim: 是否使用DDIM加速
+        Returns:
+            翻译结果
+        """
+        self.model.eval()
+        self.embedding.eval()
+        self.output_proj.eval()
+        self.switcher.eval()
+        target_lang = "en" if source_lang == "zh" else "zh"
+        if verbose:
+            print(f"\n翻译模式: {source_lang.upper()} → {target_lang.upper()}")
+            print(f"输入: {text}")
+            print(f"\n扩散过程:")
+        # 编码源语言
+        source_ids = self._encode(text, source_lang)
+        source_len = torch.tensor([source_ids.size(1)])
+        # 嵌入源语言
+        source_emb = self.embedding(source_ids, source_lang, source_len)
+        # 完整前向扩散到纯噪声
+        if verbose:
+            print(f"  前向扩散: {source_lang} → 噪声空间")
+        batch_size = source_emb.size(0)
+        t_full = torch.full((batch_size,), self.config.diffusion.timesteps - 1, dtype=torch.long)
+        noise = torch.randn_like(source_emb)
+        x_t, _ = self.diffusion.q_sample(source_emb, t_full, noise)
+        # DDIM反向扩散
+        if ddim:
+            result = self._ddim_reverse(
+                x_t, source_lang, target_lang, verbose
+            )
+        else:
+            result = self._ddpm_reverse(
+                x_t, source_lang, target_lang, verbose
+            )
+        return result
+    def _ddim_reverse(
+        self,
+        x_t: torch.Tensor,
+        source_lang: str,
+        target_lang: str,
+        verbose: bool,
+    ) -> str:
+        """DDIM反向扩散"""
+        ddim_steps = self.config.diffusion.ddim_steps
+        timesteps = self.ddim_sampler.ddim_timesteps
+        total_steps = len(timesteps)
+        switch_point = total_steps // 2  # 在中间切换语言
+        for i, t in enumerate(timesteps[:-1]):
+            t_prev = timesteps[i + 1]
+            # 根据进度决定用哪种语言去噪和显示
+            # 前半段：源语言，后半段：目标语言
+            if i < switch_point:
+                current_lang = source_lang
+            else:
+                current_lang = target_lang
+            # 预测噪声
+            t_tensor = torch.full((x_t.size(0),), t, dtype=torch.long)
+            predicted_noise = self.model(x_t, t_tensor, lang=current_lang)
+            if verbose:
+                # 显示当前语言的解码结果
+                current_ids = self._embed_to_tokens(x_t, current_lang)
+                current_text = self._decode(current_ids, current_lang)
+                if len(current_text) > 50:
+                    current_text = current_text[:50] + "..."
+                print(f"  Step {t:4d} → {current_text}")
+            # DDIM步骤
+            x_t = self.ddim_sampler.ddim_step(x_t, t, t_prev, predicted_noise, eta=0.0)
+        # 最终解码
+        final_ids = self._embed_to_tokens(x_t, target_lang)
+        result = self._decode(final_ids, target_lang)
+        if verbose:
+            print(f"\n输出: {result}")
+        return result
+    def _ddpm_reverse(
+        self,
+        x_t: torch.Tensor,
+        source_lang: str,
+        target_lang: str,
+        verbose: bool,
+    ) -> str:
+        """DDPM反向扩散（标准方法，较慢）"""
+        total_steps = self.config.diffusion.timesteps
+        switch_point = total_steps // 2  # 在中间切换语言
+        for t in range(total_steps - 1, -1, -1):
+            # 根据时间步决定用哪种语言
+            if t > switch_point:
+                current_lang = source_lang
+            else:
+                current_lang = target_lang
+            t_tensor = torch.full((x_t.size(0),), t, dtype=torch.long)
+            # 预测噪声
+            predicted_noise = self.model(x_t, t_tensor, lang=current_lang)
+            if verbose:
+                current_ids = self._embed_to_tokens(x_t, current_lang)
+                current_text = self._decode(current_ids, current_lang)
+                if len(current_text) > 50:
+                    current_text = current_text[:50] + "..."
+                print(f"  Step {t:4d} → {current_text}")
+            # DDPM步骤
+            x_t = self.diffusion.p_sample(x_t, t_tensor, predicted_noise)
+        # 解码
+        final_ids = self._embed_to_tokens(x_t, target_lang)
+        result = self._decode(final_ids, target_lang)
+        if verbose:
+            print(f"\n输出: {result}")
+        return result
+    def interactive(self):
+        """交互模式"""
+        print("\n" + "=" * 50)
+        print("Diffutslator 交互翻译模式")
+        print("=" * 50)
+        print("输入 'zh: 文本' 翻译中文到英文")
+        print("输入 'en: text' 翻译英文到中文")
+        print("输入 'quit' 或 'exit' 退出")
+        print("=" * 50 + "\n")
+        while True:
+            try:
+                user_input = input(">>> ").strip()
+                if user_input.lower() in ['quit', 'exit', 'q']:
+                    print("再见!")
+                    break
+                if not user_input:
+                    continue
+                # 解析输入
+                if user_input.lower().startswith('zh:'):
+                    text = user_input[3:].strip()
+                    source_lang = "zh"
+                elif user_input.lower().startswith('en:'):
+                    text = user_input[3:].strip()
+                    source_lang = "en"
+                else:
+                    # 自动检测（简单判断）
+                    if any('\u4e00' <= c <= '\u9fff' for c in user_input):
+                        text = user_input
+                        source_lang = "zh"
+                    else:
+                        text = user_input
+                        source_lang = "en"
+                # 翻译
+                result = self.translate(text, source_lang, verbose=True)
+            except KeyboardInterrupt:
+                print("\n再见!")
+                break
+            except Exception as e:
+                print(f"错误: {e}")
+def main():
+    parser = argparse.ArgumentParser(description="Diffutslator 推理脚本")
+    parser.add_argument("--checkpoint", type=str, default=None, help="检查点路径")
+    parser.add_argument("--text", type=str, default=None, help="要翻译的文本")
+    parser.add_argument("--zh", action="store_true", help="输入是中文")
+    parser.add_argument("--en", action="store_true", help="输入是英文")
+    parser.add_argument("--interactive", "-i", action="store_true", help="交互模式")
+    parser.add_argument("--quiet", "-q", action="store_true", help="安静模式，不打印过程")
+    parser.add_argument("--ddim-steps", type=int, default=50, help="DDIM步数")
+    args = parser.parse_args()
+    # 配置
+    config = Config()
+    config.diffusion.ddim_steps = args.ddim_steps
+    # 找检查点
+    checkpoint_path = args.checkpoint
+    if checkpoint_path is None:
+        checkpoint_dir = os.path.join(config.project_dir, config.training.checkpoint_dir)
+        best_path = os.path.join(checkpoint_dir, "best.pt")
+        if os.path.exists(best_path):
+            checkpoint_path = best_path
+        else:
+            # 找最新的检查点
+            checkpoints = [f for f in os.listdir(checkpoint_dir) if f.endswith('.pt')]
+            if checkpoints:
+                checkpoint_path = os.path.join(checkpoint_dir, checkpoints[-1])
+    if checkpoint_path is None:
+        print("错误: 未找到检查点，请先训练模型")
+        return
+    # 创建翻译器
+    translator = Translator(config, checkpoint_path)
+    # 模式
+    if args.interactive:
+        translator.interactive()
+    elif args.text:
+        if args.zh:
+            source_lang = "zh"
+        elif args.en:
+            source_lang = "en"
+        else:
+            # 自动检测
+            if any('\u4e00' <= c <= '\u9fff' for c in args.text):
+                source_lang = "zh"
+            else:
+                source_lang = "en"
+        result = translator.translate(args.text, source_lang, verbose=not args.quiet)
+        if args.quiet:
+            print(result)
+    else:
+        # 默认交互模式
+        translator.interactive()
+if __name__ == "__main__":
+    main()

main.py ADDED Viewed

	@@ -0,0 +1,107 @@

+"""
+Diffutslator 主入口
+基于扩散模型的中英互译系统
+"""
+import os
+import sys
+import argparse
+def main():
+    parser = argparse.ArgumentParser(
+        description="Diffutslator - 基于扩散模型的翻译系统",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+        epilog="""
+示例:
+  # 快速验证训练
+  python main.py train --quick
+  # 完整训练
+  python main.py train --full
+  # 从检查点恢复训练
+  python main.py train --resume checkpoints/epoch_5.pt
+  # 交互式翻译
+  python main.py translate
+  # 翻译单个句子
+  python main.py translate --text "你好世界" --zh
+  # 使用更多DDIM步数
+  python main.py translate --text "Hello world" --en --ddim-steps 100
+        """
+    )
+    subparsers = parser.add_subparsers(dest="command", help="命令")
+    # 训练命令
+    train_parser = subparsers.add_parser("train", help="训练模型")
+    train_parser.add_argument("--quick", action="store_true", help="快速验证模式")
+    train_parser.add_argument("--full", action="store_true", help="完整训练模式")
+    train_parser.add_argument("--samples", type=int, default=None, help="使用的数据量")
+    train_parser.add_argument("--epochs", type=int, default=None, help="训练轮数")
+    train_parser.add_argument("--batch-size", type=int, default=None, help="批量大小")
+    train_parser.add_argument("--resume", type=str, default=None, help="恢复训练的检查点")
+    # 翻译命令
+    translate_parser = subparsers.add_parser("translate", help="翻译文本")
+    translate_parser.add_argument("--checkpoint", type=str, default=None, help="检查点路径")
+    translate_parser.add_argument("--text", type=str, default=None, help="要翻译的文本")
+    translate_parser.add_argument("--zh", action="store_true", help="输入是中文")
+    translate_parser.add_argument("--en", action="store_true", help="输入是英文")
+    translate_parser.add_argument("--interactive", "-i", action="store_true", help="交互模式")
+    translate_parser.add_argument("--quiet", "-q", action="store_true", help="安静模式")
+    translate_parser.add_argument("--ddim-steps", type=int, default=50, help="DDIM步数")
+    args = parser.parse_args()
+    if args.command == "train":
+        # 导入并运行训练
+        from train import main as train_main
+        sys.argv = ["train.py"]
+        if args.quick:
+            sys.argv.append("--quick")
+        if args.full:
+            sys.argv.append("--full")
+        if args.samples:
+            sys.argv.extend(["--samples", str(args.samples)])
+        if args.epochs:
+            sys.argv.extend(["--epochs", str(args.epochs)])
+        if args.batch_size:
+            sys.argv.extend(["--batch-size", str(args.batch_size)])
+        if args.resume:
+            sys.argv.extend(["--resume", args.resume])
+        train_main()
+    elif args.command == "translate":
+        # 导入并运行推理
+        from inference import main as inference_main
+        sys.argv = ["inference.py"]
+        if args.checkpoint:
+            sys.argv.extend(["--checkpoint", args.checkpoint])
+        if args.text:
+            sys.argv.extend(["--text", args.text])
+        if args.zh:
+            sys.argv.append("--zh")
+        if args.en:
+            sys.argv.append("--en")
+        if args.interactive:
+            sys.argv.append("--interactive")
+        if args.quiet:
+            sys.argv.append("--quiet")
+        if args.ddim_steps:
+            sys.argv.extend(["--ddim-steps", str(args.ddim_steps)])
+        inference_main()
+    else:
+        parser.print_help()
+if __name__ == "__main__":
+    main()

model.py ADDED Viewed

	@@ -0,0 +1,287 @@

+"""
+扩散模型
+轻量级Transformer用于噪声预测
+"""
+import math
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from typing import Optional, Tuple
+from embedding import SinusoidalTimeEmbedding
+class FeedForward(nn.Module):
+    """前馈网络"""
+    def __init__(self, d_model: int, d_ff: int, dropout: float = 0.1):
+        super().__init__()
+        self.w1 = nn.Linear(d_model, d_ff)
+        self.w2 = nn.Linear(d_ff, d_model)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.dropout(self.w2(F.gelu(self.w1(x))))
+class MultiHeadAttention(nn.Module):
+    """多头自注意力"""
+    def __init__(self, d_model: int, n_heads: int, dropout: float = 0.1):
+        super().__init__()
+        assert d_model % n_heads == 0
+        self.d_model = d_model
+        self.n_heads = n_heads
+        self.d_k = d_model // n_heads
+        self.w_q = nn.Linear(d_model, d_model)
+        self.w_k = nn.Linear(d_model, d_model)
+        self.w_v = nn.Linear(d_model, d_model)
+        self.w_o = nn.Linear(d_model, d_model)
+        self.dropout = nn.Dropout(dropout)
+    def forward(
+        self,
+        q: torch.Tensor,
+        k: torch.Tensor,
+        v: torch.Tensor,
+        mask: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        batch_size = q.size(0)
+        # 线性变换并分头
+        q = self.w_q(q).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
+        k = self.w_k(k).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
+        v = self.w_v(v).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
+        # 注意力计算
+        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.d_k)
+        if mask is not None:
+            scores = scores.masked_fill(mask == 0, float('-inf'))
+        attn = F.softmax(scores, dim=-1)
+        attn = self.dropout(attn)
+        # 合并头
+        out = torch.matmul(attn, v)
+        out = out.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)
+        return self.w_o(out)
+class TransformerBlock(nn.Module):
+    """Transformer块"""
+    def __init__(self, d_model: int, n_heads: int, d_ff: int, dropout: float = 0.1):
+        super().__init__()
+        self.attn = MultiHeadAttention(d_model, n_heads, dropout)
+        self.ff = FeedForward(d_model, d_ff, dropout)
+        self.norm1 = nn.LayerNorm(d_model)
+        self.norm2 = nn.LayerNorm(d_model)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x: torch.Tensor, mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        # 自注意力 + 残差
+        x = x + self.dropout(self.attn(self.norm1(x), self.norm1(x), self.norm1(x), mask))
+        # 前馈 + 残差
+        x = x + self.dropout(self.ff(self.norm2(x)))
+        return x
+class NoisePredictor(nn.Module):
+    """噪声预测网络
+    输入: 加噪后的嵌入 x_t 和时间步 t
+    输出: 预测的噪声
+    """
+    def __init__(
+        self,
+        d_model: int = 256,
+        n_heads: int = 4,
+        n_layers: int = 4,
+        d_ff: int = 512,
+        max_len: int = 128,
+        dropout: float = 0.1,
+    ):
+        super().__init__()
+        self.d_model = d_model
+        # 时间步嵌入
+        self.time_embedding = SinusoidalTimeEmbedding(d_model)
+        self.time_mlp = nn.Sequential(
+            nn.Linear(d_model, d_model * 4),
+            nn.GELU(),
+            nn.Linear(d_model * 4, d_model),
+        )
+        # Transformer层
+        self.layers = nn.ModuleList([
+            TransformerBlock(d_model, n_heads, d_ff, dropout)
+            for _ in range(n_layers)
+        ])
+        # 输出层
+        self.output_norm = nn.LayerNorm(d_model)
+        self.output_proj = nn.Linear(d_model, d_model)
+        # 初始化
+        self.apply(self._init_weights)
+    def _init_weights(self, module):
+        if isinstance(module, nn.Linear):
+            nn.init.normal_(module.weight, mean=0.0, std=0.02)
+            if module.bias is not None:
+                nn.init.zeros_(module.bias)
+        elif isinstance(module, nn.LayerNorm):
+            nn.init.ones_(module.weight)
+            nn.init.zeros_(module.bias)
+    def forward(
+        self,
+        x_t: torch.Tensor,
+        t: torch.Tensor,
+        mask: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """
+        x_t: [batch, seq_len, d_model] 加噪后的嵌入
+        t: [batch] 时间步
+        mask: [batch, seq_len] 可选的注意力mask
+        返回: [batch, seq_len, d_model] 预测的噪声
+        """
+        batch_size, seq_len, _ = x_t.shape
+        # 时间步嵌入
+        t_emb = self.time_embedding(t)  # [batch, d_model]
+        t_emb = self.time_mlp(t_emb)    # [batch, d_model]
+        # 添加时间信息到每个位置
+        x = x_t + t_emb.unsqueeze(1)
+        # Transformer处理
+        for layer in self.layers:
+            x = layer(x, mask)
+        # 输出
+        x = self.output_norm(x)
+        noise_pred = self.output_proj(x)
+        return noise_pred
+class DualNoisePredictor(nn.Module):
+    """双语言噪声预测器
+    共享核心网络，语言特定的输入/输出投影
+    """
+    def __init__(
+        self,
+        d_model: int = 256,
+        n_heads: int = 4,
+        n_layers: int = 4,
+        d_ff: int = 512,
+        max_len: int = 128,
+        dropout: float = 0.1,
+    ):
+        super().__init__()
+        self.d_model = d_model
+        # 时间步嵌入（共享）
+        self.time_embedding = SinusoidalTimeEmbedding(d_model)
+        self.time_mlp = nn.Sequential(
+            nn.Linear(d_model, d_model * 4),
+            nn.GELU(),
+            nn.Linear(d_model * 4, d_model),
+        )
+        # 语言特定的输入投影
+        self.zh_input_proj = nn.Linear(d_model, d_model)
+        self.en_input_proj = nn.Linear(d_model, d_model)
+        # 共享Transformer层
+        self.layers = nn.ModuleList([
+            TransformerBlock(d_model, n_heads, d_ff, dropout)
+            for _ in range(n_layers)
+        ])
+        # 语言特定的输出投影
+        self.zh_output_proj = nn.Linear(d_model, d_model)
+        self.en_output_proj = nn.Linear(d_model, d_model)
+        self.output_norm = nn.LayerNorm(d_model)
+        # 初始化
+        self.apply(self._init_weights)
+    def _init_weights(self, module):
+        if isinstance(module, nn.Linear):
+            nn.init.normal_(module.weight, mean=0.0, std=0.02)
+            if module.bias is not None:
+                nn.init.zeros_(module.bias)
+        elif isinstance(module, nn.LayerNorm):
+            nn.init.ones_(module.weight)
+            nn.init.zeros_(module.bias)
+    def forward(
+        self,
+        x_t: torch.Tensor,
+        t: torch.Tensor,
+        lang: str = "zh",
+        mask: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """
+        x_t: [batch, seq_len, d_model]
+        t: [batch]
+        lang: "zh" 或 "en"
+        """
+        # 时间步嵌入
+        t_emb = self.time_embedding(t)
+        t_emb = self.time_mlp(t_emb)
+        # 语言特定输入投影
+        if lang == "zh":
+            x = self.zh_input_proj(x_t)
+        else:
+            x = self.en_input_proj(x_t)
+        # 添加时间信息
+        x = x + t_emb.unsqueeze(1)
+        # 共享Transformer
+        for layer in self.layers:
+            x = layer(x, mask)
+        # 输出归一化
+        x = self.output_norm(x)
+        # 语言特定输出投影
+        if lang == "zh":
+            noise_pred = self.zh_output_proj(x)
+        else:
+            noise_pred = self.en_output_proj(x)
+        return noise_pred
+def create_model(config) -> DualNoisePredictor:
+    """创建模型"""
+    model = DualNoisePredictor(
+        d_model=config.model.d_model,
+        n_heads=config.model.n_heads,
+        n_layers=config.model.n_layers,
+        d_ff=config.model.d_ff,
+        max_len=config.model.max_len,
+        dropout=config.model.dropout,
+    )
+    return model

switcher.py ADDED Viewed

	@@ -0,0 +1,191 @@

+"""
+语言切换器
+判断当前噪声状态更接近哪种语言
+"""
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from typing import Tuple, Optional
+class LanguageSwitcher(nn.Module):
+    """语言切换分类器
+    输入: 噪声状态 x_t [batch, seq_len, d_model]
+    输出: 语言概率 [batch, 2] -> [中文概率, 英文概率]
+    """
+    def __init__(self, d_model: int = 256, hidden_dim: int = 128, dropout: float = 0.1):
+        super().__init__()
+        # 全局特征提取
+        self.global_pool = nn.AdaptiveAvgPool1d(1)
+        # 分类头
+        self.classifier = nn.Sequential(
+            nn.Linear(d_model, hidden_dim),
+            nn.GELU(),
+            nn.Dropout(dropout),
+            nn.Linear(hidden_dim, hidden_dim),
+            nn.GELU(),
+            nn.Dropout(dropout),
+            nn.Linear(hidden_dim, 2),  # 2类：中文/英文
+        )
+        # 初始化
+        self.apply(self._init_weights)
+    def _init_weights(self, module):
+        if isinstance(module, nn.Linear):
+            nn.init.normal_(module.weight, mean=0.0, std=0.02)
+            if module.bias is not None:
+                nn.init.zeros_(module.bias)
+    def forward(self, x_t: torch.Tensor, mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        """
+        x_t: [batch, seq_len, d_model]
+        mask: [batch, seq_len] 可选的mask
+        返回: [batch, 2] logits (中文, 英文)
+        """
+        # 应用mask
+        if mask is not None:
+            x_t = x_t * mask.unsqueeze(-1)
+        # 全局池化: [batch, seq_len, d_model] -> [batch, d_model, seq_len] -> [batch, d_model, 1]
+        x = x_t.transpose(1, 2)
+        x = self.global_pool(x).squeeze(-1)  # [batch, d_model]
+        # 分类
+        logits = self.classifier(x)
+        return logits
+    def predict(self, x_t: torch.Tensor, mask: Optional[torch.Tensor] = None) -> Tuple[str, float]:
+        """预测语言
+        返回:
+            lang: "zh" 或 "en"
+            confidence: 置信度 [0, 1]
+        """
+        self.eval()
+        with torch.no_grad():
+            logits = self.forward(x_t, mask)
+            probs = F.softmax(logits, dim=-1)
+            # 取第一个样本（假设batch=1）
+            zh_prob = probs[0, 0].item()
+            en_prob = probs[0, 1].item()
+            if zh_prob > en_prob:
+                return "zh", zh_prob
+            else:
+                return "en", en_prob
+    def get_probabilities(self, x_t: torch.Tensor, mask: Optional[torch.Tensor] = None) -> Tuple[torch.Tensor, torch.Tensor]:
+        """获取中文和英文的概率
+        返回:
+            zh_probs: [batch] 中文概率
+            en_probs: [batch] 英文概率
+        """
+        logits = self.forward(x_t, mask)
+        probs = F.softmax(logits, dim=-1)
+        return probs[:, 0], probs[:, 1]
+class AdaptiveSwitcher(nn.Module):
+    """自适应语言切换器
+    根据扩散时间步动态调整切换策略
+    - 早期（高噪声）：更激进的切换
+    - 后期（低噪声）：更保守的切换
+    """
+    def __init__(
+        self,
+        d_model: int = 256,
+        hidden_dim: int = 128,
+        dropout: float = 0.1,
+        switch_threshold: float = 0.6,  # 切换阈值
+    ):
+        super().__init__()
+        self.switch_threshold = switch_threshold
+        # 基础切换器
+        self.base_switcher = LanguageSwitcher(d_model, hidden_dim, dropout)
+        # 时间调制
+        self.time_modulation = nn.Sequential(
+            nn.Linear(1, hidden_dim),
+            nn.GELU(),
+            nn.Linear(hidden_dim, 2),
+            nn.Sigmoid(),
+        )
+    def forward(
+        self,
+        x_t: torch.Tensor,
+        t: Optional[torch.Tensor] = None,
+        mask: Optional[torch.Tensor] = None,
+    ) -> torch.Tensor:
+        """
+        x_t: [batch, seq_len, d_model]
+        t: [batch] 时间步，用于调制
+        """
+        # 基础预测
+        logits = self.base_switcher(x_t, mask)
+        # 时间调制（可选）
+        if t is not None:
+            # 归一化时间
+            t_norm = t.float().unsqueeze(-1) / 1000.0  # [batch, 1]
+            modulation = self.time_modulation(t_norm)  # [batch, 2]
+            logits = logits * modulation
+        return logits
+    def should_switch(
+        self,
+        x_t: torch.Tensor,
+        current_lang: str,
+        t: Optional[torch.Tensor] = None,
+        mask: Optional[torch.Tensor] = None,
+    ) -> Tuple[bool, str, float]:
+        """判断是否应该切换语言
+        返回:
+            should_switch: 是否切换
+            new_lang: 新语言
+            confidence: 置信度
+        """
+        self.eval()
+        with torch.no_grad():
+            logits = self.forward(x_t, t, mask)
+            probs = F.softmax(logits, dim=-1)
+            zh_prob = probs[0, 0].item()
+            en_prob = probs[0, 1].item()
+            # 判断
+            predicted_lang = "zh" if zh_prob > en_prob else "en"
+            confidence = max(zh_prob, en_prob)
+            # 是否切换
+            should_switch = (
+                predicted_lang != current_lang and
+                confidence > self.switch_threshold
+            )
+            return should_switch, predicted_lang, confidence
+def create_switcher(config) -> LanguageSwitcher:
+    """创建语言切换器"""
+    return LanguageSwitcher(
+        d_model=config.model.d_model,
+        hidden_dim=config.model.d_model // 2,
+        dropout=config.model.dropout,
+    )

tokenizer.py ADDED Viewed

	@@ -0,0 +1,326 @@

+"""
+分词器
+支持中文字符级和BPE
+"""
+import os
+import re
+import json
+import pickle
+from typing import List, Dict, Optional, Tuple
+from collections import Counter
+from functools import lru_cache
+class Tokenizer:
+    """基础分词器"""
+    def __init__(self, vocab_size: int = 8000, lang: str = "zh"):
+        self.vocab_size = vocab_size
+        self.lang = lang
+        # 特殊token
+        self.pad_token = "<pad>"
+        self.sos_token = "<sos>"
+        self.eos_token = "<eos>"
+        self.unk_token = "<unk>"
+        self.mask_token = "<mask>"
+        self.special_tokens = [self.pad_token, self.sos_token, self.eos_token, self.unk_token, self.mask_token]
+        # 词表
+        self.token_to_id: Dict[str, int] = {}
+        self.id_to_token: Dict[int, str] = {}
+        # BPE合并规则
+        self.merges: List[Tuple[str, str]] = []
+        self.bpe_ranks: Dict[Tuple[str, str], int] = {}
+    def _is_chinese(self, char: str) -> bool:
+        """判断是否为中文字符"""
+        return '\u4e00' <= char <= '\u9fff'
+    def _pre_tokenize(self, text: str) -> List[str]:
+        """预分词"""
+        if self.lang == "zh":
+            # 中文：字符级 + 保留英文单词和数字
+            tokens = []
+            current = ""
+            for char in text:
+                if self._is_chinese(char):
+                    if current:
+                        tokens.append(current)
+                        current = ""
+                    tokens.append(char)
+                elif char.isalnum():
+                    current += char.lower()
+                else:
+                    if current:
+                        tokens.append(current)
+                        current = ""
+                    if char.strip():
+                        tokens.append(char)
+            if current:
+                tokens.append(current)
+            return tokens
+        else:
+            # 英文：单词级
+            text = text.lower()
+            tokens = re.findall(r"\w+|[^\w\s]", text)
+            return tokens
+    def _get_pairs(self, word: Tuple[str, ...]) -> set:
+        """获取词中的所有相邻字符对"""
+        pairs = set()
+        prev = word[0]
+        for char in word[1:]:
+            pairs.add((prev, char))
+            prev = char
+        return pairs
+    def train_bpe(self, texts: List[str], num_merges: Optional[int] = None):
+        """训练BPE"""
+        if num_merges is None:
+            num_merges = self.vocab_size - len(self.special_tokens) - 100
+        # 统计词频
+        print(f"    统计词频 ({len(texts)} 文本)...", end="", flush=True)
+        word_freqs: Counter = Counter()
+        for text in texts:
+            for token in self._pre_tokenize(text):
+                # 将token拆分为字符序列
+                chars = tuple(token) + ('</w>',)
+                word_freqs[chars] += 1
+        print(f" {len(word_freqs)} 词")
+        # BPE合并
+        print(f"    BPE合并 ({num_merges} 轮)...", end="", flush=True)
+        self.merges = []
+        last_print = 0
+        for i in range(num_merges):
+            # 统计相邻字符对频率
+            pairs: Counter = Counter()
+            for word, freq in word_freqs.items():
+                pairs_in_word = self._get_pairs(word)
+                for pair in pairs_in_word:
+                    pairs[pair] += freq
+            if not pairs:
+                break
+            # 找最高频的pair
+            best_pair = max(pairs, key=pairs.get)
+            self.merges.append(best_pair)
+            # 合并所有词中的该pair
+            new_word_freqs: Counter = Counter()
+            bigram = re.escape(' '.join(best_pair))
+            pattern = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
+            for word, freq in word_freqs.items():
+                new_word = ' '.join(word)
+                new_word = pattern.sub(''.join(best_pair), new_word)
+                new_word = tuple(new_word.split())
+                new_word_freqs[new_word] += freq
+            word_freqs = new_word_freqs
+            # 每1000轮打印进度
+            if i - last_print >= 100:
+                print(f".{(i+1)//100}k", end="", flush=True)
+                last_print = i
+        print(f" 完成")
+        # 构建词表
+        self._build_vocab(word_freqs)
+    def _build_vocab(self, word_freqs: Counter):
+        """构建词表"""
+        # 特殊token
+        for i, token in enumerate(self.special_tokens):
+            self.token_to_id[token] = i
+            self.id_to_token[i] = token
+        # 收集所有token
+        vocab = set()
+        for word in word_freqs.keys():
+            for token in word:
+                if token != '</w>':
+                    vocab.add(token)
+        # 添加合并后的token
+        for pair in self.merges:
+            vocab.add(''.join(pair))
+        # 按频率排序并截断
+        sorted_vocab = sorted(vocab)
+        for i, token in enumerate(sorted_vocab[:self.vocab_size - len(self.special_tokens)]):
+            idx = i + len(self.special_tokens)
+            self.token_to_id[token] = idx
+            self.id_to_token[idx] = token
+    def _apply_bpe(self, token: str) -> List[str]:
+        """对单个token应用BPE"""
+        if not token:
+            return []
+        word = tuple(token) + ('</w>',)
+        while True:
+            pairs = self._get_pairs(word)
+            if not pairs:
+                break
+            # 找到rank最高的pair
+            min_pair = None
+            min_rank = float('inf')
+            for pair in pairs:
+                rank = self.bpe_ranks.get(pair, float('inf'))
+                if rank < min_rank:
+                    min_rank = rank
+                    min_pair = pair
+            if min_pair is None or min_rank == float('inf'):
+                break
+            # 合并
+            new_word = []
+            i = 0
+            while i < len(word):
+                if i < len(word) - 1 and word[i] == min_pair[0] and word[i + 1] == min_pair[1]:
+                    new_word.append(min_pair[0] + min_pair[1])
+                    i += 2
+                else:
+                    new_word.append(word[i])
+                    i += 1
+            word = tuple(new_word)
+        # 移除</w>标记
+        return [t.replace('</w>', '') for t in word if t.replace('</w>', '')]
+    def encode(self, text: str, add_sos: bool = False, add_eos: bool = False) -> List[int]:
+        """编码文本为token id序列"""
+        # 缓存检查
+        cache_key = (text, add_sos, add_eos)
+        if hasattr(self, '_encode_cache') and cache_key in self._encode_cache:
+            return self._encode_cache[cache_key]
+        tokens = self._pre_tokenize(text)
+        ids = []
+        if add_sos:
+            ids.append(self.token_to_id[self.sos_token])
+        for token in tokens:
+            bpe_tokens = self._apply_bpe(token)
+            for t in bpe_tokens:
+                ids.append(self.token_to_id.get(t, self.token_to_id[self.unk_token]))
+        if add_eos:
+            ids.append(self.token_to_id[self.eos_token])
+        # 缓存结果（限制缓存大小）
+        if not hasattr(self, '_encode_cache'):
+            self._encode_cache = {}
+        if len(self._encode_cache) < 100000:  # 最多缓存10万条
+            self._encode_cache[cache_key] = ids
+        return ids
+    def decode(self, ids: List[int], skip_special: bool = True) -> str:
+        """解码token id序列为文本"""
+        tokens = []
+        for id in ids:
+            token = self.id_to_token.get(id, self.unk_token)
+            if skip_special and token in self.special_tokens:
+                continue
+            # 移除BPE的</w>标记
+            token = token.replace('</w>', '')
+            if token:  # 跳过空token
+                tokens.append(token)
+        if self.lang == "en":
+            # 英文：BPE子词之间用空格连接，然后清理多余空格
+            text = ' '.join(tokens)
+            # 标点符号前移除空格
+            text = re.sub(r'\s+([.,!?;:\'\"])', r'\1', text)
+            # 标点符号后添加空格（如果后面有字母）
+            text = re.sub(r'([.,!?;:])([a-zA-Z])', r'\1 \2', text)
+            # 清理多余空格
+            text = re.sub(r'\s+', ' ', text).strip()
+        else:
+            # 中文：直接拼接
+            text = ''.join(tokens)
+        return text
+    @property
+    def vocab_size_actual(self) -> int:
+        """实际词表大小"""
+        return len(self.token_to_id)
+    @property
+    def pad_id(self) -> int:
+        return self.token_to_id[self.pad_token]
+    @property
+    def sos_id(self) -> int:
+        return self.token_to_id[self.sos_token]
+    @property
+    def eos_id(self) -> int:
+        return self.token_to_id[self.eos_token]
+    @property
+    def unk_id(self) -> int:
+        return self.token_to_id[self.unk_token]
+    def save(self, path: str):
+        """保存分词器"""
+        data = {
+            'vocab_size': self.vocab_size,
+            'lang': self.lang,
+            'token_to_id': self.token_to_id,
+            'id_to_token': {int(k): v for k, v in self.id_to_token.items()},
+            'merges': self.merges,
+            'special_tokens': self.special_tokens,
+        }
+        with open(path, 'w', encoding='utf-8') as f:
+            json.dump(data, f, ensure_ascii=False, indent=2)
+    @classmethod
+    def load(cls, path: str) -> "Tokenizer":
+        """加载分词器"""
+        with open(path, 'r', encoding='utf-8') as f:
+            data = json.load(f)
+        tokenizer = cls(vocab_size=data['vocab_size'], lang=data['lang'])
+        tokenizer.token_to_id = data['token_to_id']
+        tokenizer.id_to_token = {int(k): v for k, v in data['id_to_token'].items()}
+        tokenizer.merges = [tuple(m) for m in data['merges']]
+        tokenizer.bpe_ranks = {pair: i for i, pair in enumerate(tokenizer.merges)}
+        tokenizer.special_tokens = data['special_tokens']
+        return tokenizer
+    def __len__(self) -> int:
+        return self.vocab_size_actual
+def train_tokenizers(config, zh_texts: List[str], en_texts: List[str]) -> Tuple[Tokenizer, Tokenizer]:
+    """训练中英文分词器"""
+    print("训练中文分词器...")
+    zh_tokenizer = Tokenizer(vocab_size=config.model.vocab_size_zh, lang="zh")
+    zh_tokenizer.train_bpe(zh_texts)
+    zh_tokenizer.bpe_ranks = {pair: i for i, pair in enumerate(zh_tokenizer.merges)}
+    print("训练英文分词器...")
+    en_tokenizer = Tokenizer(vocab_size=config.model.vocab_size_en, lang="en")
+    en_tokenizer.train_bpe(en_texts)
+    en_tokenizer.bpe_ranks = {pair: i for i, pair in enumerate(en_tokenizer.merges)}
+    print(f"中文词表大小: {zh_tokenizer.vocab_size_actual}")
+    print(f"英文词表大小: {en_tokenizer.vocab_size_actual}")
+    return zh_tokenizer, en_tokenizer

train.py ADDED Viewed

	@@ -0,0 +1,447 @@

+"""
+训练脚本
+支持快速验证和完整训练，可暂停和恢复
+"""
+import os
+import sys
+import signal
+import argparse
+import time
+from typing import Optional
+from datetime import datetime
+import torch
+# 设置PyTorch使用所有CPU核心
+torch.set_num_threads(os.cpu_count())
+# 启用OpenMP并行
+os.environ['OMP_NUM_THREADS'] = str(os.cpu_count())
+os.environ['MKL_NUM_THREADS'] = str(os.cpu_count())
+import torch.nn as nn
+import torch.optim as optim
+from torch.optim.lr_scheduler import OneCycleLR
+from config import Config
+from tokenizer import Tokenizer, train_tokenizers
+from dataset import load_all_data, create_dataloaders
+from embedding import DualLanguageEmbedding, DualOutputProjection
+from model import create_model
+from diffusion import get_diffusion, NoiseScheduler
+from switcher import create_switcher
+from utils import ProgressTracker, count_parameters, format_number, save_checkpoint, load_checkpoint
+class Trainer:
+    """训练器"""
+    def __init__(self, config: Config):
+        self.config = config
+        self.device = torch.device("cpu")  # CPU训练
+        # 初始化组件
+        self._init_components()
+        # 训练状态
+        self.current_epoch = 0
+        self.global_step = 0
+        self.best_loss = float('inf')
+        self.should_stop = False
+        # 注册信号处理
+        signal.signal(signal.SIGINT, self._signal_handler)
+        signal.signal(signal.SIGTERM, self._signal_handler)
+    def _init_components(self):
+        """初始化所有组件"""
+        print("初始化训练组件...")
+        # 加载或训练分词器
+        tokenizer_path = os.path.join(self.config.project_dir, self.config.data.cache_dir)
+        zh_tokenizer_path = os.path.join(tokenizer_path, "tokenizer_zh.json")
+        en_tokenizer_path = os.path.join(tokenizer_path, "tokenizer_en.json")
+        if os.path.exists(zh_tokenizer_path) and os.path.exists(en_tokenizer_path):
+            print("  加载已有分词器...")
+            self.zh_tokenizer = Tokenizer.load(zh_tokenizer_path)
+            self.en_tokenizer = Tokenizer.load(en_tokenizer_path)
+        else:
+            print("  训练分词器...")
+            # 先加载数据用于训练分词器
+            train_pairs, _, _ = load_all_data(self.config)
+            zh_texts = [p.zh for p in train_pairs]
+            en_texts = [p.en for p in train_pairs]
+            self.zh_tokenizer, self.en_tokenizer = train_tokenizers(
+                self.config, zh_texts, en_texts
+            )
+            self.zh_tokenizer.save(zh_tokenizer_path)
+            self.en_tokenizer.save(en_tokenizer_path)
+        # 数据集
+        print("  加载数据集...")
+        train_pairs, val_pairs, test_pairs = load_all_data(self.config)
+        self.train_loader, self.val_loader = create_dataloaders(
+            train_pairs, val_pairs,
+            self.zh_tokenizer, self.en_tokenizer,
+            self.config
+        )
+        # 嵌入层
+        print("  初始化嵌入层...")
+        self.embedding = DualLanguageEmbedding(
+            vocab_size_zh=self.zh_tokenizer.vocab_size_actual,
+            vocab_size_en=self.en_tokenizer.vocab_size_actual,
+            d_model=self.config.model.d_model,
+            max_len=self.config.model.max_len,
+            dropout=self.config.model.dropout,
+        )
+        # 输出投影
+        self.output_proj = DualOutputProjection(
+            d_model=self.config.model.d_model,
+            vocab_size_zh=self.zh_tokenizer.vocab_size_actual,
+            vocab_size_en=self.en_tokenizer.vocab_size_actual,
+        )
+        # 噪声预测模型
+        print("  初始化模型...")
+        self.model = create_model(self.config)
+        # 语言切换器
+        self.switcher = create_switcher(self.config)
+        # 扩散过程
+        self.diffusion, self.ddim_sampler = get_diffusion(self.config)
+        self.scheduler = self.diffusion.scheduler.to(self.device)
+        # 优化器
+        all_params = (
+            list(self.embedding.parameters()) +
+            list(self.output_proj.parameters()) +
+            list(self.model.parameters()) +
+            list(self.switcher.parameters())
+        )
+        self.optimizer = optim.AdamW(
+            all_params,
+            lr=self.config.training.learning_rate,
+            weight_decay=self.config.training.weight_decay,
+        )
+        # 学习率调度器
+        total_steps = len(self.train_loader) * self.config.training.epochs
+        self.lr_scheduler = OneCycleLR(
+            self.optimizer,
+            max_lr=self.config.training.learning_rate,
+            total_steps=total_steps,
+            pct_start=0.1,
+            anneal_strategy='cos',
+        )
+        # 损失函数
+        self.mse_loss = nn.MSELoss()
+        self.ce_loss = nn.CrossEntropyLoss()
+        # 打印模型信息
+        total_params = sum(count_parameters(m) for m in [self.embedding, self.output_proj, self.model, self.switcher])
+        print(f"  总参数量: {format_number(total_params)}")
+    def _signal_handler(self, signum, frame):
+        """信号处理：保存模型并退出"""
+        print("\n\n收到中断信号，保存检查点...")
+        self._save_checkpoint("interrupted")
+        self.should_stop = True
+    def _save_checkpoint(self, name: str):
+        """保存检查点"""
+        checkpoint_dir = os.path.join(self.config.project_dir, self.config.training.checkpoint_dir)
+        os.makedirs(checkpoint_dir, exist_ok=True)
+        path = os.path.join(checkpoint_dir, f"{name}.pt")
+        state = {
+            'epoch': self.current_epoch,
+            'global_step': self.global_step,
+            'best_loss': self.best_loss,
+            'embedding': self.embedding.state_dict(),
+            'output_proj': self.output_proj.state_dict(),
+            'model': self.model.state_dict(),
+            'switcher': self.switcher.state_dict(),
+            'optimizer': self.optimizer.state_dict(),
+            'lr_scheduler': self.lr_scheduler.state_dict(),
+            'config': self.config,
+        }
+        torch.save(state, path)
+        print(f"  检查点已保存: {path}")
+    def _load_checkpoint(self, path: str):
+        """加载检查点"""
+        state = torch.load(path, map_location=self.device, weights_only=False)
+        self.current_epoch = state['epoch']
+        self.global_step = state['global_step']
+        self.best_loss = state['best_loss']
+        self.embedding.load_state_dict(state['embedding'])
+        self.output_proj.load_state_dict(state['output_proj'])
+        self.model.load_state_dict(state['model'])
+        self.switcher.load_state_dict(state['switcher'])
+        self.optimizer.load_state_dict(state['optimizer'])
+        self.lr_scheduler.load_state_dict(state['lr_scheduler'])
+        print(f"  从检查点恢复: epoch={self.current_epoch}, step={self.global_step}")
+    def train_step(self, batch: dict) -> dict:
+        """单步训练"""
+        # 获取数据
+        zh_ids = batch['zh_ids'].to(self.device)
+        en_ids = batch['en_ids'].to(self.device)
+        zh_lens = batch['zh_lens'].to(self.device)
+        en_lens = batch['en_lens'].to(self.device)
+        batch_size = zh_ids.size(0)
+        # 嵌入
+        zh_emb = self.embedding(zh_ids, 'zh', zh_lens)
+        en_emb = self.embedding(en_ids, 'en', en_lens)
+        # 随机时间步
+        t_zh = torch.randint(0, self.config.diffusion.timesteps, (batch_size,), device=self.device)
+        t_en = torch.randint(0, self.config.diffusion.timesteps, (batch_size,), device=self.device)
+        # 前向扩散
+        zh_noisy, zh_noise = self.diffusion.q_sample(zh_emb, t_zh)
+        en_noisy, en_noise = self.diffusion.q_sample(en_emb, t_en)
+        # 预测噪声
+        zh_noise_pred = self.model(zh_noisy, t_zh, lang='zh')
+        en_noise_pred = self.model(en_noisy, t_en, lang='en')
+        # 噪声预测损失
+        loss_noise_zh = self.mse_loss(zh_noise_pred, zh_noise)
+        loss_noise_en = self.mse_loss(en_noise_pred, en_noise)
+        # 语言切换损失
+        # 标签: 0=中文, 1=英文
+        zh_labels = torch.zeros(batch_size, dtype=torch.long, device=self.device)
+        en_labels = torch.ones(batch_size, dtype=torch.long, device=self.device)
+        zh_switch_logits = self.switcher(zh_noisy)
+        en_switch_logits = self.switcher(en_noisy)
+        loss_switch = (
+            self.ce_loss(zh_switch_logits, zh_labels) +
+            self.ce_loss(en_switch_logits, en_labels)
+        ) / 2
+        # 总损失
+        loss = loss_noise_zh + loss_noise_en + 0.1 * loss_switch
+        # 反向传播（梯度累积）
+        loss = loss / self.config.training.gradient_accumulation
+        loss.backward()
+        return {
+            'loss': loss.item() * self.config.training.gradient_accumulation,
+            'loss_noise_zh': loss_noise_zh.item(),
+            'loss_noise_en': loss_noise_en.item(),
+            'loss_switch': loss_switch.item(),
+        }
+    def train_epoch(self, epoch: int) -> float:
+        """训练一个epoch"""
+        self.model.train()
+        self.embedding.train()
+        self.output_proj.train()
+        self.switcher.train()
+        total_loss = 0
+        num_batches = len(self.train_loader)
+        tracker = ProgressTracker(
+            total_steps=num_batches,
+            desc=f"Epoch {epoch}/{self.config.training.epochs}"
+        )
+        batch_size = self.config.training.batch_size
+        for batch_idx, batch in enumerate(self.train_loader):
+            if self.should_stop:
+                break
+            # 训练步骤
+            metrics = self.train_step(batch)
+            total_loss += metrics['loss']
+            # 梯度累积
+            if (batch_idx + 1) % self.config.training.gradient_accumulation == 0:
+                # 梯度裁剪
+                torch.nn.utils.clip_grad_norm_(
+                    list(self.embedding.parameters()) +
+                    list(self.output_proj.parameters()) +
+                    list(self.model.parameters()) +
+                    list(self.switcher.parameters()),
+                    1.0
+                )
+                # 更新参数
+                self.optimizer.step()
+                self.lr_scheduler.step()
+                self.optimizer.zero_grad()
+                self.global_step += 1
+            # 更新进度
+            tracker.update(batch_idx + 1, metrics['loss'])
+            # 每个batch都打印进度（实时反馈）
+            samples_speed = tracker.count * batch_size / tracker.elapsed if tracker.elapsed > 0 else 0
+            progress_str = tracker.format_progress(metrics['loss'])
+            progress_str = progress_str.replace("it/s", f"samples/s")
+            print(f"\r{progress_str} ({samples_speed:.0f} samples/s)", end="", flush=True)
+        print()  # 换行
+        return total_loss / num_batches
+    @torch.no_grad()
+    def validate(self) -> float:
+        """验证"""
+        self.model.eval()
+        self.embedding.eval()
+        self.output_proj.eval()
+        self.switcher.eval()
+        total_loss = 0
+        num_batches = min(len(self.val_loader), 50)  # 限制验证步数
+        for batch_idx, batch in enumerate(self.val_loader):
+            if batch_idx >= num_batches:
+                break
+            zh_ids = batch['zh_ids'].to(self.device)
+            en_ids = batch['en_ids'].to(self.device)
+            zh_lens = batch['zh_lens'].to(self.device)
+            en_lens = batch['en_lens'].to(self.device)
+            batch_size = zh_ids.size(0)
+            # 嵌入
+            zh_emb = self.embedding(zh_ids, 'zh', zh_lens)
+            en_emb = self.embedding(en_ids, 'en', en_lens)
+            # 随机时间步
+            t = torch.randint(0, self.config.diffusion.timesteps, (batch_size,), device=self.device)
+            # 前向扩散
+            zh_noisy, zh_noise = self.diffusion.q_sample(zh_emb, t)
+            en_noisy, en_noise = self.diffusion.q_sample(en_emb, t)
+            # 预测噪声
+            zh_noise_pred = self.model(zh_noisy, t, lang='zh')
+            en_noise_pred = self.model(en_noisy, t, lang='en')
+            # 损失
+            loss = self.mse_loss(zh_noise_pred, zh_noise) + self.mse_loss(en_noise_pred, en_noise)
+            total_loss += loss.item()
+        return total_loss / num_batches
+    def train(self):
+        """完整训练"""
+        print("\n" + "=" * 60)
+        print("开始训练")
+        print("=" * 60)
+        start_time = time.time()
+        for epoch in range(self.current_epoch + 1, self.config.training.epochs + 1):
+            if self.should_stop:
+                break
+            self.current_epoch = epoch
+            # 训练
+            train_loss = self.train_epoch(epoch)
+            # 验证
+            val_loss = self.validate()
+            # 打印结果
+            print(f"\nEpoch {epoch} 完成:")
+            print(f"  训练损失: {train_loss:.4f}")
+            print(f"  验证损失: {val_loss:.4f}")
+            # 保存检查点
+            if epoch % self.config.training.save_every == 0:
+                self._save_checkpoint(f"epoch_{epoch}")
+            # 保存最佳模型
+            if val_loss < self.best_loss:
+                self.best_loss = val_loss
+                self._save_checkpoint("best")
+                print("  新的最佳模型!")
+        # 训练完成
+        elapsed = time.time() - start_time
+        print("\n" + "=" * 60)
+        print(f"训练完成! 总用时: {elapsed/60:.1f} 分钟")
+        print(f"最佳验证损失: {self.best_loss:.4f}")
+        print("=" * 60)
+def main():
+    parser = argparse.ArgumentParser(description="Diffutslator 训练脚本")
+    # 模式
+    parser.add_argument("--quick", action="store_true", help="快速验证模式")
+    parser.add_argument("--full", action="store_true", help="完整训练模式")
+    # 参数覆盖
+    parser.add_argument("--samples", type=int, default=None, help="使用的数据量")
+    parser.add_argument("--epochs", type=int, default=None, help="训练轮数")
+    parser.add_argument("--batch-size", type=int, default=None, help="批量大小")
+    parser.add_argument("--resume", type=str, default=None, help="恢复训练的检查点路径")
+    args = parser.parse_args()
+    # 创建��置
+    if args.quick:
+        config = Config.quick()
+        print("模式: 快速验证")
+    else:
+        config = Config()
+        print("模式: 完整训练")
+    # 覆盖参数
+    if args.samples:
+        config.data.max_samples = args.samples
+    if args.epochs:
+        config.training.epochs = args.epochs
+    if args.batch_size:
+        config.training.batch_size = args.batch_size
+    if args.resume:
+        config.training.resume = args.resume
+    # 打印配置
+    print(f"\n配置:")
+    print(f"  数据量: {config.data.max_samples or '全部'}")
+    print(f"  批量大小: {config.training.batch_size}")
+    print(f"  梯度累积: {config.training.gradient_accumulation}")
+    print(f"  有效批量: {config.training.batch_size * config.training.gradient_accumulation}")
+    print(f"  训练轮数: {config.training.epochs}")
+    print(f"  学习率: {config.training.learning_rate}")
+    # 创建训练器
+    trainer = Trainer(config)
+    # 恢复训练
+    if config.training.resume:
+        trainer._load_checkpoint(config.training.resume)
+    # 开始训练
+    trainer.train()
+if __name__ == "__main__":
+    main()

utils.py ADDED Viewed

	@@ -0,0 +1,176 @@

+"""
+工具函数
+"""
+import time
+import math
+from typing import Optional
+from datetime import datetime
+class Timer:
+    """计时器，用于统计训练速度"""
+    def __init__(self):
+        self.start_time = None
+        self.elapsed = 0
+        self.count = 0
+    def start(self):
+        self.start_time = time.time()
+    def stop(self):
+        if self.start_time:
+            self.elapsed += time.time() - self.start_time
+            self.count += 1
+            self.start_time = None
+    def reset(self):
+        self.elapsed = 0
+        self.count = 0
+        self.start_time = None
+    @property
+    def avg_time(self) -> float:
+        if self.count == 0:
+            return 0
+        return self.elapsed / self.count
+    @property
+    def speed(self) -> float:
+        if self.elapsed == 0:
+            return 0
+        return self.count / self.elapsed
+class ProgressTracker:
+    """训练进度追踪器"""
+    def __init__(self, total_steps: int, desc: str = "Training"):
+        self.total_steps = total_steps
+        self.desc = desc
+        self.current_step = 0
+        self.start_time = time.time()
+        self.loss_history = []
+    @property
+    def elapsed(self) -> float:
+        """已用时间"""
+        return time.time() - self.start_time
+    @property
+    def count(self) -> int:
+        """已处理步数"""
+        return self.current_step
+    def update(self, step: int, loss: Optional[float] = None):
+        self.current_step = step
+        if loss is not None:
+            self.loss_history.append(loss)
+    def format_progress(self, current_loss: Optional[float] = None) -> str:
+        """格式化进度显示"""
+        elapsed = time.time() - self.start_time
+        progress = self.current_step / self.total_steps
+        # 预计剩余时间
+        if progress > 0:
+            eta = elapsed / progress - elapsed
+            eta_str = self._format_time(eta)
+        else:
+            eta_str = "--:--:--"
+        # 速度
+        speed = self.current_step / elapsed if elapsed > 0 else 0
+        # 进度条
+        bar_len = 30
+        filled = int(bar_len * progress)
+        bar = "█" * filled + "░" * (bar_len - filled)
+        # 损失
+        loss_str = f"loss={current_loss:.4f}" if current_loss is not None else ""
+        return f"{self.desc}: |{bar}| {self.current_step}/{self.total_steps} [{self._format_time(elapsed)}<{eta_str}, {speed:.2f}it/s] {loss_str}"
+    @staticmethod
+    def _format_time(seconds: float) -> str:
+        if seconds < 0:
+            return "--:--:--"
+        hours = int(seconds // 3600)
+        minutes = int((seconds % 3600) // 60)
+        secs = int(seconds % 60)
+        return f"{hours:02d}:{minutes:02d}:{secs:02d}"
+def cosine_similarity(a, b):
+    """计算余弦相似度"""
+    import torch
+    return torch.nn.functional.cosine_similarity(a, b, dim=-1)
+def count_parameters(model) -> int:
+    """计算模型参数量"""
+    return sum(p.numel() for p in model.parameters() if p.requires_grad)
+def format_number(n: int) -> str:
+    """格式化数字，添加千分位"""
+    if n >= 1_000_000:
+        return f"{n/1_000_000:.1f}M"
+    elif n >= 1_000:
+        return f"{n/1_000:.1f}K"
+    return str(n)
+def get_timestamp() -> str:
+    """获取时间戳字符串"""
+    return datetime.now().strftime("%Y%m%d_%H%M%S")
+def ensure_dir(path: str):
+    """确保目录存在"""
+    import os
+    os.makedirs(path, exist_ok=True)
+def save_checkpoint(model, optimizer, epoch: int, step: int, loss: float, path: str):
+    """保存检查点"""
+    import torch
+    torch.save({
+        'epoch': epoch,
+        'step': step,
+        'loss': loss,
+        'model_state_dict': model.state_dict(),
+        'optimizer_state_dict': optimizer.state_dict(),
+    }, path)
+def load_checkpoint(model, optimizer, path: str):
+    """加载检查点"""
+    import torch
+    checkpoint = torch.load(path, map_location='cpu', weights_only=False)
+    model.load_state_dict(checkpoint['model_state_dict'])
+    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
+    return checkpoint['epoch'], checkpoint['step'], checkpoint['loss']
+class EarlyStopping:
+    """早停机制"""
+    def __init__(self, patience: int = 5, min_delta: float = 0.001):
+        self.patience = patience
+        self.min_delta = min_delta
+        self.counter = 0
+        self.best_loss = float('inf')
+        self.should_stop = False
+    def __call__(self, loss: float) -> bool:
+        if loss < self.best_loss - self.min_delta:
+            self.best_loss = loss
+            self.counter = 0
+        else:
+            self.counter += 1
+            if self.counter >= self.patience:
+                self.should_stop = True
+        return self.should_stop