yueyulin commited on
Commit
6cbb324
·
verified ·
1 Parent(s): 25dd8ac

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +418 -0
README.md ADDED
@@ -0,0 +1,418 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - zh
4
+ ---
5
+ This checkpoint is a states tuning file from RWKV-6-7B. Please download the base model from https://huggingface.co/BlinkDL/rwkv-6-world/tree/main .
6
+ It will extract triples according given input and schema.
7
+ Usage:
8
+
9
+ - update the latest rwkv package: pip install --upgrade rwkv
10
+ - Download the base model and the states file. You may download the states from the epoch_2 directory.
11
+ - Following the codes:
12
+
13
+ * Loading the model and states
14
+ ```python
15
+ from rwkv.model import RWKV
16
+ from rwkv.utils import PIPELINE, PIPELINE_ARGS
17
+ import torch
18
+
19
+ # download models: https://huggingface.co/BlinkDL
20
+ model = RWKV(model='/media/yueyulin/KINGSTON/models/rwkv6/RWKV-x060-World-7B-v2.1-20240507-ctx4096.pth', strategy='cuda fp16')
21
+ print(model.args)
22
+ pipeline = PIPELINE(model, "rwkv_vocab_v20230424") # 20B_tokenizer.json is in https://github.com/BlinkDL/ChatRWKV
23
+ # use pipeline = PIPELINE(model, "rwkv_vocab_v20230424") for rwkv "world" models
24
+ states_file = '/media/yueyulin/data_4t/models/states_tuning/custom_trainer/epoch_2/RWKV-x060-World-7B-v2.1-20240507-ctx4096.pth.pth'
25
+ states = torch.load(states_file)
26
+ states_value = []
27
+ device = 'cuda'
28
+ n_head = model.args.n_head
29
+ head_size = model.args.n_embd//model.args.n_head
30
+ for i in range(model.args.n_layer):
31
+ key = f'blocks.{i}.att.time_state'
32
+ value = states[key]
33
+ prev_x = torch.zeros(model.args.n_embd,device=device,dtype=torch.float16)
34
+ prev_states = value.clone().detach().to(device=device,dtype=torch.float16).transpose(1,2)
35
+ prev_ffn = torch.zeros(model.args.n_embd,device=device,dtype=torch.float16)
36
+ states_value.append(prev_x)
37
+ states_value.append(prev_states)
38
+ states_value.append(prev_ffn)
39
+ ```
40
+ The whole schema is 12 types of schema from Wiki:
41
+ ```python
42
+ whole_schema = {
43
+ "事件": [
44
+ [
45
+ "事件_参与者_人物/组织",
46
+ "事件_发生地点_地理地区",
47
+ "事件_发生时间_时间",
48
+ "事件_别名_事件",
49
+ "事件_赞助者_人物/组织",
50
+ "事件_伤亡人数_度量",
51
+ "事件_起因_文本",
52
+ "事件_导致_文本",
53
+ "事件_主办方_组织",
54
+ "事件_所获奖项_专业",
55
+ "事件_获胜者_人物/组织"
56
+ ],
57
+ [
58
+ "参与者",
59
+ "发生地点",
60
+ "发生时间",
61
+ "别名",
62
+ "赞助者",
63
+ "伤亡人数",
64
+ "起因",
65
+ "导致",
66
+ "主办方",
67
+ "所获奖项",
68
+ "获胜者"
69
+ ]
70
+ ],
71
+ "自然科学": [
72
+ [
73
+ "产品_别名_产品",
74
+ "产品_组成_产品",
75
+ "产品_生成物_产品",
76
+ "产品_产地_地理地区",
77
+ "产品_发现者或发明者_人物/组织",
78
+ "产品_名称由来_文本",
79
+ "产品_用途_文本"
80
+ ],
81
+ [
82
+ "别名",
83
+ "组成",
84
+ "生成物",
85
+ "产地",
86
+ "发现者或发明者",
87
+ "名称由来",
88
+ "用途"
89
+ ]
90
+ ],
91
+ "建筑结构": [
92
+ [
93
+ "建筑结构/地理地区_位于_地理地区",
94
+ "建筑结构_别名_建筑结构",
95
+ "建筑结构_创建时间_时间",
96
+ "建筑结构_宽度_度量",
97
+ "建筑结构_长度_度量",
98
+ "建筑结构_创建者_人物/组织",
99
+ "建筑结构_高度_度量",
100
+ "建筑结构_面积_度量",
101
+ "建筑结构_成就_专业",
102
+ "建筑结构_名称由来_文本"
103
+ ],
104
+ [
105
+ "位于",
106
+ "别名",
107
+ "创建时间",
108
+ "宽度",
109
+ "长度",
110
+ "创建者",
111
+ "高度",
112
+ "面积",
113
+ "成就",
114
+ "名称由来"
115
+ ]
116
+ ],
117
+ "地理地区": [
118
+ [
119
+ "地理地区_位于_地理地区",
120
+ "地理地区_别名_地理地区",
121
+ "地理地区_人口_度量",
122
+ "地理地区_行政中心_地理地区",
123
+ "地理地区_面积_度量",
124
+ "地理地区_长度_度量",
125
+ "地理地区_宽度_度量",
126
+ "地理地区_海拔_度量"
127
+ ],
128
+ [
129
+ "位于",
130
+ "别名",
131
+ "人口",
132
+ "行政中心",
133
+ "面积",
134
+ "长度",
135
+ "宽度",
136
+ "海拔"
137
+ ]
138
+ ],
139
+ "组织": [
140
+ [
141
+ "组织/地理地区_位于_地理地区",
142
+ "组织_别名_组织",
143
+ "组织_子组织_组织",
144
+ "组织_成立时间_组织",
145
+ "组织_产品_组织",
146
+ "组织_成员_组织",
147
+ "组织_创办者_组织",
148
+ "组织_解散时间_组织"
149
+ ],
150
+ [
151
+ "位于",
152
+ "别名",
153
+ "子组织",
154
+ "成立时间",
155
+ "产品",
156
+ "成员",
157
+ "创办者",
158
+ "解散时间"
159
+ ]
160
+ ],
161
+ "医学": [
162
+ [
163
+ "医学_症状_医学",
164
+ "医学_别名_医学",
165
+ "医学_发病部位_文本",
166
+ "医学_可能后果_文本",
167
+ "医学_病因_文本",
168
+ "医学_用药_医学",
169
+ "医学_疗法_医学",
170
+ "医学_传播方式_文本"
171
+ ],
172
+ [
173
+ "症状",
174
+ "别名",
175
+ "发病部位",
176
+ "可能后果",
177
+ "病因",
178
+ "用药",
179
+ "疗法",
180
+ "传播方式"
181
+ ]
182
+ ],
183
+ "天文对象": [
184
+ [
185
+ "天文对象类型_别名_天文对象类型",
186
+ "天文对象类型_属于_天文对象类型",
187
+ "天文对象类型_发现时间_时间",
188
+ "天文对象类型_发现者或发明者_人物/组织",
189
+ "天文对象类型_名称由来_文本",
190
+ "天文对象类型_绝对星等_度量",
191
+ "天文对象类型_直径_度量",
192
+ "天文对象类型_质量_度量"
193
+ ],
194
+ [
195
+ "别名",
196
+ "属于",
197
+ "发现时间",
198
+ "发现者或发明者",
199
+ "名称由来",
200
+ "绝对星等",
201
+ "直径",
202
+ "质量"
203
+ ]
204
+ ],
205
+ "人造物件": [
206
+ [
207
+ "产品_别名_产品",
208
+ "生物_长度_度量",
209
+ "生物_宽度_度量",
210
+ "产品_品牌_组织",
211
+ "产品_材料_产品",
212
+ "产品_产地_地理地区",
213
+ "产品_制造商_组织",
214
+ "产品_发现者或发明者_人物/组织"
215
+ ],
216
+ [
217
+ "别名",
218
+ "长度",
219
+ "宽度",
220
+ "品牌",
221
+ "材料",
222
+ "产地",
223
+ "制造商",
224
+ "发现者或发明者"
225
+ ]
226
+ ],
227
+ "运输": [
228
+ [
229
+ "运输/地理地区_位于_地理地区",
230
+ "运输_成立或创建时间_时间",
231
+ "运输_线路_运输",
232
+ "运输_开通时间_时间",
233
+ "运输_途经_地理地区",
234
+ "运输_面积_度量",
235
+ "运输_别名_运输",
236
+ "运输_长度_度量",
237
+ "运输_宽度_度量",
238
+ "运输_车站等级_度量"
239
+ ],
240
+ [
241
+ "位于",
242
+ "成立或创建时间",
243
+ "线路",
244
+ "开通时间",
245
+ "途经",
246
+ "面积",
247
+ "别名",
248
+ "长度",
249
+ "宽度",
250
+ "车站等级"
251
+ ]
252
+ ],
253
+ "作品": [
254
+ [
255
+ "产品_作者_人物",
256
+ "产品_出版时间_时间",
257
+ "产品_别名_产品",
258
+ "产品_产地_地理地区",
259
+ "产品_改编自_产品",
260
+ "产品_演员_人物/组织",
261
+ "产品_出版商_组织",
262
+ "产品_成就_专业",
263
+ "产品_表演者_人物/组织",
264
+ "产品_导演_人物/组织",
265
+ "产品_制片人_人物/组织",
266
+ "产品_编剧_人物/组织",
267
+ "产品_曲目_产品",
268
+ "产品_作曲者_人物/组织",
269
+ "产品_开发者_人物/组织",
270
+ "产品_作词者_人物/组织",
271
+ "产品_制作商_组织",
272
+ "产品_票房_度量",
273
+ "产品_时长_度量",
274
+ "产品_平台_组织"
275
+ ],
276
+ [
277
+ "作者",
278
+ "出版时间",
279
+ "别名",
280
+ "产地",
281
+ "改编自",
282
+ "演员",
283
+ "出版商",
284
+ "成就",
285
+ "表演者",
286
+ "导演",
287
+ "制片人",
288
+ "编剧",
289
+ "曲目",
290
+ "作曲者",
291
+ "开发者",
292
+ "作词者",
293
+ "制作商",
294
+ "票房",
295
+ "时长",
296
+ "平台"
297
+ ]
298
+ ],
299
+ "生物": [
300
+ [
301
+ "生物_分布_地理地区",
302
+ "生物_父级分类单元_地理地区",
303
+ "生物_长度_度量",
304
+ "生物_别名_生物",
305
+ "生物_学名_生物",
306
+ "生物_重量_度量",
307
+ "生物_宽度_度量",
308
+ "生物_高度_度量",
309
+ "生物_主要食物来源_文本"
310
+ ],
311
+ [
312
+ "分布",
313
+ "父级分类单元",
314
+ "长度",
315
+ "别名",
316
+ "学名",
317
+ "重量",
318
+ "宽度",
319
+ "高度",
320
+ "主要食物来源"
321
+ ]
322
+ ],
323
+ "人物": [
324
+ [
325
+ "人物_别名_人物",
326
+ "人物_出生地点_地理地区",
327
+ "人物_出生日期_时间",
328
+ "人物_死亡地点_地理地区",
329
+ "人物_国籍_地理地区",
330
+ "人物_职业_专业",
331
+ "人物_作品_产品",
332
+ "人物_成就_专业",
333
+ "人物_籍贯_地理地区",
334
+ "人物_职务_专业",
335
+ "人物_配偶_人物",
336
+ "人物_父母_人物",
337
+ "人物_所属组织_组织",
338
+ "人物_死亡日期_时间",
339
+ "人物_兄弟姊妹_人物"
340
+ ],
341
+ [
342
+ "别名",
343
+ "出生地点",
344
+ "出生日期",
345
+ "死亡地点",
346
+ "国籍",
347
+ "职业",
348
+ "作品",
349
+ "成就",
350
+ "籍贯",
351
+ "职务",
352
+ "配偶",
353
+ "父母",
354
+ "所属组织",
355
+ "死亡日期",
356
+ "兄弟姊妹"
357
+ ]
358
+ ]
359
+ }
360
+ #\"schema\": [{\"entity_type\": \"人物\", \"attributes\": [\"所属组织\", \"出生日期\", \"职务\", \"父母\", \"籍贯\", \"死亡地点\", \"兄弟姊妹\", \"出生地点\", \"职业\", \"死亡日期\", \"作品\", \"别名\", \"成就\", \"配偶\", \"国籍\"]}]
361
+ schemas = {}
362
+ for cate, schema in whole_schema.items():
363
+ attributes = schema[1]
364
+ schemas[cate] = {'entity_type': cate, 'attributes': attributes}
365
+ ```
366
+
367
+ * Try the following examples:
368
+ ```python
369
+ cat_char = '🐱'
370
+ bot_char = '🤖'
371
+ instruction ='你是一个图谱实体知识结构化专家。请从input中抽取出符合schema定义的实体实例和其属性,不存在的属性不输出,属性存在多值就返回列表。请按照JSON字符串的格式回答。'
372
+ schema = schemas['人物']
373
+ input_text = "个人简介姓名:拉塞·维比 所属球队:布伦特福德 国籍:丹麦、法国、荷兰、法属圭亚那 出生日期:1987-02-22 身高:181cm 体重:73kg 场上位置:前锋 球衣号码:21 丹麦射手拉塞-维比,获得了2014赛季瑞超联赛金靴"
374
+ input_text = {'input': input_text, 'schema': schema}
375
+ input_text = json.dumps(input_text).decode('UTF-8')
376
+ ctx = f'{cat_char}:{instruction}\n{input_text}\n{bot_char}:'
377
+ print(ctx)
378
+
379
+ def my_print(s):
380
+ print(s, end='', flush=True)
381
+
382
+ # For alpha_frequency and alpha_presence, see "Frequency and presence penalties":
383
+ # https://platform.openai.com/docs/api-reference/parameter-details
384
+
385
+ args = PIPELINE_ARGS(temperature = 1.0, top_p = 0, top_k = 0, # top_k = 0 then ignore
386
+ alpha_frequency = 0.25,
387
+ alpha_presence = 0.25,
388
+ alpha_decay = 0.996, # gradually decay the penalty
389
+ token_ban = [0], # ban the generation of some tokens
390
+ token_stop = [0,1], # stop generation whenever you see any token here
391
+ chunk_len = 256) # split input into chunks to save VRAM (shorter -> slower)
392
+
393
+ pipeline.generate(ctx, token_count=200, args=args, callback=my_print,state=states_value)
394
+ print('\n')
395
+ ```
396
+ The output looks like:
397
+ ```bash
398
+ 🐱:你是一个图谱实体知识结构化专家。请从input中抽取出符合schema定义的实体实例和其属性,不存在的属性不输出,属性存在多值就返回列表。请按照JSON字符串的格式回答。
399
+ {"input":"个人简介姓名:拉塞·维比 所属球队:布伦特福德 国籍:丹麦、法国、荷兰、法属圭亚那 出生日期:1987-02-22 身高:181cm 体重:73kg 场上位置:前锋 球衣号码:21 丹麦射手拉塞-维比,获得了2014赛季瑞超联赛金靴","schema":{"entity_type":"人物","attributes":["别名","出生地点","出生日期","死亡地点","国籍","职业","作品","成就","籍贯","职务","配偶","父母","所属组织","死亡日期","兄弟姊妹"]}}
400
+ 🤖:{"result":[{"head":"拉塞·维比","head_type":"人物","relation":"职业","tail":"前锋","tail_type":"专业"},{"head":"拉塞·维比","head_type":"人物","relation":"出生日期","tail":"1987-02-22","tail_type":"时间"},{"head":"拉塞·维比","head_type":"人物","relation":"国籍","tail":"丹麦、法国、荷兰、法属圭亚那","tail_type":"地理地区"},{"head":"拉塞·维比","head_type":"人物","relation":"成就","tail":"2014赛季瑞超联赛金靴","tail_type":"专业"},{"head":"拉塞·维比","head_type":"人物","relation":"所属组织","tail":"布伦特福德","tail_type":"组织"}]}
401
+ ```
402
+
403
+ * Try another example:
404
+ ```python
405
+ schema = schemas['地理地区']
406
+ input_text = "赛尔龙乡,是中华人民共和国青海省黄南藏族自治州河南蒙古族自治县下辖的一个乡镇级行政单位。"
407
+ input_text = {'input': input_text, 'schema': schema}
408
+ input_text = json.dumps(input_text).decode('UTF-8')
409
+ ctx = f'{cat_char}:{instruction}\n{input_text}\n{bot_char}:'
410
+ ```
411
+
412
+ The output looks like:
413
+
414
+ ```bash
415
+ 🐱:你是一个图谱实体知识结构化专家。请从input中抽取出符合schema定义的实体实例和其属性,不存在的属性不输出,属性存在多值就返回列表。请按照JSON字符串的格式回答。
416
+ {"input":"赛尔龙乡,是中华人民共和国青海省黄南藏族自治州河南蒙古族自治县下辖的一个乡镇级行政单位。","schema":{"entity_type":"地理地区","attributes":["位于","别名","人口","行政中心","面积","长度","宽度","海拔"]}}
417
+ 🤖:{"result":[{"head":"赛尔龙乡","head_type":"地理地区","relation":"位于","tail":"河南蒙古族自治县","tail_type":"地理地区"},{"head":"河南蒙古族自治县","head_type":"地理地区","relation":"位于","tail":"黄南藏族自治州","tail_type":"地理地区"},{"head":"青海省","head_type":"地理地区","relation":"位于","tail":"中华人民共和国","tail_type":"地理地区"},{"head":"黄南藏族自治州","head_type":"地理地区","relation":"位于","tail":"青海省","tail_type":"地理地区"}]}
418
+ ```