yuccaaa commited on
Commit
4245984
·
verified ·
1 Parent(s): 3f73230

Add files using upload-large-folder tool

Browse files
Files changed (44) hide show
  1. .gitattributes +23 -0
  2. category_10/all_majors.txt +1151 -0
  3. category_10/all_majors_new.txt +108 -0
  4. category_10/biology_category_trackid.jsonl +0 -0
  5. category_10/category_trackid.jsonl +3 -0
  6. category_10/classification_result.json +132 -0
  7. category_10/output_new/biology/biology.jsonl +3 -0
  8. category_10/output_new/biology/match_bio.jsonl +3 -0
  9. category_10/outputs/Chemistry/Chemistry_001.jsonl +3 -0
  10. category_10/outputs/Economics & Management/Economics & Management_001.jsonl +3 -0
  11. category_10/outputs/Engineering/Engineering_001.jsonl +3 -0
  12. category_10/outputs/Environmental & Geographical Sciences/Environmental & Geographical Sciences_001.jsonl +3 -0
  13. category_10/outputs/Humanities & Social Sciences/Humanities & Social Sciences_001.jsonl +3 -0
  14. category_10/outputs/Information Sciences/Information Sciences_001.jsonl +3 -0
  15. category_10/outputs/Life Sciences/Life Sciences_001.jsonl +3 -0
  16. category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_001.jsonl +3 -0
  17. category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_002.jsonl +3 -0
  18. category_10/outputs/Medical Sciences/Medical Sciences_001.jsonl +3 -0
  19. category_10/outputs/Others/Others_001.jsonl +3 -0
  20. category_10/outputs/Physics & Astronomy/Physics & Astronomy_001.jsonl +3 -0
  21. category_10/predata.py +501 -0
  22. category_10/trackid_list_Chemistry.json +0 -0
  23. category_10/trackid_list_Economics & Management.json +0 -0
  24. category_10/trackid_list_Engineering.json +0 -0
  25. category_10/trackid_list_Environmental & Geographical Sciences.json +0 -0
  26. category_10/trackid_list_Humanities & Social Sciences.json +0 -0
  27. category_10/trackid_list_Information Sciences.json +0 -0
  28. category_10/trackid_list_Life Sciences.json +0 -0
  29. category_10/trackid_list_Mathematics & Statistics.json +0 -0
  30. category_10/trackid_list_Medical Sciences.json +0 -0
  31. category_10/trackid_list_Others.json +0 -0
  32. category_10/trackid_list_Physics & Astronomy.json +0 -0
  33. category_10/trackid_list_生物学.json +0 -0
  34. copyfile.sh +3 -0
  35. matched_bio.jsonl +3 -0
  36. matched_records.jsonl +3 -0
  37. predata.py +86 -0
  38. test_get_data.py +86 -0
  39. trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000001.jsonl +3 -0
  40. trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000003.jsonl +3 -0
  41. trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000005.jsonl +3 -0
  42. trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000007.jsonl +3 -0
  43. trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000008.jsonl +3 -0
  44. 总和521041_最终版本.jsonl +3 -0
.gitattributes CHANGED
@@ -33,3 +33,26 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ 总和521041_最终版本.jsonl filter=lfs diff=lfs merge=lfs -text
37
+ matched_bio.jsonl filter=lfs diff=lfs merge=lfs -text
38
+ category_10/category_trackid.jsonl filter=lfs diff=lfs merge=lfs -text
39
+ matched_records.jsonl filter=lfs diff=lfs merge=lfs -text
40
+ category_10/output_new/biology/match_bio.jsonl filter=lfs diff=lfs merge=lfs -text
41
+ category_10/output_new/biology/biology.jsonl filter=lfs diff=lfs merge=lfs -text
42
+ category_10/outputs/Chemistry/Chemistry_001.jsonl filter=lfs diff=lfs merge=lfs -text
43
+ category_10/outputs/Environmental[[:space:]]&[[:space:]]Geographical[[:space:]]Sciences/Environmental[[:space:]]&[[:space:]]Geographical[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
44
+ category_10/outputs/Economics[[:space:]]&[[:space:]]Management/Economics[[:space:]]&[[:space:]]Management_001.jsonl filter=lfs diff=lfs merge=lfs -text
45
+ category_10/outputs/Humanities[[:space:]]&[[:space:]]Social[[:space:]]Sciences/Humanities[[:space:]]&[[:space:]]Social[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
46
+ category_10/outputs/Life[[:space:]]Sciences/Life[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
47
+ category_10/outputs/Information[[:space:]]Sciences/Information[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
48
+ category_10/outputs/Engineering/Engineering_001.jsonl filter=lfs diff=lfs merge=lfs -text
49
+ category_10/outputs/Mathematics[[:space:]]&[[:space:]]Statistics/Mathematics[[:space:]]&[[:space:]]Statistics_002.jsonl filter=lfs diff=lfs merge=lfs -text
50
+ category_10/outputs/Others/Others_001.jsonl filter=lfs diff=lfs merge=lfs -text
51
+ category_10/outputs/Medical[[:space:]]Sciences/Medical[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
52
+ trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000001.jsonl filter=lfs diff=lfs merge=lfs -text
53
+ trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000003.jsonl filter=lfs diff=lfs merge=lfs -text
54
+ trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000005.jsonl filter=lfs diff=lfs merge=lfs -text
55
+ category_10/outputs/Physics[[:space:]]&[[:space:]]Astronomy/Physics[[:space:]]&[[:space:]]Astronomy_001.jsonl filter=lfs diff=lfs merge=lfs -text
56
+ trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000008.jsonl filter=lfs diff=lfs merge=lfs -text
57
+ trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000007.jsonl filter=lfs diff=lfs merge=lfs -text
58
+ category_10/outputs/Mathematics[[:space:]]&[[:space:]]Statistics/Mathematics[[:space:]]&[[:space:]]Statistics_001.jsonl filter=lfs diff=lfs merge=lfs -text
category_10/all_majors.txt ADDED
@@ -0,0 +1,1151 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 信息与系统科学相关工程与技术
2
+ 文学
3
+ 思想政治
4
+ 教育学
5
+ 管理学
6
+ 注册信息系统审计师
7
+ 认证人员职业资格
8
+ 土木建筑工程
9
+ 网络通信与安全
10
+ 地球科学
11
+ 网络工程师
12
+ 经济学
13
+ 艺术学
14
+ 水利工程
15
+ 预防医学与公共卫生学
16
+ 自然科学相关工程与技术
17
+ 临床医学
18
+ 政治学
19
+ 语言学
20
+ 数学
21
+ 哲学
22
+ 信息科学与系统科学
23
+ 环境科学技术及资源科学技术
24
+ 注册电气工程师
25
+ 动力与电气工程
26
+ 工程与技术科学基础学科
27
+ 化学工程
28
+ 矿山工程技术
29
+ 电子与通信技术
30
+ 交通运输工程
31
+ 机械工程
32
+ 注册机械工程师
33
+ 安全科学技术
34
+ 农学
35
+ 法学
36
+ 药学
37
+ 历史学
38
+ 民族学与文化学
39
+ 法律职业资格
40
+ 生物学
41
+ 材料科学
42
+ 英语
43
+ 全国计算机等级考试
44
+ 信息技术
45
+ 石油与天然气工程
46
+ 社会学
47
+ 新闻学与传播学
48
+ 基础医学
49
+ 特许会计师
50
+ 科学
51
+ 宗教学
52
+ 社会科学
53
+ 航空·航天科学技术
54
+ 力学
55
+ 物理学
56
+ 化学
57
+
58
+ 注册项目管理师
59
+ 产品应用相关工程与技术
60
+ 冶金工程技术
61
+ 医生资格-医师
62
+ 心理学
63
+ 认证云从业者
64
+ 认证DevOps工程师
65
+ 认证开发人员助理
66
+ 认证安全专家
67
+ 认证解决方案架构师助理
68
+ 认证SysOps管理员助理
69
+ 注册微软认证系统管理员(MCSA)
70
+ PHP认证工程师
71
+ 执业药师
72
+ 医生资格-乡村医生
73
+ 护士执业资格
74
+ 执业医师
75
+ 卫生专业技术资格
76
+ 母婴保健技术服务人员资格
77
+ 食品科学技术
78
+ 政治学·
79
+ 危险化学品作业
80
+ 油漆工
81
+ 注册安全工程师
82
+ 安全生产
83
+ 注册验船师
84
+ 港口工程
85
+ 建造师
86
+ 室内装潢设计师
87
+ 建筑物油漆涂装技艺
88
+ 建筑电气设备安装工
89
+ 音响调音员
90
+ 军事学
91
+ 泵站操作工
92
+ 维修电工技能
93
+ 电工考核
94
+ 电工
95
+ 变电运行值班技能考核
96
+ 电工技能
97
+ 电工高级技能
98
+ 电力与电气工程
99
+ 机电设备安装与维修
100
+ 信号工机车信号设备维修
101
+ 信息处理技术员
102
+ 注册系统工程师
103
+ 计算机组装与维护
104
+ 计算机操作员
105
+ 注册表应用
106
+ 计算机硬件维护
107
+ 网络技术基础认证考试
108
+ 计算机网络管理员
109
+ 注册信息系统工程师
110
+ 纺织科学技术
111
+ 印染行业染化料配制工
112
+ 美容师
113
+ 家政服务员
114
+ 平版印刷工职业技能鉴定
115
+ 扬州搓背工艺技术
116
+ 烟叶制丝工
117
+ 厨师资格
118
+ 生活化妆技能
119
+ 畜产品加工
120
+ 医学
121
+ 承压设备焊接工程师
122
+ 数控车工
123
+ 焊接工
124
+ 热处理工
125
+ 电焊工
126
+ 钳工
127
+ 镗工
128
+ 文化学
129
+ 银行柜员职业资格
130
+ 科技档案管理
131
+ 广播电视播音员、主持人资格
132
+ 语文
133
+ 收银管理技能培训
134
+ 物理
135
+ 职业技能培训
136
+ 注册消防工程师
137
+ 航空、航天科学技术
138
+ 教师资格
139
+ 道德与法治
140
+ 马克思主义
141
+ 注册质量工程师
142
+ 统计学
143
+ 地理
144
+ 生产管理
145
+ 经济法
146
+ 安全防范设备值机员
147
+ 制浆造纸设备与操作
148
+ 注册信息安全工程师
149
+ 生物·学
150
+ 生物
151
+ 艺术/美术
152
+ 心理健康教育
153
+ 历史
154
+ 体育科学
155
+ 畜牧与兽医科学
156
+ 考古学
157
+ 天文学
158
+ 音乐
159
+ 测绘科学技术
160
+ 体育与健康
161
+ 林学
162
+ 通用技术
163
+ 图书馆、情报与文献学
164
+ 中药学专业技术资格
165
+ 全国卫生专业技术资格考试
166
+ 保健按摩师
167
+ 针灸推拿技能考试
168
+ 心理咨询师
169
+ 生殖健康咨询师
170
+ 病案信息专业资格
171
+ 育婴师
172
+ 农机驾驶与维修
173
+ 汽车修理质量检查
174
+ 执业兽医
175
+ 环境影响评价工程师
176
+ 技师培养
177
+ 助理包装设计师
178
+ 铝用阳极炭素设备维修工
179
+ 危险化学品安全作业
180
+ 安全生产管理人员
181
+ 烟花爆竹生产经营单位主要负责人和安全生产管理人员培训
182
+ 烟花爆竹安全管理
183
+ 烟花爆竹经营安全
184
+ 燃气与热力工程施工员
185
+ 注册建筑师
186
+ 造价工程师
187
+ 注册城乡规划师
188
+ 市政燃气热力工程施工员
189
+ 建筑学
190
+ 注册土木工程师
191
+ 注册造价工程师
192
+ 登高作业
193
+ 钢筋工
194
+ 光通信机务员
195
+ 井架安装工
196
+ 公路水运工程试验检测专业技术人员职业资格
197
+ 互感器装配工
198
+ 维修电工
199
+ 动力电气工程
200
+ 电工操作技能
201
+ 送配电线路工
202
+ 配电线路实用技能
203
+ 注册石油天然气工程师
204
+ 计算机技术与软件专业技术资格
205
+ 全国专业技术人员计算机应用能力考试
206
+ 全国信息安全技术水平考试
207
+ 计算机维修工
208
+ 全国计算机信息高新技术考试
209
+ 网页程序设计实训
210
+ 注册数据库系统工程师
211
+ 计算机程序设计员
212
+ 计算机网络及应用
213
+ 出入境检验检疫
214
+ 印刷业务员
215
+ 特种作业人员
216
+ 民用核安全设备焊工、焊接操作工
217
+ 经营性货运驾驶员
218
+ 警察应急防卫
219
+ 运动营养师
220
+ 软件技术
221
+ 职业技能
222
+ 公务员考试
223
+ 专业技术人员职业资格
224
+ 艺术设计
225
+ 速录师
226
+ 数控铣床操作
227
+ 基础英语
228
+ 成人教育教学与管理
229
+ 技能人才培养
230
+ 质量检验员
231
+ 生物专业
232
+ 职业教育管理
233
+ 劳动关系管理
234
+ 建筑工程
235
+ 专利代理师
236
+ 注册城市规划师
237
+ 农业科学
238
+ 地理科学
239
+ 护理学
240
+ 生物医学工程
241
+ 游泳裁判
242
+ 艺术体操理论
243
+ 注册网络工程师
244
+ 国际关系
245
+ 社会学·
246
+ 能源科学技术及资源科学技术
247
+ 税务师
248
+ 地理学
249
+ 动物学
250
+ 文学·
251
+ 生物技术
252
+ 文学
253
+ 临床神经心理学认证
254
+ 社会工作者职业资格
255
+ 土木建筑工程·
256
+ 人类学
257
+ 历史与社会
258
+ 中医学与中药学
259
+ 书法
260
+ 核科学技术
261
+ 劳动
262
+ 军事医学与特种医学
263
+ 注册会计师
264
+ 会计专业技术资格
265
+ 矿业工程技术
266
+ 工程与技术基础学科
267
+ 矿业权评估师
268
+ A-Level
269
+ 事业单位考试
270
+ 经济专业技术资格
271
+ IELTS
272
+ 计算机软件专业技术资格和水平考试
273
+ 注册公用设备工程师
274
+ 临床医学检验技术师
275
+ 注册监理工程师
276
+ 安全防范设计评估师
277
+ 民用航空器外国驾驶员、领航员、飞行机械员、飞行通信员
278
+ 特种设备检验、检测人员资格
279
+ 注册设备监理师
280
+ 船舶与海洋工程
281
+ 乳品检验员
282
+ 导游资格
283
+ 注册结构工程师
284
+ 数控铣床(加工中心)编程、操作及实训
285
+ 公共营养师
286
+ 出版专业技术人员职业资格
287
+ 全国计算机应用水平考试
288
+ 豆制品制作工
289
+ 临床医学
290
+ 教育学
291
+ 安全评价师
292
+ 建筑施工特种作业人员
293
+ 家政服务人员技能
294
+ 家用电器产品维修工
295
+ 家用电子产品维修工
296
+ 展览讲解员
297
+ 特种设备安全管理和作业人员
298
+ 建筑与市政工程施工现场专业人员职业资格
299
+ 市政工程资料员
300
+ 抄表核算收费员职业技能鉴定
301
+ 机动车检测维修专业技术人员职业资格
302
+ 数字视频(DV)策划制作师
303
+ 数据库系统工程师
304
+ 数控机床维修工
305
+ 数控车床操作工
306
+ 数控铣床操作工
307
+ 文字录入处理员
308
+ 文物保护工程从业资格
309
+ 体育科学技术
310
+ 智能楼宇管理员
311
+ 机械电气设备安装工
312
+ 机械设备安装工
313
+ 染料分析工
314
+ 民用航空器维修人员执照
315
+ 水利水电工程资料员
316
+ 水利工程质量检测员资格
317
+ 水泥生产巡检工
318
+ 汽轮机检修工
319
+ 注册环保工程师
320
+ 注塑操作工
321
+ 大气科学
322
+ 注册测绘师
323
+ 火力发电厂热工专业人员
324
+ 用户通信终端维修员
325
+ 用电客户受理员
326
+ 电厂水化验员
327
+ 电话交换机务员
328
+ 磨工
329
+ 科技咨询师
330
+ 空气压缩机操作工
331
+ 美发师
332
+ 职业病诊断医师
333
+ 中式烹调师
334
+ 新闻记者职业资格
335
+ 林业
336
+ 茶艺师
337
+ 蒸馏工
338
+ 装配钳工
339
+ 注册网络管理员
340
+ 注册计量师
341
+ 证券期货基金业从业人员资格
342
+ 轧钢工
343
+ 软件设计师
344
+ 报关员
345
+ 通信工程师
346
+ 金属热处理工
347
+ 焊工
348
+ 铣工
349
+ 锅炉检修工职业资格
350
+ 锅炉运行值班员
351
+ 集成电路制造工艺员
352
+ 二手车鉴定评估师
353
+ 秘书职业资格
354
+ 注册税务师
355
+ 语言
356
+ 国家资格考试
357
+ 口腔医学与口腔学技术
358
+ 公共卫生联络员
359
+ 报检员资格
360
+ 医生资格-医生
361
+ 国家标准
362
+ 农业学
363
+ 航空航天科学技术
364
+ 化学检验工
365
+ 塑料模具操作工
366
+ 油漆涂装技师
367
+ 水泥生产工
368
+ 涂装工
369
+ 真空制盐工
370
+ 港口设备安装工程质量检验
371
+ 铁路机车车辆驾驶人员资格
372
+ 供水仪表工
373
+ 供水调度工
374
+ 监理工程师
375
+ 材料员
376
+ 液化石油气站操作工
377
+ 电气安装工
378
+ 砌筑工
379
+ 半导体芯片制造职业技能
380
+ 演出经纪人员资格
381
+ 注册化工工程师
382
+ 注册核安全工程师
383
+ 维修电工职业技能鉴定
384
+ 注册动力设备运行操作员
385
+ 汽轮机辅机安装
386
+ 油品储运操作工
387
+ 电动装卸机械修理工
388
+ 锅炉设备装配工
389
+ 注册计算机信息系统集成工程师
390
+ 办公软件应用
391
+ 食品安全管理体系认证
392
+ 家政服务
393
+ 烘焙工
394
+ 贵金属首饰手工制作
395
+ 轻工技术与工程
396
+ 车工工艺
397
+ 加工中心操作工
398
+ 数控铣床操作员
399
+ 模具钳工
400
+ 电子商务
401
+ 会展策划与实务岗位资格
402
+ 设备监理师
403
+ 原文
404
+ 职业培训师资格
405
+ 审计专业技术资格
406
+ 高等职业教育
407
+ 中医护理学专业技术资格
408
+ 口腔医学
409
+ 医生资格-职业病诊断医师
410
+ 养老护理员
411
+ 康复医学
412
+ 生理学
413
+ 麻醉学高级教程
414
+ 营养与食品卫生学
415
+ 兽医
416
+ 殡葬服务
417
+ 电气工程
418
+ 潜水员资格
419
+ 民用航空器驾驶员
420
+ 水利建筑工程
421
+ 营养师
422
+ 制冷工考工
423
+ 测量科学技术
424
+ 铝用炭素煅烧工
425
+ 化工操作工职业资格
426
+ 水利科学与工程
427
+ 电梯安装维修工
428
+ 管道工
429
+ 无线局域网维护与测试
430
+ 半导体分立元器件集成电路装调职业技能鉴定
431
+ 无线电调试工
432
+ 显示器维修技能
433
+ 电力机务员
434
+ 维修钳工
435
+ 注输泵修理工
436
+ 油品计量工
437
+ 高压湿蒸汽发生器运行工
438
+ 钻井技术
439
+ 钻井架安装工
440
+ 钻井柴油机工
441
+ 随钻测量工
442
+ 主提升机操作工
443
+ 煤矿电气安装工
444
+ 矿井地质工
445
+ 矿山救护指挥员
446
+ 矿山救护队员资格
447
+ 移动式压风机司机
448
+ 采煤机司机操作资格
449
+ 司炉操作
450
+ 锅炉安装资格
451
+ 多媒体应用技术专业
452
+ 图像制作员级
453
+ 食品安全检验员
454
+ 烹饪原料加工基本技能
455
+ 家政服务技能
456
+ 服装设计
457
+ 烹饪基本技能
458
+ 服装设计与工程
459
+ 空勤人员、地面人员
460
+ 糖果工艺师
461
+ 网版制版工
462
+ 美发技术与美发店经营
463
+ 食品安全管理
464
+ 酱油、酱类制作工
465
+ 玩具设计师
466
+ 冷作钣金工初级技能
467
+ 民用核安全设备焊工焊接操作工
468
+ 磨工基本技能
469
+ 金属学与金属工艺
470
+ 钻头制造工
471
+ 铸造工
472
+ 数控技术
473
+ 体育教练员
474
+ 教练员资格
475
+ 助理会展经营策划师
476
+ 信息处理技��员级
477
+ 网络课件设计师
478
+ 综合
479
+ 学前教育
480
+ 安全生产管理人员资格
481
+ 信用担保机构经营管理
482
+ 水域环境养护保洁员
483
+ 航天电子产品装接工
484
+ AP
485
+ 金融学
486
+ 建筑科学
487
+ 国家职业技能等级证书
488
+ 民用航空电信人员、航行情报人员、气象人员
489
+ 礼仪师
490
+ 照相器材维修工
491
+ 智能楼宇管理师
492
+ 钟表维修工
493
+ 测量控制与仪器仪表工程师
494
+ 衡器操作工
495
+ 锅炉设备运行
496
+ 电子仪器仪表装配工
497
+ 锅炉辅机检修工
498
+ 抽油机安装工
499
+ 油品储运调和操作工
500
+ 测井绘解工
501
+ 石油金属结构制作工
502
+ 多媒体作品制作员
503
+ 化妆师
504
+ 棉花加工工
505
+ 猪屠宰加工工
506
+ 畜禽产品检验员
507
+ 数控车床工
508
+ 数控机床工
509
+ 模具制造工
510
+ AMC
511
+ 按摩师
512
+ 健康咨询员
513
+ 健康管理师
514
+ 室内装饰工程管理员
515
+ 水泥中央控制室操作员
516
+ 液化石油气站设备检修工
517
+ 电力设施安装企业合同员
518
+ 电力设施安装企业质检员
519
+ 线务技师
520
+ 报关员资格
521
+ 全国计算机技术与软件专业技术资格
522
+ 工业与技术科学基础学科
523
+ 足球教练员资格
524
+ 会展策划与实务岗位资格考试
525
+ 公共卫生学
526
+ 注册康复治疗师
527
+ 医生资格-公共卫生执业医师
528
+ 室内环境治理员
529
+ 有害生物防制员
530
+ 营养保健师
531
+ 室内设计师资格
532
+ 集成电路测试技术员
533
+ 奶牛挤奶员
534
+ 文献
535
+ 文明学
536
+ 行政执法资格考试
537
+ 中国医学与中药学
538
+ 注册中药师
539
+ 民用航空器维修人员
540
+ 报检员
541
+ 有毒有害工种从业人员资格
542
+ 地质学
543
+ 技师
544
+ 农业
545
+ 物探测量工
546
+ 制冷工
547
+ 制冷设备维修工
548
+ 防腐蚀工
549
+ 模具设计师
550
+ 化学检验高级工
551
+ 化工仪表维修工
552
+ 化工维修电工中级
553
+ 注册招标师
554
+ 市政质检员
555
+ 混凝土工
556
+ 电梯与自动扶梯的安装维修
557
+ 管道工安全技术
558
+ 装饰木工操作技能
559
+ 注册室内设计师
560
+ 质量检查员
561
+ 注册工程师
562
+ 无线电电子学、电信技术
563
+ 仪器仪表维修工
564
+ 变电站值班员
565
+ 电气设备安装工
566
+ 高低压电器及成套设备装配工
567
+ 汽车维修工
568
+ 锅炉操作工
569
+ 计算机等级考试
570
+ 网络管理员
571
+ 高级计算机程序设计员
572
+ 西式面点师
573
+ 调酒师
574
+ 贵金属首饰手工制作工
575
+ 冷作钣金工
576
+ 数控铣工
577
+ 机修钳工(技师)
578
+ 车工
579
+ 锻造工
580
+ 化验员资格
581
+ 社会体育指导员
582
+ 工程咨询(投资)专业技术人员职业资格
583
+ 广播电视播音员
584
+ 建筑装饰工程技术
585
+ 网络编辑员
586
+ 注册环境影响评价工程师
587
+ 初级中药士资格
588
+ 事业单位录用考试
589
+ 放射工作人员职业资格
590
+ 法定职业病健康与防护
591
+ 科学技术史
592
+ 资产评估师
593
+ 木材检验员
594
+ 能源科学与工程
595
+ 农业技术人员职业资格
596
+ 冲印师
597
+ 平版印刷工
598
+ 打叶复烤工
599
+ 全国计算机职业技能培训
600
+ 园林绿化工
601
+ 木工
602
+ 液化石油气储运保管工
603
+ 管工
604
+ 防水工
605
+ 无线电装接工
606
+ 钻井协作工
607
+ 起重装卸机械操作工
608
+ 汽车修理工
609
+ 钻井工
610
+ 石油钻机修理工
611
+ 压力容器操作工
612
+ 塔式起重机驾驶员
613
+ 压缩机操作工
614
+ 技能人员职业资格
615
+ 变配电工
616
+ 家用电器维修工
617
+ 循环水操作工
618
+ 电工作业
619
+ 电工初级技能
620
+ 电工进网作业许可
621
+ 电机装配工
622
+ 电气维修技师
623
+ 制冷与空调技术
624
+ 配电线路工
625
+ 汽车类专业
626
+ 天然气净化分析工
627
+ 石油、天然气工业
628
+ 汽国修理工职业技能鉴定
629
+ 油气开采技术
630
+ 油气田水处理工
631
+ 综合录井
632
+ 采油工
633
+ 煤矿井下电钳工操作资格
634
+ 民用核安全设备无损检验人员
635
+ 矿井测尘工
636
+ 矿山救护工
637
+ 综采维修钳工
638
+ 司炉工
639
+ 计算机系统操作工
640
+ 高级多媒体制作员级
641
+ 中式烹调技师
642
+ 冷藏工
643
+ 制油工
644
+ 面包烘焙师
645
+ 家庭服务基本技能
646
+ 茶叶加工工
647
+ 茶叶审评师
648
+ 酱腌菜制作工
649
+ 食品检验工
650
+ 钣金工
651
+ 铆工
652
+ 健身教练职业技能
653
+ 职业信息分析师
654
+ 档案系列中初级专业技术资格
655
+ 电工仪器仪表装配工
656
+ 体育健康
657
+ 科学传播
658
+ 环境管理体系认证
659
+ 民航特种车辆操作工
660
+ 食品科学与工程
661
+ 中药学与中药学
662
+ 城市规划与设计
663
+ 园林
664
+ 注册建造师
665
+ 办公自动化
666
+ 安全生产督导员
667
+ Biology
668
+ 地震科学技术
669
+ 全国会计专业技术资格
670
+ 水文勘测工
671
+ 中级涂装工
672
+ 水泥制成工
673
+ 建筑涂装工
674
+ 外销员资格
675
+ 监理工程师职业资格
676
+ 市政燃气热力施工员
677
+ 建造师给排水工程施工员
678
+ 挖掘铲运和桩工机械司机
679
+ 机泵运行工
680
+ 机电设备安装维修工
681
+ 工程师职称考试
682
+ 注册通信工程师
683
+ 移动电话机维修工
684
+ 注册压力容器设计师
685
+ 变配电室值班电工
686
+ 电网调度自动化厂站端调试检修员
687
+ 糕点面包烘焙师
688
+ 焊工(技师)
689
+ 体育教练员资格
690
+ 健身教练员职业资格
691
+ 广播电视播音员主持人资格
692
+ 语文,
693
+ 家庭教育
694
+ 行政文员资格
695
+ K12
696
+ 医生资格-口腔执业助理医师
697
+ 主管护师
698
+ 计划生育·主治医师
699
+ 家政与社区服务
700
+ 出入境检验检疫报检员资格
701
+ 船员资格(含船员、渔业船员)
702
+ 包装设计员
703
+ 招标师
704
+ 消防工程师
705
+ 装饰装修电工
706
+ 压缩机工
707
+ 注水泵工
708
+ 巷修工
709
+ 巷道掘砌工
710
+ 网络管理师
711
+ 计算机技术与软件专业技术资格水平
712
+ 网络与信息安全管理员
713
+ 轻工业设计师职业资格
714
+ 车工基本技能
715
+ 数控铣床与编程加工
716
+ 数控专业
717
+ 钳工技术
718
+ 数控技术专业
719
+ 工具钳工
720
+ 机械产品检验工
721
+ 组合机床操作工
722
+ 化验员
723
+ 化学分析工
724
+ 健身教练资格
725
+ 公安学
726
+ SAT
727
+ 普通话水平测试
728
+ Physics
729
+ 教师资格证
730
+ 音乐专业技术资格
731
+ 银行业专业人员职业资格
732
+ 金融分析师
733
+ 公务员公开遴选
734
+ 选调生考试
735
+ 自然资源相关工程与技术
736
+ 房地产估价师
737
+ 心理健康
738
+ 营销师
739
+ 翻译专业资格
740
+ 计算机应用技术
741
+ 职业能力倾向测验
742
+ 信息系统项目管理师
743
+ TOEFL
744
+ 三支一扶考试
745
+ 保险专业人员职业资格
746
+ PTE
747
+ 通信专业技术人员职业资格
748
+ 数字
749
+ 工程机械修理工
750
+ 室内设计师
751
+ 国际商务单证员
752
+ 医生资格-公共卫生医师
753
+ 医生资格-公共卫生执业助理医师
754
+ 军队文职人员
755
+ 军队文职
756
+ 全国音乐等级考试
757
+ 物业管理师执业资格
758
+ 全国大学英语四级
759
+ 信息系统管理工程师
760
+ 临床医学检验技术
761
+ 临床医学检验专业技师
762
+ 人力资源管理师
763
+ 人力资源管理
764
+ 银行专业人员职业资格
765
+ 房地产经纪专业人员职业资格
766
+ 军队文职人员职业资格
767
+ 翻译专业
768
+ 花卉园艺师
769
+ 临床医学检验技术职称
770
+ 污水处理厂操作员证书
771
+ 安全科学技术及资源科学技术
772
+ 公共健康管理
773
+ 机修钳工
774
+ 工具钳工技能培训与鉴定
775
+ 食品安全管理师
776
+ 国际问题研究
777
+ 餐饮服务与管理
778
+ 防爆电气设备维修、检查工
779
+ 天然气净化操作工
780
+ 计算机技能型紧缺人才就业培训
781
+ 装潢装饰技能
782
+ 水暖工
783
+ 挖掘机维修技师
784
+ 制冷空调设备维修
785
+ 科学技术及资源科学技术
786
+ 注册锅炉压力容器检验师
787
+ 公墓管理人员职业资格
788
+ 塑料配料工与塑料捏合工
789
+ 塑料模具工
790
+ 施工安全员
791
+ 注册商标专用权
792
+ TOEIC
793
+ 法考
794
+ 劳动关系协调员
795
+ 事业单位招聘
796
+ 初检会计
797
+ FRM
798
+ 注册房地产估价师
799
+ CET-4
800
+ 政府购买服务人员考试
801
+ 社区专职工作者
802
+ 纪检监察
803
+ 辅导员
804
+ 市政学
805
+ 辅导员资格
806
+ 心理咨询服务人员资格
807
+ 语言学
808
+ 口腔助理医师
809
+ 逻辑学
810
+ 企业人力资源管理师
811
+ 日语
812
+ 基金从业资格
813
+ 中国银行业从业人员资格
814
+ 轨道列车司机
815
+ 语文学
816
+ 药学资格
817
+ 船员资格
818
+ 注册网络规划设计师
819
+ 注册建筑工程师
820
+ 眼镜验光员
821
+ 电子设备装接工国家职业技能培训与鉴定
822
+ 中医与中药学
823
+ 证券投资顾问胜任能力
824
+ LSAT
825
+ 康复专业人员资格
826
+ 计算机应用能力
827
+ 医疗按摩师
828
+ 任职资格
829
+ 中医医学与中药学
830
+ 助听器验配师
831
+ 音乐等级考试
832
+ 物业管理师
833
+ 仓储管理员
834
+ 中国民族民间舞蹈等级考试
835
+ 护理专业技术资格
836
+ CT技师上岗证
837
+ 任职资格管理
838
+ 注册内部审计师
839
+ 警察职业资格
840
+ 社区工作者职业资格
841
+ 公共基础知识
842
+ 美术学科资格
843
+ 农村专职工作者
844
+ 综合应用能力
845
+ 放射医学技术初级师
846
+ 家庭治疗师资格
847
+ 警察资格
848
+ 书法等级考试
849
+ 物价员任职资格
850
+ 企业管理人员职业资格
851
+ 审计师
852
+ 公共营养师职业资格
853
+ 社会工作者
854
+ 期货从业人员资格
855
+ Cambridge English Exams
856
+ GRE
857
+ 金融风险管理师
858
+ 知识产权法
859
+ 精算师
860
+ CFA
861
+ 政法干警招录
862
+ 房地产策划师职业资格
863
+ 信息物流员职业资格
864
+ 汽车特许经销商资格
865
+ USMLE
866
+ 全国土地登记代理人执业资格
867
+ 影视剪辑师
868
+ 国际商务专业技术资格
869
+ 注册岩土工程师
870
+ 地质工程
871
+ 企业法律顾问执业资格
872
+ 全国职称计算机考试
873
+ 计算机信息高新技术考试
874
+ 中医药学与中药学
875
+ 风力发电机组维修保养工
876
+ 铁路运输相关职业资格
877
+ 教师资格
878
+ ACT
879
+ SSAT
880
+ 设计学
881
+ 工会干部职业资格
882
+ 市场营销
883
+ 网络与信息安全
884
+ 图像制作员
885
+ 珠宝鉴定与评估
886
+ 医学影像信息技术
887
+ 计算机辅助设计(AUTOCAD平台)绘图员级
888
+ 国际商务师资格
889
+ 动植物检疫
890
+ 系统集成项目管理工程师
891
+ 注册能源工程师
892
+ 保险专业技术资格
893
+ 质量工程
894
+ 中式烹饪师
895
+ 国际商务师
896
+ 不动产登记代理专业人员职业资格
897
+ 高技能操作与现场管理
898
+ 仪器分析技术
899
+ 水分布操作员资格
900
+ 烘焙师资格
901
+ 注册数据库工程师
902
+ 注册程序员
903
+ 程序员认证
904
+ 农业工程
905
+ 食品安全管理员资格
906
+ Delphi高级程序员认证
907
+ 注册金融分析师
908
+ Japanese Language Proficiency Test
909
+ 医生资格-执业助理医师
910
+ 学教育学
911
+ 助产士资格证书
912
+ 会计
913
+ 信息与系统科学相关工程与技术
914
+ 经济
915
+ 注册冶金工程师
916
+ 建筑产业工人职业技能等级
917
+ 高等学校英语应用能力考试(PRETCO)
918
+ 音乐水平考级
919
+ 中式面点师
920
+ 全国公共英语等级考试
921
+ 投资建设项目管理师职业水平考试
922
+ 全国长笛演奏考级
923
+ 医药卫生
924
+ 铁路信号工
925
+ 厨师证
926
+ 公共卫生执业助理医师资格
927
+ 文字
928
+ 全国出国留学人员日语水平测试
929
+ 电子商务人才专业化从业认证
930
+ 能源科学技术
931
+ 心理咨询师国家职业资格
932
+ 旅游管理
933
+ 音乐等级考级
934
+ 基��乐科考级
935
+ 会计学
936
+ 公共管理
937
+ 中药学
938
+ 建筑与土木工程
939
+ 建筑科学与技术
940
+ 水利水电工程
941
+ 音乐考级
942
+ 土地估价师
943
+ 口腔执业医师证
944
+ 金融
945
+ 全国农业经济专业技术资格
946
+ 艺术
947
+ 价格鉴证师
948
+ 土木建筑
949
+ 全国音乐等级考级
950
+ 临床医学检验技术(师)
951
+ 保险从业人员资格
952
+ 日本语能力考试
953
+ 烹调师资格
954
+ 图书馆、情报与文学
955
+ 全国专业技术人员计算机应用能力
956
+ 全国等级音乐等级考级
957
+ 政治
958
+ 国防科技工业军用核安全设备无损检验人员
959
+ 中药专业(中级)
960
+ 全国英语等级考试
961
+ 美发师资格证书
962
+ 电子与通信工程
963
+ 纺织科学技术学
964
+ 思科认证资深安全工程师
965
+ 电子商务师
966
+ 建设工程质量检测人员岗位证书
967
+ 收银员职业技能等级证书
968
+ 国家职业技能等级证书(油漆工)
969
+ 国际贸易
970
+ 林业工程
971
+ 住房和城乡建设领域专业技术管理人员
972
+ 教育
973
+ 成人高考
974
+ 全国外语水平考试(WSK)
975
+ 信息与系统科学相关工程与技术学
976
+ Microsoft Office Word 2003 专家级认证
977
+ 云计算平台与存储管理专业认证
978
+ 注册系统规划与管理师
979
+ 咖啡师
980
+ 公安技术
981
+ 医学技术
982
+ 全国计算机技术与软件专业技术资格水平考试
983
+ 国际商务师执业资格
984
+ 公共卫生执业医师资格
985
+ 企业培训师
986
+ 英语专业八级考试
987
+ 自然地理学
988
+ 民族与文化学
989
+ 小军鼓演奏资格
990
+ 全国一级建造师执业资格
991
+ 全国二级建造师执业资格
992
+ 全国二级注册建筑师
993
+ 全国注册资产评估师
994
+ 公卫执业助理医师
995
+ 语文,思想政治,历史,地理,数学
996
+ 教练能力
997
+ 车辆工程
998
+ 地地球科学
999
+ 化学科学
1000
+ 科学j技术
1001
+ 科学技术
1002
+ 执药医师
1003
+ 旅游
1004
+ 建筑架子工
1005
+ 公安技术类
1006
+ 农业工程类
1007
+ 眼镜生产与品质管理
1008
+ 管理
1009
+ 计算机应用基础职业技能鉴定
1010
+ 注册会计师,
1011
+ 地球科学科学
1012
+ 产品质量管理
1013
+ 临床医学检验与技术
1014
+ 信息科学与系统科学相关工程与技术
1015
+ 信息与系统科学相关工程与技
1016
+ 汽车驾驶考证
1017
+ 光伏组件制造工艺
1018
+ 矿山权评估师
1019
+ 自然科学研究与技术
1020
+ 药品仓储与养护技术
1021
+ 会计电算化
1022
+ 电气与通信技术
1023
+ 艺术类
1024
+ 息与系统科学相关工程与技术
1025
+ 计算机网络管理员认证
1026
+ 民俗文化学
1027
+ 办公软件应用操作员
1028
+ 驾驶员资格
1029
+ 生物工程
1030
+ 国家技术转移专业人员能力等级
1031
+ 驾驶资格
1032
+ 基临床医学
1033
+ 报关从业资格
1034
+ 管理学信息与系统科学相关工程与技术
1035
+ 近世代数教程
1036
+ 全国特种设备无损检测人员资格
1037
+ 管经济学
1038
+ 生物科学
1039
+ GCT入学资格考试
1040
+ 人力资源管理专业技术资格
1041
+ 情报学
1042
+ CFA考试
1043
+ Microsoft Office PowerPoint 2007专业级认证
1044
+ 中小型建筑机械操作工
1045
+ 临床医学检验技术(士)
1046
+ 企业管理和商业策略
1047
+ 会展策划师
1048
+ 会展经营策划员
1049
+ 信息管理技术
1050
+ 催眠师资格
1051
+ 全国专业技术人员职称外语等级考试
1052
+ 公司治理与管理
1053
+ 军械修理工
1054
+ 军队文职人员考试
1055
+ 动力与电气科学
1056
+ 助理网络编辑师
1057
+ 助理职业指导师
1058
+ 化妆品配方师
1059
+ 医学相关工程与技术
1060
+ 医生资格-公共卫生专业
1061
+ 医生资格-妇产科医师
1062
+ 占星师资格
1063
+ 双排键电子琴
1064
+ 司法鉴定
1065
+ 命理学
1066
+ 商业经济专业知识与实务
1067
+ 商业职业经理人
1068
+ 园艺工
1069
+ 国际经济与贸易
1070
+ 地球科学学
1071
+ 地质科学
1072
+ 城乡规划
1073
+ 城市规划
1074
+ 塑料模具制造工
1075
+ 外语学习
1076
+ 安全监测工
1077
+ 审计
1078
+ 审计学
1079
+ 就业与创业指导
1080
+ 市场信息学
1081
+ 市场营销经理助理资格证书
1082
+ 广告运营技巧
1083
+ 建筑机器修理钳工
1084
+ 建筑材料
1085
+ 建筑模型设计制作员
1086
+ 建筑环境与设备工程
1087
+ 律师资格
1088
+ 心理治疗师
1089
+ 心电岗位考核
1090
+ 房地产科学技术
1091
+ 技工
1092
+ 拍卖师
1093
+ 挖掘机操作工
1094
+ 摩擦材料生产工艺
1095
+ 数控加工中心技能
1096
+ 数控工艺员
1097
+ 数控编程技术
1098
+ 数控车削编程与考级
1099
+ 数控车床
1100
+ 旧工程机械评估与鉴定
1101
+ 服装设计定制工
1102
+ 林产化学工业
1103
+ 检验工
1104
+ 水利水电设备类
1105
+ 水质检验工
1106
+ 汉语水平考试
1107
+ 汽车制造类
1108
+ 汽车工程
1109
+ 注册执业药师
1110
+ 注册管理会计师
1111
+ 注册计算机信息系统集成项目经理
1112
+ 测量放线工
1113
+ 焊接工程师
1114
+ 焊接技能实训
1115
+ 焊接科学与工程
1116
+ 物业管理
1117
+ 物流人员职业资格
1118
+ 物流师
1119
+ 现代商务谈判
1120
+ 琵琶演奏资格
1121
+ 电子制版工
1122
+ 电路分析基础
1123
+ 皮革加工工
1124
+ 眼镜定配技术
1125
+ 社会科学相关工程与技术
1126
+ 经济管理
1127
+ 绘图员级
1128
+ 网页制作员
1129
+ 美术
1130
+ 自然保护与环境生态
1131
+ 行政管理
1132
+ 计算机类
1133
+ 计算机组装和维护
1134
+ 计算机软件专业技术水平
1135
+ 语言学专业四级考试
1136
+ 语言学应用能力
1137
+ 语言学高级口译资格证书
1138
+ 起重工
1139
+ 车工工艺学
1140
+ 车工操作技术
1141
+ 软件工程师
1142
+ 软件评测师
1143
+ 通风安全监测工
1144
+ 采油地质工
1145
+ 陶瓷原料准备工
1146
+ 音乐听力考级
1147
+ 音乐学
1148
+ 风景园林
1149
+ 风景园林学
1150
+ 风水师
1151
+ 食品安全检测
category_10/all_majors_new.txt ADDED
@@ -0,0 +1,108 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 宗教学
2
+ 其他
3
+ 基础医学
4
+ 新闻学与传播学
5
+ 管理学
6
+ 金融经济及财会
7
+ 英语
8
+ 文学
9
+ 化学
10
+ 物理学
11
+ 教育学
12
+ 法学
13
+ 语文
14
+ 电子与通信技术
15
+ 历史学
16
+ 哲学
17
+ 土木建筑工程
18
+ 信息科学与系统科学
19
+ 材料科学
20
+ 生物学
21
+ 药学
22
+ 心理学
23
+ 数学
24
+ 农学
25
+ 艺术学
26
+ 机械工程
27
+ 语言学
28
+ 临床医学
29
+ 动力与电气工程
30
+ 马克思主义
31
+ 化学工程
32
+ 工程与技术科学基础学科
33
+ 民族学与文化学
34
+ 法律及相关资格
35
+ 历史
36
+ 中医学与中药学
37
+ 地球科学
38
+ 航空、航天科学技术
39
+ 能源科学技术
40
+ 音乐
41
+ 体育与健康
42
+ 天文学
43
+ 食品科学技术
44
+ 信息技术
45
+ 考古学
46
+ 畜牧与兽医科学
47
+ 道德与法治
48
+ 交通运输工程
49
+ 社会学
50
+ 军事医学与特种医学
51
+ 语言类等级考试
52
+ 文化艺术类
53
+ 体育科学
54
+ 统计学
55
+ 信息技术与软件
56
+ 政治学
57
+ 地理
58
+ 轻工技术与工程
59
+ 医疗健康类
60
+ 预防医学与公共卫生学
61
+ 林学
62
+ 纺织科学技术
63
+ 力学
64
+ 科学
65
+ 教育类资格
66
+ 环境科学技术及资源科学技术
67
+ 生物医学工程
68
+ 物理
69
+ 书法
70
+ 测绘科学技术
71
+ 电子商务与物流
72
+ 水产学
73
+ 军事学
74
+ 水利工程
75
+ 安全科学技术
76
+ 工程技术类资格
77
+ 矿山工程技术
78
+ 图书馆、情报与文献学
79
+ 冶金工程技术
80
+ 思想政治
81
+ 生物
82
+ 海洋学
83
+ 产品应用相关工程与技术
84
+ 社会工作与公共服务
85
+ 旅游学
86
+ 交通运输与物流类
87
+ 核科学技术
88
+ 石油与天然气工程
89
+ 劳动
90
+ 海洋工程
91
+ 食品安全
92
+ 自然科学相关工程与技术
93
+ 广播影视行业
94
+ 经济管理类
95
+ 信息安全
96
+ 职业技能类
97
+ 国际关系
98
+ 通用技术
99
+ 历史与社会
100
+ 安全与消防工程类
101
+ 新闻出版行业
102
+ 环境保护与食品安全
103
+ 计量与检测认证类
104
+ 农业工程
105
+ 文化学
106
+ 社会科学
107
+ 体育竞技类
108
+ 科学哲学
category_10/biology_category_trackid.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
category_10/category_trackid.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:19f4a999bb6782f5ff00d08855fb305ff032a1e24ee729cf4cdaeba4abbfcc4e
3
+ size 34221747
category_10/classification_result.json ADDED
@@ -0,0 +1,132 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "Mathematics & Statistics": [
3
+ "数学",
4
+ "统计学"
5
+ ],
6
+ "Physics & Astronomy": [
7
+ "物理学",
8
+ "天文学",
9
+ "力学",
10
+ "物理",
11
+ "核科学技术"
12
+ ],
13
+ "Chemistry": [
14
+ "化学",
15
+ "材料科学"
16
+ ],
17
+ "Environmental & Geographical Sciences": [
18
+ "地球科学",
19
+ "考古学",
20
+ "地理",
21
+ "林学",
22
+ "环境科学技术及资源科学技术",
23
+ "测绘科学技术",
24
+ "海洋学",
25
+ "环境保护与食品安全"
26
+ ],
27
+ "Life Sciences": [
28
+ "生物学",
29
+ "农学",
30
+ "食品科学技术",
31
+ "畜牧与兽医科学",
32
+ "水产学",
33
+ "生物",
34
+ "食品安全"
35
+ ],
36
+ "Medical Sciences": [
37
+ "基础医学",
38
+ "药学",
39
+ "临床医学",
40
+ "中医学与中药学",
41
+ "军事医学与特种医学",
42
+ "医疗健康类",
43
+ "预防医学与公共卫生学",
44
+ "生物医学工程"
45
+ ],
46
+ "Information Sciences": [
47
+ "信息科学与系统科学",
48
+ "信息技术",
49
+ "信息技术与软件",
50
+ "安全科学技术",
51
+ "图书馆、情报与文献学",
52
+ "广播影视行业",
53
+ "信息安全"
54
+ ],
55
+ "Economics & Management": [
56
+ "管理学",
57
+ "金融经济及财会",
58
+ "电子商务与物流",
59
+ "经济管理类"
60
+ ],
61
+ "Humanities & Social Sciences": [
62
+ "宗教学",
63
+ "新闻学与传播学",
64
+ "英语",
65
+ "文学",
66
+ "教育学",
67
+ "法学",
68
+ "语文",
69
+ "历史学",
70
+ "哲学",
71
+ "心理学",
72
+ "艺术学",
73
+ "语言学",
74
+ "马克思主义",
75
+ "民族学与文化学",
76
+ "法律及相关资格",
77
+ "历史",
78
+ "音乐",
79
+ "道德与法治",
80
+ "社会学",
81
+ "语言类等级考试",
82
+ "文化艺术类",
83
+ "政治学",
84
+ "教育类资格",
85
+ "书法",
86
+ "思想政治",
87
+ "社会工作与公共服务",
88
+ "旅游学",
89
+ "劳动",
90
+ "国际关系",
91
+ "历史与社会",
92
+ "新闻出版行业",
93
+ "文化学",
94
+ "社会科学",
95
+ "科学哲学"
96
+ ],
97
+ "Engineering": [
98
+ "电子与通信技术",
99
+ "土木建筑工程",
100
+ "机械工程",
101
+ "动力与电气工程",
102
+ "化学工程",
103
+ "工程与技术科学基础学科",
104
+ "航空、航天科学技术",
105
+ "能源科学技术",
106
+ "交通运输工程",
107
+ "轻工技术与工程",
108
+ "纺织科学技术",
109
+ "水利工程",
110
+ "工程技术类资格",
111
+ "矿山工程技术",
112
+ "冶金工程技术",
113
+ "产品应用相关工程与技术",
114
+ "交通运输与物流类",
115
+ "石油与天然气工程",
116
+ "海洋工程",
117
+ "自然科学相关工程与技术",
118
+ "通用技术",
119
+ "安全与消防工程类",
120
+ "计量与检测认证类",
121
+ "农业工程"
122
+ ],
123
+ "Others": [
124
+ "其他",
125
+ "体育与健康",
126
+ "体育科学",
127
+ "科学",
128
+ "军事学",
129
+ "职业技能类",
130
+ "体育竞技类"
131
+ ]
132
+ }
category_10/output_new/biology/biology.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:96de3bf0cbe688c6fe3c8367cda44def2902be300b4d98bdc8c821668e1873b1
3
+ size 659609066
category_10/output_new/biology/match_bio.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b6e8972be9428d080d7dee67fdfb54a173d46be06ef39e8f3cb8c30b80624c3f
3
+ size 321426895
category_10/outputs/Chemistry/Chemistry_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:03d75db939bbf3eb2278656b88cc02146085f86b2726c8aba59f606fd07707a7
3
+ size 803428567
category_10/outputs/Economics & Management/Economics & Management_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:92c2a644d8972d7d16f2f3f5cf645adacd6bed2c9df8a7b2aee68e78bd2b2b59
3
+ size 1280063819
category_10/outputs/Engineering/Engineering_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dd21a09c211d93fbf01df395e600f8ae6004c6d3867140bd9caee8bbf9593b67
3
+ size 2987604519
category_10/outputs/Environmental & Geographical Sciences/Environmental & Geographical Sciences_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c7115fceaff998d573d1968b811661dbab1e83309d0ecbd104428b513bd012a
3
+ size 198483241
category_10/outputs/Humanities & Social Sciences/Humanities & Social Sciences_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7be4198ebc869c81906b349dd91fcd712c3907a3506162c755c0955aea29b4c4
3
+ size 616628719
category_10/outputs/Information Sciences/Information Sciences_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:de11aa81325d2676eeda7887fac8608f2ff6182d05cc135c24417467282c9e83
3
+ size 1405143599
category_10/outputs/Life Sciences/Life Sciences_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:008fdec9e3997444618c6f44fc2b339ced8369988984eada0e9daafb67262381
3
+ size 733190665
category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e8b0925ec686b213e5fd9c85dfe9f9cc09216f39ad770cca13aa6b78f62c0988
3
+ size 3118374411
category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_002.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fd4a610c43e0a814331a15d69045d51db9ee58d8c8a7a1ed587536fd2b60a766
3
+ size 374334743
category_10/outputs/Medical Sciences/Medical Sciences_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:461d476ce714b6a1e92516b56bba26b9f5b6bcc2796a9777060880a93bf0d613
3
+ size 378572313
category_10/outputs/Others/Others_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b514b74b1742996f69d893765d56e8af81ca40333a2a567c9bf1a76960d1f51e
3
+ size 41290548
category_10/outputs/Physics & Astronomy/Physics & Astronomy_001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:92307cc51a4370a139dd3d66235f4110f650e5e1c1e6647f97d2031a876fd9ed
3
+ size 585424169
category_10/predata.py ADDED
@@ -0,0 +1,501 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+
3
+ # import pandas as pd
4
+ # import os
5
+
6
+
7
+ # def extract_unique_majors_pandas(jsonl_files, txt_file_path):
8
+ # all_majors = []
9
+ # for jsonl_file_path in jsonl_files:
10
+ # try:
11
+ # df = pd.read_json(jsonl_file_path, lines=True)
12
+ # if 'major_1' in df.columns:
13
+ # unique_majors = df['major_1'].dropna().unique()
14
+ # all_majors.extend(unique_majors)
15
+ # else:
16
+ # print(f"The 'major_1' column was not found in {jsonl_file_path}.")
17
+ # except FileNotFoundError:
18
+ # print(f"Error: The file {jsonl_file_path} was not found.")
19
+ # except Exception as e:
20
+ # print(f"An unexpected error occurred while processing {jsonl_file_path}: {e}")
21
+
22
+ # unique_all_majors = pd.Series(all_majors).dropna().unique()
23
+ # try:
24
+ # with open(txt_file_path, 'w', encoding='utf-8') as txt_file:
25
+ # for major in unique_all_majors:
26
+ # txt_file.write(str(major) + '\n')
27
+ # print(f"Unique majors have been saved to {txt_file_path}")
28
+ # except Exception as e:
29
+ # print(f"An error occurred while writing to {txt_file_path}: {e}")
30
+
31
+
32
+ # if __name__ == "__main__":
33
+ # directory = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/trackid_major'
34
+ # jsonl_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.jsonl')]
35
+ # txt_file_path = 'all_majors_new.txt'
36
+ # extract_unique_majors_pandas(jsonl_files, txt_file_path)
37
+
38
+ # #llm分类十个学科门类
39
+ # import pandas as pd
40
+ # import json
41
+ # from openai import OpenAI
42
+
43
+ # # 配置 OpenAI 客户端
44
+ # client = OpenAI(
45
+ # api_key="EMPTY",
46
+ # base_url="http://localhost:8000/v1"
47
+ # )
48
+
49
+ # # 分类类别
50
+ # categories = {
51
+ # 'A': 'Mathematics & Statistics',
52
+ # 'B': 'Physics & Astronomy',
53
+ # 'C': 'Chemistry',
54
+ # 'D': 'Environmental & Geographical Sciences',
55
+ # 'E': 'Life Sciences',
56
+ # 'F': 'Medical Sciences',
57
+ # 'G': 'Information Sciences',
58
+ # 'H': 'Economics & Management',
59
+ # 'I': 'Humanities & Social Sciences',
60
+ # 'J': 'Engineering',
61
+ # 'K': 'Others'
62
+ # }
63
+
64
+ # # 调用模型进行分类
65
+ # def classify_subject(subject):
66
+ # full_prompt = f"请将学科 '{subject}' 分类到以下类别中:{', '.join([f'{key}. {value}' for key, value in categories.items()])},仅返回类别对应的字母。"
67
+ # print(full_prompt)
68
+ # try:
69
+ # response = client.chat.completions.create(
70
+ # model="Qwen2.5-VL-72B-Instruct",
71
+ # messages=[
72
+ # {"role": "user", "content": full_prompt}
73
+ # ]
74
+ # )
75
+ # predicted_token = response.choices[0].message.content.strip()
76
+ # if predicted_token in categories:
77
+ # return categories[predicted_token] # 返回类别名称
78
+ # else:
79
+ # print(f"模型返回的分类结果 '{predicted_token}' 无效,将其归为 'K' 类。")
80
+ # return categories['K'] # 返回 'K' 类的类别名称
81
+ # except Exception as e:
82
+ # print(f"调用模型时出现错误: {e},将 '{subject}' 归为 'K' 类。")
83
+ # return categories['K'] # 返回 'K' 类的类别名称
84
+
85
+
86
+ # def classify_subjects_from_txt(txt_file_path):
87
+ # category_dict = {category: [] for category in categories.values()} # 使用类别名称作为键
88
+
89
+ # try:
90
+ # with open(txt_file_path, 'r', encoding='utf-8') as txt_file:
91
+ # for line in txt_file:
92
+ # subject = line.strip()
93
+ # if subject:
94
+ # category = classify_subject(subject)
95
+ # category_dict[category].append(subject)
96
+ # except FileNotFoundError:
97
+ # print(f"错误: 文件 {txt_file_path} 未找到。")
98
+ # return
99
+
100
+ # # 打印分类结果
101
+ # for category, subjects in category_dict.items():
102
+ # print(f"类别 {category}:")
103
+ # for subject in subjects:
104
+ # print(f" - {subject}")
105
+
106
+ # return category_dict
107
+
108
+
109
+ # if __name__ == "__main__":
110
+ # txt_file_path = 'all_majors.txt'
111
+
112
+ # result = classify_subjects_from_txt(txt_file_path)
113
+
114
+ # # 把分类结果保存到 JSON 文件
115
+ # with open('classification_result.json', 'w', encoding='utf-8') as json_file:
116
+ # json.dump(result, json_file, ensure_ascii=False, indent=4)
117
+
118
+ # #根据分类获取的学科对应出track_id
119
+
120
+ # import json
121
+ # import os
122
+
123
+
124
+ # # 读取 JSON 文件
125
+ # def read_json_file(json_file_path):
126
+ # with open(json_file_path, 'r', encoding='utf-8') as file:
127
+ # data = json.load(file)
128
+ # return data
129
+
130
+
131
+ # # 读取 JSONL 文件
132
+ # def read_jsonl_file(jsonl_file_path):
133
+ # data = []
134
+ # with open(jsonl_file_path, 'r', encoding='utf-8') as file:
135
+ # for line in file:
136
+ # item = json.loads(line)
137
+ # data.append(item)
138
+ # return data
139
+
140
+
141
+ # # 查找并存储结果
142
+ # def find_and_store_results(json_data, jsonl_files, output_file_path):
143
+ # all_jsonl_data = []
144
+ # # 遍历所有 jsonl 文件,将数据合并到 all_jsonl_data 中
145
+ # for jsonl_file in jsonl_files:
146
+ # all_jsonl_data.extend(read_jsonl_file(jsonl_file))
147
+
148
+ # # 构建 major 到 category 的映射
149
+ # major_category_map = {}
150
+ # for category, majors in json_data.items():
151
+ # for major in majors:
152
+ # major_category_map[major] = category
153
+ # print(major_category_map)
154
+ # results = []
155
+ # for item in all_jsonl_data:
156
+ # major = item.get('major_1')
157
+ # grade_class = item.get('grade_class')
158
+ # if major in major_category_map and (grade_class == 'higher-edu' or grade_class == "高等教育"):
159
+ # #if major in major_category_map:
160
+ # track_id = item.get('track_id')
161
+ # category = major_category_map[major]
162
+ # result = {
163
+ # "track_id": track_id,
164
+ # "major": major,
165
+ # "category": category
166
+ # }
167
+ # results.append(result)
168
+
169
+ # with open(output_file_path, 'w', encoding='utf-8') as file:
170
+ # for result in results:
171
+ # file.write(json.dumps(result, ensure_ascii=False) + '\n')
172
+
173
+
174
+ # if __name__ == "__main__":
175
+ # json_file_path = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/classification_result.json' # 替换为你的 JSON 文件路径
176
+ # trackid_major_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/trackid_major'
177
+ # # 获取 trackid_major 目录下所有的 jsonl 文件
178
+ # jsonl_files = [os.path.join(trackid_major_dir, f) for f in os.listdir(trackid_major_dir) if f.endswith('.jsonl')]
179
+ # output_file_path = 'category_trackid.jsonl' # 输出文件路径
180
+
181
+ # json_data = read_json_file(json_file_path)
182
+ # find_and_store_results(json_data, jsonl_files, output_file_path)
183
+
184
+ #筛选数据
185
+
186
+ # import os
187
+ # import json
188
+ # import concurrent.futures
189
+
190
+ # # 定义每个文件的最大行数
191
+ # MAX_LINES_PER_FILE = 2000
192
+
193
+
194
+ # def read_jsonl(file_path):
195
+ # """
196
+ # 读取 JSONL 文件并返回一个包含所有 JSON 对象的列表
197
+ # """
198
+ # data = []
199
+ # with open(file_path, 'r', encoding='utf-8') as f:
200
+ # for line in f:
201
+ # data.append(json.loads(line))
202
+ # return data
203
+
204
+
205
+ # def filter_track_ids_by_category(jsonl_data, target_categories):
206
+ # """
207
+ # 从 JSONL 数据中筛选出指定 category 的 track_id
208
+ # """
209
+ # category_track_ids = {category: [] for category in target_categories}
210
+ # for item in jsonl_data:
211
+ # category = item.get('category')
212
+ # if category in target_categories:
213
+ # category_track_ids[category].append(item['track_id'])
214
+ # return category_track_ids
215
+
216
+
217
+ # def find_data_by_track_id(category_track_ids, part_files):
218
+ # """
219
+ # 在以 part 开头的 JSONL 文件中根据 track_id 查找数据
220
+ # """
221
+ # # category_found_data = {category: [] for category in category_track_ids}
222
+ # # for part_file in part_files:
223
+ # # print(part_file)
224
+ # # part_data = read_jsonl(part_file)
225
+ # # for item in part_data:
226
+ # # if 'track_id' in item:
227
+ # # for category, track_ids in category_track_ids.items():
228
+ # # if item['track_id'] in track_ids:
229
+ # # category_found_data[category].append(item)
230
+ # # break
231
+
232
+ # # #print(category_found_data)
233
+ # # return category_found_data
234
+
235
+ # category_found_data = {category: [] for category in category_track_ids}
236
+ # # 用于统计每个part_file中不同种类教材的数量
237
+ # category_counts = {category: 0 for category in category_track_ids}
238
+
239
+ # for part_file in part_files:
240
+ # print(part_file)
241
+ # part_data = read_jsonl(part_file)
242
+ # for item in part_data:
243
+ # if 'track_id' in item:
244
+ # for category, track_ids in category_track_ids.items():
245
+ # if item['track_id'] in track_ids:
246
+ # category_found_data[category].append(item)
247
+ # # 统计数量
248
+ # category_counts[category] += 1
249
+ # break
250
+ # # 打印每个种类教材的数量
251
+ # for category, count in category_counts.items():
252
+ # print(f"{category}: {count}")
253
+
254
+ # return category_found_data
255
+
256
+ # def save_data_to_files(category_found_data, output_dir):
257
+ # """
258
+ # 将数据保存到指定 category 的文件夹中,如果文件过大则拆分
259
+ # """
260
+ # for category, data in category_found_data.items():
261
+ # category_dir = os.path.join(output_dir, category)
262
+ # os.makedirs(category_dir, exist_ok=True)
263
+ # file_index = 1
264
+ # current_file_lines = []
265
+ # for item in data:
266
+ # current_file_lines.append(item)
267
+ # if len(current_file_lines) >= MAX_LINES_PER_FILE:
268
+ # file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
269
+ # file_path = os.path.join(category_dir, file_name)
270
+ # with open(file_path, 'w', encoding='utf-8') as f:
271
+ # for line in current_file_lines:
272
+ # f.write(json.dumps(line, ensure_ascii=False) + '\n')
273
+ # current_file_lines = []
274
+ # file_index += 1
275
+
276
+ # if current_file_lines:
277
+ # file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
278
+ # file_path = os.path.join(category_dir, file_name)
279
+ # with open(file_path, 'w', encoding='utf-8') as f:
280
+ # for line in current_file_lines:
281
+ # f.write(json.dumps(line, ensure_ascii=False) + '\n')
282
+
283
+
284
+ # def main(target_categories):
285
+ # # 读取包含 track_id 和 category 的 JSONL 文件
286
+ # input_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/category_trackid.jsonl' # 替换为实际的输入文件路径
287
+ # input_data = read_jsonl(input_file)
288
+ # # 筛选出指定 category 的 track_id
289
+ # category_track_ids = filter_track_ids_by_category(input_data, target_categories)
290
+ # for category, track_ids in category_track_ids.items():
291
+ # print(f"{category} 的 track_ids 行数为: {len(track_ids)}")
292
+ # file_name = f"trackid_list_{category}.json"
293
+ # with open(file_name, 'w', encoding='utf-8') as f:
294
+ # json.dump(track_ids, f, ensure_ascii=False, indent=4)
295
+ # # 获取 content 目录下以 part 开头的 JSONL 文件列表
296
+ # content_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai'
297
+ # part_files = [os.path.join(content_dir, f) for f in os.listdir(content_dir) if f.startswith('part') and f.endswith('.jsonl')]
298
+ # #part_files=['/fs-computility/ai-shen/wangyujia/datasets-jiaocai/part-678e0ea87533-000000.jsonl']
299
+ # # 根据 track_id 查找数据
300
+ # category_found_data = find_data_by_track_id(category_track_ids, part_files)
301
+
302
+ # # 保存数据到指定 category 的文件夹中
303
+ # output_dir = "output_new" # 替换为实际的输出目录
304
+ # save_data_to_files(category_found_data, output_dir)
305
+
306
+
307
+ # if __name__ == "__main__":
308
+ # target_categories = ['Mathematics & Statistics', 'Physics & Astronomy', 'Chemistry', 'Environmental & Geographical Sciences',
309
+ # 'Life Sciences', 'Medical Sciences', 'Information Sciences', 'Economics & Management',
310
+ # 'Humanities & Social Sciences', 'Engineering', 'Others']
311
+ # main(target_categories)
312
+
313
+
314
+
315
+
316
+
317
+
318
+
319
+ # #根据分类获取的学科对应出track_id
320
+
321
+ # import json
322
+ # import os
323
+
324
+
325
+ # # 读取 JSON 文件
326
+ # def read_json_file(json_file_path):
327
+ # with open(json_file_path, 'r', encoding='utf-8') as file:
328
+ # data = json.load(file)
329
+ # return data
330
+
331
+
332
+ # # 读取 JSONL 文件
333
+ # def read_jsonl_file(jsonl_file_path):
334
+ # data = []
335
+ # with open(jsonl_file_path, 'r', encoding='utf-8') as file:
336
+ # for line in file:
337
+ # item = json.loads(line)
338
+ # data.append(item)
339
+ # return data
340
+
341
+
342
+ # # 查找并存储结果
343
+ # def find_and_store_results(jsonl_files, output_file_path):
344
+ # results = []
345
+ # for jsonl_file in jsonl_files:
346
+ # all_jsonl_data = read_jsonl_file(jsonl_file)
347
+ # for item in all_jsonl_data:
348
+ # major = item.get('major_1')
349
+ # grade_class = item.get('grade_class')
350
+ # if major == '生物学' and (grade_class == 'higher-edu' or grade_class == "高等教育"):
351
+ # track_id = item.get('track_id')
352
+ # result = {
353
+ # "track_id": track_id,
354
+ # "major": major,
355
+ # "category": "生物学"
356
+ # }
357
+ # results.append(result)
358
+
359
+ # with open(output_file_path, 'w', encoding='utf-8') as file:
360
+ # for result in results:
361
+ # file.write(json.dumps(result, ensure_ascii=False) + '\n')
362
+
363
+
364
+ # if __name__ == "__main__":
365
+ # trackid_major_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/trackid_major'
366
+ # # 获取 trackid_major 目录下所有的 jsonl 文件
367
+ # jsonl_files = [os.path.join(trackid_major_dir, f) for f in os.listdir(trackid_major_dir) if f.endswith('.jsonl')]
368
+ # output_file_path = 'biology_category_trackid.jsonl' # 输出文件路径
369
+
370
+ # find_and_store_results(jsonl_files, output_file_path)
371
+
372
+
373
+ #筛选数据
374
+
375
+ import os
376
+ import json
377
+ import concurrent.futures
378
+
379
+ # 定义每个文件的最大行数
380
+ MAX_LINES_PER_FILE = 2000
381
+
382
+
383
+ def read_jsonl(file_path):
384
+ """
385
+ 读取 JSONL 文件并返回一个包含所有 JSON 对象的列表
386
+ """
387
+ data = []
388
+ with open(file_path, 'r', encoding='utf-8') as f:
389
+ for line in f:
390
+ data.append(json.loads(line))
391
+ return data
392
+
393
+
394
+ def filter_track_ids_by_category(jsonl_data, target_categories):
395
+ """
396
+ 从 JSONL 数据中筛选出指定 category 的 track_id
397
+ """
398
+ category_track_ids = {category: [] for category in target_categories}
399
+ for item in jsonl_data:
400
+ category = item.get('category')
401
+ if category in target_categories:
402
+ category_track_ids[category].append(item['track_id'])
403
+ return category_track_ids
404
+
405
+
406
+ def find_data_by_track_id(category_track_ids, part_files):
407
+ """
408
+ 在以 part 开头的 JSONL 文件中根据 track_id 查找数据
409
+ """
410
+ # category_found_data = {category: [] for category in category_track_ids}
411
+ # for part_file in part_files:
412
+ # print(part_file)
413
+ # part_data = read_jsonl(part_file)
414
+ # for item in part_data:
415
+ # if 'track_id' in item:
416
+ # for category, track_ids in category_track_ids.items():
417
+ # if item['track_id'] in track_ids:
418
+ # category_found_data[category].append(item)
419
+ # break
420
+
421
+ # #print(category_found_data)
422
+ # return category_found_data
423
+
424
+ category_found_data = {category: [] for category in category_track_ids}
425
+ # 用于统计每个part_file中不同种类教材的数量
426
+ category_counts = {category: 0 for category in category_track_ids}
427
+
428
+ for part_file in part_files:
429
+ print(part_file)
430
+ part_data = read_jsonl(part_file)
431
+ for item in part_data:
432
+ if 'track_id' in item:
433
+ for category, track_ids in category_track_ids.items():
434
+ if item['track_id'] in track_ids:
435
+ category_found_data[category].append(item)
436
+ # 统计数量
437
+ category_counts[category] += 1
438
+ break
439
+ # 打印每个种类教材的数量
440
+ for category, count in category_counts.items():
441
+ print(f"{category}: {count}")
442
+
443
+ return category_found_data
444
+
445
+ def save_data_to_files(category_found_data, output_dir):
446
+ """
447
+ 将数据保存到指定 category 的文件夹中,如果文件过大则拆分
448
+ """
449
+ for category, data in category_found_data.items():
450
+ category_dir = os.path.join(output_dir, category)
451
+ os.makedirs(category_dir, exist_ok=True)
452
+ file_index = 1
453
+ current_file_lines = []
454
+ for item in data:
455
+ current_file_lines.append(item)
456
+ if len(current_file_lines) >= MAX_LINES_PER_FILE:
457
+ file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
458
+ file_path = os.path.join(category_dir, file_name)
459
+ with open(file_path, 'w', encoding='utf-8') as f:
460
+ for line in current_file_lines:
461
+ f.write(json.dumps(line, ensure_ascii=False) + '\n')
462
+ current_file_lines = []
463
+ file_index += 1
464
+
465
+ if current_file_lines:
466
+ file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
467
+ file_path = os.path.join(category_dir, file_name)
468
+ with open(file_path, 'w', encoding='utf-8') as f:
469
+ for line in current_file_lines:
470
+ f.write(json.dumps(line, ensure_ascii=False) + '\n')
471
+
472
+
473
+ def main(target_categories):
474
+ # 读取包含 track_id 和 category 的 JSONL 文件
475
+ input_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/biology_category_trackid.jsonl' # 替换为实际的输入文件路径
476
+ input_data = read_jsonl(input_file)
477
+ # 筛选出指定 category 的 track_id
478
+ category_track_ids = filter_track_ids_by_category(input_data, target_categories)
479
+ for category, track_ids in category_track_ids.items():
480
+ print(f"{category} 的 track_ids 行数为: {len(track_ids)}")
481
+ file_name = f"trackid_list_{category}.json"
482
+ with open(file_name, 'w', encoding='utf-8') as f:
483
+ json.dump(track_ids, f, ensure_ascii=False, indent=4)
484
+ # 获取 content 目录下以 part 开头的 JSONL 文件列表
485
+ content_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai'
486
+ part_files = [os.path.join(content_dir, f) for f in os.listdir(content_dir) if f.startswith('part') and f.endswith('.jsonl')]
487
+ #part_files=['/fs-computility/ai-shen/wangyujia/datasets-jiaocai/part-678e0ea87533-000000.jsonl']
488
+ # 根据 track_id 查找数据
489
+ category_found_data = find_data_by_track_id(category_track_ids, part_files)
490
+
491
+ # 保存数据到指定 category 的文件夹中
492
+ output_dir = "output_new" # 替换为实际的输出目录
493
+ save_data_to_files(category_found_data, output_dir)
494
+
495
+
496
+ if __name__ == "__main__":
497
+ target_categories = ['生物学']
498
+ main(target_categories)
499
+
500
+
501
+
category_10/trackid_list_Chemistry.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Economics & Management.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Engineering.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Environmental & Geographical Sciences.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Humanities & Social Sciences.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Information Sciences.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Life Sciences.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Mathematics & Statistics.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Medical Sciences.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Others.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_Physics & Astronomy.json ADDED
The diff for this file is too large to render. See raw diff
 
category_10/trackid_list_生物学.json ADDED
The diff for this file is too large to render. See raw diff
 
copyfile.sh ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ while IFS= read -r file; do
2
+ rclone copy --progress --transfers 200 --checkers 200 "volces-tos:tos-bjml-kilab/ceph/llm-pdf/en/$file" /fs-computility/ai-shen/wangyujia/datasets-jiaocai
3
+ done < /fs-computility/ai-shen/wangyujia/datasets-jiaocai/selected_files1.txt
matched_bio.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:86fec23d7c9414a15e6132d5a07323e0f2a793d19b416a734990edb7fee8ec09
3
+ size 267213265
matched_records.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4e66316bc41f6c8c078b513e556d0d58f9d0ac25c14a718f7de479dc4e7db3e8
3
+ size 540933853
predata.py ADDED
@@ -0,0 +1,86 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import json
2
+
3
+ def process_jsonl(file_path):
4
+ info_count = 0
5
+ first_entries = []
6
+ try:
7
+ with open(file_path, 'r', encoding='utf-8') as file:
8
+ for line in file:
9
+ try:
10
+ entry = json.loads(line)
11
+ info_count += 1
12
+ if len(first_entries) < 5:
13
+ first_entries.append(entry)
14
+ except json.JSONDecodeError:
15
+ print("错误:无法解析某一行的JSON数据。")
16
+ except FileNotFoundError:
17
+ print("错误:未找到指定的JSONL文件。")
18
+
19
+ print(f"JSONL文件中的信息数量为: {info_count}")
20
+ # print("前五个条目信息如下:")
21
+ # for i, entry in enumerate(first_entries, start=1):
22
+ # print(f"条目 {i}: {entry}")
23
+
24
+
25
+ if __name__ == "__main__":
26
+ file_path = 'matched_records.jsonl'
27
+ process_jsonl(file_path)
28
+
29
+
30
+
31
+
32
+ import json
33
+ from datasets import load_dataset
34
+
35
+ def load_processed_jsonl(file_path):
36
+ try:
37
+ dataset = load_dataset('json', data_files=file_path)
38
+ print("数据集加载成功:")
39
+ print(dataset)
40
+ return dataset
41
+ except Exception as e:
42
+ print(f"加载数据集时出现错误: {e},详细错误信息如下:")
43
+ import traceback
44
+ traceback.print_exc()
45
+
46
+ input_file = 'matched_records.jsonl' # 替换为你的输入 JSONL 文件路径
47
+ output_file = 'matched_bio.jsonl' # 替换为你希望的输出 JSONL 文件路径
48
+
49
+ # selected_fields = [
50
+ # 'track_id', 'file_type', 'content_type', 'content_length', 'title', 'dataset_id',
51
+ # 'dataset_name', 'pdf_type', 'content_list', 'content', 'labels',
52
+ # 'sub_path', 'url', 'date', '__unimernet_version', 'html',
53
+ # 'remarkle', 'author', 'abstract', 'category', 'source',
54
+ # 'relation_id', 'file_source', 'subject', 'processed'
55
+ # ]'date' 'remarkle',
56
+ selected_fields=[ 'track_id', 'file_type', 'content_type', 'content_length', 'title', 'dataset_id',
57
+ 'dataset_name', 'pdf_type','content','labels',
58
+ 'sub_path', 'url', '__unimernet_version', 'html',
59
+ 'author', 'abstract', 'category', 'source',
60
+ 'relation_id', 'file_source', 'subject', 'processed']
61
+
62
+ try:
63
+ with open(input_file, 'r', encoding='utf-8') as infile, open(output_file, 'w', encoding='utf-8') as outfile:
64
+ for line in infile:
65
+
66
+ try:
67
+ data = json.loads(line.strip())
68
+ new_data = {field: data[field] for field in selected_fields if field in data}
69
+
70
+ # 分割 content
71
+ content = new_data.get('content', '')
72
+ chunk_size = 8000 # 每段的长度
73
+ chunks = [content[i:i+chunk_size] for i in range(0, len(content), chunk_size)]
74
+
75
+ for index, chunk in enumerate(chunks):
76
+ new_data['content'] = chunk
77
+ new_data['content_chunk_index'] = index # 添加一个字段表示这是第几个分块
78
+ outfile.write(json.dumps(new_data) + '\n')
79
+ except json.JSONDecodeError as e:
80
+ print(f"解析 JSON 时出错: {e},跳过该行。")
81
+
82
+ print(f"已成功处理并保存到 {output_file}")
83
+ # 尝试加载处理后的文件
84
+ load_processed_jsonl(output_file)
85
+ except FileNotFoundError:
86
+ print(f"文件 {input_file} 未找到。")
test_get_data.py ADDED
@@ -0,0 +1,86 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # import json
2
+
3
+ # def process_jsonl(file_path):
4
+ # info_count = 0
5
+ # first_entries = []
6
+ # try:
7
+ # with open(file_path, 'r', encoding='utf-8') as file:
8
+ # for line in file:
9
+ # try:
10
+ # entry = json.loads(line)
11
+ # info_count += 1
12
+ # if len(first_entries) < 5:
13
+ # first_entries.append(entry)
14
+ # except json.JSONDecodeError:
15
+ # print("错误:无法解析某一行的JSON数据。")
16
+ # except FileNotFoundError:
17
+ # print("错误:未找到指定的JSONL文件。")
18
+
19
+ # print(f"JSONL文件中的信息数量为: {info_count}")
20
+ # # print("前五个条目信息如下:")
21
+ # # for i, entry in enumerate(first_entries, start=1):
22
+ # # print(f"条目 {i}: {entry}")
23
+
24
+
25
+ # if __name__ == "__main__":
26
+ # file_path = 'matched_records.jsonl'
27
+ # process_jsonl(file_path)
28
+
29
+
30
+
31
+
32
+ import json
33
+ from datasets import load_dataset
34
+
35
+ def load_processed_jsonl(file_path):
36
+ try:
37
+ dataset = load_dataset('json', data_files=file_path)
38
+ print("数据集加载成功:")
39
+ print(dataset)
40
+ return dataset
41
+ except Exception as e:
42
+ print(f"加载数据集时出现错误: {e},详细错误信息如下:")
43
+ import traceback
44
+ traceback.print_exc()
45
+
46
+ input_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/output_new/biology/biology.jsonl' # 替换为你的输入 JSONL 文件路径
47
+ output_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/output_new/biology/match_bio.jsonl' # 替换为你希望的输出 JSONL 文件路径
48
+
49
+ # selected_fields = [
50
+ # 'track_id', 'file_type', 'content_type', 'content_length', 'title', 'dataset_id',
51
+ # 'dataset_name', 'pdf_type', 'content_list', 'content', 'labels',
52
+ # 'sub_path', 'url', 'date', '__unimernet_version', 'html',
53
+ # 'remarkle', 'author', 'abstract', 'category', 'source',
54
+ # 'relation_id', 'file_source', 'subject', 'processed'
55
+ # ]'date' 'remarkle',
56
+ selected_fields=[ 'content_length', 'title',
57
+ 'dataset_name', 'pdf_type','content',
58
+ 'url', 'html',
59
+ 'author', 'abstract', 'category',
60
+ 'relation_id', 'subject', 'processed']
61
+
62
+ try:
63
+ with open(input_file, 'r', encoding='utf-8') as infile, open(output_file, 'w', encoding='utf-8') as outfile:
64
+ for line in infile:
65
+
66
+ try:
67
+ data = json.loads(line.strip())
68
+ new_data = {field: data[field] for field in selected_fields if field in data}
69
+
70
+ # 分割 content
71
+ content = new_data.get('content', '')
72
+ chunk_size = 6000 # 每段的长度
73
+ chunks = [content[i:i+chunk_size] for i in range(0, len(content), chunk_size)]
74
+
75
+ for index, chunk in enumerate(chunks):
76
+ new_data['content'] = chunk
77
+ new_data['content_chunk_index'] = index # 添加一个字段表示这是第几个分块
78
+ outfile.write(json.dumps(new_data) + '\n')
79
+ except json.JSONDecodeError as e:
80
+ print(f"解析 JSON 时出错: {e},跳过该行。")
81
+
82
+ print(f"已成功处理并保存到 {output_file}")
83
+ # 尝试加载处理后的文件
84
+ load_processed_jsonl(output_file)
85
+ except FileNotFoundError:
86
+ print(f"文件 {input_file} 未找到。")
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000001.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b0e14dbb2a6cdb3a9d5b940a9f51609e3b5d7a61b66e94b10d1f4b45a193f312
3
+ size 175656532
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000003.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:44b6b2271df2911f99498be3efc0360705bcab0bbc9a4b6b346c36d355fe0cc7
3
+ size 175156058
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000005.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3f23c29225516be53aeb10cf78fc59990ecc0d661fa8cffd9e6f913638eed97b
3
+ size 175567887
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000007.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b12c38b33df377ea46cdf510c09f9b10f0e48f151fb31c87fe74472aa14ea977
3
+ size 175867826
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000008.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f0b0c8fbd9a240d59b31793768b8993bb5e50888b23dc1023ce9407a50ea5670
3
+ size 42245362
总和521041_最终版本.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:093522b587d07a510143897ecb4c8c5f5aac0677ab07d146a67739c1d35694da
3
+ size 169166998