yuccaaa commited on Sep 4, 2025

Commit

4245984

verified ·

1 Parent(s): 3f73230

Add files using upload-large-folder tool

Browse files

Files changed (44) hide show

.gitattributes +23 -0
category_10/all_majors.txt +1151 -0
category_10/all_majors_new.txt +108 -0
category_10/biology_category_trackid.jsonl +0 -0
category_10/category_trackid.jsonl +3 -0
category_10/classification_result.json +132 -0
category_10/output_new/biology/biology.jsonl +3 -0
category_10/output_new/biology/match_bio.jsonl +3 -0
category_10/outputs/Chemistry/Chemistry_001.jsonl +3 -0
category_10/outputs/Economics & Management/Economics & Management_001.jsonl +3 -0
category_10/outputs/Engineering/Engineering_001.jsonl +3 -0
category_10/outputs/Environmental & Geographical Sciences/Environmental & Geographical Sciences_001.jsonl +3 -0
category_10/outputs/Humanities & Social Sciences/Humanities & Social Sciences_001.jsonl +3 -0
category_10/outputs/Information Sciences/Information Sciences_001.jsonl +3 -0
category_10/outputs/Life Sciences/Life Sciences_001.jsonl +3 -0
category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_001.jsonl +3 -0
category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_002.jsonl +3 -0
category_10/outputs/Medical Sciences/Medical Sciences_001.jsonl +3 -0
category_10/outputs/Others/Others_001.jsonl +3 -0
category_10/outputs/Physics & Astronomy/Physics & Astronomy_001.jsonl +3 -0
category_10/predata.py +501 -0
category_10/trackid_list_Chemistry.json +0 -0
category_10/trackid_list_Economics & Management.json +0 -0
category_10/trackid_list_Engineering.json +0 -0
category_10/trackid_list_Environmental & Geographical Sciences.json +0 -0
category_10/trackid_list_Humanities & Social Sciences.json +0 -0
category_10/trackid_list_Information Sciences.json +0 -0
category_10/trackid_list_Life Sciences.json +0 -0
category_10/trackid_list_Mathematics & Statistics.json +0 -0
category_10/trackid_list_Medical Sciences.json +0 -0
category_10/trackid_list_Others.json +0 -0
category_10/trackid_list_Physics & Astronomy.json +0 -0
category_10/trackid_list_生物学.json +0 -0
copyfile.sh +3 -0
matched_bio.jsonl +3 -0
matched_records.jsonl +3 -0
predata.py +86 -0
test_get_data.py +86 -0
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000001.jsonl +3 -0
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000003.jsonl +3 -0
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000005.jsonl +3 -0
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000007.jsonl +3 -0
trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000008.jsonl +3 -0
总和521041_最终版本.jsonl +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,26 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+总和521041_最终版本.jsonl filter=lfs diff=lfs merge=lfs -text
+matched_bio.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/category_trackid.jsonl filter=lfs diff=lfs merge=lfs -text
+matched_records.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/output_new/biology/match_bio.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/output_new/biology/biology.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Chemistry/Chemistry_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Environmental[[:space:]]&[[:space:]]Geographical[[:space:]]Sciences/Environmental[[:space:]]&[[:space:]]Geographical[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Economics[[:space:]]&[[:space:]]Management/Economics[[:space:]]&[[:space:]]Management_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Humanities[[:space:]]&[[:space:]]Social[[:space:]]Sciences/Humanities[[:space:]]&[[:space:]]Social[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Life[[:space:]]Sciences/Life[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Information[[:space:]]Sciences/Information[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Engineering/Engineering_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Mathematics[[:space:]]&[[:space:]]Statistics/Mathematics[[:space:]]&[[:space:]]Statistics_002.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Others/Others_001.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Medical[[:space:]]Sciences/Medical[[:space:]]Sciences_001.jsonl filter=lfs diff=lfs merge=lfs -text
+trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000001.jsonl filter=lfs diff=lfs merge=lfs -text
+trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000003.jsonl filter=lfs diff=lfs merge=lfs -text
+trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000005.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Physics[[:space:]]&[[:space:]]Astronomy/Physics[[:space:]]&[[:space:]]Astronomy_001.jsonl filter=lfs diff=lfs merge=lfs -text
+trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000008.jsonl filter=lfs diff=lfs merge=lfs -text
+trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000007.jsonl filter=lfs diff=lfs merge=lfs -text
+category_10/outputs/Mathematics[[:space:]]&[[:space:]]Statistics/Mathematics[[:space:]]&[[:space:]]Statistics_001.jsonl filter=lfs diff=lfs merge=lfs -text

category_10/all_majors.txt ADDED Viewed

	@@ -0,0 +1,1151 @@

+信息与系统科学相关工程与技术
+文学
+思想政治
+教育学
+管理学
+注册信息系统审计师
+认证人员职业资格
+土木建筑工程
+网络通信与安全
+地球科学
+网络工程师
+经济学
+艺术学
+水利工程
+预防医学与公共卫生学
+自然科学相关工程与技术
+临床医学
+政治学
+语言学
+数学
+哲学
+信息科学与系统科学
+环境科学技术及资源科学技术
+注册电气工程师
+动力与电气工程
+工程与技术科学基础学科
+化学工程
+矿山工程技术
+电子与通信技术
+交通运输工程
+机械工程
+注册机械工程师
+安全科学技术
+农学
+法学
+药学
+历史学
+民族学与文化学
+法律职业资格
+生物学
+材料科学
+英语
+全国计算机等级考试
+信息技术
+石油与天然气工程
+社会学
+新闻学与传播学
+基础医学
+特许会计师
+科学
+宗教学
+社会科学
+航空·航天科学技术
+力学
+物理学
+化学
+注册项目管理师
+产品应用相关工程与技术
+冶金工程技术
+医生资格-医师
+心理学
+认证云从业者
+认证DevOps工程师
+认证开发人员助理
+认证安全专家
+认证解决方案架构师助理
+认证SysOps管理员助理
+注册微软认证系统管理员(MCSA)
+PHP认证工程师
+执业药师
+医生资格-乡村医生
+护士执业资格
+执业医师
+卫生专业技术资格
+母婴保健技术服务人员资格
+食品科学技术
+政治学·
+危险化学品作业
+油漆工
+注册安全工程师
+安全生产
+注册验船师
+港口工程
+建造师
+室内装潢设计师
+建筑物油漆涂装技艺
+建筑电气设备安装工
+音响调音员
+军事学
+泵站操作工
+维修电工技能
+电工考核
+电工
+变电运行值班技能考核
+电工技能
+电工高级技能
+电力与电气工程
+机电设备安装与维修
+信号工机车信号设备维修
+信息处理技术员
+注册系统工程师
+计算机组装与维护
+计算机操作员
+注册表应用
+计算机硬件维护
+网络技术基础认证考试
+计算机网络管理员
+注册信息系统工程师
+纺织科学技术
+印染行业染化料配制工
+美容师
+家政服务员
+平版印刷工职业技能鉴定
+扬州搓背工艺技术
+烟叶制丝工
+厨师资格
+生活化妆技能
+畜产品加工
+医学
+承压设备焊接工程师
+数控车工
+焊接工
+热处理工
+电焊工
+钳工
+镗工
+文化学
+银行柜员职业资格
+科技档案管理
+广播电视播音员、主持人资格
+语文
+收银管理技能培训
+物理
+职业技能培训
+注册消防工程师
+航空、航天科学技术
+教师资格
+道德与法治
+马克思主义
+注册质量工程师
+统计学
+地理
+生产管理
+经济法
+安全防范设备值机员
+制浆造纸设备与操作
+注册信息安全工程师
+生物·学
+生物
+艺术/美术
+心理健康教育
+历史
+体育科学
+畜牧与兽医科学
+考古学
+天文学
+音乐
+测绘科学技术
+体育与健康
+林学
+通用技术
+图书馆、情报与文献学
+中药学专业技术资格
+全国卫生专业技术资格考试
+保健按摩师
+针灸推拿技能考试
+心理咨询师
+生殖健康咨询师
+病案信息专业资格
+育婴师
+农机驾驶与维修
+汽车修理质量检查
+执业兽医
+环境影响评价工程师
+技师培养
+助理包装设计师
+铝用阳极炭素设备维修工
+危险化学品安全作业
+安全生产管理人员
+烟花爆竹生产经营单位主要负责人和安全生产管理人员培训
+烟花爆竹安全管理
+烟花爆竹经营安全
+燃气与热力工程施工员
+注册建筑师
+造价工程师
+注册城乡规划师
+市政燃气热力工程施工员
+建筑学
+注册土木工程师
+注册造价工程师
+登高作业
+钢筋工
+光通信机务员
+井架安装工
+公路水运工程试验检测专业技术人员职业资格
+互感器装配工
+维修电工
+动力电气工程
+电工操作技能
+送配电线路工
+配电线路实用技能
+注册石油天然气工程师
+计算机技术与软件专业技术资格
+全国专业技术人员计算机应用能力考试
+全国信息安全技术水平考试
+计算机维修工
+全国计算机信息高新技术考试
+网页程序设计实训
+注册数据库系统工程师
+计算机程序设计员
+计算机网络及应用
+出入境检验检疫
+印刷业务员
+特种作业人员
+民用核安全设备焊工、焊接操作工
+经营性货运驾驶员
+警察应急防卫
+运动营养师
+软件技术
+职业技能
+公务员考试
+专业技术人员职业资格
+艺术设计
+速录师
+数控铣床操作
+基础英语
+成人教育教学与管理
+技能人才培养
+质量检验员
+生物专业
+职业教育管理
+劳动关系管理
+建筑工程
+专利代理师
+注册城市规划师
+农业科学
+地理科学
+护理学
+生物医学工程
+游泳裁判
+艺术体操理论
+注册网络工程师
+国际关系
+社会学·
+能源科学技术及资源科学技术
+税务师
+地理学
+动物学
+文学·
+生物技术
+文学
+临床神经心理学认证
+社会工作者职业资格
+土木建筑工程·
+人类学
+历史与社会
+中医学与中药学
+书法
+核科学技术
+劳动
+军事医学与特种医学
+注册会计师
+会计专业技术资格
+矿业工程技术
+工程与技术基础学科
+矿业权评估师
+A-Level
+事业单位考试
+经济专业技术资格
+IELTS
+计算机软件专业技术资格和水平考试
+注册公用设备工程师
+临床医学检验技术师
+注册监理工程师
+安全防范设计评估师
+民用航空器外国驾驶员、领航员、飞行机械员、飞行通信员
+特种设备检验、检测人员资格
+注册设备监理师
+船舶与海洋工程
+乳品检验员
+导游资格
+注册结构工程师
+数控铣床（加工中心）编程、操作及实训
+公共营养师
+出版专业技术人员职业资格
+全国计算机应用水平考试
+豆制品制作工
+临床医学
+教育学
+安全评价师
+建筑施工特种作业人员
+家政服务人员技能
+家用电器产品维修工
+家用电子产品维修工
+展览讲解员
+特种设备安全管理和作业人员
+建筑与市政工程施工现场专业人员职业资格
+市政工程资料员
+抄表核算收费员职业技能鉴定
+机动车检测维修专业技术人员职业资格
+数字视频（DV）策划制作师
+数据库系统工程师
+数控机床维修工
+数控车床操作工
+数控铣床操作工
+文字录入处理员
+文物保护工程从业资格
+体育科学技术
+智能楼宇管理员
+机械电气设备安装工
+机械设备安装工
+染料分析工
+民用航空器维修人员执照
+水利水电工程资料员
+水利工程质量检测员资格
+水泥生产巡检工
+汽轮机检修工
+注册环保工程师
+注塑操作工
+大气科学
+注册测绘师
+火力发电厂热工专业人员
+用户通信终端维修员
+用电客户受理员
+电厂水化验员
+电话交换机务员
+磨工
+科技咨询师
+空气压缩机操作工
+美发师
+职业病诊断医师
+中式烹调师
+新闻记者职业资格
+林业
+茶艺师
+蒸馏工
+装配钳工
+注册网络管理员
+注册计量师
+证券期货基金业从业人员资格
+轧钢工
+软件设计师
+报关员
+通信工程师
+金属热处理工
+焊工
+铣工
+锅炉检修工职业资格
+锅炉运行值班员
+集成电路制造工艺员
+二手车鉴定评估师
+秘书职业资格
+注册税务师
+语言
+国家资格考试
+口腔医学与口腔学技术
+公共卫生联络员
+报检员资格
+医生资格-医生
+国家标准
+农业学
+航空航天科学技术
+化学检验工
+塑料模具操作工
+油漆涂装技师
+水泥生产工
+涂装工
+真空制盐工
+港口设备安装工程质量检验
+铁路机车车辆驾驶人员资格
+供水仪表工
+供水调度工
+监理工程师
+材料员
+液化石油气站操作工
+电气安装工
+砌筑工
+半导体芯片制造职业技能
+演出经纪人员资格
+注册化工工程师
+注册核安全工程师
+维修电工职业技能鉴定
+注册动力设备运行操作员
+汽轮机辅机安装
+油品储运操作工
+电动装卸机械修理工
+锅炉设备装配工
+注册计算机信息系统集成工程师
+办公软件应用
+食品安全管理体系认证
+家政服务
+烘焙工
+贵金属首饰手工制作
+轻工技术与工程
+车工工艺
+加工中心操作工
+数控铣床操作员
+模具钳工
+电子商务
+会展策划与实务岗位资格
+设备监理师
+原文
+职业培训师资格
+审计专业技术资格
+高等职业教育
+中医护理学专业技术资格
+口腔医学
+医生资格-职业病诊断医师
+养老护理员
+康复医学
+生理学
+麻醉学高级教程
+营养与食品卫生学
+兽医
+殡葬服务
+电气工程
+潜水员资格
+民用航空器驾驶员
+水利建筑工程
+营养师
+制冷工考工
+测量科学技术
+铝用炭素煅烧工
+化工操作工职业资格
+水利科学与工程
+电梯安装维修工
+管道工
+无线局域网维护与测试
+半导体分立元器件集成电路装调职业技能鉴定
+无线电调试工
+显示器维修技能
+电力机务员
+维修钳工
+注输泵修理工
+油品计量工
+高压湿蒸汽发生器运行工
+钻井技术
+钻井架安装工
+钻井柴油机工
+随钻测量工
+主提升机操作工
+煤矿电气安装工
+矿井地质工
+矿山救护指挥员
+矿山救护队员资格
+移动式压风机司机
+采煤机司机操作资格
+司炉操作
+锅炉安装资格
+多媒体应用技术专业
+图像制作员级
+食品安全检验员
+烹饪原料加工基本技能
+家政服务技能
+服装设计
+烹饪基本技能
+服装设计与工程
+空勤人员、地面人员
+糖果工艺师
+网版制版工
+美发技术与美发店经营
+食品安全管理
+酱油、酱类制作工
+玩具设计师
+冷作钣金工初级技能
+民用核安全设备焊工焊接操作工
+磨工基本技能
+金属学与金属工艺
+钻头制造工
+铸造工
+数控技术
+体育教练员
+教练员资格
+助理会展经营策划师
+信息处理技��员级
+网络课件设计师
+综合
+学前教育
+安全生产管理人员资格
+信用担保机构经营管理
+水域环境养护保洁员
+航天电子产品装接工
+AP
+金融学
+建筑科学
+国家职业技能等级证书
+民用航空电信人员、航行情报人员、气象人员
+礼仪师
+照相器材维修工
+智能楼宇管理师
+钟表维修工
+测量控制与仪器仪表工程师
+衡器操作工
+锅炉设备运行
+电子仪器仪表装配工
+锅炉辅机检修工
+抽油机安装工
+油品储运调和操作工
+测井绘解工
+石油金属结构制作工
+多媒体作品制作员
+化妆师
+棉花加工工
+猪屠宰加工工
+畜禽产品检验员
+数控车床工
+数控机床工
+模具制造工
+AMC
+按摩师
+健康咨询员
+健康管理师
+室内装饰工程管理员
+水泥中央控制室操作员
+液化石油气站设备检修工
+电力设施安装企业合同员
+电力设施安装企业质检员
+线务技师
+报关员资格
+全国计算机技术与软件专业技术资格
+工业与技术科学基础学科
+足球教练员资格
+会展策划与实务岗位资格考试
+公共卫生学
+注册康复治疗师
+医生资格-公共卫生执业医师
+室内环境治理员
+有害生物防制员
+营养保健师
+室内设计师资格
+集成电路测试技术员
+奶牛挤奶员
+文献
+文明学
+行政执法资格考试
+中国医学与中药学
+注册中药师
+民用航空器维修人员
+报检员
+有毒有害工种从业人员资格
+地质学
+技师
+农业
+物探测量工
+制冷工
+制冷设备维修工
+防腐蚀工
+模具设计师
+化学检验高级工
+化工仪表维修工
+化工维修电工中级
+注册招标师
+市政质检员
+混凝土工
+电梯与自动扶梯的安装维修
+管道工安全技术
+装饰木工操作技能
+注册室内设计师
+质量检查员
+注册工程师
+无线电电子学、电信技术
+仪器仪表维修工
+变电站值班员
+电气设备安装工
+高低压电器及成套设备装配工
+汽车维修工
+锅炉操作工
+计算机等级考试
+网络管理员
+高级计算机程序设计员
+西式面点师
+调酒师
+贵金属首饰手工制作工
+冷作钣金工
+数控铣工
+机修钳工(技师)
+车工
+锻造工
+化验员资格
+社会体育指导员
+工程咨询（投资）专业技术人员职业资格
+广播电视播音员
+建筑装饰工程技术
+网络编辑员
+注册环境影响评价工程师
+初级中药士资格
+事业单位录用考试
+放射工作人员职业资格
+法定职业病健康与防护
+科学技术史
+资产评估师
+木材检验员
+能源科学与工程
+农业技术人员职业资格
+冲印师
+平版印刷工
+打叶复烤工
+全国计算机职业技能培训
+园林绿化工
+木工
+液化石油气储运保管工
+管工
+防水工
+无线电装接工
+钻井协作工
+起重装卸机械操作工
+汽车修理工
+钻井工
+石油钻机修理工
+压力容器操作工
+塔式起重机驾驶员
+压缩机操作工
+技能人员职业资格
+变配电工
+家用电器维修工
+循环水操作工
+电工作业
+电工初级技能
+电工进网作业许可
+电机装配工
+电气维修技师
+制冷与空调技术
+配电线路工
+汽车类专业
+天然气净化分析工
+石油、天然气工业
+汽国修理工职业技能鉴定
+油气开采技术
+油气田水处理工
+综合录井
+采油工
+煤矿井下电钳工操作资格
+民用核安全设备无损检验人员
+矿井测尘工
+矿山救护工
+综采维修钳工
+司炉工
+计算机系统操作工
+高级多媒体制作员级
+中式烹调技师
+冷藏工
+制油工
+面包烘焙师
+家庭服务基本技能
+茶叶加工工
+茶叶审评师
+酱腌菜制作工
+食品检验工
+钣金工
+铆工
+健身教练职业技能
+职业信息分析师
+档案系列中初级专业技术资格
+电工仪器仪表装配工
+体育健康
+科学传播
+环境管理体系认证
+民航特种车辆操作工
+食品科学与工程
+中药学与中药学
+城市规划与设计
+园林
+注册建造师
+办公自动化
+安全生产督导员
+Biology
+地震科学技术
+全国会计专业技术资格
+水文勘测工
+中级涂装工
+水泥制成工
+建筑涂装工
+外销员资格
+监理工程师职业资格
+市政燃气热力施工员
+建造师给排水工程施工员
+挖掘铲运和桩工机械司机
+机泵运行工
+机电设备安装维修工
+工程师职称考试
+注册通信工程师
+移动电话机维修工
+注册压力容器设计师
+变配电室值班电工
+电网调度自动化厂站端调试检修员
+糕点面包烘焙师
+焊工(技师)
+体育教练员资格
+健身教练员职业资格
+广播电视播音员主持人资格
+语文,
+家庭教育
+行政文员资格
+K12
+医生资格-口腔执业助理医师
+主管护师
+计划生育·主治医师
+家政与社区服务
+出入境检验检疫报检员资格
+船员资格（含船员、渔业船员）
+包装设计员
+招标师
+消防工程师
+装饰装修电工
+压缩机工
+注水泵工
+巷修工
+巷道掘砌工
+网络管理师
+计算机技术与软件专业技术资格水平
+网络与信息安全管理员
+轻工业设计师职业资格
+车工基本技能
+数控铣床与编程加工
+数控专业
+钳工技术
+数控技术专业
+工具钳工
+机械产品检验工
+组合机床操作工
+化验员
+化学分析工
+健身教练资格
+公安学
+SAT
+普通话水平测试
+Physics
+教师资格证
+音乐专业技术资格
+银行业专业人员职业资格
+金融分析师
+公务员公开遴选
+选调生考试
+自然资源相关工程与技术
+房地产估价师
+心理健康
+营销师
+翻译专业资格
+计算机应用技术
+职业能力倾向测验
+信息系统项目管理师
+TOEFL
+三支一扶考试
+保险专业人员职业资格
+PTE
+通信专业技术人员职业资格
+数字
+工程机械修理工
+室内设计师
+国际商务单证员
+医生资格-公共卫生医师
+医生资格-公共卫生执业助理医师
+军队文职人员
+军队文职
+全国音乐等级考试
+物业管理师执业资格
+全国大学英语四级
+信息系统管理工程师
+临床医学检验技术
+临床医学检验专业技师
+人力资源管理师
+人力资源管理
+银行专业人员职业资格
+房地产经纪专业人员职业资格
+军队文职人员职业资格
+翻译专业
+花卉园艺师
+临床医学检验技术职称
+污水处理厂操作员证书
+安全科学技术及资源科学技术
+公共健康管理
+机修钳工
+工具钳工技能培训与鉴定
+食品安全管理师
+国际问题研究
+餐饮服务与管理
+防爆电气设备维修、检查工
+天然气净化操作工
+计算机技能型紧缺人才就业培训
+装潢装饰技能
+水暖工
+挖掘机维修技师
+制冷空调设备维修
+科学技术及资源科学技术
+注册锅炉压力容器检验师
+公墓管理人员职业资格
+塑料配料工与塑料捏合工
+塑料模具工
+施工安全员
+注册商标专用权
+TOEIC
+法考
+劳动关系协调员
+事业单位招聘
+初检会计
+FRM
+注册房地产估价师
+CET-4
+政府购买服务人员考试
+社区专职工作者
+纪检监察
+辅导员
+市政学
+辅导员资格
+心理咨询服务人员资格
+ 语言学
+口腔助理医师
+逻辑学
+企业人力资源管理师
+日语
+基金从业资格
+中国银行业从业人员资格
+轨道列车司机
+语文学
+药学资格
+船员资格
+注册网络规划设计师
+注册建筑工程师
+眼镜验光员
+电子设备装接工国家职业技能培训与鉴定
+中医与中药学
+证券投资顾问胜任能力
+LSAT
+康复专业人员资格
+计算机应用能力
+医疗按摩师
+任职资格
+中医医学与中药学
+助听器验配师
+音乐等级考试
+物业管理师
+仓储管理员
+中国民族民间舞蹈等级考试
+护理专业技术资格
+CT技师上岗证
+任职资格管理
+注册内部审计师
+警察职业资格
+社区工作者职业资格
+公共基础知识
+美术学科资格
+农村专职工作者
+综合应用能力
+放射医学技术初级师
+家庭治疗师资格
+警察资格
+书法等级考试
+物价员任职资格
+企业管理人员职业资格
+审计师
+公共营养师职业资格
+社会工作者
+期货从业人员资格
+Cambridge English Exams
+GRE
+金融风险管理师
+知识产权法
+精算师
+CFA
+政法干警招录
+房地产策划师职业资格
+信息物流员职业资格
+汽车特许经销商资格
+USMLE
+全国土地登记代理人执业资格
+影视剪辑师
+国际商务专业技术资格
+注册岩土工程师
+地质工程
+企业法律顾问执业资格
+全国职称计算机考试
+计算机信息高新技术考试
+中医药学与中药学
+风力发电机组维修保养工
+铁路运输相关职业资格
+教师资格
+ACT
+SSAT
+设计学
+工会干部职业资格
+市场营销
+网络与信息安全
+图像制作员
+珠宝鉴定与评估
+医学影像信息技术
+计算机辅助设计（AUTOCAD平台）绘图员级
+国际商务师资格
+动植物检疫
+系统集成项目管理工程师
+注册能源工程师
+保险专业技术资格
+质量工程
+中式烹饪师
+国际商务师
+不动产登记代理专业人员职业资格
+高技能操作与现场管理
+仪器分析技术
+水分布操作员资格
+烘焙师资格
+注册数据库工程师
+注册程序员
+程序员认证
+农业工程
+食品安全管理员资格
+Delphi高级程序员认证
+注册金融分析师
+Japanese Language Proficiency Test
+医生资格-执业助理医师
+学教育学
+助产士资格证书
+会计
+ 信息与系统科学相关工程与技术
+经济
+注册冶金工程师
+建筑产业工人职业技能等级
+高等学校英语应用能力考试（PRETCO）
+音乐水平考级
+中式面点师
+全国公共英语等级考试
+投资建设项目管理师职业水平考试
+全国长笛演奏考级
+医药卫生
+铁路信号工
+厨师证
+公共卫生执业助理医师资格
+文字
+全国出国留学人员日语水平测试
+电子商务人才专业化从业认证
+能源科学技术
+心理咨询师国家职业资格
+旅游管理
+音乐等级考级
+基��乐科考级
+会计学
+公共管理
+中药学
+建筑与土木工程
+建筑科学与技术
+水利水电工程
+音乐考级
+土地估价师
+口腔执业医师证
+金融
+全国农业经济专业技术资格
+艺术
+价格鉴证师
+土木建筑
+全国音乐等级考级
+临床医学检验技术（师）
+保险从业人员资格
+日本语能力考试
+烹调师资格
+图书馆、情报与文学
+全国专业技术人员计算机应用能力
+全国等级音乐等级考级
+政治
+国防科技工业军用核安全设备无损检验人员
+中药专业（中级）
+全国英语等级考试
+美发师资格证书
+电子与通信工程
+纺织科学技术学
+思科认证资深安全工程师
+电子商务师
+建设工程质量检测人员岗位证书
+收银员职业技能等级证书
+国家职业技能等级证书（油漆工）
+国际贸易
+林业工程
+住房和城乡建设领域专业技术管理人员
+教育
+成人高考
+全国外语水平考试（WSK）
+信息与系统科学相关工程与技术学
+Microsoft Office Word 2003 专家级认证
+云计算平台与存储管理专业认证
+注册系统规划与管理师
+咖啡师
+公安技术
+医学技术
+全国计算机技术与软件专业技术资格水平考试
+国际商务师执业资格
+公共卫生执业医师资格
+企业培训师
+英语专业八级考试
+自然地理学
+民族与文化学
+小军鼓演奏资格
+全国一级建造师执业资格
+全国二级建造师执业资格
+全国二级注册建筑师
+全国注册资产评估师
+公卫执业助理医师
+语文,思想政治,历史,地理,数学
+教练能力
+车辆工程
+地地球科学
+化学科学
+科学j技术
+科学技术
+执药医师
+旅游
+建筑架子工
+公安技术类
+农业工程类
+眼镜生产与品质管理
+管理
+计算机应用基础职业技能鉴定
+注册会计师,
+地球科学科学
+产品质量管理
+临床医学检验与技术
+信息科学与系统科学相关工程与技术
+信息与系统科学相关工程与技
+汽车驾驶考证
+光伏组件制造工艺
+矿山权评估师
+自然科学研究与技术
+药品仓储与养护技术
+会计电算化
+电气与通信技术
+艺术类
+息与系统科学相关工程与技术
+计算机网络管理员认证
+民俗文化学
+办公软件应用操作员
+驾驶员资格
+生物工程
+国家技术转移专业人员能力等级
+驾驶资格
+基临床医学
+报关从业资格
+管理学信息与系统科学相关工程与技术
+近世代数教程
+全国特种设备无损检测人员资格
+管经济学
+生物科学
+GCT入学资格考试
+人力资源管理专业技术资格
+情报学
+CFA考试
+Microsoft Office PowerPoint 2007专业级认证
+中小型建筑机械操作工
+临床医学检验技术（士）
+企业管理和商业策略
+会展策划师
+会展经营策划员
+信息管理技术
+催眠师资格
+全国专业技术人员职称外语等级考试
+公司治理与管理
+军械修理工
+军队文职人员考试
+动力与电气科学
+助理网络编辑师
+助理职业指导师
+化妆品配方师
+医学相关工程与技术
+医生资格-公共卫生专业
+医生资格-妇产科医师
+占星师资格
+双排键电子琴
+司法鉴定
+命理学
+商业经济专业知识与实务
+商业职业经理人
+园艺工
+国际经济与贸易
+地球科学学
+地质科学
+城乡规划
+城市规划
+塑料模具制造工
+外语学习
+安全监测工
+审计
+审计学
+就业与创业指导
+市场信息学
+市场营销经理助理资格证书
+广告运营技巧
+建筑机器修理钳工
+建筑材料
+建筑模型设计制作员
+建筑环境与设备工程
+律师资格
+心理治疗师
+心电岗位考核
+房地产科学技术
+技工
+拍卖师
+挖掘机操作工
+摩擦材料生产工艺
+数控加工中心技能
+数控工艺员
+数控编程技术
+数控车削编程与考级
+数控车床
+旧工程机械评估与鉴定
+服装设计定制工
+林产化学工业
+检验工
+水利水电设备类
+水质检验工
+汉语水平考试
+汽车制造类
+汽车工程
+注册执业药师
+注册管理会计师
+注册计算机信息系统集成项目经理
+测量放线工
+焊接工程师
+焊接技能实训
+焊接科学与工程
+物业管理
+物流人员职业资格
+物流师
+现代商务谈判
+琵琶演奏资格
+电子制版工
+电路分析基础
+皮革加工工
+眼镜定配技术
+社会科学相关工程与技术
+经济管理
+绘图员级
+网页制作员
+美术
+自然保护与环境生态
+行政管理
+计算机类
+计算机组装和维护
+计算机软件专业技术水平
+语言学专业四级考试
+语言学应用能力
+语言学高级口译资格证书
+起重工
+车工工艺学
+车工操作技术
+软件工程师
+软件评测师
+通风安全监测工
+采油地质工
+陶瓷原料准备工
+音乐听力考级
+音乐学
+风景园林
+风景园林学
+风水师
+食品安全检测

category_10/all_majors_new.txt ADDED Viewed

	@@ -0,0 +1,108 @@

+宗教学
+其他
+基础医学
+新闻学与传播学
+管理学
+金融经济及财会
+英语
+文学
+化学
+物理学
+教育学
+法学
+语文
+电子与通信技术
+历史学
+哲学
+土木建筑工程
+信息科学与系统科学
+材料科学
+生物学
+药学
+心理学
+数学
+农学
+艺术学
+机械工程
+语言学
+临床医学
+动力与电气工程
+马克思主义
+化学工程
+工程与技术科学基础学科
+民族学与文化学
+法律及相关资格
+历史
+中医学与中药学
+地球科学
+航空、航天科学技术
+能源科学技术
+音乐
+体育与健康
+天文学
+食品科学技术
+信息技术
+考古学
+畜牧与兽医科学
+道德与法治
+交通运输工程
+社会学
+军事医学与特种医学
+语言类等级考试
+文化艺术类
+体育科学
+统计学
+信息技术与软件
+政治学
+地理
+轻工技术与工程
+医疗健康类
+预防医学与公共卫生学
+林学
+纺织科学技术
+力学
+科学
+教育类资格
+环境科学技术及资源科学技术
+生物医学工程
+物理
+书法
+测绘科学技术
+电子商务与物流
+水产学
+军事学
+水利工程
+安全科学技术
+工程技术类资格
+矿山工程技术
+图书馆、情报与文献学
+冶金工程技术
+思想政治
+生物
+海洋学
+产品应用相关工程与技术
+社会工作与公共服务
+旅游学
+交通运输与物流类
+核科学技术
+石油与天然气工程
+劳动
+海洋工程
+食品安全
+自然科学相关工程与技术
+广播影视行业
+经济管理类
+信息安全
+职业技能类
+国际关系
+通用技术
+历史与社会
+安全与消防工程类
+新闻出版行业
+环境保护与食品安全
+计量与检测认证类
+农业工程
+文化学
+社会科学
+体育竞技类
+科学哲学

category_10/biology_category_trackid.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/category_trackid.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19f4a999bb6782f5ff00d08855fb305ff032a1e24ee729cf4cdaeba4abbfcc4e
+size 34221747

category_10/classification_result.json ADDED Viewed

	@@ -0,0 +1,132 @@

+{
+    "Mathematics & Statistics": [
+        "数学",
+        "统计学"
+    ],
+    "Physics & Astronomy": [
+        "物理学",
+        "天文学",
+        "力学",
+        "物理",
+        "核科学技术"
+    ],
+    "Chemistry": [
+        "化学",
+        "材料科学"
+    ],
+    "Environmental & Geographical Sciences": [
+        "地球科学",
+        "考古学",
+        "地理",
+        "林学",
+        "环境科学技术及资源科学技术",
+        "测绘科学技术",
+        "海洋学",
+        "环境保护与食品安全"
+    ],
+    "Life Sciences": [
+        "生物学",
+        "农学",
+        "食品科学技术",
+        "畜牧与兽医科学",
+        "水产学",
+        "生物",
+        "食品安全"
+    ],
+    "Medical Sciences": [
+        "基础医学",
+        "药学",
+        "临床医学",
+        "中医学与中药学",
+        "军事医学与特种医学",
+        "医疗健康类",
+        "预防医学与公共卫生学",
+        "生物医学工程"
+    ],
+    "Information Sciences": [
+        "信息科学与系统科学",
+        "信息技术",
+        "信息技术与软件",
+        "安全科学技术",
+        "图书馆、情报与文献学",
+        "广播影视行业",
+        "信息安全"
+    ],
+    "Economics & Management": [
+        "管理学",
+        "金融经济及财会",
+        "电子商务与物流",
+        "经济管理类"
+    ],
+    "Humanities & Social Sciences": [
+        "宗教学",
+        "新闻学与传播学",
+        "英语",
+        "文学",
+        "教育学",
+        "法学",
+        "语文",
+        "历史学",
+        "哲学",
+        "心理学",
+        "艺术学",
+        "语言学",
+        "马克思主义",
+        "民族学与文化学",
+        "法律及相关资格",
+        "历史",
+        "音乐",
+        "道德与法治",
+        "社会学",
+        "语言类等级考试",
+        "文化艺术类",
+        "政治学",
+        "教育类资格",
+        "书法",
+        "思想政治",
+        "社会工作与公共服务",
+        "旅游学",
+        "劳动",
+        "国际关系",
+        "历史与社会",
+        "新闻出版行业",
+        "文化学",
+        "社会科学",
+        "科学哲学"
+    ],
+    "Engineering": [
+        "电子与通信技术",
+        "土木建筑工程",
+        "机械工程",
+        "动力与电气工程",
+        "化学工程",
+        "工程与技术科学基础学科",
+        "航空、航天科学技术",
+        "能源科学技术",
+        "交通运输工程",
+        "轻工技术与工程",
+        "纺织科学技术",
+        "水利工程",
+        "工程技术类资格",
+        "矿山工程技术",
+        "冶金工程技术",
+        "产品应用相关工程与技术",
+        "交通运输与物流类",
+        "石油与天然气工程",
+        "海洋工程",
+        "自然科学相关工程与技术",
+        "通用技术",
+        "安全与消防工程类",
+        "计量与检测认证类",
+        "农业工程"
+    ],
+    "Others": [
+        "其他",
+        "体育与健康",
+        "体育科学",
+        "科学",
+        "军事学",
+        "职业技能类",
+        "体育竞技类"
+    ]
+}

category_10/output_new/biology/biology.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96de3bf0cbe688c6fe3c8367cda44def2902be300b4d98bdc8c821668e1873b1
+size 659609066

category_10/output_new/biology/match_bio.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6e8972be9428d080d7dee67fdfb54a173d46be06ef39e8f3cb8c30b80624c3f
+size 321426895

category_10/outputs/Chemistry/Chemistry_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03d75db939bbf3eb2278656b88cc02146085f86b2726c8aba59f606fd07707a7
+size 803428567

category_10/outputs/Economics & Management/Economics & Management_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92c2a644d8972d7d16f2f3f5cf645adacd6bed2c9df8a7b2aee68e78bd2b2b59
+size 1280063819

category_10/outputs/Engineering/Engineering_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd21a09c211d93fbf01df395e600f8ae6004c6d3867140bd9caee8bbf9593b67
+size 2987604519

category_10/outputs/Environmental & Geographical Sciences/Environmental & Geographical Sciences_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c7115fceaff998d573d1968b811661dbab1e83309d0ecbd104428b513bd012a
+size 198483241

category_10/outputs/Humanities & Social Sciences/Humanities & Social Sciences_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7be4198ebc869c81906b349dd91fcd712c3907a3506162c755c0955aea29b4c4
+size 616628719

category_10/outputs/Information Sciences/Information Sciences_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de11aa81325d2676eeda7887fac8608f2ff6182d05cc135c24417467282c9e83
+size 1405143599

category_10/outputs/Life Sciences/Life Sciences_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:008fdec9e3997444618c6f44fc2b339ced8369988984eada0e9daafb67262381
+size 733190665

category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8b0925ec686b213e5fd9c85dfe9f9cc09216f39ad770cca13aa6b78f62c0988
+size 3118374411

category_10/outputs/Mathematics & Statistics/Mathematics & Statistics_002.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd4a610c43e0a814331a15d69045d51db9ee58d8c8a7a1ed587536fd2b60a766
+size 374334743

category_10/outputs/Medical Sciences/Medical Sciences_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:461d476ce714b6a1e92516b56bba26b9f5b6bcc2796a9777060880a93bf0d613
+size 378572313

category_10/outputs/Others/Others_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b514b74b1742996f69d893765d56e8af81ca40333a2a567c9bf1a76960d1f51e
+size 41290548

category_10/outputs/Physics & Astronomy/Physics & Astronomy_001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92307cc51a4370a139dd3d66235f4110f650e5e1c1e6647f97d2031a876fd9ed
+size 585424169

category_10/predata.py ADDED Viewed

	@@ -0,0 +1,501 @@

+# import pandas as pd
+# import os
+# def extract_unique_majors_pandas(jsonl_files, txt_file_path):
+#     all_majors = []
+#     for jsonl_file_path in jsonl_files:
+#         try:
+#             df = pd.read_json(jsonl_file_path, lines=True)
+#             if 'major_1' in df.columns:
+#                 unique_majors = df['major_1'].dropna().unique()
+#                 all_majors.extend(unique_majors)
+#             else:
+#                 print(f"The 'major_1' column was not found in {jsonl_file_path}.")
+#         except FileNotFoundError:
+#             print(f"Error: The file {jsonl_file_path} was not found.")
+#         except Exception as e:
+#             print(f"An unexpected error occurred while processing {jsonl_file_path}: {e}")
+#     unique_all_majors = pd.Series(all_majors).dropna().unique()
+#     try:
+#         with open(txt_file_path, 'w', encoding='utf-8') as txt_file:
+#             for major in unique_all_majors:
+#                 txt_file.write(str(major) + '\n')
+#         print(f"Unique majors have been saved to {txt_file_path}")
+#     except Exception as e:
+#         print(f"An error occurred while writing to {txt_file_path}: {e}")
+# if __name__ == "__main__":
+#     directory = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/trackid_major'
+#     jsonl_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.jsonl')]
+#     txt_file_path = 'all_majors_new.txt'
+#     extract_unique_majors_pandas(jsonl_files, txt_file_path)
+# #llm分类十个学科门类
+# import pandas as pd
+# import json
+# from openai import OpenAI
+# # 配置 OpenAI 客户端
+# client = OpenAI(
+#     api_key="EMPTY",
+#     base_url="http://localhost:8000/v1"
+# )
+# # 分类类别
+# categories = {
+#     'A': 'Mathematics & Statistics',
+#     'B': 'Physics & Astronomy',
+#     'C': 'Chemistry',
+#     'D': 'Environmental & Geographical Sciences',
+#     'E': 'Life Sciences',
+#     'F': 'Medical Sciences',
+#     'G': 'Information Sciences',
+#     'H': 'Economics & Management',
+#     'I': 'Humanities & Social Sciences',
+#     'J': 'Engineering',
+#     'K': 'Others'
+# }
+# # 调用模型进行分类
+# def classify_subject(subject):
+#     full_prompt = f"请将学科 '{subject}' 分类到以下类别中：{', '.join([f'{key}. {value}' for key, value in categories.items()])}，仅返回类别对应的字母。"
+#     print(full_prompt)
+#     try:
+#         response = client.chat.completions.create(
+#             model="Qwen2.5-VL-72B-Instruct",
+#             messages=[
+#                 {"role": "user", "content": full_prompt}
+#             ]
+#         )
+#         predicted_token = response.choices[0].message.content.strip()
+#         if predicted_token in categories:
+#             return categories[predicted_token]  # 返回类别名称
+#         else:
+#             print(f"模型返回的分类结果 '{predicted_token}' 无效，将其归为 'K' 类。")
+#             return categories['K']  # 返回 'K' 类的类别名称
+#     except Exception as e:
+#         print(f"调用模型时出现错误: {e}，将 '{subject}' 归为 'K' 类。")
+#         return categories['K']  # 返回 'K' 类的类别名称
+# def classify_subjects_from_txt(txt_file_path):
+#     category_dict = {category: [] for category in categories.values()}  # 使用类别名称作为键
+#     try:
+#         with open(txt_file_path, 'r', encoding='utf-8') as txt_file:
+#             for line in txt_file:
+#                 subject = line.strip()
+#                 if subject:
+#                     category = classify_subject(subject)
+#                     category_dict[category].append(subject)
+#     except FileNotFoundError:
+#         print(f"错误: 文件 {txt_file_path} 未找到。")
+#         return
+#     # 打印分类结果
+#     for category, subjects in category_dict.items():
+#         print(f"类别 {category}:")
+#         for subject in subjects:
+#             print(f"  - {subject}")
+#     return category_dict
+# if __name__ == "__main__":
+#     txt_file_path = 'all_majors.txt'
+#     result = classify_subjects_from_txt(txt_file_path)
+#     # 把分类结果保存到 JSON 文件
+#     with open('classification_result.json', 'w', encoding='utf-8') as json_file:
+#         json.dump(result, json_file, ensure_ascii=False, indent=4)
+# #根据分类获取的学科对应出track_id
+# import json
+# import os
+# # 读取 JSON 文件
+# def read_json_file(json_file_path):
+#     with open(json_file_path, 'r', encoding='utf-8') as file:
+#         data = json.load(file)
+#     return data
+# # 读取 JSONL 文件
+# def read_jsonl_file(jsonl_file_path):
+#     data = []
+#     with open(jsonl_file_path, 'r', encoding='utf-8') as file:
+#         for line in file:
+#             item = json.loads(line)
+#             data.append(item)
+#     return data
+# # 查找并存储结果
+# def find_and_store_results(json_data, jsonl_files, output_file_path):
+#     all_jsonl_data = []
+#     # 遍历所有 jsonl 文件，将数据合并到 all_jsonl_data 中
+#     for jsonl_file in jsonl_files:
+#         all_jsonl_data.extend(read_jsonl_file(jsonl_file))
+#     # 构建 major 到 category 的映射
+#     major_category_map = {}
+#     for category, majors in json_data.items():
+#         for major in majors:
+#             major_category_map[major] = category
+#     print(major_category_map)
+#     results = []
+#     for item in all_jsonl_data:
+#         major = item.get('major_1')
+#         grade_class = item.get('grade_class')
+#         if major in major_category_map and (grade_class == 'higher-edu' or grade_class == "高等教育"):
+#         #if major in major_category_map:
+#             track_id = item.get('track_id')
+#             category = major_category_map[major]
+#             result = {
+#                 "track_id": track_id,
+#                 "major": major,
+#                 "category": category
+#             }
+#             results.append(result)
+#     with open(output_file_path, 'w', encoding='utf-8') as file:
+#         for result in results:
+#             file.write(json.dumps(result, ensure_ascii=False) + '\n')
+# if __name__ == "__main__":
+#     json_file_path = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/classification_result.json'  # 替换为你的 JSON 文件路径
+#     trackid_major_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/trackid_major'
+#     # 获取 trackid_major 目录下所有的 jsonl 文件
+#     jsonl_files = [os.path.join(trackid_major_dir, f) for f in os.listdir(trackid_major_dir) if f.endswith('.jsonl')]
+#     output_file_path = 'category_trackid.jsonl'  # 输出文件路径
+#     json_data = read_json_file(json_file_path)
+#     find_and_store_results(json_data, jsonl_files, output_file_path)
+#筛选数据
+# import os
+# import json
+# import concurrent.futures
+# # 定义每个文件的最大行数
+# MAX_LINES_PER_FILE = 2000
+# def read_jsonl(file_path):
+#     """
+#     读取 JSONL 文件并返回一个包含所有 JSON 对象的列表
+#     """
+#     data = []
+#     with open(file_path, 'r', encoding='utf-8') as f:
+#         for line in f:
+#             data.append(json.loads(line))
+#     return data
+# def filter_track_ids_by_category(jsonl_data, target_categories):
+#     """
+#     从 JSONL 数据中筛选出指定 category 的 track_id
+#     """
+#     category_track_ids = {category: [] for category in target_categories}
+#     for item in jsonl_data:
+#         category = item.get('category')
+#         if category in target_categories:
+#             category_track_ids[category].append(item['track_id'])
+#     return category_track_ids
+# def find_data_by_track_id(category_track_ids, part_files):
+#     """
+#     在以 part 开头的 JSONL 文件中根据 track_id 查找数据
+#     """
+#     # category_found_data = {category: [] for category in category_track_ids}
+#     # for part_file in part_files:
+#     #     print(part_file)
+#     #     part_data = read_jsonl(part_file)
+#     #     for item in part_data:
+#     #         if 'track_id' in item:
+#     #             for category, track_ids in category_track_ids.items():
+#     #                 if item['track_id'] in track_ids:
+#     #                     category_found_data[category].append(item)
+#     #                     break
+#     # #print(category_found_data)
+#     # return category_found_data
+#     category_found_data = {category: [] for category in category_track_ids}
+#     # 用于统计每个part_file中不同种类教材的数量
+#     category_counts = {category: 0 for category in category_track_ids}
+#     for part_file in part_files:
+#         print(part_file)
+#         part_data = read_jsonl(part_file)
+#         for item in part_data:
+#             if 'track_id' in item:
+#                 for category, track_ids in category_track_ids.items():
+#                     if item['track_id'] in track_ids:
+#                         category_found_data[category].append(item)
+#                         # 统计数量
+#                         category_counts[category] += 1
+#                         break
+#         # 打印每个种类教材的数量
+#         for category, count in category_counts.items():
+#             print(f"{category}: {count}")
+#     return category_found_data
+# def save_data_to_files(category_found_data, output_dir):
+#     """
+#     将数据保存到指定 category 的文件夹中，如果文件过大则拆分
+#     """
+#     for category, data in category_found_data.items():
+#         category_dir = os.path.join(output_dir, category)
+#         os.makedirs(category_dir, exist_ok=True)
+#         file_index = 1
+#         current_file_lines = []
+#         for item in data:
+#             current_file_lines.append(item)
+#             if len(current_file_lines) >= MAX_LINES_PER_FILE:
+#                 file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
+#                 file_path = os.path.join(category_dir, file_name)
+#                 with open(file_path, 'w', encoding='utf-8') as f:
+#                     for line in current_file_lines:
+#                         f.write(json.dumps(line, ensure_ascii=False) + '\n')
+#                 current_file_lines = []
+#                 file_index += 1
+#         if current_file_lines:
+#             file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
+#             file_path = os.path.join(category_dir, file_name)
+#             with open(file_path, 'w', encoding='utf-8') as f:
+#                 for line in current_file_lines:
+#                     f.write(json.dumps(line, ensure_ascii=False) + '\n')
+# def main(target_categories):
+#     # 读取包含 track_id 和 category 的 JSONL 文件
+#     input_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/category_trackid.jsonl'  # 替换为实际的输入文件路径
+#     input_data = read_jsonl(input_file)
+#     # 筛选出指定 category 的 track_id
+#     category_track_ids = filter_track_ids_by_category(input_data, target_categories)
+#     for category, track_ids in category_track_ids.items():
+#         print(f"{category} 的 track_ids 行数为: {len(track_ids)}")
+#         file_name = f"trackid_list_{category}.json"
+#         with open(file_name, 'w', encoding='utf-8') as f:
+#             json.dump(track_ids, f, ensure_ascii=False, indent=4)
+#     # 获取 content 目录下以 part 开头的 JSONL 文件列表
+#     content_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai'
+#     part_files = [os.path.join(content_dir, f) for f in os.listdir(content_dir) if f.startswith('part') and f.endswith('.jsonl')]
+#     #part_files=['/fs-computility/ai-shen/wangyujia/datasets-jiaocai/part-678e0ea87533-000000.jsonl']
+#     # 根据 track_id 查找数据
+#     category_found_data = find_data_by_track_id(category_track_ids, part_files)
+#     # 保存数据到指定 category 的文件夹中
+#     output_dir = "output_new"  # 替换为实际的输出目录
+#     save_data_to_files(category_found_data, output_dir)
+# if __name__ == "__main__":
+#     target_categories = ['Mathematics & Statistics', 'Physics & Astronomy', 'Chemistry', 'Environmental & Geographical Sciences',
+#                          'Life Sciences', 'Medical Sciences', 'Information Sciences', 'Economics & Management',
+#                          'Humanities & Social Sciences', 'Engineering', 'Others']
+#     main(target_categories)
+# #根据分类获取的学科对应出track_id
+# import json
+# import os
+# # 读取 JSON 文件
+# def read_json_file(json_file_path):
+#     with open(json_file_path, 'r', encoding='utf-8') as file:
+#         data = json.load(file)
+#     return data
+# # 读取 JSONL 文件
+# def read_jsonl_file(jsonl_file_path):
+#     data = []
+#     with open(jsonl_file_path, 'r', encoding='utf-8') as file:
+#         for line in file:
+#             item = json.loads(line)
+#             data.append(item)
+#     return data
+# # 查找并存储结果
+# def find_and_store_results(jsonl_files, output_file_path):
+#     results = []
+#     for jsonl_file in jsonl_files:
+#         all_jsonl_data = read_jsonl_file(jsonl_file)
+#         for item in all_jsonl_data:
+#             major = item.get('major_1')
+#             grade_class = item.get('grade_class')
+#             if major == '生物学' and (grade_class == 'higher-edu' or grade_class == "高等教育"):
+#                 track_id = item.get('track_id')
+#                 result = {
+#                     "track_id": track_id,
+#                     "major": major,
+#                     "category": "生物学"
+#                 }
+#                 results.append(result)
+#     with open(output_file_path, 'w', encoding='utf-8') as file:
+#         for result in results:
+#             file.write(json.dumps(result, ensure_ascii=False) + '\n')
+# if __name__ == "__main__":
+#     trackid_major_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/trackid_major'
+#     # 获取 trackid_major 目录下所有的 jsonl 文件
+#     jsonl_files = [os.path.join(trackid_major_dir, f) for f in os.listdir(trackid_major_dir) if f.endswith('.jsonl')]
+#     output_file_path = 'biology_category_trackid.jsonl'  # 输出文件路径
+#     find_and_store_results(jsonl_files, output_file_path)
+#筛选数据
+import os
+import json
+import concurrent.futures
+# 定义每个文件的最大行数
+MAX_LINES_PER_FILE = 2000
+def read_jsonl(file_path):
+    """
+    读取 JSONL 文件并返回一个包含所有 JSON 对象的列表
+    """
+    data = []
+    with open(file_path, 'r', encoding='utf-8') as f:
+        for line in f:
+            data.append(json.loads(line))
+    return data
+def filter_track_ids_by_category(jsonl_data, target_categories):
+    """
+    从 JSONL 数据中筛选出指定 category 的 track_id
+    """
+    category_track_ids = {category: [] for category in target_categories}
+    for item in jsonl_data:
+        category = item.get('category')
+        if category in target_categories:
+            category_track_ids[category].append(item['track_id'])
+    return category_track_ids
+def find_data_by_track_id(category_track_ids, part_files):
+    """
+    在以 part 开头的 JSONL 文件中根据 track_id 查找数据
+    """
+    # category_found_data = {category: [] for category in category_track_ids}
+    # for part_file in part_files:
+    #     print(part_file)
+    #     part_data = read_jsonl(part_file)
+    #     for item in part_data:
+    #         if 'track_id' in item:
+    #             for category, track_ids in category_track_ids.items():
+    #                 if item['track_id'] in track_ids:
+    #                     category_found_data[category].append(item)
+    #                     break
+    # #print(category_found_data)
+    # return category_found_data
+    category_found_data = {category: [] for category in category_track_ids}
+    # 用于统计每个part_file中不同种类教材的数量
+    category_counts = {category: 0 for category in category_track_ids}
+    for part_file in part_files:
+        print(part_file)
+        part_data = read_jsonl(part_file)
+        for item in part_data:
+            if 'track_id' in item:
+                for category, track_ids in category_track_ids.items():
+                    if item['track_id'] in track_ids:
+                        category_found_data[category].append(item)
+                        # 统计数量
+                        category_counts[category] += 1
+                        break
+        # 打印每个种类教材的数量
+        for category, count in category_counts.items():
+            print(f"{category}: {count}")
+    return category_found_data
+def save_data_to_files(category_found_data, output_dir):
+    """
+    将数据保存到指定 category 的文件夹中，如果文件过大则拆分
+    """
+    for category, data in category_found_data.items():
+        category_dir = os.path.join(output_dir, category)
+        os.makedirs(category_dir, exist_ok=True)
+        file_index = 1
+        current_file_lines = []
+        for item in data:
+            current_file_lines.append(item)
+            if len(current_file_lines) >= MAX_LINES_PER_FILE:
+                file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
+                file_path = os.path.join(category_dir, file_name)
+                with open(file_path, 'w', encoding='utf-8') as f:
+                    for line in current_file_lines:
+                        f.write(json.dumps(line, ensure_ascii=False) + '\n')
+                current_file_lines = []
+                file_index += 1
+        if current_file_lines:
+            file_name = f"{category}_{str(file_index).zfill(3)}.jsonl"
+            file_path = os.path.join(category_dir, file_name)
+            with open(file_path, 'w', encoding='utf-8') as f:
+                for line in current_file_lines:
+                    f.write(json.dumps(line, ensure_ascii=False) + '\n')
+def main(target_categories):
+    # 读取包含 track_id 和 category 的 JSONL 文件
+    input_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/biology_category_trackid.jsonl'  # 替换为实际的输入文件路径
+    input_data = read_jsonl(input_file)
+    # 筛选出指定 category 的 track_id
+    category_track_ids = filter_track_ids_by_category(input_data, target_categories)
+    for category, track_ids in category_track_ids.items():
+        print(f"{category} 的 track_ids 行数为: {len(track_ids)}")
+        file_name = f"trackid_list_{category}.json"
+        with open(file_name, 'w', encoding='utf-8') as f:
+            json.dump(track_ids, f, ensure_ascii=False, indent=4)
+    # 获取 content 目录下以 part 开头的 JSONL 文件列表
+    content_dir = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai'
+    part_files = [os.path.join(content_dir, f) for f in os.listdir(content_dir) if f.startswith('part') and f.endswith('.jsonl')]
+    #part_files=['/fs-computility/ai-shen/wangyujia/datasets-jiaocai/part-678e0ea87533-000000.jsonl']
+    # 根据 track_id 查找数据
+    category_found_data = find_data_by_track_id(category_track_ids, part_files)
+    # 保存数据到指定 category 的文件夹中
+    output_dir = "output_new"  # 替换为实际的输出目录
+    save_data_to_files(category_found_data, output_dir)
+if __name__ == "__main__":
+    target_categories = ['生物学']
+    main(target_categories)

category_10/trackid_list_Chemistry.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Economics & Management.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Engineering.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Environmental & Geographical Sciences.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Humanities & Social Sciences.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Information Sciences.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Life Sciences.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Mathematics & Statistics.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Medical Sciences.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Others.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_Physics & Astronomy.json ADDED Viewed

The diff for this file is too large to render. See raw diff

category_10/trackid_list_生物学.json ADDED Viewed

The diff for this file is too large to render. See raw diff

copyfile.sh ADDED Viewed

	@@ -0,0 +1,3 @@

+while IFS= read -r file; do
+    rclone copy --progress --transfers 200 --checkers 200 "volces-tos:tos-bjml-kilab/ceph/llm-pdf/en/$file" /fs-computility/ai-shen/wangyujia/datasets-jiaocai
+done < /fs-computility/ai-shen/wangyujia/datasets-jiaocai/selected_files1.txt

matched_bio.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86fec23d7c9414a15e6132d5a07323e0f2a793d19b416a734990edb7fee8ec09
+size 267213265

matched_records.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e66316bc41f6c8c078b513e556d0d58f9d0ac25c14a718f7de479dc4e7db3e8
+size 540933853

predata.py ADDED Viewed

	@@ -0,0 +1,86 @@

+import json
+def process_jsonl(file_path):
+    info_count = 0
+    first_entries = []
+    try:
+        with open(file_path, 'r', encoding='utf-8') as file:
+            for line in file:
+                try:
+                    entry = json.loads(line)
+                    info_count += 1
+                    if len(first_entries) < 5:
+                        first_entries.append(entry)
+                except json.JSONDecodeError:
+                    print("错误：无法解析某一行的JSON数据。")
+    except FileNotFoundError:
+        print("错误：未找到指定的JSONL文件。")
+    print(f"JSONL文件中的信息数量为: {info_count}")
+    # print("前五个条目信息如下：")
+    # for i, entry in enumerate(first_entries, start=1):
+    #     print(f"条目 {i}: {entry}")
+if __name__ == "__main__":
+    file_path = 'matched_records.jsonl'
+    process_jsonl(file_path)
+import json
+from datasets import load_dataset
+def load_processed_jsonl(file_path):
+    try:
+        dataset = load_dataset('json', data_files=file_path)
+        print("数据集加载成功：")
+        print(dataset)
+        return dataset
+    except Exception as e:
+        print(f"加载数据集时出现错误: {e}，详细错误信息如下：")
+        import traceback
+        traceback.print_exc()
+input_file = 'matched_records.jsonl'  # 替换为你的输入 JSONL 文件路径
+output_file = 'matched_bio.jsonl'  # 替换为你希望的输出 JSONL 文件路径
+# selected_fields = [
+#     'track_id', 'file_type', 'content_type', 'content_length', 'title', 'dataset_id',
+#     'dataset_name', 'pdf_type', 'content_list', 'content', 'labels',
+#     'sub_path', 'url', 'date', '__unimernet_version', 'html',
+#     'remarkle', 'author', 'abstract', 'category', 'source',
+#     'relation_id', 'file_source', 'subject', 'processed'
+# ]'date'  'remarkle',
+selected_fields=[ 'track_id', 'file_type', 'content_type', 'content_length', 'title', 'dataset_id',
+                  'dataset_name', 'pdf_type','content','labels',
+                  'sub_path', 'url', '__unimernet_version', 'html',
+                   'author', 'abstract', 'category', 'source',
+                  'relation_id', 'file_source', 'subject', 'processed']
+try:
+    with open(input_file, 'r', encoding='utf-8') as infile, open(output_file, 'w', encoding='utf-8') as outfile:
+        for line in infile:
+            try:
+                data = json.loads(line.strip())
+                new_data = {field: data[field] for field in selected_fields if field in data}
+                # 分割 content
+                content = new_data.get('content', '')
+                chunk_size = 8000  # 每段的长度
+                chunks = [content[i:i+chunk_size] for i in range(0, len(content), chunk_size)]
+                for index, chunk in enumerate(chunks):
+                    new_data['content'] = chunk
+                    new_data['content_chunk_index'] = index  # 添加一个字段表示这是第几个分块
+                    outfile.write(json.dumps(new_data) + '\n')
+            except json.JSONDecodeError as e:
+                print(f"解析 JSON 时出错: {e}，跳过该行。")
+    print(f"已成功处理并保存到 {output_file}")
+    # 尝试加载处理后的文件
+    load_processed_jsonl(output_file)
+except FileNotFoundError:
+    print(f"文件 {input_file} 未找到。")

test_get_data.py ADDED Viewed

	@@ -0,0 +1,86 @@

+# import json
+# def process_jsonl(file_path):
+#     info_count = 0
+#     first_entries = []
+#     try:
+#         with open(file_path, 'r', encoding='utf-8') as file:
+#             for line in file:
+#                 try:
+#                     entry = json.loads(line)
+#                     info_count += 1
+#                     if len(first_entries) < 5:
+#                         first_entries.append(entry)
+#                 except json.JSONDecodeError:
+#                     print("错误：无法解析某一行的JSON数据。")
+#     except FileNotFoundError:
+#         print("错误：未找到指定的JSONL文件。")
+#     print(f"JSONL文件中的信息数量为: {info_count}")
+#     # print("前五个条目信息如下：")
+#     # for i, entry in enumerate(first_entries, start=1):
+#     #     print(f"条目 {i}: {entry}")
+# if __name__ == "__main__":
+#     file_path = 'matched_records.jsonl'
+#     process_jsonl(file_path)
+import json
+from datasets import load_dataset
+def load_processed_jsonl(file_path):
+    try:
+        dataset = load_dataset('json', data_files=file_path)
+        print("数据集加载成功：")
+        print(dataset)
+        return dataset
+    except Exception as e:
+        print(f"加载数据集时出现错误: {e}，详细错误信息如下：")
+        import traceback
+        traceback.print_exc()
+input_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/output_new/biology/biology.jsonl'  # 替换为你的输入 JSONL 文件路径
+output_file = '/fs-computility/ai-shen/wangyujia/datasets-jiaocai/category_10/output_new/biology/match_bio.jsonl'  # 替换为你希望的输出 JSONL 文件路径
+# selected_fields = [
+#     'track_id', 'file_type', 'content_type', 'content_length', 'title', 'dataset_id',
+#     'dataset_name', 'pdf_type', 'content_list', 'content', 'labels',
+#     'sub_path', 'url', 'date', '__unimernet_version', 'html',
+#     'remarkle', 'author', 'abstract', 'category', 'source',
+#     'relation_id', 'file_source', 'subject', 'processed'
+# ]'date'  'remarkle',
+selected_fields=[ 'content_length', 'title',
+                  'dataset_name', 'pdf_type','content',
+                  'url', 'html',
+                   'author', 'abstract', 'category',
+                  'relation_id', 'subject', 'processed']
+try:
+    with open(input_file, 'r', encoding='utf-8') as infile, open(output_file, 'w', encoding='utf-8') as outfile:
+        for line in infile:
+            try:
+                data = json.loads(line.strip())
+                new_data = {field: data[field] for field in selected_fields if field in data}
+                # 分割 content
+                content = new_data.get('content', '')
+                chunk_size = 6000  # 每段的长度
+                chunks = [content[i:i+chunk_size] for i in range(0, len(content), chunk_size)]
+                for index, chunk in enumerate(chunks):
+                    new_data['content'] = chunk
+                    new_data['content_chunk_index'] = index  # 添加一个字段表示这是第几个分块
+                    outfile.write(json.dumps(new_data) + '\n')
+            except json.JSONDecodeError as e:
+                print(f"解析 JSON 时出错: {e}，跳过该行。")
+    print(f"已成功处理并保存到 {output_file}")
+    # 尝试加载处理后的文件
+    load_processed_jsonl(output_file)
+except FileNotFoundError:
+    print(f"文件 {input_file} 未找到。")

trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000001.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0e14dbb2a6cdb3a9d5b940a9f51609e3b5d7a61b66e94b10d1f4b45a193f312
+size 175656532

trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000003.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44b6b2271df2911f99498be3efc0360705bcab0bbc9a4b6b346c36d355fe0cc7
+size 175156058

trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000005.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f23c29225516be53aeb10cf78fc59990ecc0d661fa8cffd9e6f913638eed97b
+size 175567887

trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000007.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b12c38b33df377ea46cdf510c09f9b10f0e48f151fb31c87fe74472aa14ea977
+size 175867826

trackid_major/samples_textbook-meta-20250318_part-67d966ae3a94-000008.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0b0c8fbd9a240d59b31793768b8993bb5e50888b23dc1023ce9407a50ea5670
+size 42245362

总和521041_最终版本.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:093522b587d07a510143897ecb4c8c5f5aac0677ab07d146a67739c1d35694da
+size 169166998