--- language: - zh license: mit base_model: google-bert/bert-base-chinese tags: - text-classification - bert - chinese - education - multi-class-classification pipeline_tag: text-classification --- # BERT 大学生创新创业项目赛道适配预测模型 本模型基于 `bert-base-chinese` 微调,用于根据大学生创新创业项目名称或一句话简介预测适合的参赛赛道。 ## 任务类型 本任务属于**单标签多分类文本分类**任务。模型输入一段中文项目文本,输出四个赛道类别之一: - 产业赛道 - 高教主赛道 - 青年红色筑梦之旅赛道 - 职教赛道 ## 阶段性评估结果 验证集样本数:1659 | 指标 | 数值 | |---|---:| | Accuracy | 75.41% | | Precision Micro | 75.41% | | Recall Micro | 75.41% | | F1 Micro | 75.41% | | Precision Macro | 70.53% | | Recall Macro | 70.72% | | F1 Macro | 70.44% | 各类别结果: | 类别 | Precision | Recall | F1 | |---|---:|---:|---:| | 产业赛道 | 0.8200 | 0.8146 | 0.8173 | | 高教主赛道 | 0.8146 | 0.8310 | 0.8227 | | 青年红色筑梦之旅赛道 | 0.7102 | 0.7976 | 0.7514 | | 职教赛道 | 0.4764 | 0.3855 | 0.4262 | ## 使用示例 ```python import torch from transformers import AutoTokenizer, AutoModelForSequenceClassification model_id = "你的用户名/trackBERT" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForSequenceClassification.from_pretrained(model_id) model.eval() text = "红色文化数字化传播与乡村振兴实践项目" inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128) with torch.no_grad(): logits = model(**inputs).logits pred_id = torch.argmax(logits, dim=-1).item() print(model.config.id2label[pred_id]) ``` ## 说明 当前模型主要基于项目名称训练,适合作为赛道适配预测的第一版 baseline。后续可通过加入项目简介、关键词、项目领域信息,以及优化类别不均衡问题进一步提升效果。