vad-macbert
中文 VAD(valence/arousal/dominance)回归模型,基于 chinese-macbert-base。
输出 3 个连续值,目标对齐到教师模型 `RobroKools/vad-bert` 的 VAD 空间。
## 快速上手
```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_path = "Pectics/vad-macbert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
model.eval()
text = "这部电影让我很感动。"
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128)
with torch.no_grad():
outputs = model(**inputs)
vad = outputs.logits.squeeze().tolist()
print("VAD:", vad)
```
## 模型信息
- 基座模型:`hfl/chinese-macbert-base`
- 任务:VAD 回归(3 维输出:valence, arousal, dominance)
- 头部:`AutoModelForSequenceClassification`,`num_labels=3`,`problem_type=regression`
## 数据来源与标注方式
### en-zh_cn_vad_clean.csv
- 来源:OpenSubtitles 英中平行语料。
- 标注:将英文句子输入 `RobroKools/vad-bert` 获取 VAD,再把该 VAD 赋给对应中文句子。
### en-zh_cn_vad_long.csv
- 由 `en-zh_cn_vad_clean.csv` 过滤长句得到(原始阈值未记录)。
- 根据长度统计推断最小长度为 32 字符,推测当时过滤条件为 `len >= 32`。
### en-zh_cn_vad_long_clean.csv
- 从 `en-zh_cn_vad_long.csv` 清洗得到,去掉字幕样式噪声:
- ASS/SSA 标签块(如 `{\\fs..\\pos(..)}`,含不完整 `{`)
- HTML 类标签(如 `