|
|
--- |
|
|
library_name: transformers |
|
|
tags: |
|
|
- trl |
|
|
- reward-trainer |
|
|
datasets: |
|
|
- HumanLLMs/Human-Like-DPO-Dataset |
|
|
language: |
|
|
- en |
|
|
base_model: |
|
|
- HuggingFaceTB/SmolLM-135M-Instruct |
|
|
--- |
|
|
|
|
|
## Описание модели |
|
|
Модель была создана для дообучения "HuggingFaceTB/SmolLM-135M-Instruct" с использованием Proximal Policy Optimization |
|
|
(PPO) |
|
|
|
|
|
Правильно оценивает сгенерированный моделью текст, на обучающем датасете показала большие различия в оценках для 'chosen' и 'rejected' |
|
|
## Как использовать: |
|
|
```python |
|
|
reward_model = AutoModelForSequenceClassification.from_pretrained( |
|
|
MODEL_ID, |
|
|
num_labels=1 |
|
|
) |
|
|
reward_model.to(device) |
|
|
|
|
|
inputs_chosen = tokenizer.apply_chat_template(['some text', tokenize=False) |
|
|
inputs_chosen = tokenizer(inputs_chosen, return_tensors="pt").to(DEVICE) |
|
|
score_chosen = reward_model(**inputs_chosen).logits[0].cpu().detach() |
|
|
print(score_chosen) |
|
|
``` |