HumanLLMs/Human-Like-DPO-Dataset
Viewer • Updated • 10.9k • 924 • 255
How to use mcnckc/llm-hw2-reward-model with Transformers:
# Use a pipeline as a high-level helper
from transformers import pipeline
pipe = pipeline("text-classification", model="mcnckc/llm-hw2-reward-model") # Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("mcnckc/llm-hw2-reward-model")
model = AutoModelForSequenceClassification.from_pretrained("mcnckc/llm-hw2-reward-model")Reward model, HuggingFaceTB/SmolLM2-135M-Instruct дообученная на датасете HumanLLMs/Human-Like-DPO-Dataset, чтобы выдавать большую награду более эмоциональным ответам языковой модели.
Использона как reward model в PPO при обучении языковой модели - https://huggingface.co/mcnckc/llm-hw2-ppo
Все параметры кроме последнего линейного слоя - головы, были заморожены и не обучались.
num_train_epochs=1,
per_device_train_batch_size=16,
max_length=1024,
disable_dropout=True,
learning_rate=3e-4,
Base model
HuggingFaceTB/SmolLM2-135M