Model Card for Model ID

Reward model, HuggingFaceTB/SmolLM2-135M-Instruct дообученная на датасете HumanLLMs/Human-Like-DPO-Dataset, чтобы выдавать большую награду более эмоциональным ответам языковой модели. Использона как reward model в PPO при обучении языковой модели - https://huggingface.co/mcnckc/llm-hw2-ppo

Гиперпараметры обучения

Все параметры кроме последнего линейного слоя - головы, были заморожены и не обучались.

num_train_epochs=1,
per_device_train_batch_size=16,
max_length=1024,
disable_dropout=True,
learning_rate=3e-4,

Downloads last month: -

Model tree for mcnckc/llm-hw2-reward-model

Base model

HuggingFaceTB/SmolLM2-135M

Quantized

HuggingFaceTB/SmolLM2-135M-Instruct

Finetuned

(324)

this model

Dataset used to train mcnckc/llm-hw2-reward-model

Collection including mcnckc/llm-hw2-reward-model

LLM-HW2

Collection

Коллекция моделей, обученных в процессе выполнения ДЗ • 3 items • Updated Mar 6, 2025