DeBERTaV3-Large Reward Model — preference distillation (ckpt-799)

Base backbone: microsoft/deberta-v3-large
Init RM: yungshun317/deberta-v3-large-ultrafeedback-rm
This snapshot adds anti-format-spam preference tuning.

Usage

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tok = AutoTokenizer.from_pretrained("yungshun317/deberta-v3-large-preference-distillation")
rm  = AutoModelForSequenceClassification.from_pretrained("yungshun317/deberta-v3-large-preference-distillation")

Downloads last month: -

Safetensors

Model size

0.4B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support