Vibudhbh
/

gpt2-rlhf-implementation

Text Generation

reinforcement-learning-from-human-feedback

anthropic-hh-rlhf

chatgpt-style-training

supervised-fine-tuning

human-preferences

text-generation-inference

Model card Files Files and versions

gpt2-rlhf-implementation / training_metadata.json

Vibudhbh's picture

Add training metadata

d6754ac verified 3 months ago

history blame contribute delete

532 Bytes

	{
	"model_type": "RLHF-trained GPT-2",
	"training_stages": [
	"Supervised Fine-Tuning (SFT)",
	"Reward Model Training",
	"PPO Optimization"
	],
	"dataset": "Anthropic/hh-rlhf",
	"base_model": "gpt2",
	"training_date": "2025-10-01T18:45:31.550261",
	"methodology": "3-stage RLHF pipeline",
	"alignment_technique": "Human preference optimization",
	"performance": {
	"reward_improvements": "Up to 500%+",
	"human_alignment": "Significantly improved",
	"safety": "Enhanced handling of sensitive topics"
	}
	}