hunterbown
/

shannon-control-unit

Text Generation

information-theory

Model card Files Files and versions

shannon-control-unit / config.json

hunterbown's picture

Upload folder using huggingface_hub

4134f77 verified 5 months ago

history blame contribute delete

477 Bytes

	{
	"model_name": "meta-llama/Llama-3.2-1B",
	"output_dir": "models/scu_fixed_sigma_20250903_222442",
	"mode": "ce_kl_auto",
	"max_steps": 270,
	"max_epochs": 10,
	"num_epochs": null,
	"batch_size": 1,
	"gradient_accumulation_steps": 4,
	"learning_rate": 0.0005,
	"fp16": true,
	"data_path": "training_data/train_512k.txt",
	"sample_size": 2000000,
	"lora_r": 16,
	"lora_alpha": 32,
	"prior_sigma": 0.1,
	"target_S": 0.01,
	"lam_init": 1.0,
	"l2_weight": 0.1
	}