VishalPreetham
/

VISDOM

Text Generation

reinforcement-learning

Model card Files Files and versions

VISDOM / config.yaml

VishalPreetham's picture

Upload folder using huggingface_hub

18be545 verified 7 days ago

History Blame Contribute Delete

814 Bytes

	# VISDOM-32M default config
	# About 32M trainable parameters with tied token embedding / LM head.
	model_name: VISDOM-32M
	vocab_size: 32000
	block_size: 256
	n_layer: 7
	n_head: 8
	n_embd: 456
	dropout: 0.1
	bias: false

	# Training
	batch_size: 4
	gradient_accumulation_steps: 8
	learning_rate: 0.0002
	max_iters: 150000
	eval_interval: 500
	eval_iters: 50
	weight_decay: 0.1
	warmup_iters: 1000
	grad_clip: 1.0
	min_lr: 0.00002

	# Runtime
	device: cuda
	dtype: float16
	compile: false
	seed: 1337
	num_workers: 0

	# Paths
	data_dir: data/processed
	raw_input: data/raw/input.txt
	checkpoint_dir: checkpoints
	tokenizer_model: data/processed/visdom_tokenizer.model
	train_bin: data/processed/train.bin
	val_bin: data/processed/val.bin
	meta_file: data/processed/meta.json

	# Tokenizer
	character_coverage: 1.0
	model_type: bpe
	val_fraction: 0.1