AlexWortega
/

moe100m-physics-tinybpe

Mixture of Experts

Model card Files Files and versions

moe100m-physics-tinybpe / eval.log

AlexWortega's picture

Upload eval.log with huggingface_hub

3d35229 verified 3 days ago

history blame contribute delete

1.3 kB

	step 1000 eval_loss=2.2851 train_loss=1.3178 tok=8200192
	step 2000 eval_loss=1.9463 train_loss=1.6234 tok=16367616
	step 3000 eval_loss=1.9187 train_loss=1.7925 tok=24526848
	step 4000 eval_loss=1.8585 train_loss=1.7615 tok=32694272
	step 5000 eval_loss=1.8316 train_loss=1.7602 tok=40853504
	step 6000 eval_loss=1.8054 train_loss=1.1632 tok=49020928
	step 7000 eval_loss=1.7744 train_loss=0.8455 tok=57180160
	step 8000 eval_loss=1.7972 train_loss=1.6318 tok=65331200
	step 9000 eval_loss=1.7849 train_loss=1.6874 tok=73490432
	step 10000 eval_loss=1.8118 train_loss=1.2966 tok=81641472
	step 10000 eval_loss=1.8074 train_loss=0.7432 tok=81928192
	step 11000 eval_loss=1.7747 train_loss=0.6276 tok=90120192
	step 12000 eval_loss=1.7609 train_loss=0.9948 tok=98312192
	step 12000 eval_loss=1.7600 train_loss=0.5542 tok=98312192
	step 13000 eval_loss=1.7279 train_loss=0.5686 tok=106381312
	step 14000 eval_loss=1.7300 train_loss=0.9808 tok=114573312
	step 15000 eval_loss=1.7073 train_loss=1.6812 tok=122765312
	step 15000 eval_loss=1.7070 train_loss=0.4845 tok=122888192
	step 16000 eval_loss=1.7044 train_loss=0.5067 tok=131080192
	step 17000 eval_loss=1.7268 train_loss=0.8526 tok=139272192
	step 16000 eval_loss=1.7040 train_loss=0.8550 tok=131080192
	step 17000 eval_loss=1.6926 train_loss=1.0120 tok=139272192