zaas12 commited on Aug 28, 2025

Commit

7842bb2

verified ·

1 Parent(s): f7b735e

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

checkpoint-3032/config.json +32 -0
checkpoint-3032/generation_config.json +7 -0
checkpoint-3032/model.safetensors +3 -0
checkpoint-3032/optimizer.pt +3 -0
checkpoint-3032/rng_state.pth +3 -0
checkpoint-3032/scheduler.pt +3 -0
checkpoint-3032/trainer_state.json +461 -0
checkpoint-3032/training_args.bin +3 -0
checkpoint-4548/config.json +32 -0
checkpoint-4548/generation_config.json +7 -0
checkpoint-4548/model.safetensors +3 -0
checkpoint-4548/optimizer.pt +3 -0
checkpoint-4548/rng_state.pth +3 -0
checkpoint-4548/scheduler.pt +3 -0
checkpoint-4548/trainer_state.json +679 -0
checkpoint-4548/training_args.bin +3 -0
config.json +32 -0
generation_config.json +7 -0
model.safetensors +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +215 -0
training_args.bin +3 -0

checkpoint-3032/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1.4b",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "partial_rotary_factor": 0.25,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.0",
+  "use_cache": false,
+  "use_parallel_residual": true,
+  "vocab_size": 50304
+}

checkpoint-3032/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.45.0",
+  "use_cache": false
+}

checkpoint-3032/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a40c2a58d50905ec41304935ed26c969897b42342c83010e1be3e811cfe22ff2
+size 2829330208

checkpoint-3032/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23ad6eee21c33141bd21e7c5e7c08c430c8c7df3b4b4f30f72a306aeb792d898
+size 11317362842

checkpoint-3032/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ff264f99d31b522cc7e2a4eac9d38606d0c58a34c0adc74d71e0ca8b371dc36
+size 14244

checkpoint-3032/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eaacf3027bc66ee0e0bbedcef10d2aba06184b2f7cc8831e512987b6172c3d7
+size 1064

checkpoint-3032/trainer_state.json ADDED Viewed

	@@ -0,0 +1,461 @@

+{
+  "best_metric": 1.9353829622268677,
+  "best_model_checkpoint": "./checkpoints/ultrafeedback_binarized/pythia-1.4b-ultrafeedback_binarized-lambda0.25-ORPO-28-11-41/checkpoint-3032",
+  "epoch": 0.9998351195383347,
+  "eval_steps": 500,
+  "global_step": 3032,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016488046166529265,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 3.8611,
+      "step": 50
+    },
+    {
+      "epoch": 0.03297609233305853,
+      "grad_norm": 12.25,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 3.7579,
+      "step": 100
+    },
+    {
+      "epoch": 0.0494641384995878,
+      "grad_norm": 16.375,
+      "learning_rate": 3e-06,
+      "loss": 3.5732,
+      "step": 150
+    },
+    {
+      "epoch": 0.06595218466611706,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 3.332,
+      "step": 200
+    },
+    {
+      "epoch": 0.08244023083264633,
+      "grad_norm": 11.25,
+      "learning_rate": 5e-06,
+      "loss": 3.1433,
+      "step": 250
+    },
+    {
+      "epoch": 0.0989282769991756,
+      "grad_norm": 5.1875,
+      "learning_rate": 6e-06,
+      "loss": 2.9956,
+      "step": 300
+    },
+    {
+      "epoch": 0.11541632316570487,
+      "grad_norm": 8.875,
+      "learning_rate": 7e-06,
+      "loss": 2.9612,
+      "step": 350
+    },
+    {
+      "epoch": 0.13190436933223412,
+      "grad_norm": 8.5625,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 2.8493,
+      "step": 400
+    },
+    {
+      "epoch": 0.1483924154987634,
+      "grad_norm": 6.65625,
+      "learning_rate": 9e-06,
+      "loss": 2.7876,
+      "step": 450
+    },
+    {
+      "epoch": 0.16488046166529266,
+      "grad_norm": 9.3125,
+      "learning_rate": 1e-05,
+      "loss": 2.7949,
+      "step": 500
+    },
+    {
+      "epoch": 0.18136850783182193,
+      "grad_norm": 7.6875,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 2.724,
+      "step": 550
+    },
+    {
+      "epoch": 0.1978565539983512,
+      "grad_norm": 4.3125,
+      "learning_rate": 1.2e-05,
+      "loss": 2.6878,
+      "step": 600
+    },
+    {
+      "epoch": 0.21434460016488047,
+      "grad_norm": 14.5,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 2.6642,
+      "step": 650
+    },
+    {
+      "epoch": 0.23083264633140974,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.4e-05,
+      "loss": 2.6199,
+      "step": 700
+    },
+    {
+      "epoch": 0.247320692497939,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 2.5978,
+      "step": 750
+    },
+    {
+      "epoch": 0.26380873866446825,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.5495,
+      "step": 800
+    },
+    {
+      "epoch": 0.2802967848309975,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.7e-05,
+      "loss": 2.5325,
+      "step": 850
+    },
+    {
+      "epoch": 0.2967848309975268,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.8e-05,
+      "loss": 2.502,
+      "step": 900
+    },
+    {
+      "epoch": 0.31327287716405605,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.9e-05,
+      "loss": 2.4639,
+      "step": 950
+    },
+    {
+      "epoch": 0.3297609233305853,
+      "grad_norm": 4.40625,
+      "learning_rate": 2e-05,
+      "loss": 2.4813,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3462489694971146,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.999020122924231e-05,
+      "loss": 2.4175,
+      "step": 1050
+    },
+    {
+      "epoch": 0.36273701566364386,
+      "grad_norm": 9.3125,
+      "learning_rate": 1.9960824120150918e-05,
+      "loss": 2.3888,
+      "step": 1100
+    },
+    {
+      "epoch": 0.3792250618301731,
+      "grad_norm": 4.875,
+      "learning_rate": 1.9911926244637318e-05,
+      "loss": 2.3924,
+      "step": 1150
+    },
+    {
+      "epoch": 0.3957131079967024,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.9843603430516055e-05,
+      "loss": 2.2982,
+      "step": 1200
+    },
+    {
+      "epoch": 0.41220115416323166,
+      "grad_norm": 8.75,
+      "learning_rate": 1.9755989573705744e-05,
+      "loss": 2.3696,
+      "step": 1250
+    },
+    {
+      "epoch": 0.42868920032976093,
+      "grad_norm": 7.65625,
+      "learning_rate": 1.9649256375826003e-05,
+      "loss": 2.3295,
+      "step": 1300
+    },
+    {
+      "epoch": 0.4451772464962902,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.9523613007704486e-05,
+      "loss": 2.3079,
+      "step": 1350
+    },
+    {
+      "epoch": 0.46166529266281947,
+      "grad_norm": 11.5,
+      "learning_rate": 1.9379305699453478e-05,
+      "loss": 2.2917,
+      "step": 1400
+    },
+    {
+      "epoch": 0.47815333882934874,
+      "grad_norm": 7.46875,
+      "learning_rate": 1.9216617257919427e-05,
+      "loss": 2.275,
+      "step": 1450
+    },
+    {
+      "epoch": 0.494641384995878,
+      "grad_norm": 7.71875,
+      "learning_rate": 1.9035866512451032e-05,
+      "loss": 2.2563,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5111294311624073,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.8837407690072117e-05,
+      "loss": 2.2598,
+      "step": 1550
+    },
+    {
+      "epoch": 0.5276174773289365,
+      "grad_norm": 8.75,
+      "learning_rate": 1.8621629721283748e-05,
+      "loss": 2.2132,
+      "step": 1600
+    },
+    {
+      "epoch": 0.5441055234954658,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.8388955477856077e-05,
+      "loss": 2.2152,
+      "step": 1650
+    },
+    {
+      "epoch": 0.560593569661995,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.813984094410361e-05,
+      "loss": 2.2046,
+      "step": 1700
+    },
+    {
+      "epoch": 0.5770816158285244,
+      "grad_norm": 9.1875,
+      "learning_rate": 1.7874774323268077e-05,
+      "loss": 2.1833,
+      "step": 1750
+    },
+    {
+      "epoch": 0.5935696619950536,
+      "grad_norm": 3.953125,
+      "learning_rate": 1.75942750807601e-05,
+      "loss": 2.1776,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6100577081615829,
+      "grad_norm": 4.875,
+      "learning_rate": 1.7298892926134677e-05,
+      "loss": 2.1863,
+      "step": 1850
+    },
+    {
+      "epoch": 0.6265457543281121,
+      "grad_norm": 8.6875,
+      "learning_rate": 1.6989206735795634e-05,
+      "loss": 2.1821,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6430338004946414,
+      "grad_norm": 3.6875,
+      "learning_rate": 1.666582341854016e-05,
+      "loss": 2.1375,
+      "step": 1950
+    },
+    {
+      "epoch": 0.6595218466611706,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.632937672616678e-05,
+      "loss": 2.1396,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6760098928277,
+      "grad_norm": 7.34375,
+      "learning_rate": 1.5980526011477654e-05,
+      "loss": 2.1137,
+      "step": 2050
+    },
+    {
+      "epoch": 0.6924979389942292,
+      "grad_norm": 3.1875,
+      "learning_rate": 1.5619954936109148e-05,
+      "loss": 2.1607,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7089859851607585,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.5248370130723151e-05,
+      "loss": 2.086,
+      "step": 2150
+    },
+    {
+      "epoch": 0.7254740313272877,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.4866499810184662e-05,
+      "loss": 2.0821,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7419620774938169,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.4475092346439704e-05,
+      "loss": 2.0415,
+      "step": 2250
+    },
+    {
+      "epoch": 0.7584501236603463,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.4074914801890294e-05,
+      "loss": 2.0471,
+      "step": 2300
+    },
+    {
+      "epoch": 0.7749381698268755,
+      "grad_norm": 7.9375,
+      "learning_rate": 1.366675142614072e-05,
+      "loss": 2.0638,
+      "step": 2350
+    },
+    {
+      "epoch": 0.7914262159934048,
+      "grad_norm": 4.03125,
+      "learning_rate": 1.3251402119061105e-05,
+      "loss": 2.0433,
+      "step": 2400
+    },
+    {
+      "epoch": 0.807914262159934,
+      "grad_norm": 3.625,
+      "learning_rate": 1.2829680863180345e-05,
+      "loss": 2.066,
+      "step": 2450
+    },
+    {
+      "epoch": 0.8244023083264633,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.240241412848044e-05,
+      "loss": 2.0081,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8408903544929925,
+      "grad_norm": 3.875,
+      "learning_rate": 1.1970439252718532e-05,
+      "loss": 2.0367,
+      "step": 2550
+    },
+    {
+      "epoch": 0.8573784006595219,
+      "grad_norm": 3.265625,
+      "learning_rate": 1.1534602800450757e-05,
+      "loss": 2.0784,
+      "step": 2600
+    },
+    {
+      "epoch": 0.8738664468260511,
+      "grad_norm": 6.84375,
+      "learning_rate": 1.1095758903973832e-05,
+      "loss": 1.9913,
+      "step": 2650
+    },
+    {
+      "epoch": 0.8903544929925804,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.0654767589435762e-05,
+      "loss": 1.9759,
+      "step": 2700
+    },
+    {
+      "epoch": 0.9068425391591096,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.0212493091396004e-05,
+      "loss": 2.0223,
+      "step": 2750
+    },
+    {
+      "epoch": 0.9233305853256389,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.769802159138207e-06,
+      "loss": 2.0058,
+      "step": 2800
+    },
+    {
+      "epoch": 0.9398186314921682,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.32756235805472e-06,
+      "loss": 1.9625,
+      "step": 2850
+    },
+    {
+      "epoch": 0.9563066776586975,
+      "grad_norm": 5.875,
+      "learning_rate": 8.88664036943168e-06,
+      "loss": 1.9904,
+      "step": 2900
+    },
+    {
+      "epoch": 0.9727947238252267,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.447900291966801e-06,
+      "loss": 1.9552,
+      "step": 2950
+    },
+    {
+      "epoch": 0.989282769991756,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.012201948348346e-06,
+      "loss": 1.9429,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9998351195383347,
+      "eval_loss": 1.9353829622268677,
+      "eval_runtime": 69.7897,
+      "eval_samples_per_second": 23.342,
+      "eval_steps_per_second": 2.923,
+      "step": 3032
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4548,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.909883836204319e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3032/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:067fcca4b639e1227036ee31669835301fff03559a3de4a3d1fe926e551bc124
+size 5432

checkpoint-4548/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1.4b",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "partial_rotary_factor": 0.25,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.0",
+  "use_cache": false,
+  "use_parallel_residual": true,
+  "vocab_size": 50304
+}

checkpoint-4548/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.45.0",
+  "use_cache": false
+}

checkpoint-4548/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dec95f92814372913b8e98caf8077087bc0c5cfeb373e8267e14ce7739a252d
+size 2829330208

checkpoint-4548/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5949ce67f0f2bc1f797eb64d25a85ed3e730beb947df6f46e44f112959120e1
+size 11317362842

checkpoint-4548/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d138cfe3a4adf21f048848ee35837c9a757a0a3616ff7adbb45b69aac247435
+size 14244

checkpoint-4548/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14cc139af714f2a1d58cfb3d0a37b5913ae643d0ba154345fb54899cb5d635d0
+size 1064

checkpoint-4548/trainer_state.json ADDED Viewed

	@@ -0,0 +1,679 @@

+{
+  "best_metric": 1.843124270439148,
+  "best_model_checkpoint": "./checkpoints/ultrafeedback_binarized/pythia-1.4b-ultrafeedback_binarized-lambda0.25-ORPO-28-11-41/checkpoint-4548",
+  "epoch": 1.499752679307502,
+  "eval_steps": 500,
+  "global_step": 4548,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016488046166529265,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 3.8611,
+      "step": 50
+    },
+    {
+      "epoch": 0.03297609233305853,
+      "grad_norm": 12.25,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 3.7579,
+      "step": 100
+    },
+    {
+      "epoch": 0.0494641384995878,
+      "grad_norm": 16.375,
+      "learning_rate": 3e-06,
+      "loss": 3.5732,
+      "step": 150
+    },
+    {
+      "epoch": 0.06595218466611706,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 3.332,
+      "step": 200
+    },
+    {
+      "epoch": 0.08244023083264633,
+      "grad_norm": 11.25,
+      "learning_rate": 5e-06,
+      "loss": 3.1433,
+      "step": 250
+    },
+    {
+      "epoch": 0.0989282769991756,
+      "grad_norm": 5.1875,
+      "learning_rate": 6e-06,
+      "loss": 2.9956,
+      "step": 300
+    },
+    {
+      "epoch": 0.11541632316570487,
+      "grad_norm": 8.875,
+      "learning_rate": 7e-06,
+      "loss": 2.9612,
+      "step": 350
+    },
+    {
+      "epoch": 0.13190436933223412,
+      "grad_norm": 8.5625,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 2.8493,
+      "step": 400
+    },
+    {
+      "epoch": 0.1483924154987634,
+      "grad_norm": 6.65625,
+      "learning_rate": 9e-06,
+      "loss": 2.7876,
+      "step": 450
+    },
+    {
+      "epoch": 0.16488046166529266,
+      "grad_norm": 9.3125,
+      "learning_rate": 1e-05,
+      "loss": 2.7949,
+      "step": 500
+    },
+    {
+      "epoch": 0.18136850783182193,
+      "grad_norm": 7.6875,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 2.724,
+      "step": 550
+    },
+    {
+      "epoch": 0.1978565539983512,
+      "grad_norm": 4.3125,
+      "learning_rate": 1.2e-05,
+      "loss": 2.6878,
+      "step": 600
+    },
+    {
+      "epoch": 0.21434460016488047,
+      "grad_norm": 14.5,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 2.6642,
+      "step": 650
+    },
+    {
+      "epoch": 0.23083264633140974,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.4e-05,
+      "loss": 2.6199,
+      "step": 700
+    },
+    {
+      "epoch": 0.247320692497939,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 2.5978,
+      "step": 750
+    },
+    {
+      "epoch": 0.26380873866446825,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.5495,
+      "step": 800
+    },
+    {
+      "epoch": 0.2802967848309975,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.7e-05,
+      "loss": 2.5325,
+      "step": 850
+    },
+    {
+      "epoch": 0.2967848309975268,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.8e-05,
+      "loss": 2.502,
+      "step": 900
+    },
+    {
+      "epoch": 0.31327287716405605,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.9e-05,
+      "loss": 2.4639,
+      "step": 950
+    },
+    {
+      "epoch": 0.3297609233305853,
+      "grad_norm": 4.40625,
+      "learning_rate": 2e-05,
+      "loss": 2.4813,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3462489694971146,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.999020122924231e-05,
+      "loss": 2.4175,
+      "step": 1050
+    },
+    {
+      "epoch": 0.36273701566364386,
+      "grad_norm": 9.3125,
+      "learning_rate": 1.9960824120150918e-05,
+      "loss": 2.3888,
+      "step": 1100
+    },
+    {
+      "epoch": 0.3792250618301731,
+      "grad_norm": 4.875,
+      "learning_rate": 1.9911926244637318e-05,
+      "loss": 2.3924,
+      "step": 1150
+    },
+    {
+      "epoch": 0.3957131079967024,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.9843603430516055e-05,
+      "loss": 2.2982,
+      "step": 1200
+    },
+    {
+      "epoch": 0.41220115416323166,
+      "grad_norm": 8.75,
+      "learning_rate": 1.9755989573705744e-05,
+      "loss": 2.3696,
+      "step": 1250
+    },
+    {
+      "epoch": 0.42868920032976093,
+      "grad_norm": 7.65625,
+      "learning_rate": 1.9649256375826003e-05,
+      "loss": 2.3295,
+      "step": 1300
+    },
+    {
+      "epoch": 0.4451772464962902,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.9523613007704486e-05,
+      "loss": 2.3079,
+      "step": 1350
+    },
+    {
+      "epoch": 0.46166529266281947,
+      "grad_norm": 11.5,
+      "learning_rate": 1.9379305699453478e-05,
+      "loss": 2.2917,
+      "step": 1400
+    },
+    {
+      "epoch": 0.47815333882934874,
+      "grad_norm": 7.46875,
+      "learning_rate": 1.9216617257919427e-05,
+      "loss": 2.275,
+      "step": 1450
+    },
+    {
+      "epoch": 0.494641384995878,
+      "grad_norm": 7.71875,
+      "learning_rate": 1.9035866512451032e-05,
+      "loss": 2.2563,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5111294311624073,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.8837407690072117e-05,
+      "loss": 2.2598,
+      "step": 1550
+    },
+    {
+      "epoch": 0.5276174773289365,
+      "grad_norm": 8.75,
+      "learning_rate": 1.8621629721283748e-05,
+      "loss": 2.2132,
+      "step": 1600
+    },
+    {
+      "epoch": 0.5441055234954658,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.8388955477856077e-05,
+      "loss": 2.2152,
+      "step": 1650
+    },
+    {
+      "epoch": 0.560593569661995,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.813984094410361e-05,
+      "loss": 2.2046,
+      "step": 1700
+    },
+    {
+      "epoch": 0.5770816158285244,
+      "grad_norm": 9.1875,
+      "learning_rate": 1.7874774323268077e-05,
+      "loss": 2.1833,
+      "step": 1750
+    },
+    {
+      "epoch": 0.5935696619950536,
+      "grad_norm": 3.953125,
+      "learning_rate": 1.75942750807601e-05,
+      "loss": 2.1776,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6100577081615829,
+      "grad_norm": 4.875,
+      "learning_rate": 1.7298892926134677e-05,
+      "loss": 2.1863,
+      "step": 1850
+    },
+    {
+      "epoch": 0.6265457543281121,
+      "grad_norm": 8.6875,
+      "learning_rate": 1.6989206735795634e-05,
+      "loss": 2.1821,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6430338004946414,
+      "grad_norm": 3.6875,
+      "learning_rate": 1.666582341854016e-05,
+      "loss": 2.1375,
+      "step": 1950
+    },
+    {
+      "epoch": 0.6595218466611706,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.632937672616678e-05,
+      "loss": 2.1396,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6760098928277,
+      "grad_norm": 7.34375,
+      "learning_rate": 1.5980526011477654e-05,
+      "loss": 2.1137,
+      "step": 2050
+    },
+    {
+      "epoch": 0.6924979389942292,
+      "grad_norm": 3.1875,
+      "learning_rate": 1.5619954936109148e-05,
+      "loss": 2.1607,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7089859851607585,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.5248370130723151e-05,
+      "loss": 2.086,
+      "step": 2150
+    },
+    {
+      "epoch": 0.7254740313272877,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.4866499810184662e-05,
+      "loss": 2.0821,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7419620774938169,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.4475092346439704e-05,
+      "loss": 2.0415,
+      "step": 2250
+    },
+    {
+      "epoch": 0.7584501236603463,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.4074914801890294e-05,
+      "loss": 2.0471,
+      "step": 2300
+    },
+    {
+      "epoch": 0.7749381698268755,
+      "grad_norm": 7.9375,
+      "learning_rate": 1.366675142614072e-05,
+      "loss": 2.0638,
+      "step": 2350
+    },
+    {
+      "epoch": 0.7914262159934048,
+      "grad_norm": 4.03125,
+      "learning_rate": 1.3251402119061105e-05,
+      "loss": 2.0433,
+      "step": 2400
+    },
+    {
+      "epoch": 0.807914262159934,
+      "grad_norm": 3.625,
+      "learning_rate": 1.2829680863180345e-05,
+      "loss": 2.066,
+      "step": 2450
+    },
+    {
+      "epoch": 0.8244023083264633,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.240241412848044e-05,
+      "loss": 2.0081,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8408903544929925,
+      "grad_norm": 3.875,
+      "learning_rate": 1.1970439252718532e-05,
+      "loss": 2.0367,
+      "step": 2550
+    },
+    {
+      "epoch": 0.8573784006595219,
+      "grad_norm": 3.265625,
+      "learning_rate": 1.1534602800450757e-05,
+      "loss": 2.0784,
+      "step": 2600
+    },
+    {
+      "epoch": 0.8738664468260511,
+      "grad_norm": 6.84375,
+      "learning_rate": 1.1095758903973832e-05,
+      "loss": 1.9913,
+      "step": 2650
+    },
+    {
+      "epoch": 0.8903544929925804,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.0654767589435762e-05,
+      "loss": 1.9759,
+      "step": 2700
+    },
+    {
+      "epoch": 0.9068425391591096,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.0212493091396004e-05,
+      "loss": 2.0223,
+      "step": 2750
+    },
+    {
+      "epoch": 0.9233305853256389,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.769802159138207e-06,
+      "loss": 2.0058,
+      "step": 2800
+    },
+    {
+      "epoch": 0.9398186314921682,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.32756235805472e-06,
+      "loss": 1.9625,
+      "step": 2850
+    },
+    {
+      "epoch": 0.9563066776586975,
+      "grad_norm": 5.875,
+      "learning_rate": 8.88664036943168e-06,
+      "loss": 1.9904,
+      "step": 2900
+    },
+    {
+      "epoch": 0.9727947238252267,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.447900291966801e-06,
+      "loss": 1.9552,
+      "step": 2950
+    },
+    {
+      "epoch": 0.989282769991756,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.012201948348346e-06,
+      "loss": 1.9429,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9998351195383347,
+      "eval_loss": 1.9353829622268677,
+      "eval_runtime": 69.7897,
+      "eval_samples_per_second": 23.342,
+      "eval_steps_per_second": 2.923,
+      "step": 3032
+    },
+    {
+      "epoch": 1.0057708161582852,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.580399200214027e-06,
+      "loss": 1.9445,
+      "step": 3050
+    },
+    {
+      "epoch": 1.0222588623248146,
+      "grad_norm": 4.1875,
+      "learning_rate": 7.153338274792157e-06,
+      "loss": 1.8634,
+      "step": 3100
+    },
+    {
+      "epoch": 1.0387469084913439,
+      "grad_norm": 4.40625,
+      "learning_rate": 6.731856106504287e-06,
+      "loss": 1.8481,
+      "step": 3150
+    },
+    {
+      "epoch": 1.055234954657873,
+      "grad_norm": 6.9375,
+      "learning_rate": 6.316778696779516e-06,
+      "loss": 1.8474,
+      "step": 3200
+    },
+    {
+      "epoch": 1.0717230008244023,
+      "grad_norm": 6.875,
+      "learning_rate": 5.9089194952947645e-06,
+      "loss": 1.7904,
+      "step": 3250
+    },
+    {
+      "epoch": 1.0882110469909316,
+      "grad_norm": 3.796875,
+      "learning_rate": 5.509077805813386e-06,
+      "loss": 1.8357,
+      "step": 3300
+    },
+    {
+      "epoch": 1.104699093157461,
+      "grad_norm": 7.84375,
+      "learning_rate": 5.118037219746299e-06,
+      "loss": 1.8168,
+      "step": 3350
+    },
+    {
+      "epoch": 1.12118713932399,
+      "grad_norm": 5.25,
+      "learning_rate": 4.7365640805054684e-06,
+      "loss": 1.8304,
+      "step": 3400
+    },
+    {
+      "epoch": 1.1376751854905194,
+      "grad_norm": 4.75,
+      "learning_rate": 4.365405981659219e-06,
+      "loss": 1.8063,
+      "step": 3450
+    },
+    {
+      "epoch": 1.1541632316570487,
+      "grad_norm": 6.71875,
+      "learning_rate": 4.005290301832641e-06,
+      "loss": 1.8163,
+      "step": 3500
+    },
+    {
+      "epoch": 1.1706512778235778,
+      "grad_norm": 8.6875,
+      "learning_rate": 3.656922779224313e-06,
+      "loss": 1.7911,
+      "step": 3550
+    },
+    {
+      "epoch": 1.1871393239901071,
+      "grad_norm": 8.375,
+      "learning_rate": 3.3209861285329228e-06,
+      "loss": 1.8226,
+      "step": 3600
+    },
+    {
+      "epoch": 1.2036273701566365,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.998138703004322e-06,
+      "loss": 1.7896,
+      "step": 3650
+    },
+    {
+      "epoch": 1.2201154163231658,
+      "grad_norm": 6.9375,
+      "learning_rate": 2.6890132042209973e-06,
+      "loss": 1.8121,
+      "step": 3700
+    },
+    {
+      "epoch": 1.2366034624896949,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.394215442162542e-06,
+      "loss": 1.8081,
+      "step": 3750
+    },
+    {
+      "epoch": 1.2530915086562242,
+      "grad_norm": 4.21875,
+      "learning_rate": 2.114323147967009e-06,
+      "loss": 1.7445,
+      "step": 3800
+    },
+    {
+      "epoch": 1.2695795548227535,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.8498848417199355e-06,
+      "loss": 1.7714,
+      "step": 3850
+    },
+    {
+      "epoch": 1.2860676009892829,
+      "grad_norm": 7.28125,
+      "learning_rate": 1.60141875748981e-06,
+      "loss": 1.8226,
+      "step": 3900
+    },
+    {
+      "epoch": 1.302555647155812,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.3694118277167245e-06,
+      "loss": 1.8172,
+      "step": 3950
+    },
+    {
+      "epoch": 1.3190436933223413,
+      "grad_norm": 8.0,
+      "learning_rate": 1.1543187289444856e-06,
+      "loss": 1.807,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3355317394888706,
+      "grad_norm": 9.5,
+      "learning_rate": 9.565609907663764e-07,
+      "loss": 1.8083,
+      "step": 4050
+    },
+    {
+      "epoch": 1.3520197856553997,
+      "grad_norm": 4.625,
+      "learning_rate": 7.765261697307935e-07,
+      "loss": 1.7861,
+      "step": 4100
+    },
+    {
+      "epoch": 1.368507831821929,
+      "grad_norm": 5.875,
+      "learning_rate": 6.145670898256784e-07,
+      "loss": 1.7685,
+      "step": 4150
+    },
+    {
+      "epoch": 1.3849958779884584,
+      "grad_norm": 8.0625,
+      "learning_rate": 4.710011510302592e-07,
+      "loss": 1.7573,
+      "step": 4200
+    },
+    {
+      "epoch": 1.4014839241549877,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.461097072891073e-07,
+      "loss": 1.7886,
+      "step": 4250
+    },
+    {
+      "epoch": 1.417971970321517,
+      "grad_norm": 9.1875,
+      "learning_rate": 2.401375151275864e-07,
+      "loss": 1.7796,
+      "step": 4300
+    },
+    {
+      "epoch": 1.434460016488046,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.5329225398923232e-07,
+      "loss": 1.7321,
+      "step": 4350
+    },
+    {
+      "epoch": 1.4509480626545754,
+      "grad_norm": 7.40625,
+      "learning_rate": 8.574411923510384e-08,
+      "loss": 1.7338,
+      "step": 4400
+    },
+    {
+      "epoch": 1.4674361088211048,
+      "grad_norm": 8.1875,
+      "learning_rate": 3.7625488602711645e-08,
+      "loss": 1.7685,
+      "step": 4450
+    },
+    {
+      "epoch": 1.4839241549876339,
+      "grad_norm": 7.6875,
+      "learning_rate": 9.030662778205523e-09,
+      "loss": 1.7568,
+      "step": 4500
+    },
+    {
+      "epoch": 1.499752679307502,
+      "eval_loss": 1.843124270439148,
+      "eval_runtime": 69.2635,
+      "eval_samples_per_second": 23.519,
+      "eval_steps_per_second": 2.945,
+      "step": 4548
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4548,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.863939305520497e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4548/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:067fcca4b639e1227036ee31669835301fff03559a3de4a3d1fe926e551bc124
+size 5432

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1.4b",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "partial_rotary_factor": 0.25,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.0",
+  "use_cache": false,
+  "use_parallel_residual": true,
+  "vocab_size": 50304
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.45.0",
+  "use_cache": false
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dec95f92814372913b8e98caf8077087bc0c5cfeb373e8267e14ce7739a252d
+size 2829330208

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,215 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:067fcca4b639e1227036ee31669835301fff03559a3de4a3d1fe926e551bc124
+size 5432