Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +5 -5
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +518 -278
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -12,21 +12,21 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_up_proj",
     "qkv_proj",
-    "down_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 128,
   "lora_bias": false,
   "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "qkv_proj",
+    "gate_up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:378f8c38bcf12f87f8847d23731af2991c592bdae2d26ced247af7178fd27265
-size 184584072

 version https://git-lfs.github.com/spec/v1
+oid sha256:89daabbba6e8fbb223ea2dadd6cafc0473e7831b6a8a31965fd25a932502f63a
+size 369133600

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fd80ea678ab790a886af1b74bedb36f04b6ae3df559d9ae69f59dc7343c1bcf
-size 369315019

 version https://git-lfs.github.com/spec/v1
+oid sha256:53b455474ae0967c9dc13e4a970734e024e902b0e0593a5ebcb87d06c41d8d84
+size 738413771

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bba62abab919d97e86e665bcc2b30cdef0058dbbf59538563dd656f3b9d42e6
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:532826bfd6ab0d9c120628c9ba8dbb5c027e661038baccc2d23e0946927a6e4b
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd5c6c97d40727b5ce95e0b935d6d973c3b68a39460f9423ef7a3bc12f3b4643
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2692bc6d8e85cffcbf5a9395fe1431563b67e6de43846a9570babfa256843214
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,530 +1,770 @@
 {
-  "best_global_step": 34,
-  "best_metric": 0.8157733678817749,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-34",
-  "epoch": 2.2666666666666666,
   "eval_steps": 1,
-  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06666666666666667,
-      "grad_norm": 1.6772907972335815,
       "learning_rate": 0.0,
-      "loss": 3.0786,
       "step": 1
     },
     {
-      "epoch": 0.06666666666666667,
       "eval_loss": 3.15524959564209,
-      "eval_runtime": 3.3465,
-      "eval_samples_per_second": 8.965,
-      "eval_steps_per_second": 1.195,
       "step": 1
     },
     {
-      "epoch": 0.13333333333333333,
-      "grad_norm": 1.7768125534057617,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 3.0737,
       "step": 2
     },
     {
-      "epoch": 0.13333333333333333,
-      "eval_loss": 3.0767996311187744,
-      "eval_runtime": 3.3543,
-      "eval_samples_per_second": 8.944,
-      "eval_steps_per_second": 1.192,
       "step": 2
     },
     {
-      "epoch": 0.2,
-      "grad_norm": 1.5412702560424805,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 2.9943,
       "step": 3
     },
     {
-      "epoch": 0.2,
-      "eval_loss": 2.8993334770202637,
-      "eval_runtime": 3.3523,
-      "eval_samples_per_second": 8.949,
-      "eval_steps_per_second": 1.193,
       "step": 3
     },
     {
-      "epoch": 0.26666666666666666,
-      "grad_norm": 1.4991670846939087,
       "learning_rate": 0.0001,
-      "loss": 2.8684,
       "step": 4
     },
     {
-      "epoch": 0.26666666666666666,
-      "eval_loss": 2.637805461883545,
-      "eval_runtime": 3.3436,
-      "eval_samples_per_second": 8.972,
-      "eval_steps_per_second": 1.196,
       "step": 4
     },
     {
-      "epoch": 0.3333333333333333,
-      "grad_norm": 1.240314245223999,
       "learning_rate": 0.00013333333333333334,
-      "loss": 2.5164,
       "step": 5
     },
     {
-      "epoch": 0.3333333333333333,
-      "eval_loss": 2.359757423400879,
-      "eval_runtime": 3.3265,
-      "eval_samples_per_second": 9.018,
-      "eval_steps_per_second": 1.202,
       "step": 5
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 1.1895383596420288,
       "learning_rate": 0.00016666666666666666,
-      "loss": 2.314,
       "step": 6
     },
     {
-      "epoch": 0.4,
-      "eval_loss": 2.1061525344848633,
-      "eval_runtime": 3.317,
-      "eval_samples_per_second": 9.044,
-      "eval_steps_per_second": 1.206,
       "step": 6
     },
     {
-      "epoch": 0.4666666666666667,
-      "grad_norm": 1.2350431680679321,
       "learning_rate": 0.0002,
-      "loss": 2.0978,
       "step": 7
     },
     {
-      "epoch": 0.4666666666666667,
-      "eval_loss": 1.862547755241394,
-      "eval_runtime": 3.3088,
-      "eval_samples_per_second": 9.067,
-      "eval_steps_per_second": 1.209,
       "step": 7
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 1.6615718603134155,
       "learning_rate": 0.00023333333333333333,
-      "loss": 1.8403,
       "step": 8
     },
     {
-      "epoch": 0.5333333333333333,
-      "eval_loss": 1.627223253250122,
-      "eval_runtime": 3.3091,
-      "eval_samples_per_second": 9.066,
-      "eval_steps_per_second": 1.209,
       "step": 8
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 1.5987708568572998,
       "learning_rate": 0.0002666666666666667,
-      "loss": 1.6561,
       "step": 9
     },
     {
-      "epoch": 0.6,
-      "eval_loss": 1.463124394416809,
-      "eval_runtime": 3.3213,
-      "eval_samples_per_second": 9.033,
-      "eval_steps_per_second": 1.204,
       "step": 9
     },
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 1.553259015083313,
       "learning_rate": 0.0003,
-      "loss": 1.532,
       "step": 10
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 1.3557301759719849,
-      "eval_runtime": 3.3346,
-      "eval_samples_per_second": 8.996,
-      "eval_steps_per_second": 1.2,
       "step": 10
     },
     {
-      "epoch": 0.7333333333333333,
-      "grad_norm": 1.5410878658294678,
       "learning_rate": 0.0003333333333333333,
-      "loss": 1.3789,
       "step": 11
     },
     {
-      "epoch": 0.7333333333333333,
-      "eval_loss": 1.284977674484253,
-      "eval_runtime": 3.3397,
-      "eval_samples_per_second": 8.983,
-      "eval_steps_per_second": 1.198,
       "step": 11
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 1.5387530326843262,
       "learning_rate": 0.00036666666666666667,
-      "loss": 1.3658,
       "step": 12
     },
     {
-      "epoch": 0.8,
-      "eval_loss": 1.2496088743209839,
-      "eval_runtime": 3.3461,
-      "eval_samples_per_second": 8.966,
-      "eval_steps_per_second": 1.195,
       "step": 12
     },
     {
-      "epoch": 0.8666666666666667,
-      "grad_norm": 1.2438753843307495,
       "learning_rate": 0.0004,
-      "loss": 1.3617,
       "step": 13
     },
     {
-      "epoch": 0.8666666666666667,
-      "eval_loss": 1.1902137994766235,
-      "eval_runtime": 3.3367,
-      "eval_samples_per_second": 8.991,
-      "eval_steps_per_second": 1.199,
       "step": 13
     },
     {
-      "epoch": 0.9333333333333333,
-      "grad_norm": 0.8875225186347961,
       "learning_rate": 0.00043333333333333337,
-      "loss": 1.1692,
       "step": 14
     },
     {
-      "epoch": 0.9333333333333333,
-      "eval_loss": 1.129626989364624,
-      "eval_runtime": 3.3354,
-      "eval_samples_per_second": 8.994,
-      "eval_steps_per_second": 1.199,
       "step": 14
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.9996999502182007,
       "learning_rate": 0.00046666666666666666,
-      "loss": 1.3193,
       "step": 15
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 1.0915361642837524,
-      "eval_runtime": 3.3299,
-      "eval_samples_per_second": 9.009,
-      "eval_steps_per_second": 1.201,
       "step": 15
     },
     {
-      "epoch": 1.0666666666666667,
-      "grad_norm": 0.8160541653633118,
       "learning_rate": 0.0005,
-      "loss": 1.0422,
       "step": 16
     },
     {
-      "epoch": 1.0666666666666667,
-      "eval_loss": 1.0750960111618042,
-      "eval_runtime": 3.3294,
-      "eval_samples_per_second": 9.011,
-      "eval_steps_per_second": 1.201,
       "step": 16
     },
     {
-      "epoch": 1.1333333333333333,
-      "grad_norm": 0.8319222927093506,
       "learning_rate": 0.0004993910125649561,
-      "loss": 1.1637,
       "step": 17
     },
     {
-      "epoch": 1.1333333333333333,
-      "eval_loss": 1.0480690002441406,
-      "eval_runtime": 3.3231,
-      "eval_samples_per_second": 9.028,
-      "eval_steps_per_second": 1.204,
       "step": 17
     },
     {
-      "epoch": 1.2,
-      "grad_norm": 0.7125590443611145,
       "learning_rate": 0.0004975670171853926,
-      "loss": 1.0326,
       "step": 18
     },
     {
-      "epoch": 1.2,
-      "eval_loss": 1.0194019079208374,
-      "eval_runtime": 3.3294,
-      "eval_samples_per_second": 9.011,
-      "eval_steps_per_second": 1.201,
       "step": 18
     },
     {
-      "epoch": 1.2666666666666666,
-      "grad_norm": 0.8782016038894653,
       "learning_rate": 0.0004945369001834514,
-      "loss": 1.018,
       "step": 19
     },
     {
-      "epoch": 1.2666666666666666,
-      "eval_loss": 1.0099557638168335,
-      "eval_runtime": 3.3268,
-      "eval_samples_per_second": 9.018,
-      "eval_steps_per_second": 1.202,
       "step": 19
     },
     {
-      "epoch": 1.3333333333333333,
-      "grad_norm": 0.6835053563117981,
       "learning_rate": 0.0004903154239845797,
-      "loss": 1.141,
       "step": 20
     },
     {
-      "epoch": 1.3333333333333333,
-      "eval_loss": 1.0006548166275024,
-      "eval_runtime": 3.3331,
-      "eval_samples_per_second": 9.001,
-      "eval_steps_per_second": 1.2,
       "step": 20
     },
     {
-      "epoch": 1.4,
-      "grad_norm": 0.8351470232009888,
       "learning_rate": 0.0004849231551964771,
-      "loss": 1.1354,
       "step": 21
     },
     {
-      "epoch": 1.4,
-      "eval_loss": 0.9695132374763489,
-      "eval_runtime": 3.3403,
-      "eval_samples_per_second": 8.981,
-      "eval_steps_per_second": 1.197,
       "step": 21
     },
     {
-      "epoch": 1.4666666666666668,
-      "grad_norm": 0.5992692708969116,
       "learning_rate": 0.0004783863644106502,
-      "loss": 0.9994,
       "step": 22
     },
     {
-      "epoch": 1.4666666666666668,
-      "eval_loss": 0.9532836675643921,
-      "eval_runtime": 3.34,
-      "eval_samples_per_second": 8.982,
-      "eval_steps_per_second": 1.198,
       "step": 22
     },
     {
-      "epoch": 1.5333333333333332,
-      "grad_norm": 0.6349149346351624,
       "learning_rate": 0.00047073689821473173,
-      "loss": 1.0141,
       "step": 23
     },
     {
-      "epoch": 1.5333333333333332,
-      "eval_loss": 0.9443845152854919,
-      "eval_runtime": 3.3307,
-      "eval_samples_per_second": 9.007,
-      "eval_steps_per_second": 1.201,
       "step": 23
     },
     {
-      "epoch": 1.6,
-      "grad_norm": 0.6412695646286011,
       "learning_rate": 0.00046201202403910646,
-      "loss": 0.9325,
       "step": 24
     },
     {
-      "epoch": 1.6,
-      "eval_loss": 0.9353991150856018,
-      "eval_runtime": 3.3263,
-      "eval_samples_per_second": 9.019,
-      "eval_steps_per_second": 1.203,
       "step": 24
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 0.6291660070419312,
       "learning_rate": 0.0004522542485937369,
-      "loss": 0.9628,
       "step": 25
     },
     {
-      "epoch": 1.6666666666666665,
-      "eval_loss": 0.9189165830612183,
-      "eval_runtime": 3.3278,
-      "eval_samples_per_second": 9.015,
-      "eval_steps_per_second": 1.202,
       "step": 25
     },
     {
-      "epoch": 1.7333333333333334,
-      "grad_norm": 0.6544055342674255,
       "learning_rate": 0.0004415111107797445,
-      "loss": 0.9646,
       "step": 26
     },
     {
-      "epoch": 1.7333333333333334,
-      "eval_loss": 0.9056078195571899,
-      "eval_runtime": 3.3284,
-      "eval_samples_per_second": 9.013,
-      "eval_steps_per_second": 1.202,
       "step": 26
     },
     {
-      "epoch": 1.8,
-      "grad_norm": 0.6583496928215027,
       "learning_rate": 0.0004298349500846628,
-      "loss": 1.0333,
       "step": 27
     },
     {
-      "epoch": 1.8,
-      "eval_loss": 0.8940725922584534,
-      "eval_runtime": 3.3318,
-      "eval_samples_per_second": 9.004,
-      "eval_steps_per_second": 1.201,
       "step": 27
     },
     {
-      "epoch": 1.8666666666666667,
-      "grad_norm": 0.623849093914032,
       "learning_rate": 0.0004172826515897146,
-      "loss": 1.0129,
       "step": 28
     },
     {
-      "epoch": 1.8666666666666667,
-      "eval_loss": 0.8719626665115356,
-      "eval_runtime": 3.3349,
-      "eval_samples_per_second": 8.996,
-      "eval_steps_per_second": 1.199,
       "step": 28
     },
     {
-      "epoch": 1.9333333333333333,
-      "grad_norm": 0.6031587719917297,
       "learning_rate": 0.00040391536883141455,
-      "loss": 0.9091,
       "step": 29
     },
     {
-      "epoch": 1.9333333333333333,
-      "eval_loss": 0.8551884889602661,
-      "eval_runtime": 3.3315,
-      "eval_samples_per_second": 9.005,
-      "eval_steps_per_second": 1.201,
       "step": 29
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 0.55727219581604,
       "learning_rate": 0.0003897982258676867,
-      "loss": 0.9028,
       "step": 30
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.8516466617584229,
-      "eval_runtime": 3.329,
-      "eval_samples_per_second": 9.012,
-      "eval_steps_per_second": 1.202,
       "step": 30
     },
     {
-      "epoch": 2.066666666666667,
-      "grad_norm": 0.7247292399406433,
       "learning_rate": 0.000375,
-      "loss": 0.8681,
       "step": 31
     },
     {
-      "epoch": 2.066666666666667,
-      "eval_loss": 0.8430901765823364,
-      "eval_runtime": 3.3279,
-      "eval_samples_per_second": 9.015,
-      "eval_steps_per_second": 1.202,
       "step": 31
     },
     {
-      "epoch": 2.1333333333333333,
-      "grad_norm": 0.5927403569221497,
       "learning_rate": 0.00035959278669726934,
-      "loss": 0.8846,
       "step": 32
     },
     {
-      "epoch": 2.1333333333333333,
-      "eval_loss": 0.8356520533561707,
-      "eval_runtime": 3.3256,
-      "eval_samples_per_second": 9.021,
-      "eval_steps_per_second": 1.203,
       "step": 32
     },
     {
-      "epoch": 2.2,
-      "grad_norm": 0.4770275950431824,
       "learning_rate": 0.00034365164835397803,
-      "loss": 0.8181,
       "step": 33
     },
     {
-      "epoch": 2.2,
-      "eval_loss": 0.8293011784553528,
-      "eval_runtime": 3.3314,
-      "eval_samples_per_second": 9.005,
-      "eval_steps_per_second": 1.201,
       "step": 33
     },
     {
-      "epoch": 2.2666666666666666,
-      "grad_norm": 0.5398544073104858,
       "learning_rate": 0.00032725424859373687,
-      "loss": 0.8316,
       "step": 34
     },
     {
-      "epoch": 2.2666666666666666,
-      "eval_loss": 0.8157733678817749,
-      "eval_runtime": 3.3286,
-      "eval_samples_per_second": 9.013,
-      "eval_steps_per_second": 1.202,
       "step": 34
     }
   ],
   "logging_steps": 1,
   "max_steps": 60,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
-  "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -537,7 +777,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1386766593552384.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 50,
+  "best_metric": 0.6460065841674805,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-50",
+  "epoch": 2.6315789473684212,
   "eval_steps": 1,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.05263157894736842,
+      "grad_norm": 2.3607187271118164,
       "learning_rate": 0.0,
+      "loss": 3.2235,
       "step": 1
     },
     {
+      "epoch": 0.05263157894736842,
       "eval_loss": 3.15524959564209,
+      "eval_runtime": 3.3685,
+      "eval_samples_per_second": 8.906,
+      "eval_steps_per_second": 1.187,
       "step": 1
     },
     {
+      "epoch": 0.10526315789473684,
+      "grad_norm": 2.431220531463623,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 3.165,
       "step": 2
     },
     {
+      "epoch": 0.10526315789473684,
+      "eval_loss": 3.0020461082458496,
+      "eval_runtime": 3.299,
+      "eval_samples_per_second": 9.094,
+      "eval_steps_per_second": 1.212,
       "step": 2
     },
     {
+      "epoch": 0.15789473684210525,
+      "grad_norm": 1.8372516632080078,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 2.7821,
       "step": 3
     },
     {
+      "epoch": 0.15789473684210525,
+      "eval_loss": 2.6930112838745117,
+      "eval_runtime": 3.3119,
+      "eval_samples_per_second": 9.058,
+      "eval_steps_per_second": 1.208,
       "step": 3
     },
     {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 1.6948609352111816,
       "learning_rate": 0.0001,
+      "loss": 2.7014,
       "step": 4
     },
     {
+      "epoch": 0.21052631578947367,
+      "eval_loss": 2.349722146987915,
+      "eval_runtime": 3.3194,
+      "eval_samples_per_second": 9.038,
+      "eval_steps_per_second": 1.205,
       "step": 4
     },
     {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 1.333439826965332,
       "learning_rate": 0.00013333333333333334,
+      "loss": 2.3248,
       "step": 5
     },
     {
+      "epoch": 0.2631578947368421,
+      "eval_loss": 2.06449294090271,
+      "eval_runtime": 3.331,
+      "eval_samples_per_second": 9.006,
+      "eval_steps_per_second": 1.201,
       "step": 5
     },
     {
+      "epoch": 0.3157894736842105,
+      "grad_norm": 1.3499835729599,
       "learning_rate": 0.00016666666666666666,
+      "loss": 2.0069,
       "step": 6
     },
     {
+      "epoch": 0.3157894736842105,
+      "eval_loss": 1.8060506582260132,
+      "eval_runtime": 3.3417,
+      "eval_samples_per_second": 8.977,
+      "eval_steps_per_second": 1.197,
       "step": 6
     },
     {
+      "epoch": 0.3684210526315789,
+      "grad_norm": 1.649509310722351,
       "learning_rate": 0.0002,
+      "loss": 1.8274,
       "step": 7
     },
     {
+      "epoch": 0.3684210526315789,
+      "eval_loss": 1.554451584815979,
+      "eval_runtime": 3.3577,
+      "eval_samples_per_second": 8.935,
+      "eval_steps_per_second": 1.191,
       "step": 7
     },
     {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 1.6009737253189087,
       "learning_rate": 0.00023333333333333333,
+      "loss": 1.5562,
       "step": 8
     },
     {
+      "epoch": 0.42105263157894735,
+      "eval_loss": 1.3974536657333374,
+      "eval_runtime": 3.3654,
+      "eval_samples_per_second": 8.914,
+      "eval_steps_per_second": 1.189,
       "step": 8
     },
     {
+      "epoch": 0.47368421052631576,
+      "grad_norm": 1.7731741666793823,
       "learning_rate": 0.0002666666666666667,
+      "loss": 1.4525,
       "step": 9
     },
     {
+      "epoch": 0.47368421052631576,
+      "eval_loss": 1.3451876640319824,
+      "eval_runtime": 3.3744,
+      "eval_samples_per_second": 8.89,
+      "eval_steps_per_second": 1.185,
       "step": 9
     },
     {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 1.629805088043213,
       "learning_rate": 0.0003,
+      "loss": 1.4081,
       "step": 10
     },
     {
+      "epoch": 0.5263157894736842,
+      "eval_loss": 1.2556439638137817,
+      "eval_runtime": 3.3912,
+      "eval_samples_per_second": 8.847,
+      "eval_steps_per_second": 1.18,
       "step": 10
     },
     {
+      "epoch": 0.5789473684210527,
+      "grad_norm": 1.313006043434143,
       "learning_rate": 0.0003333333333333333,
+      "loss": 1.3422,
       "step": 11
     },
     {
+      "epoch": 0.5789473684210527,
+      "eval_loss": 1.1746076345443726,
+      "eval_runtime": 3.3899,
+      "eval_samples_per_second": 8.85,
+      "eval_steps_per_second": 1.18,
       "step": 11
     },
     {
+      "epoch": 0.631578947368421,
+      "grad_norm": 0.9396845698356628,
       "learning_rate": 0.00036666666666666667,
+      "loss": 1.2091,
       "step": 12
     },
     {
+      "epoch": 0.631578947368421,
+      "eval_loss": 1.1337084770202637,
+      "eval_runtime": 3.3948,
+      "eval_samples_per_second": 8.837,
+      "eval_steps_per_second": 1.178,
       "step": 12
     },
     {
+      "epoch": 0.6842105263157895,
+      "grad_norm": 1.076097846031189,
       "learning_rate": 0.0004,
+      "loss": 1.1891,
       "step": 13
     },
     {
+      "epoch": 0.6842105263157895,
+      "eval_loss": 1.0741407871246338,
+      "eval_runtime": 3.3911,
+      "eval_samples_per_second": 8.847,
+      "eval_steps_per_second": 1.18,
       "step": 13
     },
     {
+      "epoch": 0.7368421052631579,
+      "grad_norm": 0.8671520352363586,
       "learning_rate": 0.00043333333333333337,
+      "loss": 1.0924,
       "step": 14
     },
     {
+      "epoch": 0.7368421052631579,
+      "eval_loss": 1.050424575805664,
+      "eval_runtime": 3.3794,
+      "eval_samples_per_second": 8.877,
+      "eval_steps_per_second": 1.184,
       "step": 14
     },
     {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 0.8102416396141052,
       "learning_rate": 0.00046666666666666666,
+      "loss": 1.1182,
       "step": 15
     },
     {
+      "epoch": 0.7894736842105263,
+      "eval_loss": 1.02986741065979,
+      "eval_runtime": 3.3781,
+      "eval_samples_per_second": 8.881,
+      "eval_steps_per_second": 1.184,
       "step": 15
     },
     {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 1.4678000211715698,
       "learning_rate": 0.0005,
+      "loss": 1.1182,
       "step": 16
     },
     {
+      "epoch": 0.8421052631578947,
+      "eval_loss": 1.0076123476028442,
+      "eval_runtime": 3.3672,
+      "eval_samples_per_second": 8.91,
+      "eval_steps_per_second": 1.188,
       "step": 16
     },
     {
+      "epoch": 0.8947368421052632,
+      "grad_norm": 0.8557516932487488,
       "learning_rate": 0.0004993910125649561,
+      "loss": 1.1433,
       "step": 17
     },
     {
+      "epoch": 0.8947368421052632,
+      "eval_loss": 0.9948338866233826,
+      "eval_runtime": 3.3641,
+      "eval_samples_per_second": 8.918,
+      "eval_steps_per_second": 1.189,
       "step": 17
     },
     {
+      "epoch": 0.9473684210526315,
+      "grad_norm": 1.181545376777649,
       "learning_rate": 0.0004975670171853926,
+      "loss": 1.0207,
       "step": 18
     },
     {
+      "epoch": 0.9473684210526315,
+      "eval_loss": 0.959977924823761,
+      "eval_runtime": 3.3618,
+      "eval_samples_per_second": 8.924,
+      "eval_steps_per_second": 1.19,
       "step": 18
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 0.7064942121505737,
       "learning_rate": 0.0004945369001834514,
+      "loss": 1.0768,
       "step": 19
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.9442862272262573,
+      "eval_runtime": 3.3598,
+      "eval_samples_per_second": 8.929,
+      "eval_steps_per_second": 1.191,
       "step": 19
     },
     {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 0.7763754725456238,
       "learning_rate": 0.0004903154239845797,
+      "loss": 0.9409,
       "step": 20
     },
     {
+      "epoch": 1.0526315789473684,
+      "eval_loss": 0.9225653409957886,
+      "eval_runtime": 3.3593,
+      "eval_samples_per_second": 8.93,
+      "eval_steps_per_second": 1.191,
       "step": 20
     },
     {
+      "epoch": 1.1052631578947367,
+      "grad_norm": 0.6782916188240051,
       "learning_rate": 0.0004849231551964771,
+      "loss": 0.9597,
       "step": 21
     },
     {
+      "epoch": 1.1052631578947367,
+      "eval_loss": 0.9122769832611084,
+      "eval_runtime": 3.3624,
+      "eval_samples_per_second": 8.922,
+      "eval_steps_per_second": 1.19,
       "step": 21
     },
     {
+      "epoch": 1.1578947368421053,
+      "grad_norm": 0.638238251209259,
       "learning_rate": 0.0004783863644106502,
+      "loss": 0.9609,
       "step": 22
     },
     {
+      "epoch": 1.1578947368421053,
+      "eval_loss": 0.8951469659805298,
+      "eval_runtime": 3.3744,
+      "eval_samples_per_second": 8.891,
+      "eval_steps_per_second": 1.185,
       "step": 22
     },
     {
+      "epoch": 1.2105263157894737,
+      "grad_norm": 0.6865942478179932,
       "learning_rate": 0.00047073689821473173,
+      "loss": 0.894,
       "step": 23
     },
     {
+      "epoch": 1.2105263157894737,
+      "eval_loss": 0.8961806893348694,
+      "eval_runtime": 3.3869,
+      "eval_samples_per_second": 8.858,
+      "eval_steps_per_second": 1.181,
       "step": 23
     },
     {
+      "epoch": 1.263157894736842,
+      "grad_norm": 0.7614845633506775,
       "learning_rate": 0.00046201202403910646,
+      "loss": 0.9654,
       "step": 24
     },
     {
+      "epoch": 1.263157894736842,
+      "eval_loss": 0.9240673184394836,
+      "eval_runtime": 3.3864,
+      "eval_samples_per_second": 8.859,
+      "eval_steps_per_second": 1.181,
       "step": 24
     },
     {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 0.8841014504432678,
       "learning_rate": 0.0004522542485937369,
+      "loss": 0.8996,
       "step": 25
     },
     {
+      "epoch": 1.3157894736842106,
+      "eval_loss": 0.8987072706222534,
+      "eval_runtime": 3.3804,
+      "eval_samples_per_second": 8.875,
+      "eval_steps_per_second": 1.183,
       "step": 25
     },
     {
+      "epoch": 1.368421052631579,
+      "grad_norm": 0.695126473903656,
       "learning_rate": 0.0004415111107797445,
+      "loss": 0.9224,
       "step": 26
     },
     {
+      "epoch": 1.368421052631579,
+      "eval_loss": 0.8950093388557434,
+      "eval_runtime": 3.3744,
+      "eval_samples_per_second": 8.89,
+      "eval_steps_per_second": 1.185,
       "step": 26
     },
     {
+      "epoch": 1.4210526315789473,
+      "grad_norm": 0.6917558908462524,
       "learning_rate": 0.0004298349500846628,
+      "loss": 0.8954,
       "step": 27
     },
     {
+      "epoch": 1.4210526315789473,
+      "eval_loss": 0.8965355157852173,
+      "eval_runtime": 3.3739,
+      "eval_samples_per_second": 8.892,
+      "eval_steps_per_second": 1.186,
       "step": 27
     },
     {
+      "epoch": 1.4736842105263157,
+      "grad_norm": 0.6432511806488037,
       "learning_rate": 0.0004172826515897146,
+      "loss": 0.7978,
       "step": 28
     },
     {
+      "epoch": 1.4736842105263157,
+      "eval_loss": 0.8845272660255432,
+      "eval_runtime": 3.3701,
+      "eval_samples_per_second": 8.902,
+      "eval_steps_per_second": 1.187,
       "step": 28
     },
     {
+      "epoch": 1.526315789473684,
+      "grad_norm": 0.6906137466430664,
       "learning_rate": 0.00040391536883141455,
+      "loss": 0.9925,
       "step": 29
     },
     {
+      "epoch": 1.526315789473684,
+      "eval_loss": 0.8681280016899109,
+      "eval_runtime": 3.368,
+      "eval_samples_per_second": 8.907,
+      "eval_steps_per_second": 1.188,
       "step": 29
     },
     {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 0.6398982405662537,
       "learning_rate": 0.0003897982258676867,
+      "loss": 0.8644,
       "step": 30
     },
     {
+      "epoch": 1.5789473684210527,
+      "eval_loss": 0.857525110244751,
+      "eval_runtime": 3.3617,
+      "eval_samples_per_second": 8.924,
+      "eval_steps_per_second": 1.19,
       "step": 30
     },
     {
+      "epoch": 1.631578947368421,
+      "grad_norm": 0.6282161474227905,
       "learning_rate": 0.000375,
+      "loss": 0.9207,
       "step": 31
     },
     {
+      "epoch": 1.631578947368421,
+      "eval_loss": 0.8413797616958618,
+      "eval_runtime": 3.3632,
+      "eval_samples_per_second": 8.92,
+      "eval_steps_per_second": 1.189,
       "step": 31
     },
     {
+      "epoch": 1.6842105263157894,
+      "grad_norm": 0.5699971914291382,
       "learning_rate": 0.00035959278669726934,
+      "loss": 0.8974,
       "step": 32
     },
     {
+      "epoch": 1.6842105263157894,
+      "eval_loss": 0.8179092407226562,
+      "eval_runtime": 3.3714,
+      "eval_samples_per_second": 8.898,
+      "eval_steps_per_second": 1.186,
       "step": 32
     },
     {
+      "epoch": 1.736842105263158,
+      "grad_norm": 0.7283058762550354,
       "learning_rate": 0.00034365164835397803,
+      "loss": 1.0363,
       "step": 33
     },
     {
+      "epoch": 1.736842105263158,
+      "eval_loss": 0.8006649017333984,
+      "eval_runtime": 3.3726,
+      "eval_samples_per_second": 8.895,
+      "eval_steps_per_second": 1.186,
       "step": 33
     },
     {
+      "epoch": 1.7894736842105263,
+      "grad_norm": 0.8358228206634521,
       "learning_rate": 0.00032725424859373687,
+      "loss": 0.8818,
       "step": 34
     },
     {
+      "epoch": 1.7894736842105263,
+      "eval_loss": 0.796642005443573,
+      "eval_runtime": 3.3722,
+      "eval_samples_per_second": 8.896,
+      "eval_steps_per_second": 1.186,
       "step": 34
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 0.6364978551864624,
+      "learning_rate": 0.0003104804738999169,
+      "loss": 0.9305,
+      "step": 35
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "eval_loss": 0.7924755215644836,
+      "eval_runtime": 3.3733,
+      "eval_samples_per_second": 8.893,
+      "eval_steps_per_second": 1.186,
+      "step": 35
+    },
+    {
+      "epoch": 1.8947368421052633,
+      "grad_norm": 0.8200335502624512,
+      "learning_rate": 0.00029341204441673266,
+      "loss": 0.8827,
+      "step": 36
+    },
+    {
+      "epoch": 1.8947368421052633,
+      "eval_loss": 0.7788340449333191,
+      "eval_runtime": 3.3722,
+      "eval_samples_per_second": 8.896,
+      "eval_steps_per_second": 1.186,
+      "step": 36
+    },
+    {
+      "epoch": 1.9473684210526314,
+      "grad_norm": 0.775111198425293,
+      "learning_rate": 0.0002761321158169134,
+      "loss": 0.9169,
+      "step": 37
+    },
+    {
+      "epoch": 1.9473684210526314,
+      "eval_loss": 0.7667044401168823,
+      "eval_runtime": 3.3756,
+      "eval_samples_per_second": 8.887,
+      "eval_steps_per_second": 1.185,
+      "step": 37
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.727277934551239,
+      "learning_rate": 0.0002587248741756253,
+      "loss": 1.0112,
+      "step": 38
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.7591570615768433,
+      "eval_runtime": 3.3728,
+      "eval_samples_per_second": 8.895,
+      "eval_steps_per_second": 1.186,
+      "step": 38
+    },
+    {
+      "epoch": 2.0526315789473686,
+      "grad_norm": 0.5648457407951355,
+      "learning_rate": 0.00024127512582437484,
+      "loss": 0.8317,
+      "step": 39
+    },
+    {
+      "epoch": 2.0526315789473686,
+      "eval_loss": 0.7463916540145874,
+      "eval_runtime": 3.3708,
+      "eval_samples_per_second": 8.9,
+      "eval_steps_per_second": 1.187,
+      "step": 39
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 0.5476389527320862,
+      "learning_rate": 0.00022386788418308668,
+      "loss": 0.7733,
+      "step": 40
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "eval_loss": 0.7394412159919739,
+      "eval_runtime": 3.3669,
+      "eval_samples_per_second": 8.91,
+      "eval_steps_per_second": 1.188,
+      "step": 40
+    },
+    {
+      "epoch": 2.1578947368421053,
+      "grad_norm": 0.4683343768119812,
+      "learning_rate": 0.00020658795558326743,
+      "loss": 0.7401,
+      "step": 41
+    },
+    {
+      "epoch": 2.1578947368421053,
+      "eval_loss": 0.7358477711677551,
+      "eval_runtime": 3.3619,
+      "eval_samples_per_second": 8.924,
+      "eval_steps_per_second": 1.19,
+      "step": 41
+    },
+    {
+      "epoch": 2.2105263157894735,
+      "grad_norm": 0.6029678583145142,
+      "learning_rate": 0.0001895195261000831,
+      "loss": 0.6829,
+      "step": 42
+    },
+    {
+      "epoch": 2.2105263157894735,
+      "eval_loss": 0.7268175482749939,
+      "eval_runtime": 3.3732,
+      "eval_samples_per_second": 8.894,
+      "eval_steps_per_second": 1.186,
+      "step": 42
+    },
+    {
+      "epoch": 2.263157894736842,
+      "grad_norm": 0.6847506761550903,
+      "learning_rate": 0.00017274575140626317,
+      "loss": 0.7923,
+      "step": 43
+    },
+    {
+      "epoch": 2.263157894736842,
+      "eval_loss": 0.7140093445777893,
+      "eval_runtime": 3.3766,
+      "eval_samples_per_second": 8.885,
+      "eval_steps_per_second": 1.185,
+      "step": 43
+    },
+    {
+      "epoch": 2.3157894736842106,
+      "grad_norm": 0.6127113699913025,
+      "learning_rate": 0.00015634835164602198,
+      "loss": 0.7396,
+      "step": 44
+    },
+    {
+      "epoch": 2.3157894736842106,
+      "eval_loss": 0.6983242034912109,
+      "eval_runtime": 3.3684,
+      "eval_samples_per_second": 8.906,
+      "eval_steps_per_second": 1.188,
+      "step": 44
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "grad_norm": 0.538176953792572,
+      "learning_rate": 0.00014040721330273062,
+      "loss": 0.6553,
+      "step": 45
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "eval_loss": 0.6850975155830383,
+      "eval_runtime": 3.3723,
+      "eval_samples_per_second": 8.896,
+      "eval_steps_per_second": 1.186,
+      "step": 45
+    },
+    {
+      "epoch": 2.4210526315789473,
+      "grad_norm": 0.6419486999511719,
+      "learning_rate": 0.00012500000000000006,
+      "loss": 0.7364,
+      "step": 46
+    },
+    {
+      "epoch": 2.4210526315789473,
+      "eval_loss": 0.6766163110733032,
+      "eval_runtime": 3.3706,
+      "eval_samples_per_second": 8.9,
+      "eval_steps_per_second": 1.187,
+      "step": 46
+    },
+    {
+      "epoch": 2.473684210526316,
+      "grad_norm": 0.5997453331947327,
+      "learning_rate": 0.00011020177413231333,
+      "loss": 0.6901,
+      "step": 47
+    },
+    {
+      "epoch": 2.473684210526316,
+      "eval_loss": 0.667664110660553,
+      "eval_runtime": 3.3701,
+      "eval_samples_per_second": 8.902,
+      "eval_steps_per_second": 1.187,
+      "step": 47
+    },
+    {
+      "epoch": 2.526315789473684,
+      "grad_norm": 0.5617692470550537,
+      "learning_rate": 9.608463116858542e-05,
+      "loss": 0.6299,
+      "step": 48
+    },
+    {
+      "epoch": 2.526315789473684,
+      "eval_loss": 0.658656895160675,
+      "eval_runtime": 3.3698,
+      "eval_samples_per_second": 8.903,
+      "eval_steps_per_second": 1.187,
+      "step": 48
+    },
+    {
+      "epoch": 2.5789473684210527,
+      "grad_norm": 0.5850865840911865,
+      "learning_rate": 8.271734841028553e-05,
+      "loss": 0.717,
+      "step": 49
+    },
+    {
+      "epoch": 2.5789473684210527,
+      "eval_loss": 0.6522302627563477,
+      "eval_runtime": 3.3689,
+      "eval_samples_per_second": 8.905,
+      "eval_steps_per_second": 1.187,
+      "step": 49
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 0.5645343661308289,
+      "learning_rate": 7.016504991533726e-05,
+      "loss": 0.6396,
+      "step": 50
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "eval_loss": 0.6460065841674805,
+      "eval_runtime": 3.3689,
+      "eval_samples_per_second": 8.905,
+      "eval_steps_per_second": 1.187,
+      "step": 50
     }
   ],
   "logging_steps": 1,
   "max_steps": 60,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
+  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 2071824550963200.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35a31c5738d1e04a631eaba235b32a635a2d813fe2fdb0a67056063042a474b2
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:edcc177b311a910c114a6f967889ae7a76ba2972b6975c424e0b408727d54675
 size 6033