Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +455 -140
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -24,9 +24,9 @@
   "revision": null,
   "target_modules": [
     "gate_up_proj",
-    "o_proj",
     "qkv_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "gate_up_proj",
     "qkv_proj",
+    "down_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20829c27cea9ade600e7d67eace4ad662ac5dc29b2ab68a427efc8253fc8914a
 size 184584072

 version https://git-lfs.github.com/spec/v1
+oid sha256:378f8c38bcf12f87f8847d23731af2991c592bdae2d26ced247af7178fd27265
 size 184584072

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47c0f8b3065227e137c4ecafb87c4a43026fe8182e7ce2f6bf55d8227e490146
 size 369315019

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fd80ea678ab790a886af1b74bedb36f04b6ae3df559d9ae69f59dc7343c1bcf
 size 369315019

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91e62442493ae4f2963ab198bb4e1be4db65ab5cdd6b158248d98219357cb2b0
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bba62abab919d97e86e665bcc2b30cdef0058dbbf59538563dd656f3b9d42e6
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf3e8864cf11c1e3212d4cb52536b4687c3caab65537f7014a32855cae5a3940
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd5c6c97d40727b5ce95e0b935d6d973c3b68a39460f9423ef7a3bc12f3b4643
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,215 +1,530 @@
 {
-  "best_global_step": 130,
-  "best_metric": 0.1684131920337677,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-130",
-  "epoch": 8.666666666666666,
-  "eval_steps": 10,
-  "global_step": 130,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 1.5295363664627075,
       "learning_rate": 0.0003,
-      "loss": 2.4,
       "step": 10
     },
     {
       "epoch": 0.6666666666666666,
-      "eval_loss": 1.353452205657959,
-      "eval_runtime": 3.3543,
-      "eval_samples_per_second": 8.944,
-      "eval_steps_per_second": 1.193,
       "step": 10
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 0.7810578942298889,
-      "learning_rate": 0.0004996426526821629,
-      "loss": 1.2025,
       "step": 20
     },
     {
       "epoch": 1.3333333333333333,
-      "eval_loss": 0.9946791529655457,
-      "eval_runtime": 3.3228,
-      "eval_samples_per_second": 9.029,
-      "eval_steps_per_second": 1.204,
       "step": 20
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 0.5440315008163452,
-      "learning_rate": 0.000495634218306187,
-      "loss": 0.9945,
-      "step": 30
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.8515964150428772,
       "eval_runtime": 3.3263,
       "eval_samples_per_second": 9.019,
       "eval_steps_per_second": 1.203,
-      "step": 30
     },
     {
-      "epoch": 2.6666666666666665,
-      "grad_norm": 0.5279410481452942,
-      "learning_rate": 0.0004872424354853545,
-      "loss": 0.8446,
-      "step": 40
     },
     {
-      "epoch": 2.6666666666666665,
-      "eval_loss": 0.7633591294288635,
-      "eval_runtime": 3.3193,
-      "eval_samples_per_second": 9.038,
-      "eval_steps_per_second": 1.205,
-      "step": 40
     },
     {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 0.5168067216873169,
-      "learning_rate": 0.00047461705578290833,
-      "loss": 0.7736,
-      "step": 50
     },
     {
-      "epoch": 3.3333333333333335,
-      "eval_loss": 0.7138542532920837,
-      "eval_runtime": 3.323,
-      "eval_samples_per_second": 9.028,
-      "eval_steps_per_second": 1.204,
-      "step": 50
     },
     {
-      "epoch": 4.0,
-      "grad_norm": 0.7872751355171204,
-      "learning_rate": 0.00045798337939873923,
-      "loss": 0.7278,
-      "step": 60
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.6532948613166809,
-      "eval_runtime": 3.3243,
-      "eval_samples_per_second": 9.025,
-      "eval_steps_per_second": 1.203,
-      "step": 60
     },
     {
-      "epoch": 4.666666666666667,
-      "grad_norm": 0.6013125777244568,
-      "learning_rate": 0.0004376382346819819,
-      "loss": 0.6218,
-      "step": 70
     },
     {
-      "epoch": 4.666666666666667,
-      "eval_loss": 0.5778663754463196,
-      "eval_runtime": 3.3224,
-      "eval_samples_per_second": 9.03,
-      "eval_steps_per_second": 1.204,
-      "step": 70
     },
     {
-      "epoch": 5.333333333333333,
-      "grad_norm": 0.8375428318977356,
-      "learning_rate": 0.0004139446812220924,
-      "loss": 0.5911,
-      "step": 80
     },
     {
-      "epoch": 5.333333333333333,
-      "eval_loss": 0.5221918821334839,
-      "eval_runtime": 3.3157,
-      "eval_samples_per_second": 9.048,
-      "eval_steps_per_second": 1.206,
-      "step": 80
     },
     {
-      "epoch": 6.0,
-      "grad_norm": 0.6470755338668823,
-      "learning_rate": 0.00038732553104187296,
-      "loss": 0.5396,
-      "step": 90
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.4369663596153259,
-      "eval_runtime": 3.3204,
-      "eval_samples_per_second": 9.035,
-      "eval_steps_per_second": 1.205,
-      "step": 90
     },
     {
-      "epoch": 6.666666666666667,
-      "grad_norm": 0.6668552160263062,
-      "learning_rate": 0.0003582558035069091,
-      "loss": 0.4122,
-      "step": 100
     },
     {
-      "epoch": 6.666666666666667,
-      "eval_loss": 0.36959701776504517,
-      "eval_runtime": 3.3232,
-      "eval_samples_per_second": 9.027,
-      "eval_steps_per_second": 1.204,
-      "step": 100
     },
     {
-      "epoch": 7.333333333333333,
-      "grad_norm": 0.8205651640892029,
-      "learning_rate": 0.00032725424859373687,
-      "loss": 0.368,
-      "step": 110
     },
     {
-      "epoch": 7.333333333333333,
-      "eval_loss": 0.2977062463760376,
-      "eval_runtime": 3.3255,
       "eval_samples_per_second": 9.021,
       "eval_steps_per_second": 1.203,
-      "step": 110
     },
     {
-      "epoch": 8.0,
-      "grad_norm": 0.720084011554718,
-      "learning_rate": 0.0002948740897842223,
-      "loss": 0.3168,
-      "step": 120
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.24701668322086334,
-      "eval_runtime": 3.3235,
-      "eval_samples_per_second": 9.027,
-      "eval_steps_per_second": 1.204,
-      "step": 120
     },
     {
-      "epoch": 8.666666666666666,
-      "grad_norm": 0.8023689985275269,
-      "learning_rate": 0.00026169315177942135,
-      "loss": 0.2253,
-      "step": 130
     },
     {
-      "epoch": 8.666666666666666,
-      "eval_loss": 0.1684131920337677,
-      "eval_runtime": 3.3085,
-      "eval_samples_per_second": 9.067,
-      "eval_steps_per_second": 1.209,
-      "step": 130
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 250,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 17,
-  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -222,7 +537,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5282060520658944.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 34,
+  "best_metric": 0.8157733678817749,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-34",
+  "epoch": 2.2666666666666666,
+  "eval_steps": 1,
+  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 1.6772907972335815,
+      "learning_rate": 0.0,
+      "loss": 3.0786,
+      "step": 1
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "eval_loss": 3.15524959564209,
+      "eval_runtime": 3.3465,
+      "eval_samples_per_second": 8.965,
+      "eval_steps_per_second": 1.195,
+      "step": 1
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 1.7768125534057617,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 3.0737,
+      "step": 2
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "eval_loss": 3.0767996311187744,
+      "eval_runtime": 3.3543,
+      "eval_samples_per_second": 8.944,
+      "eval_steps_per_second": 1.192,
+      "step": 2
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.5412702560424805,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 2.9943,
+      "step": 3
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.8993334770202637,
+      "eval_runtime": 3.3523,
+      "eval_samples_per_second": 8.949,
+      "eval_steps_per_second": 1.193,
+      "step": 3
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 1.4991670846939087,
+      "learning_rate": 0.0001,
+      "loss": 2.8684,
+      "step": 4
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 2.637805461883545,
+      "eval_runtime": 3.3436,
+      "eval_samples_per_second": 8.972,
+      "eval_steps_per_second": 1.196,
+      "step": 4
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 1.240314245223999,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 2.5164,
+      "step": 5
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_loss": 2.359757423400879,
+      "eval_runtime": 3.3265,
+      "eval_samples_per_second": 9.018,
+      "eval_steps_per_second": 1.202,
+      "step": 5
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.1895383596420288,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 2.314,
+      "step": 6
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 2.1061525344848633,
+      "eval_runtime": 3.317,
+      "eval_samples_per_second": 9.044,
+      "eval_steps_per_second": 1.206,
+      "step": 6
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 1.2350431680679321,
+      "learning_rate": 0.0002,
+      "loss": 2.0978,
+      "step": 7
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "eval_loss": 1.862547755241394,
+      "eval_runtime": 3.3088,
+      "eval_samples_per_second": 9.067,
+      "eval_steps_per_second": 1.209,
+      "step": 7
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 1.6615718603134155,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 1.8403,
+      "step": 8
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 1.627223253250122,
+      "eval_runtime": 3.3091,
+      "eval_samples_per_second": 9.066,
+      "eval_steps_per_second": 1.209,
+      "step": 8
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.5987708568572998,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 1.6561,
+      "step": 9
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.463124394416809,
+      "eval_runtime": 3.3213,
+      "eval_samples_per_second": 9.033,
+      "eval_steps_per_second": 1.204,
+      "step": 9
+    },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 1.553259015083313,
       "learning_rate": 0.0003,
+      "loss": 1.532,
       "step": 10
     },
     {
       "epoch": 0.6666666666666666,
+      "eval_loss": 1.3557301759719849,
+      "eval_runtime": 3.3346,
+      "eval_samples_per_second": 8.996,
+      "eval_steps_per_second": 1.2,
       "step": 10
     },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 1.5410878658294678,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.3789,
+      "step": 11
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "eval_loss": 1.284977674484253,
+      "eval_runtime": 3.3397,
+      "eval_samples_per_second": 8.983,
+      "eval_steps_per_second": 1.198,
+      "step": 11
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.5387530326843262,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 1.3658,
+      "step": 12
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.2496088743209839,
+      "eval_runtime": 3.3461,
+      "eval_samples_per_second": 8.966,
+      "eval_steps_per_second": 1.195,
+      "step": 12
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 1.2438753843307495,
+      "learning_rate": 0.0004,
+      "loss": 1.3617,
+      "step": 13
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "eval_loss": 1.1902137994766235,
+      "eval_runtime": 3.3367,
+      "eval_samples_per_second": 8.991,
+      "eval_steps_per_second": 1.199,
+      "step": 13
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 0.8875225186347961,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 1.1692,
+      "step": 14
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "eval_loss": 1.129626989364624,
+      "eval_runtime": 3.3354,
+      "eval_samples_per_second": 8.994,
+      "eval_steps_per_second": 1.199,
+      "step": 14
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9996999502182007,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 1.3193,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.0915361642837524,
+      "eval_runtime": 3.3299,
+      "eval_samples_per_second": 9.009,
+      "eval_steps_per_second": 1.201,
+      "step": 15
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 0.8160541653633118,
+      "learning_rate": 0.0005,
+      "loss": 1.0422,
+      "step": 16
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "eval_loss": 1.0750960111618042,
+      "eval_runtime": 3.3294,
+      "eval_samples_per_second": 9.011,
+      "eval_steps_per_second": 1.201,
+      "step": 16
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "grad_norm": 0.8319222927093506,
+      "learning_rate": 0.0004993910125649561,
+      "loss": 1.1637,
+      "step": 17
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "eval_loss": 1.0480690002441406,
+      "eval_runtime": 3.3231,
+      "eval_samples_per_second": 9.028,
+      "eval_steps_per_second": 1.204,
+      "step": 17
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.7125590443611145,
+      "learning_rate": 0.0004975670171853926,
+      "loss": 1.0326,
+      "step": 18
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.0194019079208374,
+      "eval_runtime": 3.3294,
+      "eval_samples_per_second": 9.011,
+      "eval_steps_per_second": 1.201,
+      "step": 18
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "grad_norm": 0.8782016038894653,
+      "learning_rate": 0.0004945369001834514,
+      "loss": 1.018,
+      "step": 19
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "eval_loss": 1.0099557638168335,
+      "eval_runtime": 3.3268,
+      "eval_samples_per_second": 9.018,
+      "eval_steps_per_second": 1.202,
+      "step": 19
+    },
     {
       "epoch": 1.3333333333333333,
+      "grad_norm": 0.6835053563117981,
+      "learning_rate": 0.0004903154239845797,
+      "loss": 1.141,
       "step": 20
     },
     {
       "epoch": 1.3333333333333333,
+      "eval_loss": 1.0006548166275024,
+      "eval_runtime": 3.3331,
+      "eval_samples_per_second": 9.001,
+      "eval_steps_per_second": 1.2,
       "step": 20
     },
     {
+      "epoch": 1.4,
+      "grad_norm": 0.8351470232009888,
+      "learning_rate": 0.0004849231551964771,
+      "loss": 1.1354,
+      "step": 21
     },
     {
+      "epoch": 1.4,
+      "eval_loss": 0.9695132374763489,
+      "eval_runtime": 3.3403,
+      "eval_samples_per_second": 8.981,
+      "eval_steps_per_second": 1.197,
+      "step": 21
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 0.5992692708969116,
+      "learning_rate": 0.0004783863644106502,
+      "loss": 0.9994,
+      "step": 22
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "eval_loss": 0.9532836675643921,
+      "eval_runtime": 3.34,
+      "eval_samples_per_second": 8.982,
+      "eval_steps_per_second": 1.198,
+      "step": 22
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "grad_norm": 0.6349149346351624,
+      "learning_rate": 0.00047073689821473173,
+      "loss": 1.0141,
+      "step": 23
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "eval_loss": 0.9443845152854919,
+      "eval_runtime": 3.3307,
+      "eval_samples_per_second": 9.007,
+      "eval_steps_per_second": 1.201,
+      "step": 23
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.6412695646286011,
+      "learning_rate": 0.00046201202403910646,
+      "loss": 0.9325,
+      "step": 24
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.9353991150856018,
       "eval_runtime": 3.3263,
       "eval_samples_per_second": 9.019,
       "eval_steps_per_second": 1.203,
+      "step": 24
     },
     {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.6291660070419312,
+      "learning_rate": 0.0004522542485937369,
+      "loss": 0.9628,
+      "step": 25
     },
     {
+      "epoch": 1.6666666666666665,
+      "eval_loss": 0.9189165830612183,
+      "eval_runtime": 3.3278,
+      "eval_samples_per_second": 9.015,
+      "eval_steps_per_second": 1.202,
+      "step": 25
     },
     {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 0.6544055342674255,
+      "learning_rate": 0.0004415111107797445,
+      "loss": 0.9646,
+      "step": 26
     },
     {
+      "epoch": 1.7333333333333334,
+      "eval_loss": 0.9056078195571899,
+      "eval_runtime": 3.3284,
+      "eval_samples_per_second": 9.013,
+      "eval_steps_per_second": 1.202,
+      "step": 26
     },
     {
+      "epoch": 1.8,
+      "grad_norm": 0.6583496928215027,
+      "learning_rate": 0.0004298349500846628,
+      "loss": 1.0333,
+      "step": 27
     },
     {
+      "epoch": 1.8,
+      "eval_loss": 0.8940725922584534,
+      "eval_runtime": 3.3318,
+      "eval_samples_per_second": 9.004,
+      "eval_steps_per_second": 1.201,
+      "step": 27
     },
     {
+      "epoch": 1.8666666666666667,
+      "grad_norm": 0.623849093914032,
+      "learning_rate": 0.0004172826515897146,
+      "loss": 1.0129,
+      "step": 28
     },
     {
+      "epoch": 1.8666666666666667,
+      "eval_loss": 0.8719626665115356,
+      "eval_runtime": 3.3349,
+      "eval_samples_per_second": 8.996,
+      "eval_steps_per_second": 1.199,
+      "step": 28
     },
     {
+      "epoch": 1.9333333333333333,
+      "grad_norm": 0.6031587719917297,
+      "learning_rate": 0.00040391536883141455,
+      "loss": 0.9091,
+      "step": 29
     },
     {
+      "epoch": 1.9333333333333333,
+      "eval_loss": 0.8551884889602661,
+      "eval_runtime": 3.3315,
+      "eval_samples_per_second": 9.005,
+      "eval_steps_per_second": 1.201,
+      "step": 29
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 0.55727219581604,
+      "learning_rate": 0.0003897982258676867,
+      "loss": 0.9028,
+      "step": 30
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.8516466617584229,
+      "eval_runtime": 3.329,
+      "eval_samples_per_second": 9.012,
+      "eval_steps_per_second": 1.202,
+      "step": 30
     },
     {
+      "epoch": 2.066666666666667,
+      "grad_norm": 0.7247292399406433,
+      "learning_rate": 0.000375,
+      "loss": 0.8681,
+      "step": 31
     },
     {
+      "epoch": 2.066666666666667,
+      "eval_loss": 0.8430901765823364,
+      "eval_runtime": 3.3279,
+      "eval_samples_per_second": 9.015,
+      "eval_steps_per_second": 1.202,
+      "step": 31
     },
     {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 0.5927403569221497,
+      "learning_rate": 0.00035959278669726934,
+      "loss": 0.8846,
+      "step": 32
     },
     {
+      "epoch": 2.1333333333333333,
+      "eval_loss": 0.8356520533561707,
+      "eval_runtime": 3.3256,
       "eval_samples_per_second": 9.021,
       "eval_steps_per_second": 1.203,
+      "step": 32
     },
     {
+      "epoch": 2.2,
+      "grad_norm": 0.4770275950431824,
+      "learning_rate": 0.00034365164835397803,
+      "loss": 0.8181,
+      "step": 33
     },
     {
+      "epoch": 2.2,
+      "eval_loss": 0.8293011784553528,
+      "eval_runtime": 3.3314,
+      "eval_samples_per_second": 9.005,
+      "eval_steps_per_second": 1.201,
+      "step": 33
     },
     {
+      "epoch": 2.2666666666666666,
+      "grad_norm": 0.5398544073104858,
+      "learning_rate": 0.00032725424859373687,
+      "loss": 0.8316,
+      "step": 34
     },
     {
+      "epoch": 2.2666666666666666,
+      "eval_loss": 0.8157733678817749,
+      "eval_runtime": 3.3286,
+      "eval_samples_per_second": 9.013,
+      "eval_steps_per_second": 1.202,
+      "step": 34
     }
   ],
+  "logging_steps": 1,
+  "max_steps": 60,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1386766593552384.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f40df5ef3fda308412aedd4524b1fd39045d8e1f502806c33ac0c08305a45b46
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:35a31c5738d1e04a631eaba235b32a635a2d813fe2fdb0a67056063042a474b2
 size 6033