Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +319 -79
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -24,9 +24,9 @@
   "revision": null,
   "target_modules": [
     "o_proj",
     "gate_up_proj",
-    "qkv_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "o_proj",
+    "down_proj",
     "gate_up_proj",
+    "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21a26dda1a848821358083c7732e4535140a06456808e219ed564f84b137c404
 size 369133600

 version https://git-lfs.github.com/spec/v1
+oid sha256:a46c49f92a3785a5b6f6738bfa0b39e132054cffdabd69e2262d92c8de9c19b1
 size 369133600

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9debcfec4e33c7eca37f273a805c541fda79f76eacb2c8990bede1c43a1e2e19
 size 738413771

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8bba4e527d183814b4605d68aeb69ce56b515c3686065b463d96920d8bd622
 size 738413771

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c99e9eb1649a644c8be6e8e889139d6797bf8dd316223ef128559cf7c1e450b6
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:c52a1d71e1557ac186ac99828ae2743580a49ee952817aecfe62308e6f8bd3fd
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87ce6f951be02f274d9d382b245e4b161a33bf9a5e8133937fef0aa6cd190d69
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fa32736c57e1ff31b6332b23533c0f9d9f24d63a8f9a702d3ad0c5f519b2c55
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,125 +1,365 @@
 {
-  "best_global_step": 70,
-  "best_metric": 0.4610312283039093,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-70",
-  "epoch": 4.666666666666667,
-  "eval_steps": 10,
-  "global_step": 70,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 1.708622694015503,
       "learning_rate": 0.0003,
-      "loss": 2.212,
       "step": 10
     },
     {
       "epoch": 0.6666666666666666,
-      "eval_loss": 1.2056270837783813,
-      "eval_runtime": 3.3931,
-      "eval_samples_per_second": 8.841,
-      "eval_steps_per_second": 1.179,
       "step": 10
     },
     {
-      "epoch": 1.3333333333333333,
-      "grad_norm": 0.8185480833053589,
-      "learning_rate": 0.0004972729020927865,
-      "loss": 1.1237,
-      "step": 20
     },
     {
-      "epoch": 1.3333333333333333,
-      "eval_loss": 0.9516318440437317,
-      "eval_runtime": 3.3349,
-      "eval_samples_per_second": 8.996,
-      "eval_steps_per_second": 1.199,
-      "step": 20
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 0.5559186935424805,
-      "learning_rate": 0.0004672722365763821,
-      "loss": 0.9723,
-      "step": 30
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.826151967048645,
-      "eval_runtime": 3.3187,
-      "eval_samples_per_second": 9.04,
       "eval_steps_per_second": 1.205,
-      "step": 30
     },
     {
-      "epoch": 2.6666666666666665,
-      "grad_norm": 0.5680366158485413,
-      "learning_rate": 0.00040792775156331276,
-      "loss": 0.8057,
-      "step": 40
     },
     {
-      "epoch": 2.6666666666666665,
-      "eval_loss": 0.7176477909088135,
-      "eval_runtime": 3.3277,
-      "eval_samples_per_second": 9.015,
       "eval_steps_per_second": 1.202,
-      "step": 40
     },
     {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 0.5155764818191528,
-      "learning_rate": 0.00032725424859373687,
-      "loss": 0.724,
-      "step": 50
     },
     {
-      "epoch": 3.3333333333333335,
-      "eval_loss": 0.6476100087165833,
-      "eval_runtime": 3.3241,
-      "eval_samples_per_second": 9.025,
       "eval_steps_per_second": 1.203,
-      "step": 50
     },
     {
-      "epoch": 4.0,
-      "grad_norm": 0.7584931254386902,
-      "learning_rate": 0.00023614713127100752,
-      "loss": 0.6581,
-      "step": 60
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.5533124208450317,
-      "eval_runtime": 3.3307,
-      "eval_samples_per_second": 9.007,
       "eval_steps_per_second": 1.201,
-      "step": 60
     },
     {
-      "epoch": 4.666666666666667,
-      "grad_norm": 0.6449056267738342,
-      "learning_rate": 0.00014691092063152418,
-      "loss": 0.5216,
-      "step": 70
     },
     {
-      "epoch": 4.666666666666667,
-      "eval_loss": 0.4610312283039093,
-      "eval_runtime": 3.3266,
-      "eval_samples_per_second": 9.018,
       "eval_steps_per_second": 1.202,
-      "step": 70
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 100,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
-  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -127,12 +367,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2887531530977280.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 23,
+  "best_metric": 0.9112974405288696,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-23",
+  "epoch": 1.5333333333333332,
+  "eval_steps": 1,
+  "global_step": 23,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 2.376981735229492,
+      "learning_rate": 0.0,
+      "loss": 3.0786,
+      "step": 1
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "eval_loss": 3.15524959564209,
+      "eval_runtime": 3.328,
+      "eval_samples_per_second": 9.014,
+      "eval_steps_per_second": 1.202,
+      "step": 1
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 2.5206003189086914,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 3.0737,
+      "step": 2
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "eval_loss": 2.993394374847412,
+      "eval_runtime": 3.3792,
+      "eval_samples_per_second": 8.878,
+      "eval_steps_per_second": 1.184,
+      "step": 2
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.022933006286621,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 2.9174,
+      "step": 3
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.675309658050537,
+      "eval_runtime": 3.3473,
+      "eval_samples_per_second": 8.962,
+      "eval_steps_per_second": 1.195,
+      "step": 3
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 1.7762290239334106,
+      "learning_rate": 0.0001,
+      "loss": 2.6526,
+      "step": 4
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 2.3315231800079346,
+      "eval_runtime": 3.3202,
+      "eval_samples_per_second": 9.036,
+      "eval_steps_per_second": 1.205,
+      "step": 4
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 1.3709222078323364,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 2.2509,
+      "step": 5
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_loss": 2.037416934967041,
+      "eval_runtime": 3.3129,
+      "eval_samples_per_second": 9.055,
+      "eval_steps_per_second": 1.207,
+      "step": 5
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.557167649269104,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 2.0125,
+      "step": 6
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.7647929191589355,
+      "eval_runtime": 3.3108,
+      "eval_samples_per_second": 9.061,
+      "eval_steps_per_second": 1.208,
+      "step": 6
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 1.630544900894165,
+      "learning_rate": 0.0002,
+      "loss": 1.7956,
+      "step": 7
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "eval_loss": 1.5105541944503784,
+      "eval_runtime": 3.3226,
+      "eval_samples_per_second": 9.029,
+      "eval_steps_per_second": 1.204,
+      "step": 7
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 1.652570366859436,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 1.4973,
+      "step": 8
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 1.3942221403121948,
+      "eval_runtime": 3.3326,
+      "eval_samples_per_second": 9.002,
+      "eval_steps_per_second": 1.2,
+      "step": 8
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.8059905767440796,
+      "learning_rate": 0.0002666666666666667,
+      "loss": 1.4433,
+      "step": 9
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.3118027448654175,
+      "eval_runtime": 3.3417,
+      "eval_samples_per_second": 8.977,
+      "eval_steps_per_second": 1.197,
+      "step": 9
+    },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 1.695832371711731,
       "learning_rate": 0.0003,
+      "loss": 1.3709,
       "step": 10
     },
     {
       "epoch": 0.6666666666666666,
+      "eval_loss": 1.203778624534607,
+      "eval_runtime": 3.3279,
+      "eval_samples_per_second": 9.015,
+      "eval_steps_per_second": 1.202,
       "step": 10
     },
     {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 1.048361897468567,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.2364,
+      "step": 11
     },
     {
+      "epoch": 0.7333333333333333,
+      "eval_loss": 1.1757938861846924,
+      "eval_runtime": 3.3188,
+      "eval_samples_per_second": 9.039,
+      "eval_steps_per_second": 1.205,
+      "step": 11
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 1.2803599834442139,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 1.2579,
+      "step": 12
     },
     {
+      "epoch": 0.8,
+      "eval_loss": 1.1277642250061035,
+      "eval_runtime": 3.3144,
+      "eval_samples_per_second": 9.051,
+      "eval_steps_per_second": 1.207,
+      "step": 12
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 0.9900616407394409,
+      "learning_rate": 0.0004,
+      "loss": 1.2464,
+      "step": 13
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "eval_loss": 1.096318006515503,
+      "eval_runtime": 3.3205,
+      "eval_samples_per_second": 9.035,
       "eval_steps_per_second": 1.205,
+      "step": 13
     },
     {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 0.938148558139801,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 1.1186,
+      "step": 14
     },
     {
+      "epoch": 0.9333333333333333,
+      "eval_loss": 1.0564769506454468,
+      "eval_runtime": 3.3276,
+      "eval_samples_per_second": 9.016,
       "eval_steps_per_second": 1.202,
+      "step": 14
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 0.8505716919898987,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 1.2296,
+      "step": 15
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 1.0473049879074097,
+      "eval_runtime": 3.3243,
+      "eval_samples_per_second": 9.024,
       "eval_steps_per_second": 1.203,
+      "step": 15
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 0.7325059771537781,
+      "learning_rate": 0.0005,
+      "loss": 0.9783,
+      "step": 16
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "eval_loss": 1.0419175624847412,
+      "eval_runtime": 3.3416,
+      "eval_samples_per_second": 8.978,
+      "eval_steps_per_second": 1.197,
+      "step": 16
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "grad_norm": 0.7908775210380554,
+      "learning_rate": 0.0004809698831278217,
+      "loss": 1.0939,
+      "step": 17
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "eval_loss": 1.0089648962020874,
+      "eval_runtime": 3.3377,
+      "eval_samples_per_second": 8.988,
+      "eval_steps_per_second": 1.198,
+      "step": 17
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.7146658897399902,
+      "learning_rate": 0.00042677669529663686,
+      "loss": 0.992,
+      "step": 18
     },
     {
+      "epoch": 1.2,
+      "eval_loss": 0.9708396792411804,
+      "eval_runtime": 3.33,
+      "eval_samples_per_second": 9.009,
+      "eval_steps_per_second": 1.201,
+      "step": 18
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "grad_norm": 0.6956806182861328,
+      "learning_rate": 0.0003456708580912725,
+      "loss": 0.9578,
+      "step": 19
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "eval_loss": 0.9544664025306702,
+      "eval_runtime": 3.3223,
+      "eval_samples_per_second": 9.03,
+      "eval_steps_per_second": 1.204,
+      "step": 19
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.7333602905273438,
+      "learning_rate": 0.00025,
+      "loss": 1.1197,
+      "step": 20
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "eval_loss": 0.9369742274284363,
+      "eval_runtime": 3.3355,
+      "eval_samples_per_second": 8.994,
+      "eval_steps_per_second": 1.199,
+      "step": 20
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.7053349018096924,
+      "learning_rate": 0.00015432914190872756,
+      "loss": 1.0545,
+      "step": 21
     },
     {
+      "epoch": 1.4,
+      "eval_loss": 0.9231411814689636,
+      "eval_runtime": 3.3317,
+      "eval_samples_per_second": 9.004,
       "eval_steps_per_second": 1.201,
+      "step": 21
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 0.5652966499328613,
+      "learning_rate": 7.322330470336314e-05,
+      "loss": 0.9764,
+      "step": 22
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "eval_loss": 0.9144799709320068,
+      "eval_runtime": 3.3324,
+      "eval_samples_per_second": 9.003,
+      "eval_steps_per_second": 1.2,
+      "step": 22
     },
     {
+      "epoch": 1.5333333333333332,
+      "grad_norm": 0.56754070520401,
+      "learning_rate": 1.9030116872178316e-05,
+      "loss": 0.9562,
+      "step": 23
     },
     {
+      "epoch": 1.5333333333333332,
+      "eval_loss": 0.9112974405288696,
+      "eval_runtime": 3.3274,
+      "eval_samples_per_second": 9.016,
       "eval_steps_per_second": 1.202,
+      "step": 23
     }
   ],
+  "logging_steps": 1,
+  "max_steps": 23,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 946074559119360.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a4881e81b9ca513aa7ee418abba6bafaf00b173fdc47f99ead9d8dc6b671090
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:f55db786049ad6fe917e1d0d5fd3dc2312035726f08222f291aca0d8f2dee3c5
 size 6033