Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
trainer_state.json +120 -120
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,9 +23,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "qkv_proj",
-    "gate_up_proj",
     "down_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
+    "gate_up_proj",
+    "qkv_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f571970d62c9a8caf2e66a1489442f03be777c696646e79f5de2ea09da524792
 size 632310976

 version https://git-lfs.github.com/spec/v1
+oid sha256:219277153c7e6beba1374d1b5a4bae962aaa8a602522d8448a59e093c3b0d3de
 size 632310976

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a907cfe89e9e772a52b6a29b54df5ff87fcc123733b91bbc909a0297c1645ae0
 size 1264705163

 version https://git-lfs.github.com/spec/v1
+oid sha256:3160fe49690479d2d460f0ecedca6162eded8370072c39b917293c6283cd1106
 size 1264705163

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 200,
-  "best_metric": 0.07751981914043427,
   "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_Qwen/Qwen2.5-3B-Instruct/checkpoint-200",
   "epoch": 10.526315789473685,
   "eval_steps": 10,
@@ -11,302 +11,302 @@
   "log_history": [
     {
       "epoch": 0.5263157894736842,
-      "grad_norm": 18.681015014648438,
       "learning_rate": 0.0003,
-      "loss": 1.6766,
       "step": 10
     },
     {
       "epoch": 0.5263157894736842,
-      "eval_loss": 1.6542210578918457,
-      "eval_runtime": 2.9595,
-      "eval_samples_per_second": 10.137,
-      "eval_steps_per_second": 1.352,
       "step": 10
     },
     {
       "epoch": 1.0526315789473684,
-      "grad_norm": 2.2868361473083496,
       "learning_rate": 0.0004996426526821629,
-      "loss": 1.7116,
       "step": 20
     },
     {
       "epoch": 1.0526315789473684,
-      "eval_loss": 0.9941667914390564,
-      "eval_runtime": 2.9204,
-      "eval_samples_per_second": 10.273,
-      "eval_steps_per_second": 1.37,
       "step": 20
     },
     {
       "epoch": 1.5789473684210527,
-      "grad_norm": 27.153867721557617,
       "learning_rate": 0.000495634218306187,
-      "loss": 1.5062,
       "step": 30
     },
     {
       "epoch": 1.5789473684210527,
-      "eval_loss": 1.3414534330368042,
-      "eval_runtime": 2.9658,
-      "eval_samples_per_second": 10.115,
-      "eval_steps_per_second": 1.349,
       "step": 30
     },
     {
       "epoch": 2.1052631578947367,
-      "grad_norm": 7.481041431427002,
       "learning_rate": 0.0004872424354853545,
-      "loss": 1.2521,
       "step": 40
     },
     {
       "epoch": 2.1052631578947367,
-      "eval_loss": 1.2095614671707153,
-      "eval_runtime": 2.9569,
-      "eval_samples_per_second": 10.146,
-      "eval_steps_per_second": 1.353,
       "step": 40
     },
     {
       "epoch": 2.6315789473684212,
-      "grad_norm": 2.246990442276001,
       "learning_rate": 0.00047461705578290833,
-      "loss": 1.0129,
       "step": 50
     },
     {
       "epoch": 2.6315789473684212,
-      "eval_loss": 0.9087256789207458,
-      "eval_runtime": 2.9647,
-      "eval_samples_per_second": 10.119,
-      "eval_steps_per_second": 1.349,
       "step": 50
     },
     {
       "epoch": 3.1578947368421053,
-      "grad_norm": 96.21257781982422,
       "learning_rate": 0.00045798337939873923,
-      "loss": 2.4625,
       "step": 60
     },
     {
       "epoch": 3.1578947368421053,
-      "eval_loss": 4.777709484100342,
-      "eval_runtime": 2.9487,
-      "eval_samples_per_second": 10.174,
-      "eval_steps_per_second": 1.357,
       "step": 60
     },
     {
       "epoch": 3.6842105263157894,
-      "grad_norm": 9.973808288574219,
       "learning_rate": 0.0004376382346819819,
-      "loss": 3.3295,
       "step": 70
     },
     {
       "epoch": 3.6842105263157894,
-      "eval_loss": 1.1951773166656494,
-      "eval_runtime": 2.9632,
-      "eval_samples_per_second": 10.124,
-      "eval_steps_per_second": 1.35,
       "step": 70
     },
     {
       "epoch": 4.2105263157894735,
-      "grad_norm": 2.2323639392852783,
       "learning_rate": 0.0004139446812220924,
-      "loss": 1.0794,
       "step": 80
     },
     {
       "epoch": 4.2105263157894735,
-      "eval_loss": 0.8177169561386108,
-      "eval_runtime": 2.9594,
-      "eval_samples_per_second": 10.137,
-      "eval_steps_per_second": 1.352,
       "step": 80
     },
     {
       "epoch": 4.7368421052631575,
-      "grad_norm": 3.0855352878570557,
       "learning_rate": 0.00038732553104187296,
-      "loss": 1.1521,
       "step": 90
     },
     {
       "epoch": 4.7368421052631575,
-      "eval_loss": 0.9294276833534241,
-      "eval_runtime": 2.9579,
-      "eval_samples_per_second": 10.142,
-      "eval_steps_per_second": 1.352,
       "step": 90
     },
     {
       "epoch": 5.2631578947368425,
-      "grad_norm": 2.238079071044922,
       "learning_rate": 0.0003582558035069091,
-      "loss": 0.9498,
       "step": 100
     },
     {
       "epoch": 5.2631578947368425,
-      "eval_loss": 0.811234176158905,
-      "eval_runtime": 2.963,
-      "eval_samples_per_second": 10.125,
-      "eval_steps_per_second": 1.35,
       "step": 100
     },
     {
       "epoch": 5.7894736842105265,
-      "grad_norm": 2.5768349170684814,
       "learning_rate": 0.00032725424859373687,
-      "loss": 0.8017,
       "step": 110
     },
     {
       "epoch": 5.7894736842105265,
-      "eval_loss": 0.7408804297447205,
-      "eval_runtime": 2.9552,
-      "eval_samples_per_second": 10.151,
       "eval_steps_per_second": 1.354,
       "step": 110
     },
     {
       "epoch": 6.315789473684211,
-      "grad_norm": 1.3286046981811523,
       "learning_rate": 0.0002948740897842223,
-      "loss": 0.7342,
       "step": 120
     },
     {
       "epoch": 6.315789473684211,
-      "eval_loss": 0.6850324273109436,
-      "eval_runtime": 2.9619,
-      "eval_samples_per_second": 10.129,
-      "eval_steps_per_second": 1.35,
       "step": 120
     },
     {
       "epoch": 6.842105263157895,
-      "grad_norm": 1.8766930103302002,
       "learning_rate": 0.00026169315177942135,
-      "loss": 0.6958,
       "step": 130
     },
     {
       "epoch": 6.842105263157895,
-      "eval_loss": 0.579915463924408,
-      "eval_runtime": 2.956,
-      "eval_samples_per_second": 10.149,
-      "eval_steps_per_second": 1.353,
       "step": 130
     },
     {
       "epoch": 7.368421052631579,
-      "grad_norm": 1.2298275232315063,
       "learning_rate": 0.00022830354920410064,
-      "loss": 0.6327,
       "step": 140
     },
     {
       "epoch": 7.368421052631579,
-      "eval_loss": 0.5571870803833008,
-      "eval_runtime": 2.9559,
-      "eval_samples_per_second": 10.149,
-      "eval_steps_per_second": 1.353,
       "step": 140
     },
     {
       "epoch": 7.894736842105263,
-      "grad_norm": 1.4947859048843384,
       "learning_rate": 0.0001953011203072312,
-      "loss": 0.5699,
       "step": 150
     },
     {
       "epoch": 7.894736842105263,
-      "eval_loss": 0.47740742564201355,
-      "eval_runtime": 2.966,
-      "eval_samples_per_second": 10.115,
-      "eval_steps_per_second": 1.349,
       "step": 150
     },
     {
       "epoch": 8.421052631578947,
-      "grad_norm": 2.0249719619750977,
       "learning_rate": 0.00016327479421431983,
-      "loss": 0.4651,
       "step": 160
     },
     {
       "epoch": 8.421052631578947,
-      "eval_loss": 0.39508286118507385,
-      "eval_runtime": 2.9527,
-      "eval_samples_per_second": 10.16,
-      "eval_steps_per_second": 1.355,
       "step": 160
     },
     {
       "epoch": 8.947368421052632,
-      "grad_norm": 1.2812429666519165,
       "learning_rate": 0.00013279608147321223,
-      "loss": 0.4375,
       "step": 170
     },
     {
       "epoch": 8.947368421052632,
-      "eval_loss": 0.30384376645088196,
-      "eval_runtime": 2.968,
-      "eval_samples_per_second": 10.108,
-      "eval_steps_per_second": 1.348,
       "step": 170
     },
     {
       "epoch": 9.473684210526315,
-      "grad_norm": 1.797318935394287,
       "learning_rate": 0.00010440887543482746,
-      "loss": 0.2687,
       "step": 180
     },
     {
       "epoch": 9.473684210526315,
-      "eval_loss": 0.21915049850940704,
-      "eval_runtime": 2.9636,
-      "eval_samples_per_second": 10.123,
-      "eval_steps_per_second": 1.35,
       "step": 180
     },
     {
       "epoch": 10.0,
-      "grad_norm": 1.2623144388198853,
       "learning_rate": 7.861974646342596e-05,
-      "loss": 0.2708,
       "step": 190
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.14943605661392212,
-      "eval_runtime": 2.9609,
-      "eval_samples_per_second": 10.132,
-      "eval_steps_per_second": 1.351,
       "step": 190
     },
     {
       "epoch": 10.526315789473685,
-      "grad_norm": 1.1345982551574707,
       "learning_rate": 5.58889021764582e-05,
-      "loss": 0.1275,
       "step": 200
     },
     {
       "epoch": 10.526315789473685,
-      "eval_loss": 0.07751981914043427,
-      "eval_runtime": 2.9635,
-      "eval_samples_per_second": 10.123,
-      "eval_steps_per_second": 1.35,
       "step": 200
     }
   ],

 {
   "best_global_step": 200,
+  "best_metric": 0.09495183825492859,
   "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_Qwen/Qwen2.5-3B-Instruct/checkpoint-200",
   "epoch": 10.526315789473685,
   "eval_steps": 10,
   "log_history": [
     {
       "epoch": 0.5263157894736842,
+      "grad_norm": 2.6249654293060303,
       "learning_rate": 0.0003,
+      "loss": 1.6684,
       "step": 10
     },
     {
       "epoch": 0.5263157894736842,
+      "eval_loss": 0.9868702292442322,
+      "eval_runtime": 2.9701,
+      "eval_samples_per_second": 10.101,
+      "eval_steps_per_second": 1.347,
       "step": 10
     },
     {
       "epoch": 1.0526315789473684,
+      "grad_norm": 98.9109115600586,
       "learning_rate": 0.0004996426526821629,
+      "loss": 1.1963,
       "step": 20
     },
     {
       "epoch": 1.0526315789473684,
+      "eval_loss": 1.1383196115493774,
+      "eval_runtime": 2.948,
+      "eval_samples_per_second": 10.176,
+      "eval_steps_per_second": 1.357,
       "step": 20
     },
     {
       "epoch": 1.5789473684210527,
+      "grad_norm": 2.453364849090576,
       "learning_rate": 0.000495634218306187,
+      "loss": 1.2926,
       "step": 30
     },
     {
       "epoch": 1.5789473684210527,
+      "eval_loss": 0.9744565486907959,
+      "eval_runtime": 2.9493,
+      "eval_samples_per_second": 10.172,
+      "eval_steps_per_second": 1.356,
       "step": 30
     },
     {
       "epoch": 2.1052631578947367,
+      "grad_norm": 4.493265628814697,
       "learning_rate": 0.0004872424354853545,
+      "loss": 1.974,
       "step": 40
     },
     {
       "epoch": 2.1052631578947367,
+      "eval_loss": 0.9542869329452515,
+      "eval_runtime": 2.9431,
+      "eval_samples_per_second": 10.193,
+      "eval_steps_per_second": 1.359,
       "step": 40
     },
     {
       "epoch": 2.6315789473684212,
+      "grad_norm": 13.221575736999512,
       "learning_rate": 0.00047461705578290833,
+      "loss": 1.0402,
       "step": 50
     },
     {
       "epoch": 2.6315789473684212,
+      "eval_loss": 1.1257095336914062,
+      "eval_runtime": 2.9455,
+      "eval_samples_per_second": 10.185,
+      "eval_steps_per_second": 1.358,
       "step": 50
     },
     {
       "epoch": 3.1578947368421053,
+      "grad_norm": 166.74429321289062,
       "learning_rate": 0.00045798337939873923,
+      "loss": 1.1376,
       "step": 60
     },
     {
       "epoch": 3.1578947368421053,
+      "eval_loss": 4.395293712615967,
+      "eval_runtime": 2.9496,
+      "eval_samples_per_second": 10.171,
+      "eval_steps_per_second": 1.356,
       "step": 60
     },
     {
       "epoch": 3.6842105263157894,
+      "grad_norm": 12.618789672851562,
       "learning_rate": 0.0004376382346819819,
+      "loss": 1.4838,
       "step": 70
     },
     {
       "epoch": 3.6842105263157894,
+      "eval_loss": 0.8322703242301941,
+      "eval_runtime": 2.9453,
+      "eval_samples_per_second": 10.186,
+      "eval_steps_per_second": 1.358,
       "step": 70
     },
     {
       "epoch": 4.2105263157894735,
+      "grad_norm": 9.384139060974121,
       "learning_rate": 0.0004139446812220924,
+      "loss": 1.2534,
       "step": 80
     },
     {
       "epoch": 4.2105263157894735,
+      "eval_loss": 0.9503701329231262,
+      "eval_runtime": 2.9381,
+      "eval_samples_per_second": 10.211,
+      "eval_steps_per_second": 1.361,
       "step": 80
     },
     {
       "epoch": 4.7368421052631575,
+      "grad_norm": 1.788373589515686,
       "learning_rate": 0.00038732553104187296,
+      "loss": 0.8956,
       "step": 90
     },
     {
       "epoch": 4.7368421052631575,
+      "eval_loss": 0.7270878553390503,
+      "eval_runtime": 2.9534,
+      "eval_samples_per_second": 10.158,
+      "eval_steps_per_second": 1.354,
       "step": 90
     },
     {
       "epoch": 5.2631578947368425,
+      "grad_norm": 17.652860641479492,
       "learning_rate": 0.0003582558035069091,
+      "loss": 0.8018,
       "step": 100
     },
     {
       "epoch": 5.2631578947368425,
+      "eval_loss": 0.9296186566352844,
+      "eval_runtime": 2.9361,
+      "eval_samples_per_second": 10.218,
+      "eval_steps_per_second": 1.362,
       "step": 100
     },
     {
       "epoch": 5.7894736842105265,
+      "grad_norm": 2.3047244548797607,
       "learning_rate": 0.00032725424859373687,
+      "loss": 0.8493,
       "step": 110
     },
     {
       "epoch": 5.7894736842105265,
+      "eval_loss": 0.7011998891830444,
+      "eval_runtime": 2.9544,
+      "eval_samples_per_second": 10.154,
       "eval_steps_per_second": 1.354,
       "step": 110
     },
     {
       "epoch": 6.315789473684211,
+      "grad_norm": 1.649305820465088,
       "learning_rate": 0.0002948740897842223,
+      "loss": 0.6742,
       "step": 120
     },
     {
       "epoch": 6.315789473684211,
+      "eval_loss": 0.6724004149436951,
+      "eval_runtime": 2.9459,
+      "eval_samples_per_second": 10.184,
+      "eval_steps_per_second": 1.358,
       "step": 120
     },
     {
       "epoch": 6.842105263157895,
+      "grad_norm": 1.2425477504730225,
       "learning_rate": 0.00026169315177942135,
+      "loss": 0.6651,
       "step": 130
     },
     {
       "epoch": 6.842105263157895,
+      "eval_loss": 0.5668935179710388,
+      "eval_runtime": 2.944,
+      "eval_samples_per_second": 10.19,
+      "eval_steps_per_second": 1.359,
       "step": 130
     },
     {
       "epoch": 7.368421052631579,
+      "grad_norm": 1.3508877754211426,
       "learning_rate": 0.00022830354920410064,
+      "loss": 0.6002,
       "step": 140
     },
     {
       "epoch": 7.368421052631579,
+      "eval_loss": 0.552211344242096,
+      "eval_runtime": 2.9471,
+      "eval_samples_per_second": 10.179,
+      "eval_steps_per_second": 1.357,
       "step": 140
     },
     {
       "epoch": 7.894736842105263,
+      "grad_norm": 1.030277132987976,
       "learning_rate": 0.0001953011203072312,
+      "loss": 0.5302,
       "step": 150
     },
     {
       "epoch": 7.894736842105263,
+      "eval_loss": 0.43232136964797974,
+      "eval_runtime": 2.9451,
+      "eval_samples_per_second": 10.186,
+      "eval_steps_per_second": 1.358,
       "step": 150
     },
     {
       "epoch": 8.421052631578947,
+      "grad_norm": 1.2759102582931519,
       "learning_rate": 0.00016327479421431983,
+      "loss": 0.4205,
       "step": 160
     },
     {
       "epoch": 8.421052631578947,
+      "eval_loss": 0.3660585284233093,
+      "eval_runtime": 2.9446,
+      "eval_samples_per_second": 10.188,
+      "eval_steps_per_second": 1.358,
       "step": 160
     },
     {
       "epoch": 8.947368421052632,
+      "grad_norm": 1.2652796506881714,
       "learning_rate": 0.00013279608147321223,
+      "loss": 0.4143,
       "step": 170
     },
     {
       "epoch": 8.947368421052632,
+      "eval_loss": 0.2963067889213562,
+      "eval_runtime": 2.9476,
+      "eval_samples_per_second": 10.178,
+      "eval_steps_per_second": 1.357,
       "step": 170
     },
     {
       "epoch": 9.473684210526315,
+      "grad_norm": 1.2629317045211792,
       "learning_rate": 0.00010440887543482746,
+      "loss": 0.2601,
       "step": 180
     },
     {
       "epoch": 9.473684210526315,
+      "eval_loss": 0.21139691770076752,
+      "eval_runtime": 2.9514,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 1.355,
       "step": 180
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.5134602785110474,
       "learning_rate": 7.861974646342596e-05,
+      "loss": 0.2535,
       "step": 190
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.15356798470020294,
+      "eval_runtime": 2.945,
+      "eval_samples_per_second": 10.187,
+      "eval_steps_per_second": 1.358,
       "step": 190
     },
     {
       "epoch": 10.526315789473685,
+      "grad_norm": 1.9126681089401245,
       "learning_rate": 5.58889021764582e-05,
+      "loss": 0.1294,
       "step": 200
     },
     {
       "epoch": 10.526315789473685,
+      "eval_loss": 0.09495183825492859,
+      "eval_runtime": 2.9433,
+      "eval_samples_per_second": 10.193,
+      "eval_steps_per_second": 1.359,
       "step": 200
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd47b7f55aff0ef5f2641e2589e9395de522d815e4af6c0e3613ff39bcd994a0
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:d501d12360f6c481d46e613473eead035956f34cee7f63a86b84918ee2ecad93
 size 6033