Training in progress, epoch 0, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +137 -69
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
     "q_proj",
-    "down_proj",
     "o_proj",
     "gate_proj",
-    "up_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "q_proj",
+    "k_proj",
     "o_proj",
     "gate_proj",
+    "v_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02e9e6cfd491339a63f64471a7a81cda3f53d2d51980e1b00307bca9bb403b17
 size 48552

 version https://git-lfs.github.com/spec/v1
+oid sha256:c693a75292cc1fa3a9f6f73a72febe4c6e07a58a4197545a4c4d4fd6e879b5ee
 size 48552

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d52d2ede02987bc8297c1be2a75b0d97e64a5099ea3b24849d0d3eca58d5dc89
 size 107046

 version https://git-lfs.github.com/spec/v1
+oid sha256:294259cb2c0619098026d5dab6b1d13ce9ce514c68aaa0eb013550087742d2a7
 size 107046

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac03d4c1e9618de3b84437676fe2619fcfaff76bcfcfab780d49e69aaca826ea
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aa86072d894b06ed15a781ebf27303cfbb0a54143c21949f75c3251dd2ec55c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a6e8ea84c6ecd44137e4a21b32f529d3562b8f29f7c3085359bd396071d4c55
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7962e06291987b3327e85ffe1a0f48aec5a6651b8b5139bec8a1fd5526407429
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,116 +1,184 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0041928721174003,
   "eval_steps": 500,
-  "global_step": 239,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.16771488469601678,
-      "grad_norm": 0.023019764572381973,
       "learning_rate": 0.000233974358974359,
-      "loss": 11.9301,
       "step": 20
     },
     {
       "epoch": 0.33542976939203356,
-      "grad_norm": 0.05555475503206253,
       "learning_rate": 0.0002126068376068376,
-      "loss": 11.9266,
       "step": 40
     },
     {
       "epoch": 0.5031446540880503,
-      "grad_norm": 0.04104316607117653,
       "learning_rate": 0.00019123931623931623,
-      "loss": 11.9229,
       "step": 60
     },
     {
-      "epoch": 0.6708595387840671,
-      "grad_norm": 0.0416753776371479,
-      "learning_rate": 0.0001698717948717949,
-      "loss": 11.9211,
-      "step": 80
     },
     {
-      "epoch": 0.8385744234800838,
-      "grad_norm": 0.04827936738729477,
-      "learning_rate": 0.0001485042735042735,
-      "loss": 11.9211,
-      "step": 100
     },
     {
-      "epoch": 0.9979035639412998,
-      "eval_loss": 11.919425964355469,
-      "eval_runtime": 0.4166,
-      "eval_samples_per_second": 242.468,
-      "eval_steps_per_second": 62.417,
-      "step": 119
     },
     {
-      "epoch": 1.0062893081761006,
-      "grad_norm": 0.11942638456821442,
-      "learning_rate": 0.00012713675213675213,
-      "loss": 12.3702,
-      "step": 120
     },
     {
-      "epoch": 1.1740041928721174,
-      "grad_norm": 0.059040140360593796,
-      "learning_rate": 0.00010576923076923077,
-      "loss": 11.8371,
-      "step": 140
     },
     {
-      "epoch": 1.3417190775681342,
-      "grad_norm": 0.06853944063186646,
-      "learning_rate": 8.440170940170941e-05,
-      "loss": 12.0029,
-      "step": 160
     },
     {
-      "epoch": 1.509433962264151,
-      "grad_norm": 0.030212825164198875,
-      "learning_rate": 6.303418803418804e-05,
-      "loss": 11.9184,
-      "step": 180
     },
     {
-      "epoch": 1.6771488469601676,
-      "grad_norm": 0.034588687121868134,
-      "learning_rate": 4.1666666666666665e-05,
-      "loss": 11.9407,
-      "step": 200
     },
     {
-      "epoch": 1.8448637316561844,
-      "grad_norm": 0.0361829474568367,
-      "learning_rate": 2.02991452991453e-05,
-      "loss": 11.8561,
-      "step": 220
     },
     {
-      "epoch": 1.9958071278825997,
-      "eval_loss": 11.917513847351074,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 241.592,
-      "eval_steps_per_second": 62.192,
-      "step": 238
     },
     {
-      "epoch": 2.0041928721174003,
-      "eval_loss": 11.917852401733398,
-      "eval_runtime": 0.4182,
-      "eval_samples_per_second": 241.517,
-      "eval_steps_per_second": 62.173,
-      "step": 239
     }
   ],
-  "logging_steps": 20,
   "max_steps": 239,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
@@ -122,12 +190,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 269012385792.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9979035639412998,
   "eval_steps": 500,
+  "global_step": 119,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.041928721174004195,
+      "grad_norm": 0.011030412279069424,
+      "learning_rate": 0.00025,
+      "loss": 11.9318,
+      "step": 5
+    },
+    {
+      "epoch": 0.08385744234800839,
+      "grad_norm": 0.014100322499871254,
+      "learning_rate": 0.00024465811965811965,
+      "loss": 11.9305,
+      "step": 10
+    },
+    {
+      "epoch": 0.12578616352201258,
+      "grad_norm": 0.017396269366145134,
+      "learning_rate": 0.00023931623931623932,
+      "loss": 11.9291,
+      "step": 15
+    },
     {
       "epoch": 0.16771488469601678,
+      "grad_norm": 0.022825436666607857,
       "learning_rate": 0.000233974358974359,
+      "loss": 11.9293,
       "step": 20
     },
+    {
+      "epoch": 0.20964360587002095,
+      "grad_norm": 0.030763259157538414,
+      "learning_rate": 0.00022863247863247864,
+      "loss": 11.928,
+      "step": 25
+    },
+    {
+      "epoch": 0.25157232704402516,
+      "grad_norm": 0.05623968690633774,
+      "learning_rate": 0.0002232905982905983,
+      "loss": 11.9273,
+      "step": 30
+    },
+    {
+      "epoch": 0.29350104821802936,
+      "grad_norm": 0.0468871183693409,
+      "learning_rate": 0.00021794871794871795,
+      "loss": 11.9263,
+      "step": 35
+    },
     {
       "epoch": 0.33542976939203356,
+      "grad_norm": 0.05555358901619911,
       "learning_rate": 0.0002126068376068376,
+      "loss": 11.9248,
       "step": 40
     },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.0784514918923378,
+      "learning_rate": 0.00020726495726495727,
+      "loss": 11.9244,
+      "step": 45
+    },
+    {
+      "epoch": 0.4192872117400419,
+      "grad_norm": 0.05951184406876564,
+      "learning_rate": 0.00020192307692307694,
+      "loss": 11.9228,
+      "step": 50
+    },
+    {
+      "epoch": 0.4612159329140461,
+      "grad_norm": 0.057042159140110016,
+      "learning_rate": 0.00019658119658119659,
+      "loss": 11.9221,
+      "step": 55
+    },
     {
       "epoch": 0.5031446540880503,
+      "grad_norm": 0.04163195937871933,
       "learning_rate": 0.00019123931623931623,
+      "loss": 11.9225,
       "step": 60
     },
     {
+      "epoch": 0.5450733752620545,
+      "grad_norm": 0.03262303024530411,
+      "learning_rate": 0.0001858974358974359,
+      "loss": 11.9226,
+      "step": 65
     },
     {
+      "epoch": 0.5870020964360587,
+      "grad_norm": 0.05241989716887474,
+      "learning_rate": 0.00018055555555555555,
+      "loss": 11.922,
+      "step": 70
     },
     {
+      "epoch": 0.6289308176100629,
+      "grad_norm": 0.06784799695014954,
+      "learning_rate": 0.00017521367521367522,
+      "loss": 11.9214,
+      "step": 75
+    },
+    {
+      "epoch": 0.6708595387840671,
+      "grad_norm": 0.042793747037649155,
+      "learning_rate": 0.0001698717948717949,
+      "loss": 11.9183,
+      "step": 80
     },
     {
+      "epoch": 0.7127882599580713,
+      "grad_norm": 0.0430237241089344,
+      "learning_rate": 0.00016452991452991454,
+      "loss": 11.9216,
+      "step": 85
     },
     {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.03868071734905243,
+      "learning_rate": 0.00015918803418803418,
+      "loss": 11.9194,
+      "step": 90
     },
     {
+      "epoch": 0.7966457023060797,
+      "grad_norm": 0.024328265339136124,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 11.9217,
+      "step": 95
     },
     {
+      "epoch": 0.8385744234800838,
+      "grad_norm": 0.04353172332048416,
+      "learning_rate": 0.0001485042735042735,
+      "loss": 11.9212,
+      "step": 100
     },
     {
+      "epoch": 0.8805031446540881,
+      "grad_norm": 0.057023949921131134,
+      "learning_rate": 0.00014316239316239317,
+      "loss": 11.92,
+      "step": 105
     },
     {
+      "epoch": 0.9224318658280922,
+      "grad_norm": 0.039732299745082855,
+      "learning_rate": 0.00013782051282051284,
+      "loss": 11.9183,
+      "step": 110
     },
     {
+      "epoch": 0.9643605870020965,
+      "grad_norm": 0.0544021911919117,
+      "learning_rate": 0.00013247863247863248,
+      "loss": 11.9203,
+      "step": 115
     },
     {
+      "epoch": 0.9979035639412998,
+      "eval_loss": 11.919066429138184,
+      "eval_runtime": 0.416,
+      "eval_samples_per_second": 242.779,
+      "eval_steps_per_second": 62.498,
+      "step": 119
     }
   ],
+  "logging_steps": 5,
   "max_steps": 239,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 134180413440.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6409c0415d59e9b8f683a402ccbf4bf65283e87400f87e225cb3fa657625637
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:47a2cea0175391dc361c529537163a9e0c00600decdea164c934ea89be542405
 size 6776