Upload LoRA adapter (Fixed README metadata)

Browse files

Files changed (4) hide show

README.md +2 -2
adapter_config.json +7 -7
adapter_model.safetensors +2 -2
all_experiments_details.json +420 -420

README.md CHANGED Viewed

@@ -39,8 +39,8 @@ while intermediate reasoning (Chain-of-Thought) is masked.
 - Method: QLoRA (4-bit)
 - Max sequence length: 512
 - Epochs: 1
-- Learning rate: 1e-04
-- LoRA: r=32, alpha=64
 ## Usage

 - Method: QLoRA (4-bit)
 - Max sequence length: 512
 - Epochs: 1
+- Learning rate: 1e-06
+- LoRA: r=80, alpha=160
 ## Usage

adapter_config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.0,
   "megatron_config": null,
@@ -29,17 +29,17 @@
   "peft_type": "LORA",
   "peft_version": "0.18.1",
   "qalora_group_size": 16,
-  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
     "v_proj",
-    "o_proj",
-    "gate_proj",
-    "k_proj",
     "down_proj",
-    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 160,
   "lora_bias": false,
   "lora_dropout": 0.0,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.1",
   "qalora_group_size": 16,
+  "r": 80,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
     "down_proj",
+    "q_proj",
+    "k_proj",
+    "gate_proj",
+    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87158f985ea3df9cecafe79a9eb0cc460b9ace2f5ebdd889befd0a6711811ed9
-size 264308896

 version https://git-lfs.github.com/spec/v1
+oid sha256:32d951a8a18e0ae23940e93375640002eeb176d147e4512c2933c571edd1c141
+size 660670872

all_experiments_details.json CHANGED Viewed

@@ -13,8 +13,8 @@
             "SEED": 3407,
             "VAL_RATIO": 0.05,
             "MAX_SEQ_LEN": 512,
-            "LORA_R": 32,
-            "LORA_ALPHA": 64,
             "LORA_DROPOUT": 0.0,
             "LORA_TARGET_MODULES": [
                 "q_proj",
@@ -29,7 +29,7 @@
             "PER_DEVICE_TRAIN_BS": 2,
             "PER_DEVICE_EVAL_BS": 2,
             "GRAD_ACCUM": 8,
-            "LR": 0.0001,
             "WARMUP_RATIO": 0.1,
             "WEIGHT_DECAY": 0.05,
             "MAX_STEPS": -1,
@@ -53,945 +53,945 @@
         },
         "history": [
             {
-                "loss": 1.9109,
-                "grad_norm": 3.2909586429595947,
-                "learning_rate": 8.181818181818183e-06,
                 "epoch": 0.009169054441260744,
                 "step": 10
             },
             {
-                "loss": 1.5949,
-                "grad_norm": 0.8696144223213196,
-                "learning_rate": 1.7272727272727274e-05,
                 "epoch": 0.01833810888252149,
                 "step": 20
             },
             {
-                "loss": 1.4542,
-                "grad_norm": 0.41898515820503235,
-                "learning_rate": 2.636363636363636e-05,
                 "epoch": 0.027507163323782235,
                 "step": 30
             },
             {
-                "loss": 1.241,
-                "grad_norm": 0.42209118604660034,
-                "learning_rate": 3.545454545454546e-05,
                 "epoch": 0.03667621776504298,
                 "step": 40
             },
             {
-                "loss": 1.3934,
-                "grad_norm": 0.7735824584960938,
-                "learning_rate": 4.454545454545455e-05,
                 "epoch": 0.045845272206303724,
                 "step": 50
             },
             {
-                "eval_loss": 1.1486613750457764,
-                "eval_runtime": 157.2295,
-                "eval_samples_per_second": 5.902,
-                "eval_steps_per_second": 2.951,
                 "epoch": 0.045845272206303724,
                 "step": 50
             },
             {
-                "loss": 1.1159,
-                "grad_norm": 0.4702383875846863,
-                "learning_rate": 5.363636363636364e-05,
                 "epoch": 0.05501432664756447,
                 "step": 60
             },
             {
-                "loss": 1.0729,
-                "grad_norm": 0.4587116539478302,
-                "learning_rate": 6.272727272727273e-05,
                 "epoch": 0.06418338108882521,
                 "step": 70
             },
             {
-                "loss": 1.049,
-                "grad_norm": 0.5562591552734375,
-                "learning_rate": 7.181818181818182e-05,
                 "epoch": 0.07335243553008595,
                 "step": 80
             },
             {
-                "loss": 0.9021,
-                "grad_norm": 0.6512398719787598,
-                "learning_rate": 8.090909090909092e-05,
                 "epoch": 0.0825214899713467,
                 "step": 90
             },
             {
-                "loss": 0.9578,
-                "grad_norm": 0.6464130878448486,
-                "learning_rate": 9e-05,
                 "epoch": 0.09169054441260745,
                 "step": 100
             },
             {
-                "eval_loss": 0.8903455138206482,
-                "eval_runtime": 149.8861,
-                "eval_samples_per_second": 6.191,
-                "eval_steps_per_second": 3.096,
                 "epoch": 0.09169054441260745,
                 "step": 100
             },
             {
-                "loss": 0.9056,
-                "grad_norm": 0.5816523432731628,
-                "learning_rate": 9.909090909090911e-05,
                 "epoch": 0.1008595988538682,
                 "step": 110
             },
             {
-                "loss": 0.8961,
-                "grad_norm": 0.6272807121276855,
-                "learning_rate": 9.997923381619256e-05,
                 "epoch": 0.11002865329512894,
                 "step": 120
             },
             {
-                "loss": 0.8718,
-                "grad_norm": 0.3907865881919861,
-                "learning_rate": 9.990747162241872e-05,
                 "epoch": 0.11919770773638969,
                 "step": 130
             },
             {
-                "loss": 0.8814,
-                "grad_norm": 0.4261883497238159,
-                "learning_rate": 9.978453061876696e-05,
                 "epoch": 0.12836676217765042,
                 "step": 140
             },
             {
-                "loss": 0.9294,
-                "grad_norm": 0.3960123658180237,
-                "learning_rate": 9.96105368780285e-05,
                 "epoch": 0.13753581661891118,
                 "step": 150
             },
             {
-                "eval_loss": 0.8402041792869568,
-                "eval_runtime": 153.7211,
-                "eval_samples_per_second": 6.037,
-                "eval_steps_per_second": 3.018,
                 "epoch": 0.13753581661891118,
                 "step": 150
             },
             {
-                "loss": 0.8915,
-                "grad_norm": 0.45985275506973267,
-                "learning_rate": 9.938566882624436e-05,
                 "epoch": 0.1467048710601719,
                 "step": 160
             },
             {
-                "loss": 0.8776,
-                "grad_norm": 0.4007140100002289,
-                "learning_rate": 9.9110157059734e-05,
                 "epoch": 0.15587392550143267,
                 "step": 170
             },
             {
-                "loss": 0.8804,
-                "grad_norm": 0.5031015872955322,
-                "learning_rate": 9.878428410862483e-05,
                 "epoch": 0.1650429799426934,
                 "step": 180
             },
             {
-                "loss": 0.8733,
-                "grad_norm": 0.3346236050128937,
-                "learning_rate": 9.840838414712501e-05,
                 "epoch": 0.17421203438395416,
                 "step": 190
             },
             {
-                "loss": 0.7578,
-                "grad_norm": 0.37552139163017273,
-                "learning_rate": 9.798284265083642e-05,
                 "epoch": 0.1833810888252149,
                 "step": 200
             },
             {
-                "eval_loss": 0.8151949048042297,
-                "eval_runtime": 147.771,
-                "eval_samples_per_second": 6.28,
-                "eval_steps_per_second": 3.14,
                 "epoch": 0.1833810888252149,
                 "step": 200
             },
             {
-                "loss": 0.8844,
-                "grad_norm": 0.3008505403995514,
-                "learning_rate": 9.750809600145954e-05,
                 "epoch": 0.19255014326647565,
                 "step": 210
             },
             {
-                "loss": 0.806,
-                "grad_norm": 0.40879538655281067,
-                "learning_rate": 9.698463103929542e-05,
                 "epoch": 0.2017191977077364,
                 "step": 220
             },
             {
-                "loss": 0.757,
-                "grad_norm": 0.2864895164966583,
-                "learning_rate": 9.641298456400363e-05,
                 "epoch": 0.21088825214899715,
                 "step": 230
             },
             {
-                "loss": 0.8971,
-                "grad_norm": 0.4410439431667328,
-                "learning_rate": 9.579374278412819e-05,
                 "epoch": 0.22005730659025788,
                 "step": 240
             },
             {
-                "loss": 0.8188,
-                "grad_norm": 0.3572053611278534,
-                "learning_rate": 9.512754071595605e-05,
                 "epoch": 0.22922636103151864,
                 "step": 250
             },
             {
-                "eval_loss": 0.8022013902664185,
-                "eval_runtime": 149.5554,
-                "eval_samples_per_second": 6.205,
-                "eval_steps_per_second": 3.103,
                 "epoch": 0.22922636103151864,
                 "step": 250
             },
             {
-                "loss": 0.8794,
-                "grad_norm": 0.3161059617996216,
-                "learning_rate": 9.441506153232443e-05,
                 "epoch": 0.23839541547277937,
                 "step": 260
             },
             {
-                "loss": 0.7863,
-                "grad_norm": 0.3244767487049103,
-                "learning_rate": 9.365703586204496e-05,
                 "epoch": 0.2475644699140401,
                 "step": 270
             },
             {
-                "loss": 0.9084,
-                "grad_norm": 0.40793028473854065,
-                "learning_rate": 9.285424104066276e-05,
                 "epoch": 0.25673352435530084,
                 "step": 280
             },
             {
-                "loss": 0.8005,
-                "grad_norm": 0.2878340184688568,
-                "learning_rate": 9.20075003133193e-05,
                 "epoch": 0.2659025787965616,
                 "step": 290
             },
             {
-                "loss": 0.8717,
-                "grad_norm": 0.42775702476501465,
-                "learning_rate": 9.111768199053588e-05,
                 "epoch": 0.27507163323782235,
                 "step": 300
             },
             {
-                "eval_loss": 0.7930753231048584,
-                "eval_runtime": 159.9775,
-                "eval_samples_per_second": 5.801,
-                "eval_steps_per_second": 2.9,
                 "epoch": 0.27507163323782235,
                 "step": 300
             },
             {
-                "loss": 0.9456,
-                "grad_norm": 0.44111281633377075,
-                "learning_rate": 9.018569855778383e-05,
                 "epoch": 0.2842406876790831,
                 "step": 310
             },
             {
-                "loss": 0.8296,
-                "grad_norm": 0.29679298400878906,
-                "learning_rate": 8.921250573975456e-05,
                 "epoch": 0.2934097421203438,
                 "step": 320
             },
             {
-                "loss": 0.7403,
-                "grad_norm": 0.3140794634819031,
-                "learning_rate": 8.819910152028872e-05,
                 "epoch": 0.3025787965616046,
                 "step": 330
             },
             {
-                "loss": 0.8083,
-                "grad_norm": 0.2960476279258728,
-                "learning_rate": 8.714652511896994e-05,
                 "epoch": 0.31174785100286534,
                 "step": 340
             },
             {
-                "loss": 0.7474,
-                "grad_norm": 0.5192521214485168,
-                "learning_rate": 8.605585592543212e-05,
                 "epoch": 0.3209169054441261,
                 "step": 350
             },
             {
-                "eval_loss": 0.7890114784240723,
-                "eval_runtime": 156.9758,
-                "eval_samples_per_second": 5.912,
-                "eval_steps_per_second": 2.956,
                 "epoch": 0.3209169054441261,
                 "step": 350
             },
             {
-                "loss": 0.8881,
-                "grad_norm": 0.26124686002731323,
-                "learning_rate": 8.492821239247364e-05,
                 "epoch": 0.3300859598853868,
                 "step": 360
             },
             {
-                "loss": 0.9664,
-                "grad_norm": 1.590624213218689,
-                "learning_rate": 8.376475088911317e-05,
                 "epoch": 0.33925501432664756,
                 "step": 370
             },
             {
-                "loss": 0.7176,
-                "grad_norm": 0.3093242943286896,
-                "learning_rate": 8.256666451476337e-05,
                 "epoch": 0.3484240687679083,
                 "step": 380
             },
             {
-                "loss": 0.9026,
-                "grad_norm": 0.5042882561683655,
-                "learning_rate": 8.133518187573862e-05,
                 "epoch": 0.35759312320916903,
                 "step": 390
             },
             {
-                "loss": 0.7752,
-                "grad_norm": 0.3653980791568756,
-                "learning_rate": 8.007156582535131e-05,
                 "epoch": 0.3667621776504298,
                 "step": 400
             },
             {
-                "eval_loss": 0.7844048738479614,
-                "eval_runtime": 149.3433,
-                "eval_samples_per_second": 6.214,
-                "eval_steps_per_second": 3.107,
                 "epoch": 0.3667621776504298,
                 "step": 400
             },
             {
-                "loss": 0.8571,
-                "grad_norm": 0.23480232059955597,
-                "learning_rate": 7.877711216888867e-05,
                 "epoch": 0.37593123209169055,
                 "step": 410
             },
             {
-                "loss": 0.769,
-                "grad_norm": 0.34751203656196594,
-                "learning_rate": 7.745314833479833e-05,
                 "epoch": 0.3851002865329513,
                 "step": 420
             },
             {
-                "loss": 0.7989,
-                "grad_norm": 0.2936677932739258,
-                "learning_rate": 7.6101032013445e-05,
                 "epoch": 0.394269340974212,
                 "step": 430
             },
             {
-                "loss": 0.789,
-                "grad_norm": 0.3774430751800537,
-                "learning_rate": 7.472214976483452e-05,
                 "epoch": 0.4034383954154728,
                 "step": 440
             },
             {
-                "loss": 0.7272,
-                "grad_norm": 0.3077329099178314,
-                "learning_rate": 7.33179155967327e-05,
                 "epoch": 0.41260744985673353,
                 "step": 450
             },
             {
-                "eval_loss": 0.7796526551246643,
-                "eval_runtime": 152.2118,
-                "eval_samples_per_second": 6.097,
-                "eval_steps_per_second": 3.048,
                 "epoch": 0.41260744985673353,
                 "step": 450
             },
             {
-                "loss": 0.7975,
-                "grad_norm": 0.2882915437221527,
-                "learning_rate": 7.188976951463723e-05,
                 "epoch": 0.4217765042979943,
                 "step": 460
             },
             {
-                "loss": 0.9331,
-                "grad_norm": 0.26507413387298584,
-                "learning_rate": 7.043917604508971e-05,
                 "epoch": 0.430945558739255,
                 "step": 470
             },
             {
-                "loss": 0.8037,
-                "grad_norm": 0.34291401505470276,
-                "learning_rate": 6.896762273384178e-05,
                 "epoch": 0.44011461318051576,
                 "step": 480
             },
             {
-                "loss": 0.7612,
-                "grad_norm": 0.43661966919898987,
-                "learning_rate": 6.747661862041585e-05,
                 "epoch": 0.4492836676217765,
                 "step": 490
             },
             {
-                "loss": 0.9427,
-                "grad_norm": 0.37725234031677246,
-                "learning_rate": 6.596769269062444e-05,
                 "epoch": 0.4584527220630373,
                 "step": 500
             },
             {
-                "eval_loss": 0.774621307849884,
-                "eval_runtime": 154.4593,
-                "eval_samples_per_second": 6.008,
-                "eval_steps_per_second": 3.004,
                 "epoch": 0.4584527220630373,
                 "step": 500
             },
             {
-                "loss": 0.8304,
-                "grad_norm": 0.30780285596847534,
-                "learning_rate": 6.444239230863504e-05,
                 "epoch": 0.467621776504298,
                 "step": 510
             },
             {
-                "loss": 0.715,
-                "grad_norm": 0.27012601494789124,
-                "learning_rate": 6.290228163018868e-05,
                 "epoch": 0.47679083094555874,
                 "step": 520
             },
             {
-                "loss": 0.7056,
-                "grad_norm": 0.2883375585079193,
-                "learning_rate": 6.134893999859887e-05,
                 "epoch": 0.4859598853868195,
                 "step": 530
             },
             {
-                "loss": 0.8827,
-                "grad_norm": 0.3120364248752594,
-                "learning_rate": 5.97839603251764e-05,
                 "epoch": 0.4951289398280802,
                 "step": 540
             },
             {
-                "loss": 0.7032,
-                "grad_norm": 0.2870006859302521,
-                "learning_rate": 5.820894745574025e-05,
                 "epoch": 0.504297994269341,
                 "step": 550
             },
             {
-                "eval_loss": 0.7724801898002625,
-                "eval_runtime": 154.0554,
-                "eval_samples_per_second": 6.024,
-                "eval_steps_per_second": 3.012,
                 "epoch": 0.504297994269341,
                 "step": 550
             },
             {
-                "loss": 0.7996,
-                "grad_norm": 0.2602643072605133,
-                "learning_rate": 5.662551652489009e-05,
                 "epoch": 0.5134670487106017,
                 "step": 560
             },
             {
-                "loss": 0.7694,
-                "grad_norm": 0.43268686532974243,
-                "learning_rate": 5.503529129972792e-05,
                 "epoch": 0.5226361031518625,
                 "step": 570
             },
             {
-                "loss": 0.7802,
-                "grad_norm": 0.3927740156650543,
-                "learning_rate": 5.34399025147273e-05,
                 "epoch": 0.5318051575931232,
                 "step": 580
             },
             {
-                "loss": 0.7649,
-                "grad_norm": 0.3333654999732971,
-                "learning_rate": 5.1840986199457606e-05,
                 "epoch": 0.540974212034384,
                 "step": 590
             },
             {
-                "loss": 0.8586,
-                "grad_norm": 0.29149171710014343,
-                "learning_rate": 5.024018200087855e-05,
                 "epoch": 0.5501432664756447,
                 "step": 600
             },
             {
-                "eval_loss": 0.7711001038551331,
-                "eval_runtime": 160.1497,
-                "eval_samples_per_second": 5.795,
-                "eval_steps_per_second": 2.897,
                 "epoch": 0.5501432664756447,
                 "step": 600
             },
             {
-                "loss": 0.8023,
-                "grad_norm": 0.48755213618278503,
-                "learning_rate": 4.863913150192481e-05,
                 "epoch": 0.5593123209169054,
                 "step": 610
             },
             {
-                "loss": 0.737,
-                "grad_norm": 0.290272057056427,
-                "learning_rate": 4.703947653810575e-05,
                 "epoch": 0.5684813753581662,
                 "step": 620
             },
             {
-                "loss": 0.8758,
-                "grad_norm": 0.2664808928966522,
-                "learning_rate": 4.544285751384584e-05,
                 "epoch": 0.5776504297994269,
                 "step": 630
             },
             {
-                "loss": 0.8121,
-                "grad_norm": 0.7378506660461426,
-                "learning_rate": 4.3850911720292756e-05,
                 "epoch": 0.5868194842406876,
                 "step": 640
             },
             {
-                "loss": 0.7965,
-                "grad_norm": 0.33212271332740784,
-                "learning_rate": 4.226527165631801e-05,
                 "epoch": 0.5959885386819485,
                 "step": 650
             },
             {
-                "eval_loss": 0.7688117027282715,
-                "eval_runtime": 157.579,
-                "eval_samples_per_second": 5.889,
-                "eval_steps_per_second": 2.945,
                 "epoch": 0.5959885386819485,
                 "step": 650
             },
             {
-                "loss": 0.8721,
-                "grad_norm": 0.45228180289268494,
-                "learning_rate": 4.0687563354431984e-05,
                 "epoch": 0.6051575931232092,
                 "step": 660
             },
             {
-                "loss": 0.9747,
-                "grad_norm": 0.39334630966186523,
-                "learning_rate": 3.911940471333002e-05,
                 "epoch": 0.6143266475644699,
                 "step": 670
             },
             {
-                "loss": 0.8033,
-                "grad_norm": 0.2843310534954071,
-                "learning_rate": 3.756240383877947e-05,
                 "epoch": 0.6234957020057307,
                 "step": 680
             },
             {
-                "loss": 0.8623,
-                "grad_norm": 0.3566271662712097,
-                "learning_rate": 3.6018157394549284e-05,
                 "epoch": 0.6326647564469914,
                 "step": 690
             },
             {
-                "loss": 0.7507,
-                "grad_norm": 0.2564896047115326,
-                "learning_rate": 3.448824896507292e-05,
                 "epoch": 0.6418338108882522,
                 "step": 700
             },
             {
-                "eval_loss": 0.7661372423171997,
-                "eval_runtime": 154.0479,
-                "eval_samples_per_second": 6.024,
-                "eval_steps_per_second": 3.012,
                 "epoch": 0.6418338108882522,
                 "step": 700
             },
             {
-                "loss": 0.8036,
-                "grad_norm": 0.279855340719223,
-                "learning_rate": 3.297424743152382e-05,
                 "epoch": 0.6510028653295129,
                 "step": 710
             },
             {
-                "loss": 0.7921,
-                "grad_norm": 0.3235679268836975,
-                "learning_rate": 3.14777053629687e-05,
                 "epoch": 0.6601719197707736,
                 "step": 720
             },
             {
-                "loss": 0.7928,
-                "grad_norm": 0.37638944387435913,
-                "learning_rate": 3.0000157424248575e-05,
                 "epoch": 0.6693409742120344,
                 "step": 730
             },
             {
-                "loss": 0.9068,
-                "grad_norm": 0.40034306049346924,
-                "learning_rate": 2.8543118802219904e-05,
                 "epoch": 0.6785100286532951,
                 "step": 740
             },
             {
-                "loss": 0.8321,
-                "grad_norm": 0.15902051329612732,
-                "learning_rate": 2.710808365197e-05,
                 "epoch": 0.6876790830945558,
                 "step": 750
             },
             {
-                "eval_loss": 0.7649410367012024,
-                "eval_runtime": 155.9897,
-                "eval_samples_per_second": 5.949,
-                "eval_steps_per_second": 2.975,
                 "epoch": 0.6876790830945558,
                 "step": 750
             },
             {
-                "loss": 0.8081,
-                "grad_norm": 0.22720754146575928,
-                "learning_rate": 2.5696523564600074e-05,
                 "epoch": 0.6968481375358166,
                 "step": 760
             },
             {
-                "loss": 0.8296,
-                "grad_norm": 0.3821977972984314,
-                "learning_rate": 2.4309886058146912e-05,
                 "epoch": 0.7060171919770774,
                 "step": 770
             },
             {
-                "loss": 0.7437,
-                "grad_norm": 0.23446418344974518,
-                "learning_rate": 2.2949593093190862e-05,
                 "epoch": 0.7151862464183381,
                 "step": 780
             },
             {
-                "loss": 0.8172,
-                "grad_norm": 0.39708301424980164,
-                "learning_rate": 2.161703961467238e-05,
                 "epoch": 0.7243553008595989,
                 "step": 790
             },
             {
-                "loss": 0.7895,
-                "grad_norm": 0.27752557396888733,
-                "learning_rate": 2.0313592121412466e-05,
                 "epoch": 0.7335243553008596,
                 "step": 800
             },
             {
-                "eval_loss": 0.7634205222129822,
-                "eval_runtime": 155.4241,
-                "eval_samples_per_second": 5.971,
-                "eval_steps_per_second": 2.985,
                 "epoch": 0.7335243553008596,
                 "step": 800
             },
             {
-                "loss": 0.7796,
-                "grad_norm": 0.3197689354419708,
-                "learning_rate": 1.904058726480367e-05,
                 "epoch": 0.7426934097421204,
                 "step": 810
             },
             {
-                "loss": 0.6869,
-                "grad_norm": 0.2617953419685364,
-                "learning_rate": 1.7799330478109027e-05,
                 "epoch": 0.7518624641833811,
                 "step": 820
             },
             {
-                "loss": 0.9052,
-                "grad_norm": 0.3640119135379791,
-                "learning_rate": 1.6591094637774303e-05,
                 "epoch": 0.7610315186246418,
                 "step": 830
             },
             {
-                "loss": 0.7278,
-                "grad_norm": 0.3398507237434387,
-                "learning_rate": 1.541711875812641e-05,
                 "epoch": 0.7702005730659026,
                 "step": 840
             },
             {
-                "loss": 0.7398,
-                "grad_norm": 0.3581792116165161,
-                "learning_rate": 1.4278606720796544e-05,
                 "epoch": 0.7793696275071633,
                 "step": 850
             },
             {
-                "eval_loss": 0.7617470026016235,
-                "eval_runtime": 159.2523,
-                "eval_samples_per_second": 5.827,
-                "eval_steps_per_second": 2.914,
                 "epoch": 0.7793696275071633,
                 "step": 850
             },
             {
-                "loss": 0.871,
-                "grad_norm": 0.4080051779747009,
-                "learning_rate": 1.3176726040171e-05,
                 "epoch": 0.788538681948424,
                 "step": 860
             },
             {
-                "loss": 0.877,
-                "grad_norm": 0.4084082543849945,
-                "learning_rate": 1.2112606666135602e-05,
                 "epoch": 0.7977077363896848,
                 "step": 870
             },
             {
-                "loss": 0.8205,
-                "grad_norm": 0.26790153980255127,
-                "learning_rate": 1.1087339825341592e-05,
                 "epoch": 0.8068767908309455,
                 "step": 880
             },
             {
-                "loss": 0.8441,
-                "grad_norm": 0.3132439851760864,
-                "learning_rate": 1.0101976902181226e-05,
                 "epoch": 0.8160458452722062,
                 "step": 890
             },
             {
-                "loss": 0.7718,
-                "grad_norm": 0.41226926445961,
-                "learning_rate": 9.157528360620415e-06,
                 "epoch": 0.8252148997134671,
                 "step": 900
             },
             {
-                "eval_loss": 0.7602015733718872,
-                "eval_runtime": 159.5675,
-                "eval_samples_per_second": 5.816,
-                "eval_steps_per_second": 2.908,
                 "epoch": 0.8252148997134671,
                 "step": 900
             },
             {
-                "loss": 0.8352,
-                "grad_norm": 0.30735114216804504,
-                "learning_rate": 8.254962707994374e-06,
                 "epoch": 0.8343839541547278,
                 "step": 910
             },
             {
-                "loss": 0.796,
-                "grad_norm": 0.38642844557762146,
-                "learning_rate": 7.395205501828578e-06,
                 "epoch": 0.8435530085959886,
                 "step": 920
             },
             {
-                "loss": 0.8314,
-                "grad_norm": 0.3047927916049957,
-                "learning_rate": 6.579138400703716e-06,
                 "epoch": 0.8527220630372493,
                 "step": 930
             },
             {
-                "loss": 0.7396,
-                "grad_norm": 0.26591596007347107,
-                "learning_rate": 5.807598260137759e-06,
                 "epoch": 0.86189111747851,
                 "step": 940
             },
             {
-                "loss": 0.7736,
-                "grad_norm": 0.41588667035102844,
-                "learning_rate": 5.081376274412531e-06,
                 "epoch": 0.8710601719197708,
                 "step": 950
             },
             {
-                "eval_loss": 0.7594464421272278,
-                "eval_runtime": 158.8458,
-                "eval_samples_per_second": 5.842,
-                "eval_steps_per_second": 2.921,
                 "epoch": 0.8710601719197708,
                 "step": 950
             },
             {
-                "loss": 0.7564,
-                "grad_norm": 0.28924882411956787,
-                "learning_rate": 4.4012171652245635e-06,
                 "epoch": 0.8802292263610315,
                 "step": 960
             },
             {
-                "loss": 0.7387,
-                "grad_norm": 0.2902253568172455,
-                "learning_rate": 3.767818417992447e-06,
                 "epoch": 0.8893982808022922,
                 "step": 970
             },
             {
-                "loss": 0.7774,
-                "grad_norm": 0.354568749666214,
-                "learning_rate": 3.1818295666037724e-06,
                 "epoch": 0.898567335243553,
                 "step": 980
             },
             {
-                "loss": 0.7819,
-                "grad_norm": 0.21420103311538696,
-                "learning_rate": 2.643851527335006e-06,
                 "epoch": 0.9077363896848137,
                 "step": 990
             },
             {
-                "loss": 0.9055,
-                "grad_norm": 0.4397925138473511,
-                "learning_rate": 2.154435982627573e-06,
                 "epoch": 0.9169054441260746,
                 "step": 1000
             },
             {
-                "eval_loss": 0.7588858604431152,
-                "eval_runtime": 153.725,
-                "eval_samples_per_second": 6.037,
-                "eval_steps_per_second": 3.018,
                 "epoch": 0.9169054441260746,
                 "step": 1000
             },
             {
-                "loss": 0.7463,
-                "grad_norm": 0.37509453296661377,
-                "learning_rate": 1.7140848153519129e-06,
                 "epoch": 0.9260744985673353,
                 "step": 1010
             },
             {
-                "loss": 0.7624,
-                "grad_norm": 0.33944201469421387,
-                "learning_rate": 1.3232495941396639e-06,
                 "epoch": 0.935243553008596,
                 "step": 1020
             },
             {
-                "loss": 0.7424,
-                "grad_norm": 0.3569444715976715,
-                "learning_rate": 9.82331110311857e-07,
                 "epoch": 0.9444126074498568,
                 "step": 1030
             },
             {
-                "loss": 0.8083,
-                "grad_norm": 0.42634230852127075,
-                "learning_rate": 6.916789668778123e-07,
                 "epoch": 0.9535816618911175,
                 "step": 1040
             },
             {
-                "loss": 0.8018,
-                "grad_norm": 0.36843785643577576,
-                "learning_rate": 4.5159122002644274e-07,
                 "epoch": 0.9627507163323782,
                 "step": 1050
             },
             {
-                "eval_loss": 0.7587710022926331,
-                "eval_runtime": 158.0207,
-                "eval_samples_per_second": 5.873,
-                "eval_steps_per_second": 2.936,
                 "epoch": 0.9627507163323782,
                 "step": 1050
             },
             {
-                "loss": 0.831,
-                "grad_norm": 0.3824850618839264,
-                "learning_rate": 2.6231407347736546e-07,
                 "epoch": 0.971919770773639,
                 "step": 1060
             },
             {
-                "loss": 0.8253,
-                "grad_norm": 0.34650319814682007,
-                "learning_rate": 1.2404162600541115e-07,
                 "epoch": 0.9810888252148997,
                 "step": 1070
             },
             {
-                "loss": 0.7623,
-                "grad_norm": 0.33678287267684937,
-                "learning_rate": 3.691567239743621e-08,
                 "epoch": 0.9902578796561604,
                 "step": 1080
             },
             {
-                "loss": 0.7956,
-                "grad_norm": 0.3255111575126648,
-                "learning_rate": 1.0255580454254788e-09,
                 "epoch": 0.9994269340974212,
                 "step": 1090
             },
             {
-                "train_runtime": 10397.2106,
-                "train_samples_per_second": 1.678,
-                "train_steps_per_second": 0.105,
-                "total_flos": 1.5403789002928742e+17,
-                "train_loss": 0.8588679365670321,
                 "epoch": 1.0,
                 "step": 1091,
-                "total_runtime_sec": 10398.61917591095
             }
         ]
     }

             "SEED": 3407,
             "VAL_RATIO": 0.05,
             "MAX_SEQ_LEN": 512,
+            "LORA_R": 80,
+            "LORA_ALPHA": 160,
             "LORA_DROPOUT": 0.0,
             "LORA_TARGET_MODULES": [
                 "q_proj",
             "PER_DEVICE_TRAIN_BS": 2,
             "PER_DEVICE_EVAL_BS": 2,
             "GRAD_ACCUM": 8,
+            "LR": 1e-06,
             "WARMUP_RATIO": 0.1,
             "WEIGHT_DECAY": 0.05,
             "MAX_STEPS": -1,
         },
         "history": [
             {
+                "loss": 1.9238,
+                "grad_norm": 5.567883491516113,
+                "learning_rate": 8.181818181818182e-08,
                 "epoch": 0.009169054441260744,
                 "step": 10
             },
             {
+                "loss": 1.7942,
+                "grad_norm": 3.81577467918396,
+                "learning_rate": 1.7272727272727272e-07,
                 "epoch": 0.01833810888252149,
                 "step": 20
             },
             {
+                "loss": 1.9151,
+                "grad_norm": 4.943554878234863,
+                "learning_rate": 2.636363636363636e-07,
                 "epoch": 0.027507163323782235,
                 "step": 30
             },
             {
+                "loss": 1.7679,
+                "grad_norm": 4.759264945983887,
+                "learning_rate": 3.545454545454545e-07,
                 "epoch": 0.03667621776504298,
                 "step": 40
             },
             {
+                "loss": 2.0977,
+                "grad_norm": 6.200092315673828,
+                "learning_rate": 4.4545454545454544e-07,
                 "epoch": 0.045845272206303724,
                 "step": 50
             },
             {
+                "eval_loss": 1.8969855308532715,
+                "eval_runtime": 165.3674,
+                "eval_samples_per_second": 5.612,
+                "eval_steps_per_second": 2.806,
                 "epoch": 0.045845272206303724,
                 "step": 50
             },
             {
+                "loss": 1.8792,
+                "grad_norm": 4.762349605560303,
+                "learning_rate": 5.363636363636363e-07,
                 "epoch": 0.05501432664756447,
                 "step": 60
             },
             {
+                "loss": 1.8231,
+                "grad_norm": 4.353812217712402,
+                "learning_rate": 6.272727272727273e-07,
                 "epoch": 0.06418338108882521,
                 "step": 70
             },
             {
+                "loss": 1.8868,
+                "grad_norm": 4.538625240325928,
+                "learning_rate": 7.181818181818181e-07,
                 "epoch": 0.07335243553008595,
                 "step": 80
             },
             {
+                "loss": 1.6794,
+                "grad_norm": 3.11306095123291,
+                "learning_rate": 8.09090909090909e-07,
                 "epoch": 0.0825214899713467,
                 "step": 90
             },
             {
+                "loss": 1.7012,
+                "grad_norm": 3.303393602371216,
+                "learning_rate": 9e-07,
                 "epoch": 0.09169054441260745,
                 "step": 100
             },
             {
+                "eval_loss": 1.6190643310546875,
+                "eval_runtime": 163.7929,
+                "eval_samples_per_second": 5.666,
+                "eval_steps_per_second": 2.833,
                 "epoch": 0.09169054441260745,
                 "step": 100
             },
             {
+                "loss": 1.6738,
+                "grad_norm": 2.3432679176330566,
+                "learning_rate": 9.909090909090909e-07,
                 "epoch": 0.1008595988538682,
                 "step": 110
             },
             {
+                "loss": 1.5342,
+                "grad_norm": 1.411333441734314,
+                "learning_rate": 9.997923381619255e-07,
                 "epoch": 0.11002865329512894,
                 "step": 120
             },
             {
+                "loss": 1.4696,
+                "grad_norm": 1.3321274518966675,
+                "learning_rate": 9.990747162241872e-07,
                 "epoch": 0.11919770773638969,
                 "step": 130
             },
             {
+                "loss": 1.4552,
+                "grad_norm": 1.0566920042037964,
+                "learning_rate": 9.978453061876695e-07,
                 "epoch": 0.12836676217765042,
                 "step": 140
             },
             {
+                "loss": 1.5192,
+                "grad_norm": 0.9345868229866028,
+                "learning_rate": 9.96105368780285e-07,
                 "epoch": 0.13753581661891118,
                 "step": 150
             },
             {
+                "eval_loss": 1.3909412622451782,
+                "eval_runtime": 170.2558,
+                "eval_samples_per_second": 5.451,
+                "eval_steps_per_second": 2.725,
                 "epoch": 0.13753581661891118,
                 "step": 150
             },
             {
+                "loss": 1.4217,
+                "grad_norm": 0.8553086519241333,
+                "learning_rate": 9.938566882624436e-07,
                 "epoch": 0.1467048710601719,
                 "step": 160
             },
             {
+                "loss": 1.4101,
+                "grad_norm": 0.8422027230262756,
+                "learning_rate": 9.911015705973398e-07,
                 "epoch": 0.15587392550143267,
                 "step": 170
             },
             {
+                "loss": 1.4131,
+                "grad_norm": 0.6763940453529358,
+                "learning_rate": 9.878428410862482e-07,
                 "epoch": 0.1650429799426934,
                 "step": 180
             },
             {
+                "loss": 1.4201,
+                "grad_norm": 0.5860380530357361,
+                "learning_rate": 9.8408384147125e-07,
                 "epoch": 0.17421203438395416,
                 "step": 190
             },
             {
+                "loss": 1.2782,
+                "grad_norm": 0.7507234215736389,
+                "learning_rate": 9.79828426508364e-07,
                 "epoch": 0.1833810888252149,
                 "step": 200
             },
             {
+                "eval_loss": 1.3075143098831177,
+                "eval_runtime": 168.9052,
+                "eval_samples_per_second": 5.494,
+                "eval_steps_per_second": 2.747,
                 "epoch": 0.1833810888252149,
                 "step": 200
             },
             {
+                "loss": 1.3912,
+                "grad_norm": 0.6225572228431702,
+                "learning_rate": 9.750809600145952e-07,
                 "epoch": 0.19255014326647565,
                 "step": 210
             },
             {
+                "loss": 1.2743,
+                "grad_norm": 0.5334329009056091,
+                "learning_rate": 9.698463103929541e-07,
                 "epoch": 0.2017191977077364,
                 "step": 220
             },
             {
+                "loss": 1.2105,
+                "grad_norm": 0.730050265789032,
+                "learning_rate": 9.641298456400363e-07,
                 "epoch": 0.21088825214899715,
                 "step": 230
             },
             {
+                "loss": 1.3692,
+                "grad_norm": 0.646460235118866,
+                "learning_rate": 9.579374278412817e-07,
                 "epoch": 0.22005730659025788,
                 "step": 240
             },
             {
+                "loss": 1.2971,
+                "grad_norm": 0.5395148992538452,
+                "learning_rate": 9.512754071595603e-07,
                 "epoch": 0.22922636103151864,
                 "step": 250
             },
             {
+                "eval_loss": 1.2624306678771973,
+                "eval_runtime": 157.9571,
+                "eval_samples_per_second": 5.875,
+                "eval_steps_per_second": 2.938,
                 "epoch": 0.22922636103151864,
                 "step": 250
             },
             {
+                "loss": 1.3346,
+                "grad_norm": 0.5858215093612671,
+                "learning_rate": 9.441506153232442e-07,
                 "epoch": 0.23839541547277937,
                 "step": 260
             },
             {
+                "loss": 1.2195,
+                "grad_norm": 0.5456379055976868,
+                "learning_rate": 9.365703586204494e-07,
                 "epoch": 0.2475644699140401,
                 "step": 270
             },
             {
+                "loss": 1.3763,
+                "grad_norm": 0.8651963472366333,
+                "learning_rate": 9.285424104066275e-07,
                 "epoch": 0.25673352435530084,
                 "step": 280
             },
             {
+                "loss": 1.2256,
+                "grad_norm": 0.5938352942466736,
+                "learning_rate": 9.20075003133193e-07,
                 "epoch": 0.2659025787965616,
                 "step": 290
             },
             {
+                "loss": 1.3137,
+                "grad_norm": 0.6355459690093994,
+                "learning_rate": 9.111768199053586e-07,
                 "epoch": 0.27507163323782235,
                 "step": 300
             },
             {
+                "eval_loss": 1.2268821001052856,
+                "eval_runtime": 164.1638,
+                "eval_samples_per_second": 5.653,
+                "eval_steps_per_second": 2.826,
                 "epoch": 0.27507163323782235,
                 "step": 300
             },
             {
+                "loss": 1.4409,
+                "grad_norm": 0.9009450078010559,
+                "learning_rate": 9.018569855778383e-07,
                 "epoch": 0.2842406876790831,
                 "step": 310
             },
             {
+                "loss": 1.2566,
+                "grad_norm": 0.5912006497383118,
+                "learning_rate": 8.921250573975455e-07,
                 "epoch": 0.2934097421203438,
                 "step": 320
             },
             {
+                "loss": 1.1593,
+                "grad_norm": 0.6118663549423218,
+                "learning_rate": 8.81991015202887e-07,
                 "epoch": 0.3025787965616046,
                 "step": 330
             },
             {
+                "loss": 1.2555,
+                "grad_norm": 0.581721305847168,
+                "learning_rate": 8.714652511896993e-07,
                 "epoch": 0.31174785100286534,
                 "step": 340
             },
             {
+                "loss": 1.1209,
+                "grad_norm": 0.5230151414871216,
+                "learning_rate": 8.605585592543211e-07,
                 "epoch": 0.3209169054441261,
                 "step": 350
             },
             {
+                "eval_loss": 1.1941955089569092,
+                "eval_runtime": 162.9119,
+                "eval_samples_per_second": 5.696,
+                "eval_steps_per_second": 2.848,
                 "epoch": 0.3209169054441261,
                 "step": 350
             },
             {
+                "loss": 1.3564,
+                "grad_norm": 0.565862238407135,
+                "learning_rate": 8.492821239247363e-07,
                 "epoch": 0.3300859598853868,
                 "step": 360
             },
             {
+                "loss": 1.3997,
+                "grad_norm": 0.6057285666465759,
+                "learning_rate": 8.376475088911317e-07,
                 "epoch": 0.33925501432664756,
                 "step": 370
             },
             {
+                "loss": 1.0878,
+                "grad_norm": 0.7517871260643005,
+                "learning_rate": 8.256666451476336e-07,
                 "epoch": 0.3484240687679083,
                 "step": 380
             },
             {
+                "loss": 1.3009,
+                "grad_norm": 0.7168652415275574,
+                "learning_rate": 8.133518187573862e-07,
                 "epoch": 0.35759312320916903,
                 "step": 390
             },
             {
+                "loss": 1.1606,
+                "grad_norm": 0.7250906825065613,
+                "learning_rate": 8.007156582535131e-07,
                 "epoch": 0.3667621776504298,
                 "step": 400
             },
             {
+                "eval_loss": 1.166169285774231,
+                "eval_runtime": 158.6155,
+                "eval_samples_per_second": 5.851,
+                "eval_steps_per_second": 2.925,
                 "epoch": 0.3667621776504298,
                 "step": 400
             },
             {
+                "loss": 1.2593,
+                "grad_norm": 0.6665163636207581,
+                "learning_rate": 7.877711216888867e-07,
                 "epoch": 0.37593123209169055,
                 "step": 410
             },
             {
+                "loss": 1.1365,
+                "grad_norm": 0.6199079751968384,
+                "learning_rate": 7.745314833479833e-07,
                 "epoch": 0.3851002865329513,
                 "step": 420
             },
             {
+                "loss": 1.19,
+                "grad_norm": 0.6242042779922485,
+                "learning_rate": 7.6101032013445e-07,
                 "epoch": 0.394269340974212,
                 "step": 430
             },
             {
+                "loss": 1.1405,
+                "grad_norm": 0.657778263092041,
+                "learning_rate": 7.472214976483451e-07,
                 "epoch": 0.4034383954154728,
                 "step": 440
             },
             {
+                "loss": 1.0791,
+                "grad_norm": 0.5634785890579224,
+                "learning_rate": 7.331791559673269e-07,
                 "epoch": 0.41260744985673353,
                 "step": 450
             },
             {
+                "eval_loss": 1.1434489488601685,
+                "eval_runtime": 153.2068,
+                "eval_samples_per_second": 6.057,
+                "eval_steps_per_second": 3.029,
                 "epoch": 0.41260744985673353,
                 "step": 450
             },
             {
+                "loss": 1.1352,
+                "grad_norm": 0.7913809418678284,
+                "learning_rate": 7.188976951463723e-07,
                 "epoch": 0.4217765042979943,
                 "step": 460
             },
             {
+                "loss": 1.3036,
+                "grad_norm": 0.6191056966781616,
+                "learning_rate": 7.043917604508971e-07,
                 "epoch": 0.430945558739255,
                 "step": 470
             },
             {
+                "loss": 1.121,
+                "grad_norm": 0.6955880522727966,
+                "learning_rate": 6.896762273384178e-07,
                 "epoch": 0.44011461318051576,
                 "step": 480
             },
             {
+                "loss": 1.0997,
+                "grad_norm": 0.8450888395309448,
+                "learning_rate": 6.747661862041585e-07,
                 "epoch": 0.4492836676217765,
                 "step": 490
             },
             {
+                "loss": 1.3604,
+                "grad_norm": 0.8735764622688293,
+                "learning_rate": 6.596769269062443e-07,
                 "epoch": 0.4584527220630373,
                 "step": 500
             },
             {
+                "eval_loss": 1.1247467994689941,
+                "eval_runtime": 152.4716,
+                "eval_samples_per_second": 6.086,
+                "eval_steps_per_second": 3.043,
                 "epoch": 0.4584527220630373,
                 "step": 500
             },
             {
+                "loss": 1.171,
+                "grad_norm": 0.7228217124938965,
+                "learning_rate": 6.444239230863504e-07,
                 "epoch": 0.467621776504298,
                 "step": 510
             },
             {
+                "loss": 1.03,
+                "grad_norm": 0.6075210571289062,
+                "learning_rate": 6.290228163018867e-07,
                 "epoch": 0.47679083094555874,
                 "step": 520
             },
             {
+                "loss": 1.0345,
+                "grad_norm": 0.7692680954933167,
+                "learning_rate": 6.134893999859886e-07,
                 "epoch": 0.4859598853868195,
                 "step": 530
             },
             {
+                "loss": 1.2594,
+                "grad_norm": 0.7600648403167725,
+                "learning_rate": 5.978396032517639e-07,
                 "epoch": 0.4951289398280802,
                 "step": 540
             },
             {
+                "loss": 1.0254,
+                "grad_norm": 0.6178115010261536,
+                "learning_rate": 5.820894745574025e-07,
                 "epoch": 0.504297994269341,
                 "step": 550
             },
             {
+                "eval_loss": 1.1089264154434204,
+                "eval_runtime": 151.8982,
+                "eval_samples_per_second": 6.109,
+                "eval_steps_per_second": 3.055,
                 "epoch": 0.504297994269341,
                 "step": 550
             },
             {
+                "loss": 1.1049,
+                "grad_norm": 0.5585054159164429,
+                "learning_rate": 5.662551652489008e-07,
                 "epoch": 0.5134670487106017,
                 "step": 560
             },
             {
+                "loss": 1.0898,
+                "grad_norm": 0.6844518780708313,
+                "learning_rate": 5.503529129972792e-07,
                 "epoch": 0.5226361031518625,
                 "step": 570
             },
             {
+                "loss": 1.1037,
+                "grad_norm": 0.8425552845001221,
+                "learning_rate": 5.34399025147273e-07,
                 "epoch": 0.5318051575931232,
                 "step": 580
             },
             {
+                "loss": 1.1019,
+                "grad_norm": 0.648064136505127,
+                "learning_rate": 5.18409861994576e-07,
                 "epoch": 0.540974212034384,
                 "step": 590
             },
             {
+                "loss": 1.1863,
+                "grad_norm": 0.5788621306419373,
+                "learning_rate": 5.024018200087854e-07,
                 "epoch": 0.5501432664756447,
                 "step": 600
             },
             {
+                "eval_loss": 1.095629096031189,
+                "eval_runtime": 150.8171,
+                "eval_samples_per_second": 6.153,
+                "eval_steps_per_second": 3.077,
                 "epoch": 0.5501432664756447,
                 "step": 600
             },
             {
+                "loss": 1.1025,
+                "grad_norm": 0.6422027349472046,
+                "learning_rate": 4.86391315019248e-07,
                 "epoch": 0.5593123209169054,
                 "step": 610
             },
             {
+                "loss": 1.0666,
+                "grad_norm": 0.6005454063415527,
+                "learning_rate": 4.703947653810575e-07,
                 "epoch": 0.5684813753581662,
                 "step": 620
             },
             {
+                "loss": 1.215,
+                "grad_norm": 0.6145904064178467,
+                "learning_rate": 4.544285751384584e-07,
                 "epoch": 0.5776504297994269,
                 "step": 630
             },
             {
+                "loss": 1.1613,
+                "grad_norm": 0.8756449818611145,
+                "learning_rate": 4.385091172029275e-07,
                 "epoch": 0.5868194842406876,
                 "step": 640
             },
             {
+                "loss": 1.1092,
+                "grad_norm": 0.7930067181587219,
+                "learning_rate": 4.2265271656318e-07,
                 "epoch": 0.5959885386819485,
                 "step": 650
             },
             {
+                "eval_loss": 1.0845845937728882,
+                "eval_runtime": 151.0566,
+                "eval_samples_per_second": 6.143,
+                "eval_steps_per_second": 3.072,
                 "epoch": 0.5959885386819485,
                 "step": 650
             },
             {
+                "loss": 1.214,
+                "grad_norm": 1.1016592979431152,
+                "learning_rate": 4.068756335443198e-07,
                 "epoch": 0.6051575931232092,
                 "step": 660
             },
             {
+                "loss": 1.3335,
+                "grad_norm": 0.7920063138008118,
+                "learning_rate": 3.9119404713330013e-07,
                 "epoch": 0.6143266475644699,
                 "step": 670
             },
             {
+                "loss": 1.123,
+                "grad_norm": 0.792630136013031,
+                "learning_rate": 3.7562403838779467e-07,
                 "epoch": 0.6234957020057307,
                 "step": 680
             },
             {
+                "loss": 1.2098,
+                "grad_norm": 0.8105105757713318,
+                "learning_rate": 3.601815739454928e-07,
                 "epoch": 0.6326647564469914,
                 "step": 690
             },
             {
+                "loss": 1.0302,
+                "grad_norm": 0.6204477548599243,
+                "learning_rate": 3.448824896507292e-07,
                 "epoch": 0.6418338108882522,
                 "step": 700
             },
             {
+                "eval_loss": 1.0753319263458252,
+                "eval_runtime": 159.1632,
+                "eval_samples_per_second": 5.83,
+                "eval_steps_per_second": 2.915,
                 "epoch": 0.6418338108882522,
                 "step": 700
             },
             {
+                "loss": 1.109,
+                "grad_norm": 0.6277522444725037,
+                "learning_rate": 3.297424743152381e-07,
                 "epoch": 0.6510028653295129,
                 "step": 710
             },
             {
+                "loss": 1.0808,
+                "grad_norm": 0.7879471182823181,
+                "learning_rate": 3.1477705362968696e-07,
                 "epoch": 0.6601719197707736,
                 "step": 720
             },
             {
+                "loss": 1.0842,
+                "grad_norm": 0.8374884128570557,
+                "learning_rate": 3.000015742424857e-07,
                 "epoch": 0.6693409742120344,
                 "step": 730
             },
             {
+                "loss": 1.2445,
+                "grad_norm": 0.7892112731933594,
+                "learning_rate": 2.85431188022199e-07,
                 "epoch": 0.6785100286532951,
                 "step": 740
             },
             {
+                "loss": 1.1506,
+                "grad_norm": 0.5540062785148621,
+                "learning_rate": 2.710808365197e-07,
                 "epoch": 0.6876790830945558,
                 "step": 750
             },
             {
+                "eval_loss": 1.0686043500900269,
+                "eval_runtime": 154.055,
+                "eval_samples_per_second": 6.024,
+                "eval_steps_per_second": 3.012,
                 "epoch": 0.6876790830945558,
                 "step": 750
             },
             {
+                "loss": 1.1023,
+                "grad_norm": 0.5218796133995056,
+                "learning_rate": 2.569652356460007e-07,
                 "epoch": 0.6968481375358166,
                 "step": 760
             },
             {
+                "loss": 1.1801,
+                "grad_norm": 0.7433627247810364,
+                "learning_rate": 2.430988605814691e-07,
                 "epoch": 0.7060171919770774,
                 "step": 770
             },
             {
+                "loss": 1.0276,
+                "grad_norm": 0.629487931728363,
+                "learning_rate": 2.294959309319086e-07,
                 "epoch": 0.7151862464183381,
                 "step": 780
             },
             {
+                "loss": 1.1164,
+                "grad_norm": 0.6667075157165527,
+                "learning_rate": 2.1617039614672378e-07,
                 "epoch": 0.7243553008595989,
                 "step": 790
             },
             {
+                "loss": 1.0869,
+                "grad_norm": 0.6930222511291504,
+                "learning_rate": 2.0313592121412464e-07,
                 "epoch": 0.7335243553008596,
                 "step": 800
             },
             {
+                "eval_loss": 1.0634101629257202,
+                "eval_runtime": 154.1494,
+                "eval_samples_per_second": 6.02,
+                "eval_steps_per_second": 3.01,
                 "epoch": 0.7335243553008596,
                 "step": 800
             },
             {
+                "loss": 1.0937,
+                "grad_norm": 0.7793363332748413,
+                "learning_rate": 1.904058726480367e-07,
                 "epoch": 0.7426934097421204,
                 "step": 810
             },
             {
+                "loss": 0.9728,
+                "grad_norm": 0.5570642948150635,
+                "learning_rate": 1.7799330478109026e-07,
                 "epoch": 0.7518624641833811,
                 "step": 820
             },
             {
+                "loss": 1.2568,
+                "grad_norm": 0.9017201662063599,
+                "learning_rate": 1.65910946377743e-07,
                 "epoch": 0.7610315186246418,
                 "step": 830
             },
             {
+                "loss": 1.0049,
+                "grad_norm": 0.7178328633308411,
+                "learning_rate": 1.5417118758126408e-07,
                 "epoch": 0.7702005730659026,
                 "step": 840
             },
             {
+                "loss": 1.0576,
+                "grad_norm": 1.031610369682312,
+                "learning_rate": 1.4278606720796543e-07,
                 "epoch": 0.7793696275071633,
                 "step": 850
             },
             {
+                "eval_loss": 1.0599370002746582,
+                "eval_runtime": 154.7364,
+                "eval_samples_per_second": 5.997,
+                "eval_steps_per_second": 2.999,
                 "epoch": 0.7793696275071633,
                 "step": 850
             },
             {
+                "loss": 1.1797,
+                "grad_norm": 1.0518614053726196,
+                "learning_rate": 1.3176726040171e-07,
                 "epoch": 0.788538681948424,
                 "step": 860
             },
             {
+                "loss": 1.2085,
+                "grad_norm": 0.7290861010551453,
+                "learning_rate": 1.21126066661356e-07,
                 "epoch": 0.7977077363896848,
                 "step": 870
             },
             {
+                "loss": 1.1165,
+                "grad_norm": 0.6315222382545471,
+                "learning_rate": 1.108733982534159e-07,
                 "epoch": 0.8068767908309455,
                 "step": 880
             },
             {
+                "loss": 1.158,
+                "grad_norm": 0.685243546962738,
+                "learning_rate": 1.0101976902181225e-07,
                 "epoch": 0.8160458452722062,
                 "step": 890
             },
             {
+                "loss": 1.0584,
+                "grad_norm": 0.7780338525772095,
+                "learning_rate": 9.157528360620415e-08,
                 "epoch": 0.8252148997134671,
                 "step": 900
             },
             {
+                "eval_loss": 1.057593584060669,
+                "eval_runtime": 153.5904,
+                "eval_samples_per_second": 6.042,
+                "eval_steps_per_second": 3.021,
                 "epoch": 0.8252148997134671,
                 "step": 900
             },
             {
+                "loss": 1.1489,
+                "grad_norm": 0.6839588284492493,
+                "learning_rate": 8.254962707994373e-08,
                 "epoch": 0.8343839541547278,
                 "step": 910
             },
             {
+                "loss": 1.1096,
+                "grad_norm": 0.9299020171165466,
+                "learning_rate": 7.395205501828577e-08,
                 "epoch": 0.8435530085959886,
                 "step": 920
             },
             {
+                "loss": 1.1224,
+                "grad_norm": 0.791289746761322,
+                "learning_rate": 6.579138400703715e-08,
                 "epoch": 0.8527220630372493,
                 "step": 930
             },
             {
+                "loss": 1.038,
+                "grad_norm": 0.6159808039665222,
+                "learning_rate": 5.807598260137758e-08,
                 "epoch": 0.86189111747851,
                 "step": 940
             },
             {
+                "loss": 1.0708,
+                "grad_norm": 0.7773894667625427,
+                "learning_rate": 5.08137627441253e-08,
                 "epoch": 0.8710601719197708,
                 "step": 950
             },
             {
+                "eval_loss": 1.0561405420303345,
+                "eval_runtime": 154.3615,
+                "eval_samples_per_second": 6.012,
+                "eval_steps_per_second": 3.006,
                 "epoch": 0.8710601719197708,
                 "step": 950
             },
             {
+                "loss": 1.0656,
+                "grad_norm": 0.707645833492279,
+                "learning_rate": 4.401217165224563e-08,
                 "epoch": 0.8802292263610315,
                 "step": 960
             },
             {
+                "loss": 1.0164,
+                "grad_norm": 0.6336905360221863,
+                "learning_rate": 3.767818417992446e-08,
                 "epoch": 0.8893982808022922,
                 "step": 970
             },
             {
+                "loss": 1.0766,
+                "grad_norm": 0.8207520842552185,
+                "learning_rate": 3.181829566603772e-08,
                 "epoch": 0.898567335243553,
                 "step": 980
             },
             {
+                "loss": 1.0929,
+                "grad_norm": 0.6286782026290894,
+                "learning_rate": 2.643851527335006e-08,
                 "epoch": 0.9077363896848137,
                 "step": 990
             },
             {
+                "loss": 1.2541,
+                "grad_norm": 0.817637026309967,
+                "learning_rate": 2.1544359826275726e-08,
                 "epoch": 0.9169054441260746,
                 "step": 1000
             },
             {
+                "eval_loss": 1.0553829669952393,
+                "eval_runtime": 155.0837,
+                "eval_samples_per_second": 5.984,
+                "eval_steps_per_second": 2.992,
                 "epoch": 0.9169054441260746,
                 "step": 1000
             },
             {
+                "loss": 1.0413,
+                "grad_norm": 0.9485034942626953,
+                "learning_rate": 1.714084815351913e-08,
                 "epoch": 0.9260744985673353,
                 "step": 1010
             },
             {
+                "loss": 1.0516,
+                "grad_norm": 0.6737267971038818,
+                "learning_rate": 1.3232495941396637e-08,
                 "epoch": 0.935243553008596,
                 "step": 1020
             },
             {
+                "loss": 1.0517,
+                "grad_norm": 0.9414446353912354,
+                "learning_rate": 9.82331110311857e-09,
                 "epoch": 0.9444126074498568,
                 "step": 1030
             },
             {
+                "loss": 1.1016,
+                "grad_norm": 0.8654493689537048,
+                "learning_rate": 6.916789668778122e-09,
                 "epoch": 0.9535816618911175,
                 "step": 1040
             },
             {
+                "loss": 1.1055,
+                "grad_norm": 0.8262504935264587,
+                "learning_rate": 4.515912200264427e-09,
                 "epoch": 0.9627507163323782,
                 "step": 1050
             },
             {
+                "eval_loss": 1.0550979375839233,
+                "eval_runtime": 156.3052,
+                "eval_samples_per_second": 5.937,
+                "eval_steps_per_second": 2.969,
                 "epoch": 0.9627507163323782,
                 "step": 1050
             },
             {
+                "loss": 1.1321,
+                "grad_norm": 0.7707592844963074,
+                "learning_rate": 2.6231407347736546e-09,
                 "epoch": 0.971919770773639,
                 "step": 1060
             },
             {
+                "loss": 1.1039,
+                "grad_norm": 0.7415518760681152,
+                "learning_rate": 1.2404162600541113e-09,
                 "epoch": 0.9810888252148997,
                 "step": 1070
             },
             {
+                "loss": 1.0673,
+                "grad_norm": 0.6835209727287292,
+                "learning_rate": 3.6915672397436204e-10,
                 "epoch": 0.9902578796561604,
                 "step": 1080
             },
             {
+                "loss": 1.1213,
+                "grad_norm": 0.6404680013656616,
+                "learning_rate": 1.0255580454254786e-11,
                 "epoch": 0.9994269340974212,
                 "step": 1090
             },
             {
+                "train_runtime": 10741.972,
+                "train_samples_per_second": 1.624,
+                "train_steps_per_second": 0.102,
+                "total_flos": 1.5816368624117146e+17,
+                "train_loss": 1.2491859223840436,
                 "epoch": 1.0,
                 "step": 1091,
+                "total_runtime_sec": 10743.41768693924
             }
         ]
     }