Upload LoRA adapter (Fixed README metadata)

Browse files

Files changed (4) hide show

README.md +5 -3
adapter_config.json +4 -4
adapter_model.safetensors +2 -2
all_experiments_details.json +332 -227

README.md CHANGED Viewed

@@ -1,6 +1,8 @@
 ---
 base_model: Qwen/Qwen3-4B-Instruct-2507
 datasets:
 - u-10bei/structured_data_with_cot_dataset_512_v2
 language:
 - en
@@ -34,9 +36,9 @@ while intermediate reasoning (Chain-of-Thought) is masked.
 - Base model: Qwen/Qwen3-4B-Instruct-2507
 - Method: QLoRA (4-bit)
 - Max sequence length: 512
-- Epochs: 2
 - Learning rate: 2e-04
-- LoRA: r=256, alpha=32
 ## Usage
@@ -59,7 +61,7 @@ model = PeftModel.from_pretrained(model, adapter)
 ## Sources & Terms (IMPORTANT)
-Training data: u-10bei/structured_data_with_cot_dataset_512_v2
 Dataset License: MIT License. This dataset is used and distributed under the terms of the MIT License.
 Compliance: Users must comply with the MIT license (including copyright notice) and the base model's original terms of use.

 ---
 base_model: Qwen/Qwen3-4B-Instruct-2507
 datasets:
+- daichira/structured-hard-sft-4k
+- u-10bei/structured_data_with_cot_dataset_512
 - u-10bei/structured_data_with_cot_dataset_512_v2
 language:
 - en
 - Base model: Qwen/Qwen3-4B-Instruct-2507
 - Method: QLoRA (4-bit)
 - Max sequence length: 512
+- Epochs: 1
 - Learning rate: 2e-04
+- LoRA: r=128, alpha=24
 ## Usage
 ## Sources & Terms (IMPORTANT)
+Training data: ['daichira/structured-hard-sft-4k', 'u-10bei/structured_data_with_cot_dataset_512', 'u-10bei/structured_data_with_cot_dataset_512_v2']
 Dataset License: MIT License. This dataset is used and distributed under the terms of the MIT License.
 Compliance: Users must comply with the MIT license (including copyright notice) and the base model's original terms of use.

adapter_config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 32,
   "lora_bias": false,
   "lora_dropout": 0.0,
   "megatron_config": null,
@@ -29,17 +29,17 @@
   "peft_type": "LORA",
   "peft_version": "0.18.1",
   "qalora_group_size": 16,
-  "r": 256,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "down_proj",
     "k_proj",
     "up_proj",
     "o_proj",
     "v_proj",
-    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 24,
   "lora_bias": false,
   "lora_dropout": 0.0,
   "megatron_config": null,
   "peft_type": "LORA",
   "peft_version": "0.18.1",
   "qalora_group_size": 16,
+  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "k_proj",
     "up_proj",
+    "q_proj",
     "o_proj",
     "v_proj",
+    "gate_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f7e32a8d79b5e697d84e7807625629d764aff33c2a8a303e7ff31d5cb7fe96d
-size 2113998360

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b0e60c482cea3edf2d00118f32c08cf82ca46f1acc8cbe48cbb11cd70e1befe
+size 1057033224

all_experiments_details.json CHANGED Viewed

@@ -2,13 +2,17 @@
     "Experiment_1": {
         "config": {
             "BASE_MODEL_ID": "Qwen/Qwen3-4B-Instruct-2507",
-            "DATASET_ID": "u-10bei/structured_data_with_cot_dataset_512_v2",
             "BASE_OUT_DIR": "./lora_experiments",
             "SEED": 3407,
             "VAL_RATIO": 0.05,
             "MAX_SEQ_LEN": 512,
-            "LORA_R": 256,
-            "LORA_ALPHA": 32,
             "LORA_DROPOUT": 0.0,
             "LORA_TARGET_MODULES": [
                 "q_proj",
@@ -19,7 +23,7 @@
                 "up_proj",
                 "down_proj"
             ],
-            "EPOCHS": 2,
             "PER_DEVICE_TRAIN_BS": 2,
             "PER_DEVICE_EVAL_BS": 2,
             "GRAD_ACCUM": 8,
@@ -48,386 +52,487 @@
         },
         "history": [
             {
-                "loss": 1.3966,
-                "grad_norm": 1.0872466564178467,
-                "learning_rate": 4e-05,
-                "epoch": 0.04501969611705121,
                 "step": 10
             },
             {
-                "loss": 0.9325,
-                "grad_norm": 0.9557391405105591,
-                "learning_rate": 8.444444444444444e-05,
-                "epoch": 0.09003939223410241,
                 "step": 20
             },
             {
-                "loss": 0.8011,
-                "grad_norm": 0.513979971408844,
-                "learning_rate": 0.00012888888888888892,
-                "epoch": 0.13505908835115363,
                 "step": 30
             },
             {
-                "loss": 0.8125,
-                "grad_norm": 0.5614296197891235,
-                "learning_rate": 0.00017333333333333334,
-                "epoch": 0.18007878446820483,
                 "step": 40
             },
             {
-                "loss": 0.7486,
-                "grad_norm": 0.32493776082992554,
-                "learning_rate": 0.0001999509018141497,
-                "epoch": 0.22509848058525606,
                 "step": 50
             },
             {
-                "eval_loss": 0.8527934551239014,
-                "eval_runtime": 25.8751,
-                "eval_samples_per_second": 7.227,
-                "eval_steps_per_second": 3.633,
-                "epoch": 0.22509848058525606,
                 "step": 50
             },
             {
-                "loss": 0.7415,
-                "grad_norm": 0.2533496022224426,
-                "learning_rate": 0.00019939910076582706,
-                "epoch": 0.27011817670230726,
                 "step": 60
             },
             {
-                "loss": 0.8629,
-                "grad_norm": 0.3107249438762665,
-                "learning_rate": 0.00019823752233636866,
-                "epoch": 0.31513787281935846,
                 "step": 70
             },
             {
-                "loss": 0.7151,
-                "grad_norm": 0.32290422916412354,
-                "learning_rate": 0.00019647329238755036,
-                "epoch": 0.36015756893640966,
                 "step": 80
             },
             {
-                "loss": 0.7843,
-                "grad_norm": 0.3160030245780945,
-                "learning_rate": 0.0001941172338293343,
-                "epoch": 0.4051772650534609,
                 "step": 90
             },
             {
-                "loss": 0.7931,
-                "grad_norm": 0.40372225642204285,
-                "learning_rate": 0.00019118380022524738,
-                "epoch": 0.4501969611705121,
                 "step": 100
             },
             {
-                "eval_loss": 0.7929844260215759,
-                "eval_runtime": 25.6248,
-                "eval_samples_per_second": 7.298,
-                "eval_steps_per_second": 3.668,
-                "epoch": 0.4501969611705121,
                 "step": 100
             },
             {
-                "loss": 0.812,
-                "grad_norm": 0.4371040165424347,
-                "learning_rate": 0.0001876909871250184,
-                "epoch": 0.4952166572875633,
                 "step": 110
             },
             {
-                "loss": 0.7258,
-                "grad_norm": 0.28696581721305847,
-                "learning_rate": 0.00018366022166841676,
-                "epoch": 0.5402363534046145,
                 "step": 120
             },
             {
-                "loss": 0.7824,
-                "grad_norm": 0.9101247787475586,
-                "learning_rate": 0.0001791162311375321,
-                "epoch": 0.5852560495216658,
                 "step": 130
             },
             {
-                "loss": 0.7643,
-                "grad_norm": 0.2658868730068207,
-                "learning_rate": 0.00017408689126387995,
-                "epoch": 0.6302757456387169,
                 "step": 140
             },
             {
-                "loss": 0.711,
-                "grad_norm": 0.43262964487075806,
-                "learning_rate": 0.0001686030552209133,
-                "epoch": 0.6752954417557682,
                 "step": 150
             },
             {
-                "eval_loss": 0.7660654783248901,
-                "eval_runtime": 24.682,
-                "eval_samples_per_second": 7.576,
-                "eval_steps_per_second": 3.808,
-                "epoch": 0.6752954417557682,
                 "step": 150
             },
             {
-                "loss": 0.6915,
-                "grad_norm": 0.36354902386665344,
-                "learning_rate": 0.00016269836435100934,
-                "epoch": 0.7203151378728193,
                 "step": 160
             },
             {
-                "loss": 0.7233,
-                "grad_norm": 0.3520168662071228,
-                "learning_rate": 0.0001564090417880529,
-                "epoch": 0.7653348339898706,
                 "step": 170
             },
             {
-                "loss": 0.6626,
-                "grad_norm": 0.33897820115089417,
-                "learning_rate": 0.0001497736702416662,
-                "epoch": 0.8103545301069218,
                 "step": 180
             },
             {
-                "loss": 0.6801,
-                "grad_norm": 0.4690793752670288,
-                "learning_rate": 0.00014283295530629877,
-                "epoch": 0.855374226223973,
                 "step": 190
             },
             {
-                "loss": 0.6281,
-                "grad_norm": 0.42146065831184387,
-                "learning_rate": 0.00013562947574718976,
-                "epoch": 0.9003939223410242,
                 "step": 200
             },
             {
-                "eval_loss": 0.6899478435516357,
-                "eval_runtime": 24.6215,
-                "eval_samples_per_second": 7.595,
-                "eval_steps_per_second": 3.818,
-                "epoch": 0.9003939223410242,
                 "step": 200
             },
             {
-                "loss": 0.6237,
-                "grad_norm": 0.38645192980766296,
-                "learning_rate": 0.00012820742229510817,
-                "epoch": 0.9454136184580754,
                 "step": 210
             },
             {
-                "loss": 0.5856,
-                "grad_norm": 0.4482150375843048,
-                "learning_rate": 0.00012061232655226964,
-                "epoch": 0.9904333145751266,
                 "step": 220
             },
             {
-                "loss": 0.4553,
-                "grad_norm": 0.5086686015129089,
-                "learning_rate": 0.00011289078167249402,
-                "epoch": 1.0315137872819358,
                 "step": 230
             },
             {
-                "loss": 0.5029,
-                "grad_norm": 0.8159873485565186,
-                "learning_rate": 0.00010509015652912966,
-                "epoch": 1.076533483398987,
                 "step": 240
             },
             {
-                "loss": 0.5179,
-                "grad_norm": 0.5635101199150085,
-                "learning_rate": 9.72583051242198e-05,
-                "epoch": 1.1215531795160383,
                 "step": 250
             },
             {
-                "eval_loss": 0.5836588144302368,
-                "eval_runtime": 24.7575,
-                "eval_samples_per_second": 7.553,
-                "eval_steps_per_second": 3.797,
-                "epoch": 1.1215531795160383,
                 "step": 250
             },
             {
-                "loss": 0.514,
-                "grad_norm": 0.661852240562439,
-                "learning_rate": 8.944327302158073e-05,
-                "epoch": 1.1665728756330895,
                 "step": 260
             },
             {
-                "loss": 0.4472,
-                "grad_norm": 0.4757942259311676,
-                "learning_rate": 8.169300260471818e-05,
-                "epoch": 1.2115925717501406,
                 "step": 270
             },
             {
-                "loss": 0.4286,
-                "grad_norm": 0.6126232743263245,
-                "learning_rate": 7.405503896771729e-05,
-                "epoch": 1.2566122678671918,
                 "step": 280
             },
             {
-                "loss": 0.4862,
-                "grad_norm": 0.5707330703735352,
-                "learning_rate": 6.65762382433589e-05,
-                "epoch": 1.301631963984243,
                 "step": 290
             },
             {
-                "loss": 0.4352,
-                "grad_norm": 0.3476680815219879,
-                "learning_rate": 5.930248015776325e-05,
-                "epoch": 1.3466516601012943,
                 "step": 300
             },
             {
-                "eval_loss": 0.4677433371543884,
-                "eval_runtime": 24.7074,
-                "eval_samples_per_second": 7.569,
-                "eval_steps_per_second": 3.805,
-                "epoch": 1.3466516601012943,
                 "step": 300
             },
             {
-                "loss": 0.3118,
-                "grad_norm": 0.6370311379432678,
-                "learning_rate": 5.227838657493396e-05,
-                "epoch": 1.3916713562183456,
                 "step": 310
             },
             {
-                "loss": 0.3847,
-                "grad_norm": 0.5159108638763428,
-                "learning_rate": 4.5547047757828985e-05,
-                "epoch": 1.4366910523353966,
                 "step": 320
             },
             {
-                "loss": 0.3931,
-                "grad_norm": 0.6911277174949646,
-                "learning_rate": 3.914975802524806e-05,
-                "epoch": 1.4817107484524479,
                 "step": 330
             },
             {
-                "loss": 0.5302,
-                "grad_norm": 0.5555063486099243,
-                "learning_rate": 3.312576242618511e-05,
-                "epoch": 1.5267304445694991,
                 "step": 340
             },
             {
-                "loss": 0.3183,
-                "grad_norm": 0.8983607292175293,
-                "learning_rate": 2.7512015985706418e-05,
-                "epoch": 1.5717501406865504,
                 "step": 350
             },
             {
-                "eval_loss": 0.3523830473423004,
-                "eval_runtime": 24.7895,
-                "eval_samples_per_second": 7.544,
-                "eval_steps_per_second": 3.792,
-                "epoch": 1.5717501406865504,
                 "step": 350
             },
             {
-                "loss": 0.3694,
-                "grad_norm": 0.5024566054344177,
-                "learning_rate": 2.234295699929413e-05,
-                "epoch": 1.6167698368036016,
                 "step": 360
             },
             {
-                "loss": 0.3502,
-                "grad_norm": 0.5496794581413269,
-                "learning_rate": 1.7650295766411605e-05,
-                "epoch": 1.6617895329206527,
                 "step": 370
             },
             {
-                "loss": 0.3006,
-                "grad_norm": 0.4716707766056061,
-                "learning_rate": 1.3462820059333403e-05,
-                "epoch": 1.7068092290377042,
                 "step": 380
             },
             {
-                "loss": 0.3471,
-                "grad_norm": 0.46408089995384216,
-                "learning_rate": 9.80621852061826e-06,
-                "epoch": 1.7518289251547552,
                 "step": 390
             },
             {
-                "loss": 0.2301,
-                "grad_norm": 0.41809141635894775,
-                "learning_rate": 6.702923072617129e-06,
-                "epoch": 1.7968486212718064,
                 "step": 400
             },
             {
-                "eval_loss": 0.3102871775627136,
-                "eval_runtime": 24.3436,
-                "eval_samples_per_second": 7.682,
-                "eval_steps_per_second": 3.861,
-                "epoch": 1.7968486212718064,
                 "step": 400
             },
             {
-                "loss": 0.2704,
-                "grad_norm": 0.4462619423866272,
-                "learning_rate": 4.171971305776945e-06,
-                "epoch": 1.8418683173888577,
                 "step": 410
             },
             {
-                "loss": 0.2168,
-                "grad_norm": 0.4414360523223877,
-                "learning_rate": 2.2288896899377186e-06,
-                "epoch": 1.8868880135059087,
                 "step": 420
             },
             {
-                "loss": 0.2626,
-                "grad_norm": 0.3277634084224701,
-                "learning_rate": 8.855983250793288e-07,
-                "epoch": 1.93190770962296,
                 "step": 430
             },
             {
-                "loss": 0.342,
-                "grad_norm": 0.4310093820095062,
-                "learning_rate": 1.5033781583758678e-07,
-                "epoch": 1.9769274057400112,
                 "step": 440
             },
             {
-                "train_runtime": 3776.627,
-                "train_samples_per_second": 1.882,
                 "train_steps_per_second": 0.118,
-                "total_flos": 7.57271106173184e+16,
-                "train_loss": 0.5718902958882763,
-                "epoch": 2.0,
-                "step": 446,
-                "total_runtime_sec": 3777.7196531295776
             }
         ]
     }

     "Experiment_1": {
         "config": {
             "BASE_MODEL_ID": "Qwen/Qwen3-4B-Instruct-2507",
+            "DATASET_ID": [
+                "daichira/structured-hard-sft-4k",
+                "u-10bei/structured_data_with_cot_dataset_512",
+                "u-10bei/structured_data_with_cot_dataset_512_v2"
+            ],
             "BASE_OUT_DIR": "./lora_experiments",
             "SEED": 3407,
             "VAL_RATIO": 0.05,
             "MAX_SEQ_LEN": 512,
+            "LORA_R": 128,
+            "LORA_ALPHA": 24,
             "LORA_DROPOUT": 0.0,
             "LORA_TARGET_MODULES": [
                 "q_proj",
                 "up_proj",
                 "down_proj"
             ],
+            "EPOCHS": 1,
             "PER_DEVICE_TRAIN_BS": 2,
             "PER_DEVICE_EVAL_BS": 2,
             "GRAD_ACCUM": 8,
         },
         "history": [
             {
+                "loss": 1.4503,
+                "grad_norm": 0.6611063480377197,
+                "learning_rate": 3.2142857142857144e-05,
+                "epoch": 0.018144704014515765,
                 "step": 10
             },
             {
+                "loss": 1.0865,
+                "grad_norm": 0.9616151452064514,
+                "learning_rate": 6.785714285714286e-05,
+                "epoch": 0.03628940802903153,
                 "step": 20
             },
             {
+                "loss": 0.9333,
+                "grad_norm": 0.47518712282180786,
+                "learning_rate": 0.00010357142857142859,
+                "epoch": 0.05443411204354729,
                 "step": 30
             },
             {
+                "loss": 0.8193,
+                "grad_norm": 0.46924060583114624,
+                "learning_rate": 0.0001392857142857143,
+                "epoch": 0.07257881605806306,
                 "step": 40
             },
             {
+                "loss": 0.7101,
+                "grad_norm": 0.3533737361431122,
+                "learning_rate": 0.000175,
+                "epoch": 0.09072352007257882,
                 "step": 50
             },
             {
+                "eval_loss": 0.6981692910194397,
+                "eval_runtime": 76.8039,
+                "eval_samples_per_second": 5.95,
+                "eval_steps_per_second": 2.982,
+                "epoch": 0.09072352007257882,
                 "step": 50
             },
             {
+                "loss": 0.7362,
+                "grad_norm": 0.4759365916252136,
+                "learning_rate": 0.0001999819475629623,
+                "epoch": 0.10886822408709458,
                 "step": 60
             },
             {
+                "loss": 0.8242,
+                "grad_norm": 0.3445497155189514,
+                "learning_rate": 0.00019966119663520412,
+                "epoch": 0.12701292810161036,
                 "step": 70
             },
             {
+                "loss": 0.816,
+                "grad_norm": 0.4535239338874817,
+                "learning_rate": 0.000198940761218769,
+                "epoch": 0.14515763211612612,
                 "step": 80
             },
             {
+                "loss": 0.6256,
+                "grad_norm": 0.2236223965883255,
+                "learning_rate": 0.000197823530571169,
+                "epoch": 0.16330233613064188,
                 "step": 90
             },
             {
+                "loss": 0.6991,
+                "grad_norm": 0.41939008235931396,
+                "learning_rate": 0.00019631398527035422,
+                "epoch": 0.18144704014515764,
                 "step": 100
             },
             {
+                "eval_loss": 0.6606893539428711,
+                "eval_runtime": 76.0198,
+                "eval_samples_per_second": 6.012,
+                "eval_steps_per_second": 3.012,
+                "epoch": 0.18144704014515764,
                 "step": 100
             },
             {
+                "loss": 0.6879,
+                "grad_norm": 0.21272054314613342,
+                "learning_rate": 0.00019441817924565786,
+                "epoch": 0.1995917441596734,
                 "step": 110
             },
             {
+                "loss": 0.7107,
+                "grad_norm": 0.361630916595459,
+                "learning_rate": 0.0001921437154989221,
+                "epoch": 0.21773644817418916,
                 "step": 120
             },
             {
+                "loss": 0.6812,
+                "grad_norm": 0.2023937702178955,
+                "learning_rate": 0.0001894997156131734,
+                "epoch": 0.23588115218870492,
                 "step": 130
             },
             {
+                "loss": 0.7045,
+                "grad_norm": 0.30442872643470764,
+                "learning_rate": 0.00018649678317113084,
+                "epoch": 0.2540258562032207,
                 "step": 140
             },
             {
+                "loss": 0.8145,
+                "grad_norm": 0.34262141585350037,
+                "learning_rate": 0.00018314696123025454,
+                "epoch": 0.27217056021773645,
                 "step": 150
             },
             {
+                "eval_loss": 0.6401548385620117,
+                "eval_runtime": 75.3842,
+                "eval_samples_per_second": 6.062,
+                "eval_steps_per_second": 3.038,
+                "epoch": 0.27217056021773645,
                 "step": 150
             },
             {
+                "loss": 0.6708,
+                "grad_norm": 0.307359904050827,
+                "learning_rate": 0.00017946368402487845,
+                "epoch": 0.29031526423225223,
                 "step": 160
             },
             {
+                "loss": 0.7885,
+                "grad_norm": 0.29199010133743286,
+                "learning_rate": 0.00017546172308912213,
+                "epoch": 0.30845996824676797,
                 "step": 170
             },
             {
+                "loss": 0.7305,
+                "grad_norm": 0.20208679139614105,
+                "learning_rate": 0.000171157128016652,
+                "epoch": 0.32660467226128376,
                 "step": 180
             },
             {
+                "loss": 0.6736,
+                "grad_norm": 0.2638019025325775,
+                "learning_rate": 0.00016656716209487174,
+                "epoch": 0.3447493762757995,
                 "step": 190
             },
             {
+                "loss": 0.5909,
+                "grad_norm": 0.1571992188692093,
+                "learning_rate": 0.00016171023307167545,
+                "epoch": 0.3628940802903153,
                 "step": 200
             },
             {
+                "eval_loss": 0.6256077289581299,
+                "eval_runtime": 75.1757,
+                "eval_samples_per_second": 6.079,
+                "eval_steps_per_second": 3.046,
+                "epoch": 0.3628940802903153,
                 "step": 200
             },
             {
+                "loss": 0.7633,
+                "grad_norm": 0.1657303422689438,
+                "learning_rate": 0.00015660581933241993,
+                "epoch": 0.381038784304831,
                 "step": 210
             },
             {
+                "loss": 0.6618,
+                "grad_norm": 0.22835072875022888,
+                "learning_rate": 0.00015127439178317745,
+                "epoch": 0.3991834883193468,
                 "step": 220
             },
             {
+                "loss": 0.6575,
+                "grad_norm": 0.2166450172662735,
+                "learning_rate": 0.0001457373317535515,
+                "epoch": 0.41732819233386254,
                 "step": 230
             },
             {
+                "loss": 0.6041,
+                "grad_norm": 0.2187417596578598,
+                "learning_rate": 0.00014001684524830057,
+                "epoch": 0.4354728963483783,
                 "step": 240
             },
             {
+                "loss": 0.7904,
+                "grad_norm": 0.17704260349273682,
+                "learning_rate": 0.00013413587389165784,
+                "epoch": 0.45361760036289406,
                 "step": 250
             },
             {
+                "eval_loss": 0.6180712580680847,
+                "eval_runtime": 75.7849,
+                "eval_samples_per_second": 6.03,
+                "eval_steps_per_second": 3.022,
+                "epoch": 0.45361760036289406,
                 "step": 250
             },
             {
+                "loss": 0.7716,
+                "grad_norm": 0.22328545153141022,
+                "learning_rate": 0.0001281180029214988,
+                "epoch": 0.47176230437740985,
                 "step": 260
             },
             {
+                "loss": 0.647,
+                "grad_norm": 0.1940474510192871,
+                "learning_rate": 0.00012198736660234009,
+                "epoch": 0.4899070083919256,
                 "step": 270
             },
             {
+                "loss": 0.6896,
+                "grad_norm": 0.18775729835033417,
+                "learning_rate": 0.00011576855143650371,
+                "epoch": 0.5080517124064414,
                 "step": 280
             },
             {
+                "loss": 0.6765,
+                "grad_norm": 0.25463321805000305,
+                "learning_rate": 0.00010948649756161246,
+                "epoch": 0.5261964164209572,
                 "step": 290
             },
             {
+                "loss": 0.6583,
+                "grad_norm": 0.16848962008953094,
+                "learning_rate": 0.00010316639872985472,
+                "epoch": 0.5443411204354729,
                 "step": 300
             },
             {
+                "eval_loss": 0.6103786826133728,
+                "eval_runtime": 73.9265,
+                "eval_samples_per_second": 6.182,
+                "eval_steps_per_second": 3.098,
+                "epoch": 0.5443411204354729,
                 "step": 300
             },
             {
+                "loss": 0.6652,
+                "grad_norm": 0.27448564767837524,
+                "learning_rate": 9.683360127014529e-05,
+                "epoch": 0.5624858244499886,
                 "step": 310
             },
             {
+                "loss": 0.701,
+                "grad_norm": 0.2189791053533554,
+                "learning_rate": 9.051350243838756e-05,
+                "epoch": 0.5806305284645045,
                 "step": 320
             },
             {
+                "loss": 0.6166,
+                "grad_norm": 0.17203940451145172,
+                "learning_rate": 8.423144856349631e-05,
+                "epoch": 0.5987752324790202,
                 "step": 330
             },
             {
+                "loss": 0.5667,
+                "grad_norm": 0.220821350812912,
+                "learning_rate": 7.801263339765994e-05,
+                "epoch": 0.6169199364935359,
                 "step": 340
             },
             {
+                "loss": 0.6526,
+                "grad_norm": 0.2224995642900467,
+                "learning_rate": 7.188199707850122e-05,
+                "epoch": 0.6350646405080517,
                 "step": 350
             },
             {
+                "eval_loss": 0.6001651287078857,
+                "eval_runtime": 75.1345,
+                "eval_samples_per_second": 6.082,
+                "eval_steps_per_second": 3.048,
+                "epoch": 0.6350646405080517,
                 "step": 350
             },
             {
+                "loss": 0.6697,
+                "grad_norm": 0.20313851535320282,
+                "learning_rate": 6.586412610834221e-05,
+                "epoch": 0.6532093445225675,
                 "step": 360
             },
             {
+                "loss": 0.5862,
+                "grad_norm": 0.1557992547750473,
+                "learning_rate": 5.998315475169942e-05,
+                "epoch": 0.6713540485370832,
                 "step": 370
             },
             {
+                "loss": 0.6341,
+                "grad_norm": 0.29822641611099243,
+                "learning_rate": 5.4262668246448475e-05,
+                "epoch": 0.689498752551599,
                 "step": 380
             },
             {
+                "loss": 0.6841,
+                "grad_norm": 0.30022329092025757,
+                "learning_rate": 4.872560821682256e-05,
+                "epoch": 0.7076434565661147,
                 "step": 390
             },
             {
+                "loss": 0.729,
+                "grad_norm": 0.26096341013908386,
+                "learning_rate": 4.339418066758008e-05,
+                "epoch": 0.7257881605806306,
                 "step": 400
             },
             {
+                "eval_loss": 0.5905945897102356,
+                "eval_runtime": 76.6602,
+                "eval_samples_per_second": 5.961,
+                "eval_steps_per_second": 2.987,
+                "epoch": 0.7257881605806306,
                 "step": 400
             },
             {
+                "loss": 0.6138,
+                "grad_norm": 0.2632121741771698,
+                "learning_rate": 3.828976692832458e-05,
+                "epoch": 0.7439328645951463,
                 "step": 410
             },
             {
+                "loss": 0.6976,
+                "grad_norm": 0.24841086566448212,
+                "learning_rate": 3.343283790512829e-05,
+                "epoch": 0.762077568609662,
                 "step": 420
             },
             {
+                "loss": 0.7324,
+                "grad_norm": 0.33077147603034973,
+                "learning_rate": 2.8842871983347998e-05,
+                "epoch": 0.7802222726241779,
                 "step": 430
             },
             {
+                "loss": 0.5743,
+                "grad_norm": 0.29825517535209656,
+                "learning_rate": 2.45382769108779e-05,
+                "epoch": 0.7983669766386936,
                 "step": 440
             },
             {
+                "loss": 0.5662,
+                "grad_norm": 0.18266697227954865,
+                "learning_rate": 2.0536315975121544e-05,
+                "epoch": 0.8165116806532093,
+                "step": 450
+            },
+            {
+                "eval_loss": 0.5785723924636841,
+                "eval_runtime": 74.3692,
+                "eval_samples_per_second": 6.145,
+                "eval_steps_per_second": 3.079,
+                "epoch": 0.8165116806532093,
+                "step": 450
+            },
+            {
+                "loss": 0.6846,
+                "grad_norm": 0.37334564328193665,
+                "learning_rate": 1.6853038769745467e-05,
+                "epoch": 0.8346563846677251,
+                "step": 460
+            },
+            {
+                "loss": 0.6121,
+                "grad_norm": 0.31827959418296814,
+                "learning_rate": 1.3503216828869192e-05,
+                "epoch": 0.8528010886822409,
+                "step": 470
+            },
+            {
+                "loss": 0.719,
+                "grad_norm": 0.5225608348846436,
+                "learning_rate": 1.0500284386826597e-05,
+                "epoch": 0.8709457926967566,
+                "step": 480
+            },
+            {
+                "loss": 0.6807,
+                "grad_norm": 0.2689962387084961,
+                "learning_rate": 7.856284501077926e-06,
+                "epoch": 0.8890904967112724,
+                "step": 490
+            },
+            {
+                "loss": 0.5893,
+                "grad_norm": 0.34263530373573303,
+                "learning_rate": 5.581820754342137e-06,
+                "epoch": 0.9072352007257881,
+                "step": 500
+            },
+            {
+                "eval_loss": 0.5692603588104248,
+                "eval_runtime": 74.4074,
+                "eval_samples_per_second": 6.142,
+                "eval_steps_per_second": 3.078,
+                "epoch": 0.9072352007257881,
+                "step": 500
+            },
+            {
+                "loss": 0.5906,
+                "grad_norm": 0.28205356001853943,
+                "learning_rate": 3.6860147296457816e-06,
+                "epoch": 0.925379904740304,
+                "step": 510
+            },
+            {
+                "loss": 0.6412,
+                "grad_norm": 0.3020014464855194,
+                "learning_rate": 2.1764694288310184e-06,
+                "epoch": 0.9435246087548197,
+                "step": 520
+            },
+            {
+                "loss": 0.7172,
+                "grad_norm": 0.3621278703212738,
+                "learning_rate": 1.0592387812310311e-06,
+                "epoch": 0.9616693127693354,
+                "step": 530
+            },
+            {
+                "loss": 0.5935,
+                "grad_norm": 0.31613534688949585,
+                "learning_rate": 3.3880336479590325e-07,
+                "epoch": 0.9798140167838512,
+                "step": 540
+            },
+            {
+                "loss": 0.5792,
+                "grad_norm": 0.4579828679561615,
+                "learning_rate": 1.8052437037707758e-08,
+                "epoch": 0.997958720798367,
+                "step": 550
+            },
+            {
+                "eval_loss": 0.5670668482780457,
+                "eval_runtime": 72.4806,
+                "eval_samples_per_second": 6.305,
+                "eval_steps_per_second": 3.159,
+                "epoch": 0.997958720798367,
+                "step": 550
+            },
+            {
+                "train_runtime": 4669.6027,
+                "train_samples_per_second": 1.888,
                 "train_steps_per_second": 0.118,
+                "total_flos": 8.286147539211264e+16,
+                "train_loss": 0.7052618392567703,
+                "epoch": 1.0,
+                "step": 552,
+                "total_runtime_sec": 4670.917282342911
             }
         ]
     }