aniloid2
/

Qwen2.5-1.5B-Open-R1-Distill

@@ -1,11 +1,9 @@
 ---
 base_model: Qwen/Qwen2.5-1.5B-Instruct
-datasets: open-r1/OpenR1-Math-220k
 library_name: transformers
 model_name: Qwen2.5-1.5B-Open-R1-Distill
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for Qwen2.5-1.5B-Open-R1-Distill
-This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct) on the [open-r1/OpenR1-Math-220k](https://huggingface.co/datasets/open-r1/OpenR1-Math-220k) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/aniloid2/huggingface/runs/3196v3g2)
 This model was trained with SFT.

 ---
 base_model: Qwen/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: Qwen2.5-1.5B-Open-R1-Distill
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for Qwen2.5-1.5B-Open-R1-Distill
+This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/aniloid2/huggingface/runs/qyr4byeh)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 488165445992448.0,
-    "train_loss": 0.0,
-    "train_runtime": 1.4542,
     "train_samples": 93733,
-    "train_samples_per_second": 23587.156,
-    "train_steps_per_second": 184.291
 }

 {
+    "total_flos": 126040110268416.0,
+    "train_loss": 2.3174947375681865,
+    "train_runtime": 34132.5347,
     "train_samples": 93733,
+    "train_samples_per_second": 1.005,
+    "train_steps_per_second": 0.008
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 488165445992448.0,
-    "train_loss": 0.0,
-    "train_runtime": 1.4542,
     "train_samples": 93733,
-    "train_samples_per_second": 23587.156,
-    "train_steps_per_second": 184.291
 }

 {
+    "total_flos": 126040110268416.0,
+    "train_loss": 2.3174947375681865,
+    "train_runtime": 34132.5347,
     "train_samples": 93733,
+    "train_samples_per_second": 1.005,
+    "train_steps_per_second": 0.008
 }

trainer_state.json CHANGED Viewed

@@ -10,383 +10,383 @@
   "log_history": [
     {
       "epoch": 0.018656716417910446,
-      "grad_norm": 1.8340438042183895,
       "learning_rate": 1.785714285714286e-05,
-      "loss": 0.8456,
       "step": 5
     },
     {
       "epoch": 0.03731343283582089,
-      "grad_norm": 0.7951826236027404,
       "learning_rate": 3.571428571428572e-05,
-      "loss": 0.7681,
       "step": 10
     },
     {
       "epoch": 0.055970149253731345,
-      "grad_norm": 0.5154315861714606,
       "learning_rate": 4.999827900623038e-05,
-      "loss": 0.7025,
       "step": 15
     },
     {
       "epoch": 0.07462686567164178,
-      "grad_norm": 0.4096644979236753,
       "learning_rate": 4.993807186343243e-05,
-      "loss": 0.6745,
       "step": 20
     },
     {
       "epoch": 0.09328358208955224,
-      "grad_norm": 0.41615570016262526,
       "learning_rate": 4.979207812402531e-05,
-      "loss": 0.6435,
       "step": 25
     },
     {
       "epoch": 0.11194029850746269,
-      "grad_norm": 0.3382911483266423,
       "learning_rate": 4.956085596012407e-05,
-      "loss": 0.6363,
       "step": 30
     },
     {
       "epoch": 0.13059701492537312,
-      "grad_norm": 0.3343739047829077,
       "learning_rate": 4.924528939432311e-05,
-      "loss": 0.62,
       "step": 35
     },
     {
       "epoch": 0.14925373134328357,
-      "grad_norm": 0.2592771324041628,
       "learning_rate": 4.884658491984735e-05,
-      "loss": 0.6106,
       "step": 40
     },
     {
       "epoch": 0.16791044776119404,
-      "grad_norm": 0.23367554316276612,
       "learning_rate": 4.8366266887814235e-05,
-      "loss": 0.6113,
       "step": 45
     },
     {
       "epoch": 0.1865671641791045,
-      "grad_norm": 0.27188191160952146,
       "learning_rate": 4.780617167924209e-05,
-      "loss": 0.5939,
       "step": 50
     },
     {
       "epoch": 0.20522388059701493,
-      "grad_norm": 0.27682296737618883,
       "learning_rate": 4.716844068408693e-05,
-      "loss": 0.5965,
       "step": 55
     },
     {
       "epoch": 0.22388059701492538,
-      "grad_norm": 0.27317012100328225,
       "learning_rate": 4.6455512114150546e-05,
-      "loss": 0.5919,
       "step": 60
     },
     {
       "epoch": 0.24253731343283583,
-      "grad_norm": 0.24464311795706967,
       "learning_rate": 4.5670111681161296e-05,
-      "loss": 0.5825,
       "step": 65
     },
     {
       "epoch": 0.26119402985074625,
-      "grad_norm": 0.34766047560756597,
       "learning_rate": 4.481524217566783e-05,
-      "loss": 0.5789,
       "step": 70
     },
     {
       "epoch": 0.2798507462686567,
-      "grad_norm": 0.5405423254584241,
       "learning_rate": 4.3894171986588217e-05,
-      "loss": 0.5785,
       "step": 75
     },
     {
       "epoch": 0.29850746268656714,
-      "grad_norm": 0.38583732913974567,
       "learning_rate": 4.29104226053073e-05,
-      "loss": 0.5777,
       "step": 80
     },
     {
       "epoch": 0.31716417910447764,
-      "grad_norm": 0.3711588959211694,
       "learning_rate": 4.186775516209732e-05,
-      "loss": 0.573,
       "step": 85
     },
     {
       "epoch": 0.3358208955223881,
-      "grad_norm": 0.36207623515411447,
       "learning_rate": 4.077015604633669e-05,
-      "loss": 0.5754,
       "step": 90
     },
     {
       "epoch": 0.35447761194029853,
-      "grad_norm": 0.31192395276343104,
       "learning_rate": 3.962182166550441e-05,
-      "loss": 0.5739,
       "step": 95
     },
     {
       "epoch": 0.373134328358209,
-      "grad_norm": 0.31751083011527065,
       "learning_rate": 3.8427142401220634e-05,
-      "loss": 0.5698,
       "step": 100
     },
     {
       "epoch": 0.3917910447761194,
-      "grad_norm": 0.2556620179749335,
       "learning_rate": 3.71906858236735e-05,
-      "loss": 0.5661,
       "step": 105
     },
     {
       "epoch": 0.41044776119402987,
-      "grad_norm": 0.28171907193629253,
       "learning_rate": 3.591717922860785e-05,
-      "loss": 0.5733,
       "step": 110
     },
     {
       "epoch": 0.4291044776119403,
-      "grad_norm": 0.25565772162050643,
       "learning_rate": 3.46114915636416e-05,
-      "loss": 0.5641,
       "step": 115
     },
     {
       "epoch": 0.44776119402985076,
-      "grad_norm": 0.2692058231168393,
       "learning_rate": 3.3278614813010034e-05,
-      "loss": 0.5651,
       "step": 120
     },
     {
       "epoch": 0.4664179104477612,
-      "grad_norm": 0.2595641295924728,
       "learning_rate": 3.1923644911909e-05,
-      "loss": 0.562,
       "step": 125
     },
     {
       "epoch": 0.48507462686567165,
-      "grad_norm": 0.23192953907425143,
       "learning_rate": 3.0551762263406576e-05,
-      "loss": 0.5607,
       "step": 130
     },
     {
       "epoch": 0.503731343283582,
-      "grad_norm": 0.2525775632798149,
       "learning_rate": 2.9168211932412042e-05,
-      "loss": 0.5579,
       "step": 135
     },
     {
       "epoch": 0.5223880597014925,
-      "grad_norm": 0.2169419638537429,
       "learning_rate": 2.777828359242567e-05,
-      "loss": 0.5632,
       "step": 140
     },
     {
       "epoch": 0.5410447761194029,
-      "grad_norm": 0.23790444425342444,
       "learning_rate": 2.6387291301738377e-05,
-      "loss": 0.556,
       "step": 145
     },
     {
       "epoch": 0.5597014925373134,
-      "grad_norm": 0.23123075574840998,
       "learning_rate": 2.50005531864019e-05,
-      "loss": 0.5538,
       "step": 150
     },
     {
       "epoch": 0.5783582089552238,
-      "grad_norm": 0.24287089032197215,
       "learning_rate": 2.362337110764688e-05,
-      "loss": 0.5541,
       "step": 155
     },
     {
       "epoch": 0.5970149253731343,
-      "grad_norm": 0.1863954428523962,
       "learning_rate": 2.226101039148557e-05,
-      "loss": 0.5523,
       "step": 160
     },
     {
       "epoch": 0.6156716417910447,
-      "grad_norm": 0.2558894409316875,
       "learning_rate": 2.0918679697998252e-05,
-      "loss": 0.5512,
       "step": 165
     },
     {
       "epoch": 0.6343283582089553,
-      "grad_norm": 0.2233289728652354,
       "learning_rate": 1.9601511107268255e-05,
-      "loss": 0.5516,
       "step": 170
     },
     {
       "epoch": 0.6529850746268657,
-      "grad_norm": 0.20246143955254822,
       "learning_rate": 1.8314540498102216e-05,
-      "loss": 0.5512,
       "step": 175
     },
     {
       "epoch": 0.6716417910447762,
-      "grad_norm": 0.18020359913875209,
       "learning_rate": 1.7062688294552992e-05,
-      "loss": 0.5434,
       "step": 180
     },
     {
       "epoch": 0.6902985074626866,
-      "grad_norm": 0.19749393449240044,
       "learning_rate": 1.5850740653856096e-05,
-      "loss": 0.5467,
       "step": 185
     },
     {
       "epoch": 0.7089552238805971,
-      "grad_norm": 0.18597460483892075,
       "learning_rate": 1.4683331167703218e-05,
-      "loss": 0.5503,
       "step": 190
     },
     {
       "epoch": 0.7276119402985075,
-      "grad_norm": 0.174856006547511,
       "learning_rate": 1.356492314681356e-05,
-      "loss": 0.5532,
       "step": 195
     },
     {
       "epoch": 0.746268656716418,
-      "grad_norm": 0.16385260185410305,
       "learning_rate": 1.2499792556533716e-05,
-      "loss": 0.5475,
       "step": 200
     },
     {
       "epoch": 0.7649253731343284,
-      "grad_norm": 0.1774467357426527,
       "learning_rate": 1.1492011668707753e-05,
-      "loss": 0.5449,
       "step": 205
     },
     {
       "epoch": 0.7835820895522388,
-      "grad_norm": 0.18006988137177274,
       "learning_rate": 1.0545433492320603e-05,
-      "loss": 0.5501,
       "step": 210
     },
     {
       "epoch": 0.8022388059701493,
-      "grad_norm": 0.16663148804007366,
       "learning_rate": 9.663677042440537e-06,
-      "loss": 0.5444,
       "step": 215
     },
     {
       "epoch": 0.8208955223880597,
-      "grad_norm": 0.16072306564901104,
       "learning_rate": 8.850113503781367e-06,
-      "loss": 0.5443,
       "step": 220
     },
     {
       "epoch": 0.8395522388059702,
-      "grad_norm": 0.1426075821782254,
       "learning_rate": 8.107853341784671e-06,
-      "loss": 0.5507,
       "step": 225
     },
     {
       "epoch": 0.8582089552238806,
-      "grad_norm": 0.1635359007036467,
       "learning_rate": 7.439734410499752e-06,
-      "loss": 0.5471,
       "step": 230
     },
     {
       "epoch": 0.8768656716417911,
-      "grad_norm": 0.18747407294942076,
       "learning_rate": 6.848311102728011e-06,
-      "loss": 0.5473,
       "step": 235
     },
     {
       "epoch": 0.8955223880597015,
-      "grad_norm": 0.17682712499368686,
       "learning_rate": 6.335844583913515e-06,
-      "loss": 0.5434,
       "step": 240
     },
     {
       "epoch": 0.914179104477612,
-      "grad_norm": 0.15507027757764974,
       "learning_rate": 5.904294147118193e-06,
-      "loss": 0.5471,
       "step": 245
     },
     {
       "epoch": 0.9328358208955224,
-      "grad_norm": 0.15176498907816743,
       "learning_rate": 5.555309722133842e-06,
-      "loss": 0.5436,
       "step": 250
     },
     {
       "epoch": 0.9514925373134329,
-      "grad_norm": 0.1468741880558366,
       "learning_rate": 5.290225567370509e-06,
-      "loss": 0.5397,
       "step": 255
     },
     {
       "epoch": 0.9701492537313433,
-      "grad_norm": 0.15706775164322176,
       "learning_rate": 5.110055168638854e-06,
-      "loss": 0.5434,
       "step": 260
     },
     {
       "epoch": 0.9888059701492538,
-      "grad_norm": 0.15191116377634428,
       "learning_rate": 5.0154873643297575e-06,
-      "loss": 0.5471,
       "step": 265
     },
     {
       "epoch": 1.0,
       "step": 268,
-      "total_flos": 488165445992448.0,
-      "train_loss": 0.0,
-      "train_runtime": 1.4542,
-      "train_samples_per_second": 23587.156,
-      "train_steps_per_second": 184.291
     }
   ],
   "logging_steps": 5,
@@ -406,7 +406,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 488165445992448.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.018656716417910446,
+      "grad_norm": 7.992456557616748,
       "learning_rate": 1.785714285714286e-05,
+      "loss": 3.3955,
       "step": 5
     },
     {
       "epoch": 0.03731343283582089,
+      "grad_norm": 3.4968199831167857,
       "learning_rate": 3.571428571428572e-05,
+      "loss": 3.0816,
       "step": 10
     },
     {
       "epoch": 0.055970149253731345,
+      "grad_norm": 2.968125450447822,
       "learning_rate": 4.999827900623038e-05,
+      "loss": 2.804,
       "step": 15
     },
     {
       "epoch": 0.07462686567164178,
+      "grad_norm": 2.588497606835322,
       "learning_rate": 4.993807186343243e-05,
+      "loss": 2.6908,
       "step": 20
     },
     {
       "epoch": 0.09328358208955224,
+      "grad_norm": 2.549871368666643,
       "learning_rate": 4.979207812402531e-05,
+      "loss": 2.5652,
       "step": 25
     },
     {
       "epoch": 0.11194029850746269,
+      "grad_norm": 1.9738305926810327,
       "learning_rate": 4.956085596012407e-05,
+      "loss": 2.5363,
       "step": 30
     },
     {
       "epoch": 0.13059701492537312,
+      "grad_norm": 2.3251077114713885,
       "learning_rate": 4.924528939432311e-05,
+      "loss": 2.4766,
       "step": 35
     },
     {
       "epoch": 0.14925373134328357,
+      "grad_norm": 2.764973986868281,
       "learning_rate": 4.884658491984735e-05,
+      "loss": 2.4402,
       "step": 40
     },
     {
       "epoch": 0.16791044776119404,
+      "grad_norm": 1.9523889288733327,
       "learning_rate": 4.8366266887814235e-05,
+      "loss": 2.4491,
       "step": 45
     },
     {
       "epoch": 0.1865671641791045,
+      "grad_norm": 1.9187589431371008,
       "learning_rate": 4.780617167924209e-05,
+      "loss": 2.3786,
       "step": 50
     },
     {
       "epoch": 0.20522388059701493,
+      "grad_norm": 1.9304839973674266,
       "learning_rate": 4.716844068408693e-05,
+      "loss": 2.3897,
       "step": 55
     },
     {
       "epoch": 0.22388059701492538,
+      "grad_norm": 2.8003484835380372,
       "learning_rate": 4.6455512114150546e-05,
+      "loss": 2.3704,
       "step": 60
     },
     {
       "epoch": 0.24253731343283583,
+      "grad_norm": 1.5013907534892832,
       "learning_rate": 4.5670111681161296e-05,
+      "loss": 2.3343,
       "step": 65
     },
     {
       "epoch": 0.26119402985074625,
+      "grad_norm": 2.9773909499359377,
       "learning_rate": 4.481524217566783e-05,
+      "loss": 2.3199,
       "step": 70
     },
     {
       "epoch": 0.2798507462686567,
+      "grad_norm": 4.2665640456752785,
       "learning_rate": 4.3894171986588217e-05,
+      "loss": 2.3193,
       "step": 75
     },
     {
       "epoch": 0.29850746268656714,
+      "grad_norm": 1.9307726906007678,
       "learning_rate": 4.29104226053073e-05,
+      "loss": 2.322,
       "step": 80
     },
     {
       "epoch": 0.31716417910447764,
+      "grad_norm": 2.237168079938654,
       "learning_rate": 4.186775516209732e-05,
+      "loss": 2.3077,
       "step": 85
     },
     {
       "epoch": 0.3358208955223881,
+      "grad_norm": 2.901386689863122,
       "learning_rate": 4.077015604633669e-05,
+      "loss": 2.3101,
       "step": 90
     },
     {
       "epoch": 0.35447761194029853,
+      "grad_norm": 2.5210971167889245,
       "learning_rate": 3.962182166550441e-05,
+      "loss": 2.3042,
       "step": 95
     },
     {
       "epoch": 0.373134328358209,
+      "grad_norm": 2.6070376003561933,
       "learning_rate": 3.8427142401220634e-05,
+      "loss": 2.2873,
       "step": 100
     },
     {
       "epoch": 0.3917910447761194,
+      "grad_norm": 2.2004757384840152,
       "learning_rate": 3.71906858236735e-05,
+      "loss": 2.2728,
       "step": 105
     },
     {
       "epoch": 0.41044776119402987,
+      "grad_norm": 2.1473625420095868,
       "learning_rate": 3.591717922860785e-05,
+      "loss": 2.2999,
       "step": 110
     },
     {
       "epoch": 0.4291044776119403,
+      "grad_norm": 1.4790945776347835,
       "learning_rate": 3.46114915636416e-05,
+      "loss": 2.2623,
       "step": 115
     },
     {
       "epoch": 0.44776119402985076,
+      "grad_norm": 1.4602444685381062,
       "learning_rate": 3.3278614813010034e-05,
+      "loss": 2.2668,
       "step": 120
     },
     {
       "epoch": 0.4664179104477612,
+      "grad_norm": 1.3383920889270082,
       "learning_rate": 3.1923644911909e-05,
+      "loss": 2.2541,
       "step": 125
     },
     {
       "epoch": 0.48507462686567165,
+      "grad_norm": 1.6295501707411197,
       "learning_rate": 3.0551762263406576e-05,
+      "loss": 2.2505,
       "step": 130
     },
     {
       "epoch": 0.503731343283582,
+      "grad_norm": 1.5700164012256488,
       "learning_rate": 2.9168211932412042e-05,
+      "loss": 2.2392,
       "step": 135
     },
     {
       "epoch": 0.5223880597014925,
+      "grad_norm": 1.3183550705568836,
       "learning_rate": 2.777828359242567e-05,
+      "loss": 2.26,
       "step": 140
     },
     {
       "epoch": 0.5410447761194029,
+      "grad_norm": 1.270837720420853,
       "learning_rate": 2.6387291301738377e-05,
+      "loss": 2.2291,
       "step": 145
     },
     {
       "epoch": 0.5597014925373134,
+      "grad_norm": 1.2360031288329183,
       "learning_rate": 2.50005531864019e-05,
+      "loss": 2.2191,
       "step": 150
     },
     {
       "epoch": 0.5783582089552238,
+      "grad_norm": 1.4058327877557197,
       "learning_rate": 2.362337110764688e-05,
+      "loss": 2.2201,
       "step": 155
     },
     {
       "epoch": 0.5970149253731343,
+      "grad_norm": 1.1447309950598807,
       "learning_rate": 2.226101039148557e-05,
+      "loss": 2.212,
       "step": 160
     },
     {
       "epoch": 0.6156716417910447,
+      "grad_norm": 1.2920928760986912,
       "learning_rate": 2.0918679697998252e-05,
+      "loss": 2.2068,
       "step": 165
     },
     {
       "epoch": 0.6343283582089553,
+      "grad_norm": 1.3303686169767341,
       "learning_rate": 1.9601511107268255e-05,
+      "loss": 2.208,
       "step": 170
     },
     {
       "epoch": 0.6529850746268657,
+      "grad_norm": 1.0982459829577405,
       "learning_rate": 1.8314540498102216e-05,
+      "loss": 2.205,
       "step": 175
     },
     {
       "epoch": 0.6716417910447762,
+      "grad_norm": 1.2297852411953294,
       "learning_rate": 1.7062688294552992e-05,
+      "loss": 2.1727,
       "step": 180
     },
     {
       "epoch": 0.6902985074626866,
+      "grad_norm": 1.0412249297641412,
       "learning_rate": 1.5850740653856096e-05,
+      "loss": 2.1852,
       "step": 185
     },
     {
       "epoch": 0.7089552238805971,
+      "grad_norm": 1.2871807028686466,
       "learning_rate": 1.4683331167703218e-05,
+      "loss": 2.199,
       "step": 190
     },
     {
       "epoch": 0.7276119402985075,
+      "grad_norm": 1.2102977879839474,
       "learning_rate": 1.356492314681356e-05,
+      "loss": 2.2087,
       "step": 195
     },
     {
       "epoch": 0.746268656716418,
+      "grad_norm": 0.9891067478501752,
       "learning_rate": 1.2499792556533716e-05,
+      "loss": 2.1852,
       "step": 200
     },
     {
       "epoch": 0.7649253731343284,
+      "grad_norm": 0.8301326918730746,
       "learning_rate": 1.1492011668707753e-05,
+      "loss": 2.1736,
       "step": 205
     },
     {
       "epoch": 0.7835820895522388,
+      "grad_norm": 0.7981204348651115,
       "learning_rate": 1.0545433492320603e-05,
+      "loss": 2.1941,
       "step": 210
     },
     {
       "epoch": 0.8022388059701493,
+      "grad_norm": 0.9338161168132167,
       "learning_rate": 9.663677042440537e-06,
+      "loss": 2.1702,
       "step": 215
     },
     {
       "epoch": 0.8208955223880597,
+      "grad_norm": 0.8537076459178821,
       "learning_rate": 8.850113503781367e-06,
+      "loss": 2.169,
       "step": 220
     },
     {
       "epoch": 0.8395522388059702,
+      "grad_norm": 0.8531025855292982,
       "learning_rate": 8.107853341784671e-06,
+      "loss": 2.1934,
       "step": 225
     },
     {
       "epoch": 0.8582089552238806,
+      "grad_norm": 0.7887299648309287,
       "learning_rate": 7.439734410499752e-06,
+      "loss": 2.1789,
       "step": 230
     },
     {
       "epoch": 0.8768656716417911,
+      "grad_norm": 0.7325960398919809,
       "learning_rate": 6.848311102728011e-06,
+      "loss": 2.179,
       "step": 235
     },
     {
       "epoch": 0.8955223880597015,
+      "grad_norm": 0.8564233439601584,
       "learning_rate": 6.335844583913515e-06,
+      "loss": 2.1635,
       "step": 240
     },
     {
       "epoch": 0.914179104477612,
+      "grad_norm": 0.9533929441227149,
       "learning_rate": 5.904294147118193e-06,
+      "loss": 2.1775,
       "step": 245
     },
     {
       "epoch": 0.9328358208955224,
+      "grad_norm": 0.713300332791207,
       "learning_rate": 5.555309722133842e-06,
+      "loss": 2.1629,
       "step": 250
     },
     {
       "epoch": 0.9514925373134329,
+      "grad_norm": 0.7316453284294552,
       "learning_rate": 5.290225567370509e-06,
+      "loss": 2.1478,
       "step": 255
     },
     {
       "epoch": 0.9701492537313433,
+      "grad_norm": 0.6667774680701307,
       "learning_rate": 5.110055168638854e-06,
+      "loss": 2.1616,
       "step": 260
     },
     {
       "epoch": 0.9888059701492538,
+      "grad_norm": 0.7087383615740679,
       "learning_rate": 5.0154873643297575e-06,
+      "loss": 2.1761,
       "step": 265
     },
     {
       "epoch": 1.0,
       "step": 268,
+      "total_flos": 126040110268416.0,
+      "train_loss": 2.3174947375681865,
+      "train_runtime": 34132.5347,
+      "train_samples_per_second": 1.005,
+      "train_steps_per_second": 0.008
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 126040110268416.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null