End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +10 -10
eval_results.json +5 -5
train_results.json +6 -6
trainer_state.json +197 -197
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: OH_DCFT_V3_wo_unreplicated
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # OH_DCFT_V3_wo_unreplicated
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6938

 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: OH_DCFT_V3_wo_unreplicated
 # OH_DCFT_V3_wo_unreplicated
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on the mlfoundations-dev/OH_DCFT_V3_wo_unreplicated dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6938

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 3.0,
-    "eval_loss": 0.6997450590133667,
-    "eval_runtime": 25.0703,
-    "eval_samples_per_second": 202.909,
-    "eval_steps_per_second": 0.399,
-    "total_flos": 949746118164480.0,
-    "train_loss": 0.6543745700223946,
-    "train_runtime": 4644.4641,
-    "train_samples_per_second": 62.421,
-    "train_steps_per_second": 0.122
 }

 {
+    "epoch": 2.9880794701986755,
+    "eval_loss": 0.6938396692276001,
+    "eval_runtime": 101.8638,
+    "eval_samples_per_second": 49.939,
+    "eval_steps_per_second": 0.393,
+    "total_flos": 944302247116800.0,
+    "train_loss": 0.6565315867146702,
+    "train_runtime": 17042.4484,
+    "train_samples_per_second": 17.011,
+    "train_steps_per_second": 0.033
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 3.0,
-    "eval_loss": 0.6997450590133667,
-    "eval_runtime": 25.0703,
-    "eval_samples_per_second": 202.909,
-    "eval_steps_per_second": 0.399
 }

 {
+    "epoch": 2.9880794701986755,
+    "eval_loss": 0.6938396692276001,
+    "eval_runtime": 101.8638,
+    "eval_samples_per_second": 49.939,
+    "eval_steps_per_second": 0.393
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "total_flos": 949746118164480.0,
-    "train_loss": 0.6543745700223946,
-    "train_runtime": 4644.4641,
-    "train_samples_per_second": 62.421,
-    "train_steps_per_second": 0.122
 }

 {
+    "epoch": 2.9880794701986755,
+    "total_flos": 944302247116800.0,
+    "train_loss": 0.6565315867146702,
+    "train_runtime": 17042.4484,
+    "train_samples_per_second": 17.011,
+    "train_steps_per_second": 0.033
 }

trainer_state.json CHANGED Viewed

@@ -1,441 +1,441 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 567,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05291005291005291,
-      "grad_norm": 416.71048534958487,
       "learning_rate": 5e-06,
-      "loss": 1.0192,
       "step": 10
     },
     {
-      "epoch": 0.10582010582010581,
-      "grad_norm": 9.82535489154965,
       "learning_rate": 5e-06,
-      "loss": 0.8978,
       "step": 20
     },
     {
-      "epoch": 0.15873015873015872,
-      "grad_norm": 2.4152631986997957,
       "learning_rate": 5e-06,
-      "loss": 0.8522,
       "step": 30
     },
     {
-      "epoch": 0.21164021164021163,
-      "grad_norm": 1.2916074320999635,
       "learning_rate": 5e-06,
-      "loss": 0.8072,
       "step": 40
     },
     {
-      "epoch": 0.26455026455026454,
-      "grad_norm": 1.3893758966727856,
       "learning_rate": 5e-06,
-      "loss": 0.7758,
       "step": 50
     },
     {
-      "epoch": 0.31746031746031744,
-      "grad_norm": 1.2054911466815574,
       "learning_rate": 5e-06,
-      "loss": 0.7646,
       "step": 60
     },
     {
-      "epoch": 0.37037037037037035,
-      "grad_norm": 0.8794856426133802,
       "learning_rate": 5e-06,
-      "loss": 0.7473,
       "step": 70
     },
     {
-      "epoch": 0.42328042328042326,
-      "grad_norm": 1.2198012095245372,
       "learning_rate": 5e-06,
-      "loss": 0.7266,
       "step": 80
     },
     {
-      "epoch": 0.47619047619047616,
-      "grad_norm": 1.4527939889347394,
       "learning_rate": 5e-06,
-      "loss": 0.7296,
       "step": 90
     },
     {
-      "epoch": 0.5291005291005291,
-      "grad_norm": 1.0469501290398182,
       "learning_rate": 5e-06,
-      "loss": 0.7153,
       "step": 100
     },
     {
-      "epoch": 0.582010582010582,
-      "grad_norm": 1.3687805003393385,
       "learning_rate": 5e-06,
-      "loss": 0.7146,
       "step": 110
     },
     {
-      "epoch": 0.6349206349206349,
-      "grad_norm": 0.7597394338069358,
       "learning_rate": 5e-06,
-      "loss": 0.7149,
       "step": 120
     },
     {
-      "epoch": 0.6878306878306878,
-      "grad_norm": 0.7338187068599691,
       "learning_rate": 5e-06,
-      "loss": 0.7077,
       "step": 130
     },
     {
-      "epoch": 0.7407407407407407,
-      "grad_norm": 0.7105896232322656,
       "learning_rate": 5e-06,
-      "loss": 0.7045,
       "step": 140
     },
     {
-      "epoch": 0.7936507936507936,
-      "grad_norm": 0.7782617723012114,
       "learning_rate": 5e-06,
-      "loss": 0.7008,
       "step": 150
     },
     {
-      "epoch": 0.8465608465608465,
-      "grad_norm": 0.7692589442011014,
       "learning_rate": 5e-06,
-      "loss": 0.6997,
       "step": 160
     },
     {
-      "epoch": 0.8994708994708994,
-      "grad_norm": 1.2419889829411472,
       "learning_rate": 5e-06,
-      "loss": 0.707,
       "step": 170
     },
     {
-      "epoch": 0.9523809523809523,
-      "grad_norm": 0.6796905528838658,
       "learning_rate": 5e-06,
-      "loss": 0.7062,
       "step": 180
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.7010859251022339,
-      "eval_runtime": 26.0186,
-      "eval_samples_per_second": 195.514,
-      "eval_steps_per_second": 0.384,
-      "step": 189
     },
     {
-      "epoch": 1.0052910052910053,
-      "grad_norm": 1.0978250374797298,
       "learning_rate": 5e-06,
-      "loss": 0.6881,
       "step": 190
     },
     {
-      "epoch": 1.0582010582010581,
-      "grad_norm": 0.8714976613775269,
       "learning_rate": 5e-06,
-      "loss": 0.6345,
       "step": 200
     },
     {
-      "epoch": 1.1111111111111112,
-      "grad_norm": 0.7509137617425738,
       "learning_rate": 5e-06,
-      "loss": 0.6311,
       "step": 210
     },
     {
-      "epoch": 1.164021164021164,
-      "grad_norm": 0.5974905751964193,
       "learning_rate": 5e-06,
-      "loss": 0.6231,
       "step": 220
     },
     {
-      "epoch": 1.216931216931217,
-      "grad_norm": 0.8717270870439439,
       "learning_rate": 5e-06,
-      "loss": 0.6467,
       "step": 230
     },
     {
-      "epoch": 1.2698412698412698,
-      "grad_norm": 0.6810610972836734,
       "learning_rate": 5e-06,
-      "loss": 0.6451,
       "step": 240
     },
     {
-      "epoch": 1.3227513227513228,
-      "grad_norm": 0.7378737080285518,
       "learning_rate": 5e-06,
-      "loss": 0.6307,
       "step": 250
     },
     {
-      "epoch": 1.3756613756613756,
-      "grad_norm": 0.6950294694450657,
       "learning_rate": 5e-06,
-      "loss": 0.6339,
       "step": 260
     },
     {
-      "epoch": 1.4285714285714286,
-      "grad_norm": 0.6214872817490306,
       "learning_rate": 5e-06,
-      "loss": 0.6344,
       "step": 270
     },
     {
-      "epoch": 1.4814814814814814,
-      "grad_norm": 0.7166396689431728,
       "learning_rate": 5e-06,
-      "loss": 0.6316,
       "step": 280
     },
     {
-      "epoch": 1.5343915343915344,
-      "grad_norm": 0.748339470872035,
       "learning_rate": 5e-06,
-      "loss": 0.64,
       "step": 290
     },
     {
-      "epoch": 1.5873015873015874,
-      "grad_norm": 0.7727641573683094,
       "learning_rate": 5e-06,
-      "loss": 0.6312,
       "step": 300
     },
     {
-      "epoch": 1.6402116402116402,
-      "grad_norm": 0.732172271994369,
       "learning_rate": 5e-06,
-      "loss": 0.6297,
       "step": 310
     },
     {
-      "epoch": 1.693121693121693,
-      "grad_norm": 0.6023499271138227,
       "learning_rate": 5e-06,
-      "loss": 0.6326,
       "step": 320
     },
     {
-      "epoch": 1.746031746031746,
-      "grad_norm": 0.7149841589858245,
       "learning_rate": 5e-06,
-      "loss": 0.6343,
       "step": 330
     },
     {
-      "epoch": 1.798941798941799,
-      "grad_norm": 1.004464391677582,
       "learning_rate": 5e-06,
-      "loss": 0.6364,
       "step": 340
     },
     {
-      "epoch": 1.8518518518518519,
-      "grad_norm": 0.5867433151491478,
       "learning_rate": 5e-06,
-      "loss": 0.6349,
       "step": 350
     },
     {
-      "epoch": 1.9047619047619047,
-      "grad_norm": 0.7255438168551538,
       "learning_rate": 5e-06,
-      "loss": 0.6379,
       "step": 360
     },
     {
-      "epoch": 1.9576719576719577,
-      "grad_norm": 0.7221123642587326,
       "learning_rate": 5e-06,
-      "loss": 0.6303,
       "step": 370
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.690298855304718,
-      "eval_runtime": 25.7372,
-      "eval_samples_per_second": 197.652,
-      "eval_steps_per_second": 0.389,
-      "step": 378
     },
     {
-      "epoch": 2.0105820105820107,
-      "grad_norm": 0.8886608412212685,
       "learning_rate": 5e-06,
-      "loss": 0.6187,
       "step": 380
     },
     {
-      "epoch": 2.0634920634920633,
-      "grad_norm": 0.8003078120118251,
       "learning_rate": 5e-06,
-      "loss": 0.5681,
       "step": 390
     },
     {
-      "epoch": 2.1164021164021163,
-      "grad_norm": 0.8666463121587671,
       "learning_rate": 5e-06,
-      "loss": 0.5579,
       "step": 400
     },
     {
-      "epoch": 2.1693121693121693,
-      "grad_norm": 0.8539706003079143,
       "learning_rate": 5e-06,
-      "loss": 0.5728,
       "step": 410
     },
     {
-      "epoch": 2.2222222222222223,
-      "grad_norm": 1.1616873079519627,
       "learning_rate": 5e-06,
-      "loss": 0.5651,
       "step": 420
     },
     {
-      "epoch": 2.2751322751322753,
-      "grad_norm": 0.7480866173033474,
       "learning_rate": 5e-06,
-      "loss": 0.5661,
       "step": 430
     },
     {
-      "epoch": 2.328042328042328,
-      "grad_norm": 0.7844596384753618,
       "learning_rate": 5e-06,
-      "loss": 0.5686,
       "step": 440
     },
     {
-      "epoch": 2.380952380952381,
-      "grad_norm": 0.7440590331433045,
       "learning_rate": 5e-06,
-      "loss": 0.5659,
       "step": 450
     },
     {
-      "epoch": 2.433862433862434,
-      "grad_norm": 0.659290068384902,
       "learning_rate": 5e-06,
-      "loss": 0.5632,
       "step": 460
     },
     {
-      "epoch": 2.4867724867724865,
-      "grad_norm": 0.67543738389126,
       "learning_rate": 5e-06,
-      "loss": 0.5663,
       "step": 470
     },
     {
-      "epoch": 2.5396825396825395,
-      "grad_norm": 0.7004953960176246,
       "learning_rate": 5e-06,
-      "loss": 0.5645,
       "step": 480
     },
     {
-      "epoch": 2.5925925925925926,
-      "grad_norm": 0.6484461516755643,
       "learning_rate": 5e-06,
-      "loss": 0.5744,
       "step": 490
     },
     {
-      "epoch": 2.6455026455026456,
-      "grad_norm": 0.6437533712181355,
       "learning_rate": 5e-06,
-      "loss": 0.5736,
       "step": 500
     },
     {
-      "epoch": 2.6984126984126986,
-      "grad_norm": 1.0308809556967322,
       "learning_rate": 5e-06,
-      "loss": 0.5764,
       "step": 510
     },
     {
-      "epoch": 2.751322751322751,
-      "grad_norm": 0.8500517655693743,
       "learning_rate": 5e-06,
-      "loss": 0.5706,
       "step": 520
     },
     {
-      "epoch": 2.804232804232804,
-      "grad_norm": 0.6843226523187806,
       "learning_rate": 5e-06,
-      "loss": 0.5776,
       "step": 530
     },
     {
-      "epoch": 2.857142857142857,
-      "grad_norm": 0.8314054966778545,
       "learning_rate": 5e-06,
-      "loss": 0.5776,
       "step": 540
     },
     {
-      "epoch": 2.91005291005291,
-      "grad_norm": 0.6641365059618296,
       "learning_rate": 5e-06,
-      "loss": 0.5811,
       "step": 550
     },
     {
-      "epoch": 2.962962962962963,
-      "grad_norm": 0.6653280911506885,
       "learning_rate": 5e-06,
-      "loss": 0.5694,
       "step": 560
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.6997450590133667,
-      "eval_runtime": 26.1485,
-      "eval_samples_per_second": 194.543,
-      "eval_steps_per_second": 0.382,
-      "step": 567
     },
     {
-      "epoch": 3.0,
-      "step": 567,
-      "total_flos": 949746118164480.0,
-      "train_loss": 0.6543745700223946,
-      "train_runtime": 4644.4641,
-      "train_samples_per_second": 62.421,
-      "train_steps_per_second": 0.122
     }
   ],
   "logging_steps": 10,
-  "max_steps": 567,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -451,7 +451,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 949746118164480.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9880794701986755,
   "eval_steps": 500,
+  "global_step": 564,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.052980132450331126,
+      "grad_norm": 2.3983146952234486,
       "learning_rate": 5e-06,
+      "loss": 0.9851,
       "step": 10
     },
     {
+      "epoch": 0.10596026490066225,
+      "grad_norm": 1.7246649174554667,
       "learning_rate": 5e-06,
+      "loss": 0.8319,
       "step": 20
     },
     {
+      "epoch": 0.15894039735099338,
+      "grad_norm": 3.601038796091522,
       "learning_rate": 5e-06,
+      "loss": 0.8075,
       "step": 30
     },
     {
+      "epoch": 0.2119205298013245,
+      "grad_norm": 1.2059052889786372,
       "learning_rate": 5e-06,
+      "loss": 0.7915,
       "step": 40
     },
     {
+      "epoch": 0.26490066225165565,
+      "grad_norm": 1.3608839677655582,
       "learning_rate": 5e-06,
+      "loss": 0.7709,
       "step": 50
     },
     {
+      "epoch": 0.31788079470198677,
+      "grad_norm": 1.2434441624370192,
       "learning_rate": 5e-06,
+      "loss": 0.7621,
       "step": 60
     },
     {
+      "epoch": 0.3708609271523179,
+      "grad_norm": 0.9441777855534653,
       "learning_rate": 5e-06,
+      "loss": 0.7454,
       "step": 70
     },
     {
+      "epoch": 0.423841059602649,
+      "grad_norm": 1.5125978662591961,
       "learning_rate": 5e-06,
+      "loss": 0.7248,
       "step": 80
     },
     {
+      "epoch": 0.4768211920529801,
+      "grad_norm": 0.7471461569802452,
       "learning_rate": 5e-06,
+      "loss": 0.7275,
       "step": 90
     },
     {
+      "epoch": 0.5298013245033113,
+      "grad_norm": 0.645516397675585,
       "learning_rate": 5e-06,
+      "loss": 0.7123,
       "step": 100
     },
     {
+      "epoch": 0.5827814569536424,
+      "grad_norm": 0.7251445711578004,
       "learning_rate": 5e-06,
+      "loss": 0.7117,
       "step": 110
     },
     {
+      "epoch": 0.6357615894039735,
+      "grad_norm": 0.651327566584479,
       "learning_rate": 5e-06,
+      "loss": 0.7119,
       "step": 120
     },
     {
+      "epoch": 0.6887417218543046,
+      "grad_norm": 0.6140018870668793,
       "learning_rate": 5e-06,
+      "loss": 0.7053,
       "step": 130
     },
     {
+      "epoch": 0.7417218543046358,
+      "grad_norm": 0.5388085038750972,
       "learning_rate": 5e-06,
+      "loss": 0.7022,
       "step": 140
     },
     {
+      "epoch": 0.7947019867549668,
+      "grad_norm": 1.010650981679106,
       "learning_rate": 5e-06,
+      "loss": 0.6987,
       "step": 150
     },
     {
+      "epoch": 0.847682119205298,
+      "grad_norm": 1.1037782052291758,
       "learning_rate": 5e-06,
+      "loss": 0.6976,
       "step": 160
     },
     {
+      "epoch": 0.9006622516556292,
+      "grad_norm": 0.666699690620748,
       "learning_rate": 5e-06,
+      "loss": 0.705,
       "step": 170
     },
     {
+      "epoch": 0.9536423841059603,
+      "grad_norm": 0.5794869194974834,
       "learning_rate": 5e-06,
+      "loss": 0.7042,
       "step": 180
     },
     {
+      "epoch": 0.9960264900662251,
+      "eval_loss": 0.6996881365776062,
+      "eval_runtime": 101.9424,
+      "eval_samples_per_second": 49.901,
+      "eval_steps_per_second": 0.392,
+      "step": 188
     },
     {
+      "epoch": 1.0066225165562914,
+      "grad_norm": 0.8762129194412334,
       "learning_rate": 5e-06,
+      "loss": 0.6861,
       "step": 190
     },
     {
+      "epoch": 1.0596026490066226,
+      "grad_norm": 0.7641648019922738,
       "learning_rate": 5e-06,
+      "loss": 0.6399,
       "step": 200
     },
     {
+      "epoch": 1.1125827814569536,
+      "grad_norm": 0.6026445432992825,
       "learning_rate": 5e-06,
+      "loss": 0.6342,
       "step": 210
     },
     {
+      "epoch": 1.1655629139072847,
+      "grad_norm": 0.5607709134599749,
       "learning_rate": 5e-06,
+      "loss": 0.6285,
       "step": 220
     },
     {
+      "epoch": 1.218543046357616,
+      "grad_norm": 0.723598523167553,
       "learning_rate": 5e-06,
+      "loss": 0.654,
       "step": 230
     },
     {
+      "epoch": 1.271523178807947,
+      "grad_norm": 0.6634015008522252,
       "learning_rate": 5e-06,
+      "loss": 0.6474,
       "step": 240
     },
     {
+      "epoch": 1.3245033112582782,
+      "grad_norm": 0.5676178378824602,
       "learning_rate": 5e-06,
+      "loss": 0.6356,
       "step": 250
     },
     {
+      "epoch": 1.3774834437086092,
+      "grad_norm": 0.6219906931731467,
       "learning_rate": 5e-06,
+      "loss": 0.6396,
       "step": 260
     },
     {
+      "epoch": 1.4304635761589404,
+      "grad_norm": 0.5539002206307158,
       "learning_rate": 5e-06,
+      "loss": 0.6395,
       "step": 270
     },
     {
+      "epoch": 1.4834437086092715,
+      "grad_norm": 0.6706880554061717,
       "learning_rate": 5e-06,
+      "loss": 0.6364,
       "step": 280
     },
     {
+      "epoch": 1.5364238410596025,
+      "grad_norm": 0.6250744115575335,
       "learning_rate": 5e-06,
+      "loss": 0.6455,
       "step": 290
     },
     {
+      "epoch": 1.589403973509934,
+      "grad_norm": 0.5666575820633527,
       "learning_rate": 5e-06,
+      "loss": 0.6352,
       "step": 300
     },
     {
+      "epoch": 1.6423841059602649,
+      "grad_norm": 0.8049891928557037,
       "learning_rate": 5e-06,
+      "loss": 0.634,
       "step": 310
     },
     {
+      "epoch": 1.695364238410596,
+      "grad_norm": 0.8098028256502842,
       "learning_rate": 5e-06,
+      "loss": 0.6379,
       "step": 320
     },
     {
+      "epoch": 1.7483443708609272,
+      "grad_norm": 0.6314929024368203,
       "learning_rate": 5e-06,
+      "loss": 0.6394,
       "step": 330
     },
     {
+      "epoch": 1.8013245033112582,
+      "grad_norm": 0.824620474103318,
       "learning_rate": 5e-06,
+      "loss": 0.6414,
       "step": 340
     },
     {
+      "epoch": 1.8543046357615895,
+      "grad_norm": 0.5854556799760776,
       "learning_rate": 5e-06,
+      "loss": 0.6393,
       "step": 350
     },
     {
+      "epoch": 1.9072847682119205,
+      "grad_norm": 0.6825161397864904,
       "learning_rate": 5e-06,
+      "loss": 0.6408,
       "step": 360
     },
     {
+      "epoch": 1.9602649006622517,
+      "grad_norm": 0.5897191051228083,
       "learning_rate": 5e-06,
+      "loss": 0.6362,
       "step": 370
     },
     {
+      "epoch": 1.9973509933774833,
+      "eval_loss": 0.6881988644599915,
+      "eval_runtime": 101.7242,
+      "eval_samples_per_second": 50.008,
+      "eval_steps_per_second": 0.393,
+      "step": 377
     },
     {
+      "epoch": 2.013245033112583,
+      "grad_norm": 0.8098259238713678,
       "learning_rate": 5e-06,
+      "loss": 0.6249,
       "step": 380
     },
     {
+      "epoch": 2.066225165562914,
+      "grad_norm": 0.8384706128552907,
       "learning_rate": 5e-06,
+      "loss": 0.5796,
       "step": 390
     },
     {
+      "epoch": 2.119205298013245,
+      "grad_norm": 0.7877590869928718,
       "learning_rate": 5e-06,
+      "loss": 0.5721,
       "step": 400
     },
     {
+      "epoch": 2.172185430463576,
+      "grad_norm": 0.8214423131053483,
       "learning_rate": 5e-06,
+      "loss": 0.5881,
       "step": 410
     },
     {
+      "epoch": 2.225165562913907,
+      "grad_norm": 0.708950143379715,
       "learning_rate": 5e-06,
+      "loss": 0.5788,
       "step": 420
     },
     {
+      "epoch": 2.2781456953642385,
+      "grad_norm": 0.6491889315422662,
       "learning_rate": 5e-06,
+      "loss": 0.5778,
       "step": 430
     },
     {
+      "epoch": 2.3311258278145695,
+      "grad_norm": 0.6858462236619034,
       "learning_rate": 5e-06,
+      "loss": 0.5821,
       "step": 440
     },
     {
+      "epoch": 2.384105960264901,
+      "grad_norm": 0.780640823583864,
       "learning_rate": 5e-06,
+      "loss": 0.5768,
       "step": 450
     },
     {
+      "epoch": 2.437086092715232,
+      "grad_norm": 0.7173053514977337,
       "learning_rate": 5e-06,
+      "loss": 0.5759,
       "step": 460
     },
     {
+      "epoch": 2.4900662251655628,
+      "grad_norm": 0.7004632879605499,
       "learning_rate": 5e-06,
+      "loss": 0.5787,
       "step": 470
     },
     {
+      "epoch": 2.543046357615894,
+      "grad_norm": 0.7028579263335615,
       "learning_rate": 5e-06,
+      "loss": 0.579,
       "step": 480
     },
     {
+      "epoch": 2.596026490066225,
+      "grad_norm": 0.9012109929919548,
       "learning_rate": 5e-06,
+      "loss": 0.5848,
       "step": 490
     },
     {
+      "epoch": 2.6490066225165565,
+      "grad_norm": 0.6237112161014274,
       "learning_rate": 5e-06,
+      "loss": 0.584,
       "step": 500
     },
     {
+      "epoch": 2.7019867549668874,
+      "grad_norm": 0.6803732464125802,
       "learning_rate": 5e-06,
+      "loss": 0.5918,
       "step": 510
     },
     {
+      "epoch": 2.7549668874172184,
+      "grad_norm": 0.7496234836165662,
       "learning_rate": 5e-06,
+      "loss": 0.5797,
       "step": 520
     },
     {
+      "epoch": 2.80794701986755,
+      "grad_norm": 0.6761315878843943,
       "learning_rate": 5e-06,
+      "loss": 0.5921,
       "step": 530
     },
     {
+      "epoch": 2.8609271523178808,
+      "grad_norm": 0.6002390896713952,
       "learning_rate": 5e-06,
+      "loss": 0.5887,
       "step": 540
     },
     {
+      "epoch": 2.9139072847682117,
+      "grad_norm": 0.6064169883870584,
       "learning_rate": 5e-06,
+      "loss": 0.5919,
       "step": 550
     },
     {
+      "epoch": 2.966887417218543,
+      "grad_norm": 0.5890652422466117,
       "learning_rate": 5e-06,
+      "loss": 0.5826,
       "step": 560
     },
     {
+      "epoch": 2.9880794701986755,
+      "eval_loss": 0.6938396692276001,
+      "eval_runtime": 102.1596,
+      "eval_samples_per_second": 49.795,
+      "eval_steps_per_second": 0.392,
+      "step": 564
     },
     {
+      "epoch": 2.9880794701986755,
+      "step": 564,
+      "total_flos": 944302247116800.0,
+      "train_loss": 0.6565315867146702,
+      "train_runtime": 17042.4484,
+      "train_samples_per_second": 17.011,
+      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 10,
+  "max_steps": 564,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 944302247116800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed