Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

adapter_model.safetensors +1 -1
optimizer.pt +2 -2
trainer_state.json +159 -159

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:caeb8ea1cb832404b4a0f635ab51ad9896e91853c95cefdff9a0f983bc855f75
 size 479005064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aebab4c787e75aac3cf097d3fe29439303505e88b7a15a4e314a0b80914138c5
 size 479005064

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a27ec19f68f52ee31bc613bdd3a38d55743d151d38f1c66dac135f86c9dd6b0
-size 1916174411

 version https://git-lfs.github.com/spec/v1
+oid sha256:b12282a1a85821d2940a45fcaafdf1f183a9564513e60fa3b8447473b8c0d266
+size 958300235

trainer_state.json CHANGED Viewed

@@ -11,562 +11,562 @@
   "log_history": [
     {
       "epoch": 0.04,
-      "grad_norm": 7.185770034790039,
       "learning_rate": 0.0,
       "loss": 3.2567,
       "step": 1
     },
     {
       "epoch": 0.08,
-      "grad_norm": 6.1915154457092285,
       "learning_rate": 3.3333333333333335e-05,
       "loss": 3.2333,
       "step": 2
     },
     {
       "epoch": 0.12,
-      "grad_norm": 1.6455873250961304,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 3.034,
       "step": 3
     },
     {
       "epoch": 0.16,
-      "grad_norm": 1.4249353408813477,
       "learning_rate": 0.0001,
-      "loss": 2.9072,
       "step": 4
     },
     {
       "epoch": 0.2,
-      "grad_norm": 1.1466145515441895,
       "learning_rate": 0.00013333333333333334,
-      "loss": 2.9042,
       "step": 5
     },
     {
       "epoch": 0.24,
-      "grad_norm": 1.1228718757629395,
       "learning_rate": 0.00016666666666666666,
-      "loss": 2.9605,
       "step": 6
     },
     {
       "epoch": 0.28,
-      "grad_norm": 0.9800518751144409,
       "learning_rate": 0.0002,
-      "loss": 2.6908,
       "step": 7
     },
     {
       "epoch": 0.32,
-      "grad_norm": 2.505621910095215,
       "learning_rate": 0.00023333333333333333,
-      "loss": 2.8253,
       "step": 8
     },
     {
       "epoch": 0.36,
-      "grad_norm": 1.1524714231491089,
       "learning_rate": 0.0002666666666666667,
-      "loss": 2.8563,
       "step": 9
     },
     {
       "epoch": 0.4,
-      "grad_norm": 1.2107843160629272,
       "learning_rate": 0.0003,
-      "loss": 2.738,
       "step": 10
     },
     {
       "epoch": 0.44,
-      "grad_norm": 1.0512099266052246,
       "learning_rate": 0.0003333333333333333,
-      "loss": 2.7509,
       "step": 11
     },
     {
       "epoch": 0.48,
-      "grad_norm": 0.8093178272247314,
       "learning_rate": 0.00036666666666666667,
-      "loss": 2.7653,
       "step": 12
     },
     {
       "epoch": 0.52,
-      "grad_norm": 0.9713628888130188,
       "learning_rate": 0.0004,
-      "loss": 2.7546,
       "step": 13
     },
     {
       "epoch": 0.56,
-      "grad_norm": 0.7763357758522034,
       "learning_rate": 0.00043333333333333337,
-      "loss": 2.6962,
       "step": 14
     },
     {
       "epoch": 0.6,
-      "grad_norm": 0.7595952153205872,
       "learning_rate": 0.00046666666666666666,
-      "loss": 2.7524,
       "step": 15
     },
     {
       "epoch": 0.64,
-      "grad_norm": 0.7259644269943237,
       "learning_rate": 0.0005,
-      "loss": 2.5242,
       "step": 16
     },
     {
       "epoch": 0.68,
-      "grad_norm": 0.958900511264801,
       "learning_rate": 0.0004998881080708758,
-      "loss": 2.6987,
       "step": 17
     },
     {
       "epoch": 0.72,
-      "grad_norm": 0.7574262619018555,
       "learning_rate": 0.0004995525324419338,
-      "loss": 2.653,
       "step": 18
     },
     {
       "epoch": 0.76,
-      "grad_norm": 0.7134063243865967,
       "learning_rate": 0.0004989935734988098,
-      "loss": 2.3331,
       "step": 19
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.7132735848426819,
       "learning_rate": 0.0004982117315854593,
-      "loss": 2.3681,
       "step": 20
     },
     {
       "epoch": 0.84,
-      "grad_norm": 0.8517867922782898,
       "learning_rate": 0.0004972077065562821,
-      "loss": 2.6209,
       "step": 21
     },
     {
       "epoch": 0.88,
-      "grad_norm": 0.9840997457504272,
       "learning_rate": 0.0004959823971496574,
-      "loss": 2.5117,
       "step": 22
     },
     {
       "epoch": 0.92,
-      "grad_norm": 0.7399266362190247,
       "learning_rate": 0.0004945369001834514,
-      "loss": 2.6616,
       "step": 23
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.8165358901023865,
       "learning_rate": 0.0004928725095732168,
-      "loss": 2.7726,
       "step": 24
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.9255958199501038,
       "learning_rate": 0.0004909907151739633,
-      "loss": 2.496,
       "step": 25
     },
     {
       "epoch": 1.04,
-      "grad_norm": 0.8250204920768738,
       "learning_rate": 0.0004888932014465352,
-      "loss": 1.9784,
       "step": 26
     },
     {
       "epoch": 1.08,
-      "grad_norm": 1.0033698081970215,
       "learning_rate": 0.00048658184594979105,
-      "loss": 1.8948,
       "step": 27
     },
     {
       "epoch": 1.12,
-      "grad_norm": 0.9101130962371826,
       "learning_rate": 0.0004840587176599343,
-      "loss": 1.8859,
       "step": 28
     },
     {
       "epoch": 1.16,
-      "grad_norm": 1.0632978677749634,
       "learning_rate": 0.00048132607511849917,
-      "loss": 1.8483,
       "step": 29
     },
     {
       "epoch": 1.2,
-      "grad_norm": 0.9163739681243896,
       "learning_rate": 0.0004783863644106502,
-      "loss": 2.0229,
       "step": 30
     },
     {
       "epoch": 1.24,
-      "grad_norm": 0.8493797779083252,
       "learning_rate": 0.00047524221697560476,
-      "loss": 2.0525,
       "step": 31
     },
     {
       "epoch": 1.28,
-      "grad_norm": 0.7381888031959534,
       "learning_rate": 0.00047189644725113855,
-      "loss": 2.0019,
       "step": 32
     },
     {
       "epoch": 1.32,
-      "grad_norm": 1.0680115222930908,
       "learning_rate": 0.0004683520501542824,
-      "loss": 1.4832,
       "step": 33
     },
     {
       "epoch": 1.3599999999999999,
-      "grad_norm": 1.2573314905166626,
       "learning_rate": 0.0004646121984004665,
-      "loss": 2.027,
       "step": 34
     },
     {
       "epoch": 1.4,
-      "grad_norm": 0.989881157875061,
       "learning_rate": 0.0004606802396635098,
-      "loss": 1.8627,
       "step": 35
     },
     {
       "epoch": 1.44,
-      "grad_norm": 0.9203330278396606,
       "learning_rate": 0.00045655969357899875,
-      "loss": 1.744,
       "step": 36
     },
     {
       "epoch": 1.48,
-      "grad_norm": 0.9089970588684082,
       "learning_rate": 0.0004522542485937369,
-      "loss": 1.9187,
       "step": 37
     },
     {
       "epoch": 1.52,
-      "grad_norm": 0.9809489846229553,
       "learning_rate": 0.00044776775866408534,
-      "loss": 1.6726,
       "step": 38
     },
     {
       "epoch": 1.56,
-      "grad_norm": 0.9699065685272217,
       "learning_rate": 0.00044310423980614986,
-      "loss": 1.7533,
       "step": 39
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.8689154982566833,
       "learning_rate": 0.00043826786650090276,
-      "loss": 1.8202,
       "step": 40
     },
     {
       "epoch": 1.6400000000000001,
-      "grad_norm": 0.9679574966430664,
       "learning_rate": 0.00043326296795745655,
-      "loss": 1.4519,
       "step": 41
     },
     {
       "epoch": 1.6800000000000002,
-      "grad_norm": 0.9179227352142334,
       "learning_rate": 0.0004280940242378362,
-      "loss": 1.9182,
       "step": 42
     },
     {
       "epoch": 1.72,
-      "grad_norm": 0.8448020219802856,
       "learning_rate": 0.0004227656622467162,
-      "loss": 1.8233,
       "step": 43
     },
     {
       "epoch": 1.76,
-      "grad_norm": 2.762468099594116,
       "learning_rate": 0.0004172826515897146,
-      "loss": 1.5845,
       "step": 44
     },
     {
       "epoch": 1.8,
-      "grad_norm": 0.9641438722610474,
       "learning_rate": 0.00041164990030394987,
-      "loss": 1.7936,
       "step": 45
     },
     {
       "epoch": 1.8399999999999999,
-      "grad_norm": 0.8379149436950684,
       "learning_rate": 0.0004058724504646834,
-      "loss": 1.7942,
       "step": 46
     },
     {
       "epoch": 1.88,
-      "grad_norm": 0.8199777007102966,
       "learning_rate": 0.00039995547367197845,
-      "loss": 1.8173,
       "step": 47
     },
     {
       "epoch": 1.92,
-      "grad_norm": 0.8163396716117859,
       "learning_rate": 0.0003939042664214184,
-      "loss": 1.5216,
       "step": 48
     },
     {
       "epoch": 1.96,
-      "grad_norm": 0.8891883492469788,
       "learning_rate": 0.0003877242453630256,
-      "loss": 1.9378,
       "step": 49
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.8964083194732666,
       "learning_rate": 0.00038142094245262613,
-      "loss": 1.6323,
       "step": 50
     },
     {
       "epoch": 2.04,
-      "grad_norm": 1.0515351295471191,
       "learning_rate": 0.000375,
-      "loss": 0.9641,
       "step": 51
     },
     {
       "epoch": 2.08,
-      "grad_norm": 0.9436372518539429,
       "learning_rate": 0.00036846716561824967,
-      "loss": 0.9121,
       "step": 52
     },
     {
       "epoch": 2.12,
-      "grad_norm": 1.1438922882080078,
       "learning_rate": 0.00036182828707890814,
-      "loss": 0.9951,
       "step": 53
     },
     {
       "epoch": 2.16,
-      "grad_norm": 1.5912277698516846,
       "learning_rate": 0.0003550893070773914,
-      "loss": 1.137,
       "step": 54
     },
     {
       "epoch": 2.2,
-      "grad_norm": 1.0990444421768188,
       "learning_rate": 0.0003482562579134809,
-      "loss": 0.8697,
       "step": 55
     },
     {
       "epoch": 2.24,
-      "grad_norm": 1.090409517288208,
       "learning_rate": 0.00034133525609159884,
-      "loss": 0.8826,
       "step": 56
     },
     {
       "epoch": 2.2800000000000002,
-      "grad_norm": 0.8941531181335449,
       "learning_rate": 0.00033433249684570754,
-      "loss": 1.024,
       "step": 57
     },
     {
       "epoch": 2.32,
-      "grad_norm": 0.9717152714729309,
       "learning_rate": 0.00032725424859373687,
-      "loss": 0.8169,
       "step": 58
     },
     {
       "epoch": 2.36,
-      "grad_norm": 1.5315306186676025,
       "learning_rate": 0.0003201068473265007,
-      "loss": 0.9657,
       "step": 59
     },
     {
       "epoch": 2.4,
-      "grad_norm": 1.1471773386001587,
       "learning_rate": 0.00031289669093612717,
-      "loss": 0.9213,
       "step": 60
     },
     {
       "epoch": 2.44,
-      "grad_norm": 0.8812122344970703,
       "learning_rate": 0.0003056302334890786,
-      "loss": 0.8995,
       "step": 61
     },
     {
       "epoch": 2.48,
-      "grad_norm": 0.9893844127655029,
       "learning_rate": 0.00029831397944888834,
-      "loss": 0.9337,
       "step": 62
     },
     {
       "epoch": 2.52,
-      "grad_norm": 1.0601987838745117,
       "learning_rate": 0.00029095447785378443,
-      "loss": 0.8782,
       "step": 63
     },
     {
       "epoch": 2.56,
-      "grad_norm": 1.0458388328552246,
       "learning_rate": 0.0002835583164544139,
-      "loss": 0.7943,
       "step": 64
     },
     {
       "epoch": 2.6,
-      "grad_norm": 0.9761106371879578,
       "learning_rate": 0.0002761321158169134,
-      "loss": 0.8102,
       "step": 65
     },
     {
       "epoch": 2.64,
-      "grad_norm": 1.0133332014083862,
       "learning_rate": 0.00026868252339660607,
-      "loss": 0.9068,
       "step": 66
     },
     {
       "epoch": 2.68,
-      "grad_norm": 0.9521879553794861,
       "learning_rate": 0.00026121620758762877,
-      "loss": 0.9184,
       "step": 67
     },
     {
       "epoch": 2.7199999999999998,
-      "grad_norm": 0.9782904982566833,
       "learning_rate": 0.0002537398517538159,
-      "loss": 0.9134,
       "step": 68
     },
     {
       "epoch": 2.76,
-      "grad_norm": 0.8610952496528625,
       "learning_rate": 0.00024626014824618414,
-      "loss": 0.8962,
       "step": 69
     },
     {
       "epoch": 2.8,
-      "grad_norm": 0.8524623513221741,
       "learning_rate": 0.00023878379241237135,
-      "loss": 0.8496,
       "step": 70
     },
     {
       "epoch": 2.84,
-      "grad_norm": 1.000948190689087,
       "learning_rate": 0.00023131747660339394,
-      "loss": 0.6386,
       "step": 71
     },
     {
       "epoch": 2.88,
-      "grad_norm": 1.2004806995391846,
       "learning_rate": 0.00022386788418308668,
-      "loss": 0.9843,
       "step": 72
     },
     {
       "epoch": 2.92,
-      "grad_norm": 1.2682321071624756,
       "learning_rate": 0.0002164416835455862,
-      "loss": 0.7992,
       "step": 73
     },
     {
       "epoch": 2.96,
-      "grad_norm": 0.9090434908866882,
       "learning_rate": 0.00020904552214621558,
-      "loss": 0.9549,
       "step": 74
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.9922696948051453,
       "learning_rate": 0.00020168602055111175,
-      "loss": 0.8929,
       "step": 75
     },
     {
       "epoch": 3.04,
-      "grad_norm": 0.9157288670539856,
       "learning_rate": 0.00019436976651092142,
-      "loss": 0.4784,
       "step": 76
     },
     {
       "epoch": 3.08,
-      "grad_norm": 0.8961782455444336,
       "learning_rate": 0.00018710330906387287,
-      "loss": 0.4185,
       "step": 77
     },
     {
       "epoch": 3.12,
-      "grad_norm": 0.7652738094329834,
       "learning_rate": 0.00017989315267349934,
-      "loss": 0.3266,
       "step": 78
     },
     {
       "epoch": 3.16,
-      "grad_norm": 0.6870366334915161,
       "learning_rate": 0.00017274575140626317,
-      "loss": 0.3239,
       "step": 79
     },
     {
       "epoch": 3.2,
-      "grad_norm": 0.7990312576293945,
       "learning_rate": 0.00016566750315429252,
-      "loss": 0.3734,
       "step": 80
     }
   ],
@@ -587,7 +587,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.012997820789555e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.04,
+      "grad_norm": 5.142871856689453,
       "learning_rate": 0.0,
       "loss": 3.2567,
       "step": 1
     },
     {
       "epoch": 0.08,
+      "grad_norm": 4.430213928222656,
       "learning_rate": 3.3333333333333335e-05,
       "loss": 3.2333,
       "step": 2
     },
     {
       "epoch": 0.12,
+      "grad_norm": 1.9985074996948242,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 3.1205,
       "step": 3
     },
     {
       "epoch": 0.16,
+      "grad_norm": 1.2395201921463013,
       "learning_rate": 0.0001,
+      "loss": 2.9633,
       "step": 4
     },
     {
       "epoch": 0.2,
+      "grad_norm": 0.8985406160354614,
       "learning_rate": 0.00013333333333333334,
+      "loss": 2.9466,
       "step": 5
     },
     {
       "epoch": 0.24,
+      "grad_norm": 0.9361995458602905,
       "learning_rate": 0.00016666666666666666,
+      "loss": 3.0169,
       "step": 6
     },
     {
       "epoch": 0.28,
+      "grad_norm": 0.8252397775650024,
       "learning_rate": 0.0002,
+      "loss": 2.7447,
       "step": 7
     },
     {
       "epoch": 0.32,
+      "grad_norm": 1.6948623657226562,
       "learning_rate": 0.00023333333333333333,
+      "loss": 2.8746,
       "step": 8
     },
     {
       "epoch": 0.36,
+      "grad_norm": 0.7900960445404053,
       "learning_rate": 0.0002666666666666667,
+      "loss": 2.8879,
       "step": 9
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.9792645573616028,
       "learning_rate": 0.0003,
+      "loss": 2.7671,
       "step": 10
     },
     {
       "epoch": 0.44,
+      "grad_norm": 0.6301740407943726,
       "learning_rate": 0.0003333333333333333,
+      "loss": 2.7439,
       "step": 11
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.6099859476089478,
       "learning_rate": 0.00036666666666666667,
+      "loss": 2.7782,
       "step": 12
     },
     {
       "epoch": 0.52,
+      "grad_norm": 0.8020714521408081,
       "learning_rate": 0.0004,
+      "loss": 2.7839,
       "step": 13
     },
     {
       "epoch": 0.56,
+      "grad_norm": 0.6298205256462097,
       "learning_rate": 0.00043333333333333337,
+      "loss": 2.7033,
       "step": 14
     },
     {
       "epoch": 0.6,
+      "grad_norm": 0.7007676959037781,
       "learning_rate": 0.00046666666666666666,
+      "loss": 2.7719,
       "step": 15
     },
     {
       "epoch": 0.64,
+      "grad_norm": 0.6375701427459717,
       "learning_rate": 0.0005,
+      "loss": 2.5462,
       "step": 16
     },
     {
       "epoch": 0.68,
+      "grad_norm": 1.0240949392318726,
       "learning_rate": 0.0004998881080708758,
+      "loss": 2.7162,
       "step": 17
     },
     {
       "epoch": 0.72,
+      "grad_norm": 0.6200213432312012,
       "learning_rate": 0.0004995525324419338,
+      "loss": 2.6808,
       "step": 18
     },
     {
       "epoch": 0.76,
+      "grad_norm": 0.7223580479621887,
       "learning_rate": 0.0004989935734988098,
+      "loss": 2.3728,
       "step": 19
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.6037261486053467,
       "learning_rate": 0.0004982117315854593,
+      "loss": 2.3897,
       "step": 20
     },
     {
       "epoch": 0.84,
+      "grad_norm": 0.7371329665184021,
       "learning_rate": 0.0004972077065562821,
+      "loss": 2.6491,
       "step": 21
     },
     {
       "epoch": 0.88,
+      "grad_norm": 0.761906087398529,
       "learning_rate": 0.0004959823971496574,
+      "loss": 2.5294,
       "step": 22
     },
     {
       "epoch": 0.92,
+      "grad_norm": 0.6074844002723694,
       "learning_rate": 0.0004945369001834514,
+      "loss": 2.6509,
       "step": 23
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.5861066579818726,
       "learning_rate": 0.0004928725095732168,
+      "loss": 2.7497,
       "step": 24
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.8115016222000122,
       "learning_rate": 0.0004909907151739633,
+      "loss": 2.511,
       "step": 25
     },
     {
       "epoch": 1.04,
+      "grad_norm": 0.6057634353637695,
       "learning_rate": 0.0004888932014465352,
+      "loss": 2.1574,
       "step": 26
     },
     {
       "epoch": 1.08,
+      "grad_norm": 0.6865290999412537,
       "learning_rate": 0.00048658184594979105,
+      "loss": 2.1321,
       "step": 27
     },
     {
       "epoch": 1.12,
+      "grad_norm": 0.7368806600570679,
       "learning_rate": 0.0004840587176599343,
+      "loss": 2.1196,
       "step": 28
     },
     {
       "epoch": 1.16,
+      "grad_norm": 0.7852814197540283,
       "learning_rate": 0.00048132607511849917,
+      "loss": 2.0671,
       "step": 29
     },
     {
       "epoch": 1.2,
+      "grad_norm": 82.13648223876953,
       "learning_rate": 0.0004783863644106502,
+      "loss": 2.2444,
       "step": 30
     },
     {
       "epoch": 1.24,
+      "grad_norm": 1.0540670156478882,
       "learning_rate": 0.00047524221697560476,
+      "loss": 2.3046,
       "step": 31
     },
     {
       "epoch": 1.28,
+      "grad_norm": 5.17839241027832,
       "learning_rate": 0.00047189644725113855,
+      "loss": 2.8141,
       "step": 32
     },
     {
       "epoch": 1.32,
+      "grad_norm": 0.7653212547302246,
       "learning_rate": 0.0004683520501542824,
+      "loss": 1.7709,
       "step": 33
     },
     {
       "epoch": 1.3599999999999999,
+      "grad_norm": 0.9761614799499512,
       "learning_rate": 0.0004646121984004665,
+      "loss": 2.1947,
       "step": 34
     },
     {
       "epoch": 1.4,
+      "grad_norm": 0.7371400594711304,
       "learning_rate": 0.0004606802396635098,
+      "loss": 2.0515,
       "step": 35
     },
     {
       "epoch": 1.44,
+      "grad_norm": 0.8523092865943909,
       "learning_rate": 0.00045655969357899875,
+      "loss": 1.9755,
       "step": 36
     },
     {
       "epoch": 1.48,
+      "grad_norm": 39.19478225708008,
       "learning_rate": 0.0004522542485937369,
+      "loss": 2.2174,
       "step": 37
     },
     {
       "epoch": 1.52,
+      "grad_norm": 1.13792085647583,
       "learning_rate": 0.00044776775866408534,
+      "loss": 1.9029,
       "step": 38
     },
     {
       "epoch": 1.56,
+      "grad_norm": 1.1941004991531372,
       "learning_rate": 0.00044310423980614986,
+      "loss": 1.9526,
       "step": 39
     },
     {
       "epoch": 1.6,
+      "grad_norm": 0.740159273147583,
       "learning_rate": 0.00043826786650090276,
+      "loss": 2.0681,
       "step": 40
     },
     {
       "epoch": 1.6400000000000001,
+      "grad_norm": 0.7822542190551758,
       "learning_rate": 0.00043326296795745655,
+      "loss": 1.6829,
       "step": 41
     },
     {
       "epoch": 1.6800000000000002,
+      "grad_norm": 0.6564233899116516,
       "learning_rate": 0.0004280940242378362,
+      "loss": 2.114,
       "step": 42
     },
     {
       "epoch": 1.72,
+      "grad_norm": 0.7173855900764465,
       "learning_rate": 0.0004227656622467162,
+      "loss": 2.0861,
       "step": 43
     },
     {
       "epoch": 1.76,
+      "grad_norm": 0.8934221863746643,
       "learning_rate": 0.0004172826515897146,
+      "loss": 1.7986,
       "step": 44
     },
     {
       "epoch": 1.8,
+      "grad_norm": 0.8562939167022705,
       "learning_rate": 0.00041164990030394987,
+      "loss": 2.0111,
       "step": 45
     },
     {
       "epoch": 1.8399999999999999,
+      "grad_norm": 0.7670717239379883,
       "learning_rate": 0.0004058724504646834,
+      "loss": 1.9658,
       "step": 46
     },
     {
       "epoch": 1.88,
+      "grad_norm": 0.8131508827209473,
       "learning_rate": 0.00039995547367197845,
+      "loss": 2.0643,
       "step": 47
     },
     {
       "epoch": 1.92,
+      "grad_norm": 0.6893778443336487,
       "learning_rate": 0.0003939042664214184,
+      "loss": 1.8162,
       "step": 48
     },
     {
       "epoch": 1.96,
+      "grad_norm": 0.7024718523025513,
       "learning_rate": 0.0003877242453630256,
+      "loss": 2.1103,
       "step": 49
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.8232090473175049,
       "learning_rate": 0.00038142094245262613,
+      "loss": 1.8169,
       "step": 50
     },
     {
       "epoch": 2.04,
+      "grad_norm": 0.9299492835998535,
       "learning_rate": 0.000375,
+      "loss": 1.355,
       "step": 51
     },
     {
       "epoch": 2.08,
+      "grad_norm": 0.7179898023605347,
       "learning_rate": 0.00036846716561824967,
+      "loss": 1.2716,
       "step": 52
     },
     {
       "epoch": 2.12,
+      "grad_norm": 0.8668098449707031,
       "learning_rate": 0.00036182828707890814,
+      "loss": 1.5621,
       "step": 53
     },
     {
       "epoch": 2.16,
+      "grad_norm": 0.881289541721344,
       "learning_rate": 0.0003550893070773914,
+      "loss": 1.461,
       "step": 54
     },
     {
       "epoch": 2.2,
+      "grad_norm": 1.086105227470398,
       "learning_rate": 0.0003482562579134809,
+      "loss": 1.2527,
       "step": 55
     },
     {
       "epoch": 2.24,
+      "grad_norm": 1.1489673852920532,
       "learning_rate": 0.00034133525609159884,
+      "loss": 1.5055,
       "step": 56
     },
     {
       "epoch": 2.2800000000000002,
+      "grad_norm": 6.452654838562012,
       "learning_rate": 0.00033433249684570754,
+      "loss": 1.4677,
       "step": 57
     },
     {
       "epoch": 2.32,
+      "grad_norm": 0.8599674105644226,
       "learning_rate": 0.00032725424859373687,
+      "loss": 1.2451,
       "step": 58
     },
     {
       "epoch": 2.36,
+      "grad_norm": 0.9389432072639465,
       "learning_rate": 0.0003201068473265007,
+      "loss": 1.3176,
       "step": 59
     },
     {
       "epoch": 2.4,
+      "grad_norm": 0.8821057081222534,
       "learning_rate": 0.00031289669093612717,
+      "loss": 1.4527,
       "step": 60
     },
     {
       "epoch": 2.44,
+      "grad_norm": 0.7458124756813049,
       "learning_rate": 0.0003056302334890786,
+      "loss": 1.3378,
       "step": 61
     },
     {
       "epoch": 2.48,
+      "grad_norm": 0.927266538143158,
       "learning_rate": 0.00029831397944888834,
+      "loss": 1.3785,
       "step": 62
     },
     {
       "epoch": 2.52,
+      "grad_norm": 0.8930822014808655,
       "learning_rate": 0.00029095447785378443,
+      "loss": 1.258,
       "step": 63
     },
     {
       "epoch": 2.56,
+      "grad_norm": 0.9123106002807617,
       "learning_rate": 0.0002835583164544139,
+      "loss": 1.0904,
       "step": 64
     },
     {
       "epoch": 2.6,
+      "grad_norm": 0.938858687877655,
       "learning_rate": 0.0002761321158169134,
+      "loss": 1.2883,
       "step": 65
     },
     {
       "epoch": 2.64,
+      "grad_norm": 1.1263154745101929,
       "learning_rate": 0.00026868252339660607,
+      "loss": 1.5425,
       "step": 66
     },
     {
       "epoch": 2.68,
+      "grad_norm": 1.036538004875183,
       "learning_rate": 0.00026121620758762877,
+      "loss": 1.5857,
       "step": 67
     },
     {
       "epoch": 2.7199999999999998,
+      "grad_norm": 0.8467400670051575,
       "learning_rate": 0.0002537398517538159,
+      "loss": 1.3811,
       "step": 68
     },
     {
       "epoch": 2.76,
+      "grad_norm": 2.4196529388427734,
       "learning_rate": 0.00024626014824618414,
+      "loss": 1.2766,
       "step": 69
     },
     {
       "epoch": 2.8,
+      "grad_norm": 0.741809606552124,
       "learning_rate": 0.00023878379241237135,
+      "loss": 1.378,
       "step": 70
     },
     {
       "epoch": 2.84,
+      "grad_norm": 0.8645739555358887,
       "learning_rate": 0.00023131747660339394,
+      "loss": 1.038,
       "step": 71
     },
     {
       "epoch": 2.88,
+      "grad_norm": 0.9383102655410767,
       "learning_rate": 0.00022386788418308668,
+      "loss": 1.5188,
       "step": 72
     },
     {
       "epoch": 2.92,
+      "grad_norm": 1.0419707298278809,
       "learning_rate": 0.0002164416835455862,
+      "loss": 1.2632,
       "step": 73
     },
     {
       "epoch": 2.96,
+      "grad_norm": 0.7679302096366882,
       "learning_rate": 0.00020904552214621558,
+      "loss": 1.4562,
       "step": 74
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.8923735618591309,
       "learning_rate": 0.00020168602055111175,
+      "loss": 1.3426,
       "step": 75
     },
     {
       "epoch": 3.04,
+      "grad_norm": 0.824747622013092,
       "learning_rate": 0.00019436976651092142,
+      "loss": 0.9486,
       "step": 76
     },
     {
       "epoch": 3.08,
+      "grad_norm": 4.687554836273193,
       "learning_rate": 0.00018710330906387287,
+      "loss": 1.4929,
       "step": 77
     },
     {
       "epoch": 3.12,
+      "grad_norm": 0.8110913634300232,
       "learning_rate": 0.00017989315267349934,
+      "loss": 0.697,
       "step": 78
     },
     {
       "epoch": 3.16,
+      "grad_norm": 0.7785871624946594,
       "learning_rate": 0.00017274575140626317,
+      "loss": 0.7254,
       "step": 79
     },
     {
       "epoch": 3.2,
+      "grad_norm": 0.8735678791999817,
       "learning_rate": 0.00016566750315429252,
+      "loss": 0.8426,
       "step": 80
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.9330358256009216e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null