shareit's picture
Training in progress, step 900, checkpoint
b8ebef8 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 5.0,
"eval_steps": 500,
"global_step": 900,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.005555555555555556,
"grad_norm": 0.03562309220433235,
"learning_rate": 0.0,
"loss": 1.3897,
"step": 1
},
{
"epoch": 0.011111111111111112,
"grad_norm": 0.03496583178639412,
"learning_rate": 4e-05,
"loss": 1.2107,
"step": 2
},
{
"epoch": 0.016666666666666666,
"grad_norm": 0.0381351076066494,
"learning_rate": 8e-05,
"loss": 1.3566,
"step": 3
},
{
"epoch": 0.022222222222222223,
"grad_norm": 0.05364065244793892,
"learning_rate": 0.00012,
"loss": 1.4139,
"step": 4
},
{
"epoch": 0.027777777777777776,
"grad_norm": 0.0683208778500557,
"learning_rate": 0.00016,
"loss": 1.2812,
"step": 5
},
{
"epoch": 0.03333333333333333,
"grad_norm": 0.08995749801397324,
"learning_rate": 0.0002,
"loss": 1.3688,
"step": 6
},
{
"epoch": 0.03888888888888889,
"grad_norm": 0.11530529707670212,
"learning_rate": 0.00019977653631284917,
"loss": 1.2782,
"step": 7
},
{
"epoch": 0.044444444444444446,
"grad_norm": 0.08583567291498184,
"learning_rate": 0.00019955307262569833,
"loss": 1.2665,
"step": 8
},
{
"epoch": 0.05,
"grad_norm": 0.05587838962674141,
"learning_rate": 0.0001993296089385475,
"loss": 1.2385,
"step": 9
},
{
"epoch": 0.05555555555555555,
"grad_norm": 0.11535882204771042,
"learning_rate": 0.00019910614525139666,
"loss": 1.0813,
"step": 10
},
{
"epoch": 0.06111111111111111,
"grad_norm": 0.13201650977134705,
"learning_rate": 0.00019888268156424582,
"loss": 1.1436,
"step": 11
},
{
"epoch": 0.06666666666666667,
"grad_norm": 0.11374582350254059,
"learning_rate": 0.00019865921787709498,
"loss": 1.1855,
"step": 12
},
{
"epoch": 0.07222222222222222,
"grad_norm": 0.06903394311666489,
"learning_rate": 0.00019843575418994415,
"loss": 1.0681,
"step": 13
},
{
"epoch": 0.07777777777777778,
"grad_norm": 0.04648435115814209,
"learning_rate": 0.0001982122905027933,
"loss": 1.2021,
"step": 14
},
{
"epoch": 0.08333333333333333,
"grad_norm": 0.044310279190540314,
"learning_rate": 0.00019798882681564247,
"loss": 1.2205,
"step": 15
},
{
"epoch": 0.08888888888888889,
"grad_norm": 0.04107815772294998,
"learning_rate": 0.00019776536312849163,
"loss": 1.2386,
"step": 16
},
{
"epoch": 0.09444444444444444,
"grad_norm": 0.04393622279167175,
"learning_rate": 0.0001975418994413408,
"loss": 1.0073,
"step": 17
},
{
"epoch": 0.1,
"grad_norm": 0.0427585206925869,
"learning_rate": 0.00019731843575418996,
"loss": 1.1893,
"step": 18
},
{
"epoch": 0.10555555555555556,
"grad_norm": 0.04664256423711777,
"learning_rate": 0.00019709497206703912,
"loss": 0.9927,
"step": 19
},
{
"epoch": 0.1111111111111111,
"grad_norm": 0.04508348926901817,
"learning_rate": 0.00019687150837988828,
"loss": 1.0925,
"step": 20
},
{
"epoch": 0.11666666666666667,
"grad_norm": 0.039513278752565384,
"learning_rate": 0.00019664804469273744,
"loss": 0.9871,
"step": 21
},
{
"epoch": 0.12222222222222222,
"grad_norm": 0.03960327059030533,
"learning_rate": 0.0001964245810055866,
"loss": 1.0176,
"step": 22
},
{
"epoch": 0.12777777777777777,
"grad_norm": 0.04235127568244934,
"learning_rate": 0.00019620111731843577,
"loss": 1.049,
"step": 23
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.0568842850625515,
"learning_rate": 0.00019597765363128493,
"loss": 1.2287,
"step": 24
},
{
"epoch": 0.1388888888888889,
"grad_norm": 0.04214571416378021,
"learning_rate": 0.0001957541899441341,
"loss": 1.1542,
"step": 25
},
{
"epoch": 0.14444444444444443,
"grad_norm": 0.047842007130384445,
"learning_rate": 0.00019553072625698326,
"loss": 1.016,
"step": 26
},
{
"epoch": 0.15,
"grad_norm": 0.044961851090192795,
"learning_rate": 0.00019530726256983242,
"loss": 1.0749,
"step": 27
},
{
"epoch": 0.15555555555555556,
"grad_norm": 0.04217054322361946,
"learning_rate": 0.00019508379888268158,
"loss": 0.9727,
"step": 28
},
{
"epoch": 0.16111111111111112,
"grad_norm": 0.0383504293859005,
"learning_rate": 0.00019486033519553074,
"loss": 1.0661,
"step": 29
},
{
"epoch": 0.16666666666666666,
"grad_norm": 0.03532204404473305,
"learning_rate": 0.0001946368715083799,
"loss": 1.1068,
"step": 30
},
{
"epoch": 0.17222222222222222,
"grad_norm": 0.038037098944187164,
"learning_rate": 0.00019441340782122907,
"loss": 1.1115,
"step": 31
},
{
"epoch": 0.17777777777777778,
"grad_norm": 0.037036098539829254,
"learning_rate": 0.00019418994413407823,
"loss": 1.0929,
"step": 32
},
{
"epoch": 0.18333333333333332,
"grad_norm": 0.0363038145005703,
"learning_rate": 0.00019396648044692737,
"loss": 1.0947,
"step": 33
},
{
"epoch": 0.18888888888888888,
"grad_norm": 0.034751344472169876,
"learning_rate": 0.00019374301675977655,
"loss": 0.9976,
"step": 34
},
{
"epoch": 0.19444444444444445,
"grad_norm": 0.034770041704177856,
"learning_rate": 0.0001935195530726257,
"loss": 0.957,
"step": 35
},
{
"epoch": 0.2,
"grad_norm": 0.039629194885492325,
"learning_rate": 0.00019329608938547488,
"loss": 1.008,
"step": 36
},
{
"epoch": 0.20555555555555555,
"grad_norm": 0.0362899973988533,
"learning_rate": 0.00019307262569832401,
"loss": 1.0663,
"step": 37
},
{
"epoch": 0.2111111111111111,
"grad_norm": 0.03607248142361641,
"learning_rate": 0.0001928491620111732,
"loss": 0.9987,
"step": 38
},
{
"epoch": 0.21666666666666667,
"grad_norm": 0.039631396532058716,
"learning_rate": 0.00019262569832402234,
"loss": 1.0823,
"step": 39
},
{
"epoch": 0.2222222222222222,
"grad_norm": 0.035003967583179474,
"learning_rate": 0.00019240223463687153,
"loss": 1.1496,
"step": 40
},
{
"epoch": 0.22777777777777777,
"grad_norm": 0.037705037742853165,
"learning_rate": 0.00019217877094972066,
"loss": 1.0588,
"step": 41
},
{
"epoch": 0.23333333333333334,
"grad_norm": 0.04814685508608818,
"learning_rate": 0.00019195530726256985,
"loss": 1.1946,
"step": 42
},
{
"epoch": 0.2388888888888889,
"grad_norm": 0.04323168098926544,
"learning_rate": 0.000191731843575419,
"loss": 0.9522,
"step": 43
},
{
"epoch": 0.24444444444444444,
"grad_norm": 0.03730936348438263,
"learning_rate": 0.00019150837988826818,
"loss": 0.9357,
"step": 44
},
{
"epoch": 0.25,
"grad_norm": 0.038458798080682755,
"learning_rate": 0.0001912849162011173,
"loss": 0.9934,
"step": 45
},
{
"epoch": 0.25555555555555554,
"grad_norm": 0.0425235778093338,
"learning_rate": 0.0001910614525139665,
"loss": 0.9022,
"step": 46
},
{
"epoch": 0.2611111111111111,
"grad_norm": 0.037031710147857666,
"learning_rate": 0.00019083798882681564,
"loss": 1.0644,
"step": 47
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.037151917815208435,
"learning_rate": 0.00019061452513966483,
"loss": 1.0072,
"step": 48
},
{
"epoch": 0.2722222222222222,
"grad_norm": 0.03987253084778786,
"learning_rate": 0.00019039106145251396,
"loss": 1.1129,
"step": 49
},
{
"epoch": 0.2777777777777778,
"grad_norm": 0.04249132424592972,
"learning_rate": 0.00019016759776536315,
"loss": 0.8697,
"step": 50
},
{
"epoch": 0.2833333333333333,
"grad_norm": 0.03178909793496132,
"learning_rate": 0.0001899441340782123,
"loss": 0.9633,
"step": 51
},
{
"epoch": 0.28888888888888886,
"grad_norm": 0.03648042678833008,
"learning_rate": 0.00018972067039106148,
"loss": 0.9787,
"step": 52
},
{
"epoch": 0.29444444444444445,
"grad_norm": 0.037291720509529114,
"learning_rate": 0.0001894972067039106,
"loss": 1.0091,
"step": 53
},
{
"epoch": 0.3,
"grad_norm": 0.051739390939474106,
"learning_rate": 0.00018927374301675977,
"loss": 0.8872,
"step": 54
},
{
"epoch": 0.3055555555555556,
"grad_norm": 0.05843161419034004,
"learning_rate": 0.00018905027932960894,
"loss": 1.1597,
"step": 55
},
{
"epoch": 0.3111111111111111,
"grad_norm": 0.038655612617731094,
"learning_rate": 0.0001888268156424581,
"loss": 0.9919,
"step": 56
},
{
"epoch": 0.31666666666666665,
"grad_norm": 0.038581885397434235,
"learning_rate": 0.00018860335195530726,
"loss": 1.0442,
"step": 57
},
{
"epoch": 0.32222222222222224,
"grad_norm": 0.04138307645916939,
"learning_rate": 0.00018837988826815642,
"loss": 0.9998,
"step": 58
},
{
"epoch": 0.3277777777777778,
"grad_norm": 0.037572942674160004,
"learning_rate": 0.00018815642458100559,
"loss": 1.1027,
"step": 59
},
{
"epoch": 0.3333333333333333,
"grad_norm": 0.03829139843583107,
"learning_rate": 0.00018793296089385475,
"loss": 0.9609,
"step": 60
},
{
"epoch": 0.3388888888888889,
"grad_norm": 0.041106369346380234,
"learning_rate": 0.0001877094972067039,
"loss": 0.8585,
"step": 61
},
{
"epoch": 0.34444444444444444,
"grad_norm": 0.036691080778837204,
"learning_rate": 0.00018748603351955307,
"loss": 0.8896,
"step": 62
},
{
"epoch": 0.35,
"grad_norm": 0.03947650268673897,
"learning_rate": 0.00018726256983240224,
"loss": 0.9298,
"step": 63
},
{
"epoch": 0.35555555555555557,
"grad_norm": 0.03706413879990578,
"learning_rate": 0.0001870391061452514,
"loss": 1.0745,
"step": 64
},
{
"epoch": 0.3611111111111111,
"grad_norm": 0.0503302700817585,
"learning_rate": 0.00018681564245810056,
"loss": 1.0301,
"step": 65
},
{
"epoch": 0.36666666666666664,
"grad_norm": 0.040827762335538864,
"learning_rate": 0.00018659217877094972,
"loss": 0.9669,
"step": 66
},
{
"epoch": 0.37222222222222223,
"grad_norm": 0.042443402111530304,
"learning_rate": 0.00018636871508379888,
"loss": 0.9118,
"step": 67
},
{
"epoch": 0.37777777777777777,
"grad_norm": 0.04341750964522362,
"learning_rate": 0.00018614525139664805,
"loss": 1.0042,
"step": 68
},
{
"epoch": 0.38333333333333336,
"grad_norm": 0.04730634391307831,
"learning_rate": 0.0001859217877094972,
"loss": 1.049,
"step": 69
},
{
"epoch": 0.3888888888888889,
"grad_norm": 0.03982226550579071,
"learning_rate": 0.00018569832402234637,
"loss": 1.1031,
"step": 70
},
{
"epoch": 0.39444444444444443,
"grad_norm": 0.04159389063715935,
"learning_rate": 0.00018547486033519553,
"loss": 0.9836,
"step": 71
},
{
"epoch": 0.4,
"grad_norm": 0.043531641364097595,
"learning_rate": 0.0001852513966480447,
"loss": 1.0529,
"step": 72
},
{
"epoch": 0.40555555555555556,
"grad_norm": 0.042536310851573944,
"learning_rate": 0.00018502793296089386,
"loss": 0.9352,
"step": 73
},
{
"epoch": 0.4111111111111111,
"grad_norm": 0.04230835288763046,
"learning_rate": 0.00018480446927374302,
"loss": 0.9066,
"step": 74
},
{
"epoch": 0.4166666666666667,
"grad_norm": 0.04795027896761894,
"learning_rate": 0.00018458100558659218,
"loss": 0.9301,
"step": 75
},
{
"epoch": 0.4222222222222222,
"grad_norm": 0.04159845784306526,
"learning_rate": 0.00018435754189944135,
"loss": 1.0217,
"step": 76
},
{
"epoch": 0.42777777777777776,
"grad_norm": 0.046765729784965515,
"learning_rate": 0.0001841340782122905,
"loss": 0.9583,
"step": 77
},
{
"epoch": 0.43333333333333335,
"grad_norm": 0.04374508187174797,
"learning_rate": 0.00018391061452513967,
"loss": 1.0433,
"step": 78
},
{
"epoch": 0.4388888888888889,
"grad_norm": 0.04641956463456154,
"learning_rate": 0.00018368715083798883,
"loss": 0.9135,
"step": 79
},
{
"epoch": 0.4444444444444444,
"grad_norm": 0.0653461143374443,
"learning_rate": 0.000183463687150838,
"loss": 0.8327,
"step": 80
},
{
"epoch": 0.45,
"grad_norm": 0.05362270772457123,
"learning_rate": 0.00018324022346368716,
"loss": 0.8941,
"step": 81
},
{
"epoch": 0.45555555555555555,
"grad_norm": 0.054075635969638824,
"learning_rate": 0.00018301675977653632,
"loss": 0.9034,
"step": 82
},
{
"epoch": 0.46111111111111114,
"grad_norm": 0.05428635701537132,
"learning_rate": 0.00018279329608938548,
"loss": 0.9889,
"step": 83
},
{
"epoch": 0.4666666666666667,
"grad_norm": 0.046751026064157486,
"learning_rate": 0.00018256983240223464,
"loss": 0.9755,
"step": 84
},
{
"epoch": 0.4722222222222222,
"grad_norm": 0.055183425545692444,
"learning_rate": 0.0001823463687150838,
"loss": 0.8958,
"step": 85
},
{
"epoch": 0.4777777777777778,
"grad_norm": 0.045744914561510086,
"learning_rate": 0.00018212290502793297,
"loss": 1.1,
"step": 86
},
{
"epoch": 0.48333333333333334,
"grad_norm": 0.047536078840494156,
"learning_rate": 0.00018189944134078213,
"loss": 0.9612,
"step": 87
},
{
"epoch": 0.4888888888888889,
"grad_norm": 0.04590754956007004,
"learning_rate": 0.0001816759776536313,
"loss": 0.9353,
"step": 88
},
{
"epoch": 0.49444444444444446,
"grad_norm": 0.04202994331717491,
"learning_rate": 0.00018145251396648046,
"loss": 1.0445,
"step": 89
},
{
"epoch": 0.5,
"grad_norm": 0.047461919486522675,
"learning_rate": 0.00018122905027932962,
"loss": 0.9836,
"step": 90
},
{
"epoch": 0.5055555555555555,
"grad_norm": 0.0570930652320385,
"learning_rate": 0.00018100558659217878,
"loss": 1.0391,
"step": 91
},
{
"epoch": 0.5111111111111111,
"grad_norm": 0.04890509322285652,
"learning_rate": 0.00018078212290502794,
"loss": 0.9243,
"step": 92
},
{
"epoch": 0.5166666666666667,
"grad_norm": 0.04897640645503998,
"learning_rate": 0.0001805586592178771,
"loss": 1.0666,
"step": 93
},
{
"epoch": 0.5222222222222223,
"grad_norm": 0.04432108625769615,
"learning_rate": 0.00018033519553072627,
"loss": 0.9082,
"step": 94
},
{
"epoch": 0.5277777777777778,
"grad_norm": 0.04745204374194145,
"learning_rate": 0.00018011173184357543,
"loss": 1.0106,
"step": 95
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.052698925137519836,
"learning_rate": 0.0001798882681564246,
"loss": 0.9143,
"step": 96
},
{
"epoch": 0.5388888888888889,
"grad_norm": 0.04712430015206337,
"learning_rate": 0.00017966480446927375,
"loss": 0.9098,
"step": 97
},
{
"epoch": 0.5444444444444444,
"grad_norm": 0.046263325959444046,
"learning_rate": 0.00017944134078212292,
"loss": 1.0247,
"step": 98
},
{
"epoch": 0.55,
"grad_norm": 0.05879923328757286,
"learning_rate": 0.00017921787709497208,
"loss": 0.8499,
"step": 99
},
{
"epoch": 0.5555555555555556,
"grad_norm": 0.05413980782032013,
"learning_rate": 0.00017899441340782124,
"loss": 0.8356,
"step": 100
},
{
"epoch": 0.5611111111111111,
"grad_norm": 0.043978795409202576,
"learning_rate": 0.00017877094972067038,
"loss": 1.003,
"step": 101
},
{
"epoch": 0.5666666666666667,
"grad_norm": 0.04537949338555336,
"learning_rate": 0.00017854748603351957,
"loss": 0.9116,
"step": 102
},
{
"epoch": 0.5722222222222222,
"grad_norm": 0.046335939317941666,
"learning_rate": 0.0001783240223463687,
"loss": 0.8829,
"step": 103
},
{
"epoch": 0.5777777777777777,
"grad_norm": 0.06141021102666855,
"learning_rate": 0.0001781005586592179,
"loss": 0.9723,
"step": 104
},
{
"epoch": 0.5833333333333334,
"grad_norm": 0.048380546271800995,
"learning_rate": 0.00017787709497206703,
"loss": 1.0035,
"step": 105
},
{
"epoch": 0.5888888888888889,
"grad_norm": 0.05503736436367035,
"learning_rate": 0.00017765363128491622,
"loss": 0.9792,
"step": 106
},
{
"epoch": 0.5944444444444444,
"grad_norm": 0.05387064814567566,
"learning_rate": 0.00017743016759776535,
"loss": 0.9593,
"step": 107
},
{
"epoch": 0.6,
"grad_norm": 0.04959545284509659,
"learning_rate": 0.00017720670391061454,
"loss": 1.1505,
"step": 108
},
{
"epoch": 0.6055555555555555,
"grad_norm": 0.05498025193810463,
"learning_rate": 0.00017698324022346368,
"loss": 1.0054,
"step": 109
},
{
"epoch": 0.6111111111111112,
"grad_norm": 0.05924772098660469,
"learning_rate": 0.00017675977653631287,
"loss": 0.9245,
"step": 110
},
{
"epoch": 0.6166666666666667,
"grad_norm": 0.05125448480248451,
"learning_rate": 0.000176536312849162,
"loss": 0.9627,
"step": 111
},
{
"epoch": 0.6222222222222222,
"grad_norm": 0.04882131516933441,
"learning_rate": 0.0001763128491620112,
"loss": 1.0934,
"step": 112
},
{
"epoch": 0.6277777777777778,
"grad_norm": 0.06039188802242279,
"learning_rate": 0.00017608938547486033,
"loss": 0.9644,
"step": 113
},
{
"epoch": 0.6333333333333333,
"grad_norm": 0.05410723015666008,
"learning_rate": 0.00017586592178770951,
"loss": 0.8913,
"step": 114
},
{
"epoch": 0.6388888888888888,
"grad_norm": 0.042146410793066025,
"learning_rate": 0.00017564245810055865,
"loss": 0.9539,
"step": 115
},
{
"epoch": 0.6444444444444445,
"grad_norm": 0.04869828000664711,
"learning_rate": 0.00017541899441340784,
"loss": 1.0292,
"step": 116
},
{
"epoch": 0.65,
"grad_norm": 0.04636748507618904,
"learning_rate": 0.00017519553072625697,
"loss": 0.9346,
"step": 117
},
{
"epoch": 0.6555555555555556,
"grad_norm": 0.049692243337631226,
"learning_rate": 0.00017497206703910616,
"loss": 0.9506,
"step": 118
},
{
"epoch": 0.6611111111111111,
"grad_norm": 0.05080572888255119,
"learning_rate": 0.0001747486033519553,
"loss": 0.9036,
"step": 119
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.050407495349645615,
"learning_rate": 0.0001745251396648045,
"loss": 0.9325,
"step": 120
},
{
"epoch": 0.6722222222222223,
"grad_norm": 0.04986334592103958,
"learning_rate": 0.00017430167597765362,
"loss": 0.9872,
"step": 121
},
{
"epoch": 0.6777777777777778,
"grad_norm": 0.05374254286289215,
"learning_rate": 0.0001740782122905028,
"loss": 0.9968,
"step": 122
},
{
"epoch": 0.6833333333333333,
"grad_norm": 0.04589278623461723,
"learning_rate": 0.00017385474860335195,
"loss": 0.8981,
"step": 123
},
{
"epoch": 0.6888888888888889,
"grad_norm": 0.05185263976454735,
"learning_rate": 0.00017363128491620114,
"loss": 0.8315,
"step": 124
},
{
"epoch": 0.6944444444444444,
"grad_norm": 0.06388653814792633,
"learning_rate": 0.00017340782122905027,
"loss": 0.9927,
"step": 125
},
{
"epoch": 0.7,
"grad_norm": 0.05252877622842789,
"learning_rate": 0.00017318435754189946,
"loss": 1.0065,
"step": 126
},
{
"epoch": 0.7055555555555556,
"grad_norm": 0.04771338775753975,
"learning_rate": 0.0001729608938547486,
"loss": 1.011,
"step": 127
},
{
"epoch": 0.7111111111111111,
"grad_norm": 0.04832189902663231,
"learning_rate": 0.0001727374301675978,
"loss": 0.9703,
"step": 128
},
{
"epoch": 0.7166666666666667,
"grad_norm": 0.058851100504398346,
"learning_rate": 0.00017251396648044692,
"loss": 0.9536,
"step": 129
},
{
"epoch": 0.7222222222222222,
"grad_norm": 0.05162525922060013,
"learning_rate": 0.0001722905027932961,
"loss": 0.9376,
"step": 130
},
{
"epoch": 0.7277777777777777,
"grad_norm": 0.04926559329032898,
"learning_rate": 0.00017206703910614525,
"loss": 0.9675,
"step": 131
},
{
"epoch": 0.7333333333333333,
"grad_norm": 0.045212697237730026,
"learning_rate": 0.00017184357541899444,
"loss": 1.1185,
"step": 132
},
{
"epoch": 0.7388888888888889,
"grad_norm": 0.048744745552539825,
"learning_rate": 0.00017162011173184357,
"loss": 0.8514,
"step": 133
},
{
"epoch": 0.7444444444444445,
"grad_norm": 0.05711376294493675,
"learning_rate": 0.00017139664804469276,
"loss": 0.8688,
"step": 134
},
{
"epoch": 0.75,
"grad_norm": 0.054411597549915314,
"learning_rate": 0.0001711731843575419,
"loss": 0.9715,
"step": 135
},
{
"epoch": 0.7555555555555555,
"grad_norm": 0.05230865627527237,
"learning_rate": 0.00017094972067039109,
"loss": 0.8751,
"step": 136
},
{
"epoch": 0.7611111111111111,
"grad_norm": 0.049234066158533096,
"learning_rate": 0.00017072625698324022,
"loss": 0.9204,
"step": 137
},
{
"epoch": 0.7666666666666667,
"grad_norm": 0.050416141748428345,
"learning_rate": 0.0001705027932960894,
"loss": 1.0438,
"step": 138
},
{
"epoch": 0.7722222222222223,
"grad_norm": 0.044703587889671326,
"learning_rate": 0.00017027932960893855,
"loss": 0.9383,
"step": 139
},
{
"epoch": 0.7777777777777778,
"grad_norm": 0.050353001803159714,
"learning_rate": 0.00017005586592178774,
"loss": 0.9202,
"step": 140
},
{
"epoch": 0.7833333333333333,
"grad_norm": 0.050380364060401917,
"learning_rate": 0.00016983240223463687,
"loss": 0.9781,
"step": 141
},
{
"epoch": 0.7888888888888889,
"grad_norm": 0.049743395298719406,
"learning_rate": 0.00016960893854748606,
"loss": 1.0145,
"step": 142
},
{
"epoch": 0.7944444444444444,
"grad_norm": 0.04901986941695213,
"learning_rate": 0.0001693854748603352,
"loss": 0.917,
"step": 143
},
{
"epoch": 0.8,
"grad_norm": 0.04620293155312538,
"learning_rate": 0.00016916201117318438,
"loss": 0.9965,
"step": 144
},
{
"epoch": 0.8055555555555556,
"grad_norm": 0.0640861988067627,
"learning_rate": 0.00016893854748603352,
"loss": 0.8774,
"step": 145
},
{
"epoch": 0.8111111111111111,
"grad_norm": 0.06719637662172318,
"learning_rate": 0.0001687150837988827,
"loss": 0.8781,
"step": 146
},
{
"epoch": 0.8166666666666667,
"grad_norm": 0.048986878246068954,
"learning_rate": 0.00016849162011173184,
"loss": 0.9208,
"step": 147
},
{
"epoch": 0.8222222222222222,
"grad_norm": 0.04842989146709442,
"learning_rate": 0.000168268156424581,
"loss": 0.872,
"step": 148
},
{
"epoch": 0.8277777777777777,
"grad_norm": 0.04718875512480736,
"learning_rate": 0.00016804469273743017,
"loss": 0.9608,
"step": 149
},
{
"epoch": 0.8333333333333334,
"grad_norm": 0.04663201794028282,
"learning_rate": 0.00016782122905027933,
"loss": 0.9788,
"step": 150
},
{
"epoch": 0.8388888888888889,
"grad_norm": 0.06023184582591057,
"learning_rate": 0.0001675977653631285,
"loss": 0.9136,
"step": 151
},
{
"epoch": 0.8444444444444444,
"grad_norm": 0.04846452176570892,
"learning_rate": 0.00016737430167597766,
"loss": 0.9934,
"step": 152
},
{
"epoch": 0.85,
"grad_norm": 0.04904169216752052,
"learning_rate": 0.00016715083798882682,
"loss": 0.8698,
"step": 153
},
{
"epoch": 0.8555555555555555,
"grad_norm": 0.05261608958244324,
"learning_rate": 0.00016692737430167598,
"loss": 0.9769,
"step": 154
},
{
"epoch": 0.8611111111111112,
"grad_norm": 0.05482027307152748,
"learning_rate": 0.00016670391061452514,
"loss": 0.9682,
"step": 155
},
{
"epoch": 0.8666666666666667,
"grad_norm": 0.04853905364871025,
"learning_rate": 0.0001664804469273743,
"loss": 0.8324,
"step": 156
},
{
"epoch": 0.8722222222222222,
"grad_norm": 0.052008483558893204,
"learning_rate": 0.00016625698324022347,
"loss": 0.9262,
"step": 157
},
{
"epoch": 0.8777777777777778,
"grad_norm": 0.057141151279211044,
"learning_rate": 0.00016603351955307263,
"loss": 0.9687,
"step": 158
},
{
"epoch": 0.8833333333333333,
"grad_norm": 0.053614623844623566,
"learning_rate": 0.0001658100558659218,
"loss": 1.0153,
"step": 159
},
{
"epoch": 0.8888888888888888,
"grad_norm": 0.05462003871798515,
"learning_rate": 0.00016558659217877095,
"loss": 1.066,
"step": 160
},
{
"epoch": 0.8944444444444445,
"grad_norm": 0.06442496925592422,
"learning_rate": 0.00016536312849162012,
"loss": 0.9421,
"step": 161
},
{
"epoch": 0.9,
"grad_norm": 0.0469006709754467,
"learning_rate": 0.00016513966480446928,
"loss": 0.9178,
"step": 162
},
{
"epoch": 0.9055555555555556,
"grad_norm": 0.04962185025215149,
"learning_rate": 0.00016491620111731844,
"loss": 1.0243,
"step": 163
},
{
"epoch": 0.9111111111111111,
"grad_norm": 0.048993416130542755,
"learning_rate": 0.0001646927374301676,
"loss": 0.987,
"step": 164
},
{
"epoch": 0.9166666666666666,
"grad_norm": 0.05156516283750534,
"learning_rate": 0.00016446927374301677,
"loss": 0.8975,
"step": 165
},
{
"epoch": 0.9222222222222223,
"grad_norm": 0.06078791618347168,
"learning_rate": 0.00016424581005586593,
"loss": 0.9709,
"step": 166
},
{
"epoch": 0.9277777777777778,
"grad_norm": 0.04482847452163696,
"learning_rate": 0.0001640223463687151,
"loss": 0.955,
"step": 167
},
{
"epoch": 0.9333333333333333,
"grad_norm": 0.04539848864078522,
"learning_rate": 0.00016379888268156425,
"loss": 0.9566,
"step": 168
},
{
"epoch": 0.9388888888888889,
"grad_norm": 0.05767229571938515,
"learning_rate": 0.00016357541899441342,
"loss": 0.8146,
"step": 169
},
{
"epoch": 0.9444444444444444,
"grad_norm": 0.054371606558561325,
"learning_rate": 0.00016335195530726258,
"loss": 1.0004,
"step": 170
},
{
"epoch": 0.95,
"grad_norm": 0.05640481039881706,
"learning_rate": 0.00016312849162011174,
"loss": 1.0064,
"step": 171
},
{
"epoch": 0.9555555555555556,
"grad_norm": 0.05987238138914108,
"learning_rate": 0.0001629050279329609,
"loss": 1.0158,
"step": 172
},
{
"epoch": 0.9611111111111111,
"grad_norm": 0.052737317979335785,
"learning_rate": 0.00016268156424581007,
"loss": 0.9256,
"step": 173
},
{
"epoch": 0.9666666666666667,
"grad_norm": 0.049311403185129166,
"learning_rate": 0.00016245810055865923,
"loss": 0.9628,
"step": 174
},
{
"epoch": 0.9722222222222222,
"grad_norm": 0.056468550115823746,
"learning_rate": 0.0001622346368715084,
"loss": 0.9609,
"step": 175
},
{
"epoch": 0.9777777777777777,
"grad_norm": 0.06114795804023743,
"learning_rate": 0.00016201117318435755,
"loss": 1.0214,
"step": 176
},
{
"epoch": 0.9833333333333333,
"grad_norm": 0.05194453150033951,
"learning_rate": 0.00016178770949720671,
"loss": 0.9056,
"step": 177
},
{
"epoch": 0.9888888888888889,
"grad_norm": 0.0524967759847641,
"learning_rate": 0.00016156424581005588,
"loss": 0.9775,
"step": 178
},
{
"epoch": 0.9944444444444445,
"grad_norm": 0.057767920196056366,
"learning_rate": 0.00016134078212290504,
"loss": 0.9784,
"step": 179
},
{
"epoch": 1.0,
"grad_norm": 0.05753879249095917,
"learning_rate": 0.0001611173184357542,
"loss": 0.9531,
"step": 180
},
{
"epoch": 1.0055555555555555,
"grad_norm": 0.06806821376085281,
"learning_rate": 0.00016089385474860336,
"loss": 0.7893,
"step": 181
},
{
"epoch": 1.011111111111111,
"grad_norm": 0.04672916978597641,
"learning_rate": 0.00016067039106145253,
"loss": 0.8986,
"step": 182
},
{
"epoch": 1.0166666666666666,
"grad_norm": 0.062532939016819,
"learning_rate": 0.0001604469273743017,
"loss": 0.9351,
"step": 183
},
{
"epoch": 1.0222222222222221,
"grad_norm": 0.062364086508750916,
"learning_rate": 0.00016022346368715085,
"loss": 0.9116,
"step": 184
},
{
"epoch": 1.0277777777777777,
"grad_norm": 0.05442197248339653,
"learning_rate": 0.00016,
"loss": 0.9064,
"step": 185
},
{
"epoch": 1.0333333333333334,
"grad_norm": 0.0521186888217926,
"learning_rate": 0.00015977653631284918,
"loss": 0.9243,
"step": 186
},
{
"epoch": 1.038888888888889,
"grad_norm": 0.05240177735686302,
"learning_rate": 0.00015955307262569834,
"loss": 0.9321,
"step": 187
},
{
"epoch": 1.0444444444444445,
"grad_norm": 0.07044881582260132,
"learning_rate": 0.0001593296089385475,
"loss": 0.8636,
"step": 188
},
{
"epoch": 1.05,
"grad_norm": 0.050740137696266174,
"learning_rate": 0.00015910614525139666,
"loss": 0.9124,
"step": 189
},
{
"epoch": 1.0555555555555556,
"grad_norm": 0.05037765949964523,
"learning_rate": 0.00015888268156424582,
"loss": 0.8686,
"step": 190
},
{
"epoch": 1.0611111111111111,
"grad_norm": 0.057770561426877975,
"learning_rate": 0.000158659217877095,
"loss": 0.8354,
"step": 191
},
{
"epoch": 1.0666666666666667,
"grad_norm": 0.06425413489341736,
"learning_rate": 0.00015843575418994415,
"loss": 0.8598,
"step": 192
},
{
"epoch": 1.0722222222222222,
"grad_norm": 0.0666314959526062,
"learning_rate": 0.0001582122905027933,
"loss": 0.9796,
"step": 193
},
{
"epoch": 1.0777777777777777,
"grad_norm": 0.055953703820705414,
"learning_rate": 0.00015798882681564247,
"loss": 0.9676,
"step": 194
},
{
"epoch": 1.0833333333333333,
"grad_norm": 0.05948743224143982,
"learning_rate": 0.0001577653631284916,
"loss": 1.017,
"step": 195
},
{
"epoch": 1.0888888888888888,
"grad_norm": 0.06179089844226837,
"learning_rate": 0.0001575418994413408,
"loss": 0.8852,
"step": 196
},
{
"epoch": 1.0944444444444446,
"grad_norm": 0.054043907672166824,
"learning_rate": 0.00015731843575418993,
"loss": 0.9897,
"step": 197
},
{
"epoch": 1.1,
"grad_norm": 0.053820669651031494,
"learning_rate": 0.00015709497206703912,
"loss": 0.9258,
"step": 198
},
{
"epoch": 1.1055555555555556,
"grad_norm": 0.05031691491603851,
"learning_rate": 0.00015687150837988826,
"loss": 1.0193,
"step": 199
},
{
"epoch": 1.1111111111111112,
"grad_norm": 0.05572971701622009,
"learning_rate": 0.00015664804469273745,
"loss": 0.8231,
"step": 200
},
{
"epoch": 1.1166666666666667,
"grad_norm": 0.06840377300977707,
"learning_rate": 0.00015642458100558658,
"loss": 0.9018,
"step": 201
},
{
"epoch": 1.1222222222222222,
"grad_norm": 0.048216886818408966,
"learning_rate": 0.00015620111731843577,
"loss": 0.8592,
"step": 202
},
{
"epoch": 1.1277777777777778,
"grad_norm": 0.05099362134933472,
"learning_rate": 0.0001559776536312849,
"loss": 0.9244,
"step": 203
},
{
"epoch": 1.1333333333333333,
"grad_norm": 0.07767224311828613,
"learning_rate": 0.0001557541899441341,
"loss": 0.888,
"step": 204
},
{
"epoch": 1.1388888888888888,
"grad_norm": 0.05542586371302605,
"learning_rate": 0.00015553072625698323,
"loss": 0.9489,
"step": 205
},
{
"epoch": 1.1444444444444444,
"grad_norm": 0.05055686831474304,
"learning_rate": 0.00015530726256983242,
"loss": 0.958,
"step": 206
},
{
"epoch": 1.15,
"grad_norm": 0.06010639667510986,
"learning_rate": 0.00015508379888268156,
"loss": 0.867,
"step": 207
},
{
"epoch": 1.1555555555555554,
"grad_norm": 0.056401461362838745,
"learning_rate": 0.00015486033519553075,
"loss": 0.8492,
"step": 208
},
{
"epoch": 1.1611111111111112,
"grad_norm": 0.04562723636627197,
"learning_rate": 0.00015463687150837988,
"loss": 0.8798,
"step": 209
},
{
"epoch": 1.1666666666666667,
"grad_norm": 0.05210921913385391,
"learning_rate": 0.00015441340782122907,
"loss": 1.0221,
"step": 210
},
{
"epoch": 1.1722222222222223,
"grad_norm": 0.05825547128915787,
"learning_rate": 0.0001541899441340782,
"loss": 0.8814,
"step": 211
},
{
"epoch": 1.1777777777777778,
"grad_norm": 0.054828494787216187,
"learning_rate": 0.0001539664804469274,
"loss": 0.9182,
"step": 212
},
{
"epoch": 1.1833333333333333,
"grad_norm": 0.05495524778962135,
"learning_rate": 0.00015374301675977653,
"loss": 0.9478,
"step": 213
},
{
"epoch": 1.1888888888888889,
"grad_norm": 0.05834140256047249,
"learning_rate": 0.00015351955307262572,
"loss": 0.8907,
"step": 214
},
{
"epoch": 1.1944444444444444,
"grad_norm": 0.06122478097677231,
"learning_rate": 0.00015329608938547486,
"loss": 0.9009,
"step": 215
},
{
"epoch": 1.2,
"grad_norm": 0.056065574288368225,
"learning_rate": 0.00015307262569832405,
"loss": 0.8999,
"step": 216
},
{
"epoch": 1.2055555555555555,
"grad_norm": 0.06170939654111862,
"learning_rate": 0.00015284916201117318,
"loss": 0.9633,
"step": 217
},
{
"epoch": 1.211111111111111,
"grad_norm": 0.06926306337118149,
"learning_rate": 0.00015262569832402237,
"loss": 0.872,
"step": 218
},
{
"epoch": 1.2166666666666668,
"grad_norm": 0.04986730217933655,
"learning_rate": 0.0001524022346368715,
"loss": 0.8654,
"step": 219
},
{
"epoch": 1.2222222222222223,
"grad_norm": 0.06529076397418976,
"learning_rate": 0.0001521787709497207,
"loss": 0.8414,
"step": 220
},
{
"epoch": 1.2277777777777779,
"grad_norm": 0.05794944614171982,
"learning_rate": 0.00015195530726256983,
"loss": 1.003,
"step": 221
},
{
"epoch": 1.2333333333333334,
"grad_norm": 0.05351187661290169,
"learning_rate": 0.00015173184357541902,
"loss": 0.9542,
"step": 222
},
{
"epoch": 1.238888888888889,
"grad_norm": 0.055845387279987335,
"learning_rate": 0.00015150837988826815,
"loss": 1.0061,
"step": 223
},
{
"epoch": 1.2444444444444445,
"grad_norm": 0.0538068562746048,
"learning_rate": 0.00015128491620111734,
"loss": 0.8362,
"step": 224
},
{
"epoch": 1.25,
"grad_norm": 0.05743606016039848,
"learning_rate": 0.00015106145251396648,
"loss": 0.9349,
"step": 225
},
{
"epoch": 1.2555555555555555,
"grad_norm": 0.05550825595855713,
"learning_rate": 0.00015083798882681567,
"loss": 0.9371,
"step": 226
},
{
"epoch": 1.261111111111111,
"grad_norm": 0.06106347590684891,
"learning_rate": 0.0001506145251396648,
"loss": 1.0165,
"step": 227
},
{
"epoch": 1.2666666666666666,
"grad_norm": 0.05469049885869026,
"learning_rate": 0.000150391061452514,
"loss": 0.779,
"step": 228
},
{
"epoch": 1.2722222222222221,
"grad_norm": 0.057001929730176926,
"learning_rate": 0.00015016759776536313,
"loss": 0.9395,
"step": 229
},
{
"epoch": 1.2777777777777777,
"grad_norm": 0.05202470347285271,
"learning_rate": 0.00014994413407821232,
"loss": 0.8192,
"step": 230
},
{
"epoch": 1.2833333333333332,
"grad_norm": 0.05119827017188072,
"learning_rate": 0.00014972067039106145,
"loss": 0.8434,
"step": 231
},
{
"epoch": 1.2888888888888888,
"grad_norm": 0.05172817409038544,
"learning_rate": 0.00014949720670391064,
"loss": 0.853,
"step": 232
},
{
"epoch": 1.2944444444444445,
"grad_norm": 0.05262301489710808,
"learning_rate": 0.00014927374301675978,
"loss": 1.0772,
"step": 233
},
{
"epoch": 1.3,
"grad_norm": 0.051478542387485504,
"learning_rate": 0.00014905027932960897,
"loss": 0.8971,
"step": 234
},
{
"epoch": 1.3055555555555556,
"grad_norm": 0.05555481091141701,
"learning_rate": 0.0001488268156424581,
"loss": 0.8355,
"step": 235
},
{
"epoch": 1.3111111111111111,
"grad_norm": 0.053314127027988434,
"learning_rate": 0.0001486033519553073,
"loss": 0.9963,
"step": 236
},
{
"epoch": 1.3166666666666667,
"grad_norm": 0.0556037463247776,
"learning_rate": 0.00014837988826815643,
"loss": 0.8912,
"step": 237
},
{
"epoch": 1.3222222222222222,
"grad_norm": 0.05510379374027252,
"learning_rate": 0.00014815642458100562,
"loss": 0.9354,
"step": 238
},
{
"epoch": 1.3277777777777777,
"grad_norm": 0.051465388387441635,
"learning_rate": 0.00014793296089385475,
"loss": 0.9561,
"step": 239
},
{
"epoch": 1.3333333333333333,
"grad_norm": 0.0541684553027153,
"learning_rate": 0.00014770949720670394,
"loss": 0.9456,
"step": 240
},
{
"epoch": 1.338888888888889,
"grad_norm": 0.05365219712257385,
"learning_rate": 0.00014748603351955308,
"loss": 0.8872,
"step": 241
},
{
"epoch": 1.3444444444444446,
"grad_norm": 0.05588521808385849,
"learning_rate": 0.00014726256983240224,
"loss": 0.9394,
"step": 242
},
{
"epoch": 1.35,
"grad_norm": 0.05516066029667854,
"learning_rate": 0.0001470391061452514,
"loss": 0.8989,
"step": 243
},
{
"epoch": 1.3555555555555556,
"grad_norm": 0.051985450088977814,
"learning_rate": 0.00014681564245810056,
"loss": 0.8705,
"step": 244
},
{
"epoch": 1.3611111111111112,
"grad_norm": 0.059811756014823914,
"learning_rate": 0.00014659217877094973,
"loss": 0.8617,
"step": 245
},
{
"epoch": 1.3666666666666667,
"grad_norm": 0.05300361290574074,
"learning_rate": 0.0001463687150837989,
"loss": 0.92,
"step": 246
},
{
"epoch": 1.3722222222222222,
"grad_norm": 0.05296464264392853,
"learning_rate": 0.00014614525139664805,
"loss": 0.9194,
"step": 247
},
{
"epoch": 1.3777777777777778,
"grad_norm": 0.05771278962492943,
"learning_rate": 0.0001459217877094972,
"loss": 0.9094,
"step": 248
},
{
"epoch": 1.3833333333333333,
"grad_norm": 0.05478692054748535,
"learning_rate": 0.00014569832402234638,
"loss": 0.9012,
"step": 249
},
{
"epoch": 1.3888888888888888,
"grad_norm": 0.06128135323524475,
"learning_rate": 0.00014547486033519554,
"loss": 0.8545,
"step": 250
},
{
"epoch": 1.3944444444444444,
"grad_norm": 0.05041109025478363,
"learning_rate": 0.0001452513966480447,
"loss": 0.9212,
"step": 251
},
{
"epoch": 1.4,
"grad_norm": 0.06289547681808472,
"learning_rate": 0.00014502793296089386,
"loss": 0.8682,
"step": 252
},
{
"epoch": 1.4055555555555554,
"grad_norm": 0.05629614740610123,
"learning_rate": 0.00014480446927374302,
"loss": 0.9318,
"step": 253
},
{
"epoch": 1.411111111111111,
"grad_norm": 0.051047634333372116,
"learning_rate": 0.0001445810055865922,
"loss": 0.8505,
"step": 254
},
{
"epoch": 1.4166666666666667,
"grad_norm": 0.05612725391983986,
"learning_rate": 0.00014435754189944135,
"loss": 1.0799,
"step": 255
},
{
"epoch": 1.4222222222222223,
"grad_norm": 0.06313491612672806,
"learning_rate": 0.0001441340782122905,
"loss": 0.9158,
"step": 256
},
{
"epoch": 1.4277777777777778,
"grad_norm": 0.06289134919643402,
"learning_rate": 0.00014391061452513967,
"loss": 1.0624,
"step": 257
},
{
"epoch": 1.4333333333333333,
"grad_norm": 0.055123552680015564,
"learning_rate": 0.00014368715083798884,
"loss": 0.9525,
"step": 258
},
{
"epoch": 1.4388888888888889,
"grad_norm": 0.0679507851600647,
"learning_rate": 0.000143463687150838,
"loss": 0.9827,
"step": 259
},
{
"epoch": 1.4444444444444444,
"grad_norm": 0.05274106189608574,
"learning_rate": 0.00014324022346368716,
"loss": 0.9233,
"step": 260
},
{
"epoch": 1.45,
"grad_norm": 0.05777543783187866,
"learning_rate": 0.00014301675977653632,
"loss": 0.9792,
"step": 261
},
{
"epoch": 1.4555555555555555,
"grad_norm": 0.06628414243459702,
"learning_rate": 0.00014279329608938549,
"loss": 1.0126,
"step": 262
},
{
"epoch": 1.4611111111111112,
"grad_norm": 0.056076258420944214,
"learning_rate": 0.00014256983240223465,
"loss": 0.8909,
"step": 263
},
{
"epoch": 1.4666666666666668,
"grad_norm": 0.05960844084620476,
"learning_rate": 0.0001423463687150838,
"loss": 0.9109,
"step": 264
},
{
"epoch": 1.4722222222222223,
"grad_norm": 0.056989919394254684,
"learning_rate": 0.00014212290502793297,
"loss": 0.9186,
"step": 265
},
{
"epoch": 1.4777777777777779,
"grad_norm": 0.05334057658910751,
"learning_rate": 0.00014189944134078214,
"loss": 0.7592,
"step": 266
},
{
"epoch": 1.4833333333333334,
"grad_norm": 0.05288785323500633,
"learning_rate": 0.0001416759776536313,
"loss": 0.8798,
"step": 267
},
{
"epoch": 1.488888888888889,
"grad_norm": 0.05396222323179245,
"learning_rate": 0.00014145251396648046,
"loss": 0.8969,
"step": 268
},
{
"epoch": 1.4944444444444445,
"grad_norm": 0.06071707606315613,
"learning_rate": 0.00014122905027932962,
"loss": 0.9187,
"step": 269
},
{
"epoch": 1.5,
"grad_norm": 0.06300662457942963,
"learning_rate": 0.00014100558659217878,
"loss": 0.8843,
"step": 270
},
{
"epoch": 1.5055555555555555,
"grad_norm": 0.051903385668992996,
"learning_rate": 0.00014078212290502795,
"loss": 0.8527,
"step": 271
},
{
"epoch": 1.511111111111111,
"grad_norm": 0.05332471430301666,
"learning_rate": 0.0001405586592178771,
"loss": 1.0175,
"step": 272
},
{
"epoch": 1.5166666666666666,
"grad_norm": 0.05092576891183853,
"learning_rate": 0.00014033519553072627,
"loss": 0.8844,
"step": 273
},
{
"epoch": 1.5222222222222221,
"grad_norm": 0.056000836193561554,
"learning_rate": 0.00014011173184357543,
"loss": 0.8721,
"step": 274
},
{
"epoch": 1.5277777777777777,
"grad_norm": 0.06461361795663834,
"learning_rate": 0.0001398882681564246,
"loss": 0.9402,
"step": 275
},
{
"epoch": 1.5333333333333332,
"grad_norm": 0.05129456892609596,
"learning_rate": 0.00013966480446927376,
"loss": 0.845,
"step": 276
},
{
"epoch": 1.5388888888888888,
"grad_norm": 0.05994970351457596,
"learning_rate": 0.00013944134078212292,
"loss": 0.9381,
"step": 277
},
{
"epoch": 1.5444444444444443,
"grad_norm": 0.0574822761118412,
"learning_rate": 0.00013921787709497208,
"loss": 0.8692,
"step": 278
},
{
"epoch": 1.55,
"grad_norm": 0.06318029761314392,
"learning_rate": 0.00013899441340782125,
"loss": 0.8749,
"step": 279
},
{
"epoch": 1.5555555555555556,
"grad_norm": 0.05438155308365822,
"learning_rate": 0.0001387709497206704,
"loss": 0.9355,
"step": 280
},
{
"epoch": 1.5611111111111111,
"grad_norm": 0.053403034806251526,
"learning_rate": 0.00013854748603351957,
"loss": 1.0251,
"step": 281
},
{
"epoch": 1.5666666666666667,
"grad_norm": 0.05166739597916603,
"learning_rate": 0.00013832402234636873,
"loss": 0.8564,
"step": 282
},
{
"epoch": 1.5722222222222222,
"grad_norm": 0.05890066921710968,
"learning_rate": 0.0001381005586592179,
"loss": 0.9476,
"step": 283
},
{
"epoch": 1.5777777777777777,
"grad_norm": 0.05818413943052292,
"learning_rate": 0.00013787709497206706,
"loss": 1.0245,
"step": 284
},
{
"epoch": 1.5833333333333335,
"grad_norm": 0.05561775341629982,
"learning_rate": 0.00013765363128491622,
"loss": 0.9022,
"step": 285
},
{
"epoch": 1.588888888888889,
"grad_norm": 0.07865152508020401,
"learning_rate": 0.00013743016759776538,
"loss": 0.8565,
"step": 286
},
{
"epoch": 1.5944444444444446,
"grad_norm": 0.06238972768187523,
"learning_rate": 0.00013720670391061454,
"loss": 0.9641,
"step": 287
},
{
"epoch": 1.6,
"grad_norm": 0.06291598081588745,
"learning_rate": 0.0001369832402234637,
"loss": 0.8763,
"step": 288
},
{
"epoch": 1.6055555555555556,
"grad_norm": 0.05643616244196892,
"learning_rate": 0.00013675977653631284,
"loss": 0.928,
"step": 289
},
{
"epoch": 1.6111111111111112,
"grad_norm": 0.0563821904361248,
"learning_rate": 0.00013653631284916203,
"loss": 1.0347,
"step": 290
},
{
"epoch": 1.6166666666666667,
"grad_norm": 0.05175093561410904,
"learning_rate": 0.00013631284916201117,
"loss": 0.9617,
"step": 291
},
{
"epoch": 1.6222222222222222,
"grad_norm": 0.06567844748497009,
"learning_rate": 0.00013608938547486036,
"loss": 0.9322,
"step": 292
},
{
"epoch": 1.6277777777777778,
"grad_norm": 0.0599331296980381,
"learning_rate": 0.0001358659217877095,
"loss": 0.8131,
"step": 293
},
{
"epoch": 1.6333333333333333,
"grad_norm": 0.062242232263088226,
"learning_rate": 0.00013564245810055868,
"loss": 0.8291,
"step": 294
},
{
"epoch": 1.6388888888888888,
"grad_norm": 0.060543399304151535,
"learning_rate": 0.00013541899441340782,
"loss": 0.979,
"step": 295
},
{
"epoch": 1.6444444444444444,
"grad_norm": 0.0498482882976532,
"learning_rate": 0.00013519553072625698,
"loss": 0.8559,
"step": 296
},
{
"epoch": 1.65,
"grad_norm": 0.057573337107896805,
"learning_rate": 0.00013497206703910614,
"loss": 0.9465,
"step": 297
},
{
"epoch": 1.6555555555555554,
"grad_norm": 0.06115110218524933,
"learning_rate": 0.0001347486033519553,
"loss": 0.9466,
"step": 298
},
{
"epoch": 1.661111111111111,
"grad_norm": 0.06601329892873764,
"learning_rate": 0.00013452513966480446,
"loss": 0.7758,
"step": 299
},
{
"epoch": 1.6666666666666665,
"grad_norm": 0.06447427719831467,
"learning_rate": 0.00013430167597765363,
"loss": 0.8847,
"step": 300
},
{
"epoch": 1.6722222222222223,
"grad_norm": 0.05786776542663574,
"learning_rate": 0.0001340782122905028,
"loss": 0.9338,
"step": 301
},
{
"epoch": 1.6777777777777778,
"grad_norm": 0.0608854703605175,
"learning_rate": 0.00013385474860335195,
"loss": 0.895,
"step": 302
},
{
"epoch": 1.6833333333333333,
"grad_norm": 0.07569009065628052,
"learning_rate": 0.00013363128491620111,
"loss": 1.1542,
"step": 303
},
{
"epoch": 1.6888888888888889,
"grad_norm": 0.05544517934322357,
"learning_rate": 0.00013340782122905028,
"loss": 0.8586,
"step": 304
},
{
"epoch": 1.6944444444444444,
"grad_norm": 0.06403032690286636,
"learning_rate": 0.00013318435754189944,
"loss": 1.04,
"step": 305
},
{
"epoch": 1.7,
"grad_norm": 0.054366301745176315,
"learning_rate": 0.0001329608938547486,
"loss": 0.8516,
"step": 306
},
{
"epoch": 1.7055555555555557,
"grad_norm": 0.053673211485147476,
"learning_rate": 0.00013273743016759776,
"loss": 0.9132,
"step": 307
},
{
"epoch": 1.7111111111111112,
"grad_norm": 0.05420944094657898,
"learning_rate": 0.00013251396648044693,
"loss": 0.8347,
"step": 308
},
{
"epoch": 1.7166666666666668,
"grad_norm": 0.05830496922135353,
"learning_rate": 0.0001322905027932961,
"loss": 0.9329,
"step": 309
},
{
"epoch": 1.7222222222222223,
"grad_norm": 0.06897345185279846,
"learning_rate": 0.00013206703910614525,
"loss": 1.0272,
"step": 310
},
{
"epoch": 1.7277777777777779,
"grad_norm": 0.056916285306215286,
"learning_rate": 0.0001318435754189944,
"loss": 0.8287,
"step": 311
},
{
"epoch": 1.7333333333333334,
"grad_norm": 0.06664946675300598,
"learning_rate": 0.00013162011173184358,
"loss": 0.8709,
"step": 312
},
{
"epoch": 1.738888888888889,
"grad_norm": 0.06383366882801056,
"learning_rate": 0.00013139664804469274,
"loss": 0.8616,
"step": 313
},
{
"epoch": 1.7444444444444445,
"grad_norm": 0.05588764324784279,
"learning_rate": 0.0001311731843575419,
"loss": 0.9632,
"step": 314
},
{
"epoch": 1.75,
"grad_norm": 0.07679787278175354,
"learning_rate": 0.00013094972067039106,
"loss": 1.0148,
"step": 315
},
{
"epoch": 1.7555555555555555,
"grad_norm": 0.05762128904461861,
"learning_rate": 0.00013072625698324022,
"loss": 0.8947,
"step": 316
},
{
"epoch": 1.761111111111111,
"grad_norm": 0.058024149388074875,
"learning_rate": 0.0001305027932960894,
"loss": 0.8333,
"step": 317
},
{
"epoch": 1.7666666666666666,
"grad_norm": 0.05518782511353493,
"learning_rate": 0.00013027932960893855,
"loss": 0.8047,
"step": 318
},
{
"epoch": 1.7722222222222221,
"grad_norm": 0.06511031091213226,
"learning_rate": 0.0001300558659217877,
"loss": 0.9108,
"step": 319
},
{
"epoch": 1.7777777777777777,
"grad_norm": 0.05511653795838356,
"learning_rate": 0.00012983240223463687,
"loss": 0.8318,
"step": 320
},
{
"epoch": 1.7833333333333332,
"grad_norm": 0.06081447750329971,
"learning_rate": 0.00012960893854748604,
"loss": 0.9912,
"step": 321
},
{
"epoch": 1.7888888888888888,
"grad_norm": 0.05632082372903824,
"learning_rate": 0.0001293854748603352,
"loss": 0.8826,
"step": 322
},
{
"epoch": 1.7944444444444443,
"grad_norm": 0.06698265671730042,
"learning_rate": 0.00012916201117318436,
"loss": 0.8744,
"step": 323
},
{
"epoch": 1.8,
"grad_norm": 0.055358611047267914,
"learning_rate": 0.00012893854748603352,
"loss": 0.8341,
"step": 324
},
{
"epoch": 1.8055555555555556,
"grad_norm": 0.05644188076257706,
"learning_rate": 0.00012871508379888269,
"loss": 0.8476,
"step": 325
},
{
"epoch": 1.8111111111111111,
"grad_norm": 0.06225137785077095,
"learning_rate": 0.00012849162011173185,
"loss": 0.8155,
"step": 326
},
{
"epoch": 1.8166666666666667,
"grad_norm": 0.0710151419043541,
"learning_rate": 0.000128268156424581,
"loss": 0.8062,
"step": 327
},
{
"epoch": 1.8222222222222222,
"grad_norm": 0.0803740844130516,
"learning_rate": 0.00012804469273743017,
"loss": 0.8069,
"step": 328
},
{
"epoch": 1.8277777777777777,
"grad_norm": 0.060480996966362,
"learning_rate": 0.00012782122905027933,
"loss": 0.983,
"step": 329
},
{
"epoch": 1.8333333333333335,
"grad_norm": 0.057829972356557846,
"learning_rate": 0.0001275977653631285,
"loss": 0.9551,
"step": 330
},
{
"epoch": 1.838888888888889,
"grad_norm": 0.05823640152812004,
"learning_rate": 0.00012737430167597766,
"loss": 0.8379,
"step": 331
},
{
"epoch": 1.8444444444444446,
"grad_norm": 0.06028196960687637,
"learning_rate": 0.00012715083798882682,
"loss": 0.9486,
"step": 332
},
{
"epoch": 1.85,
"grad_norm": 0.06556443870067596,
"learning_rate": 0.00012692737430167598,
"loss": 0.9407,
"step": 333
},
{
"epoch": 1.8555555555555556,
"grad_norm": 0.05368395894765854,
"learning_rate": 0.00012670391061452515,
"loss": 0.8535,
"step": 334
},
{
"epoch": 1.8611111111111112,
"grad_norm": 0.059937816113233566,
"learning_rate": 0.0001264804469273743,
"loss": 1.0518,
"step": 335
},
{
"epoch": 1.8666666666666667,
"grad_norm": 0.05733738839626312,
"learning_rate": 0.00012625698324022347,
"loss": 0.8455,
"step": 336
},
{
"epoch": 1.8722222222222222,
"grad_norm": 0.0627962127327919,
"learning_rate": 0.00012603351955307263,
"loss": 0.8769,
"step": 337
},
{
"epoch": 1.8777777777777778,
"grad_norm": 0.060158621519804,
"learning_rate": 0.0001258100558659218,
"loss": 1.0327,
"step": 338
},
{
"epoch": 1.8833333333333333,
"grad_norm": 0.061249684542417526,
"learning_rate": 0.00012558659217877096,
"loss": 1.0201,
"step": 339
},
{
"epoch": 1.8888888888888888,
"grad_norm": 0.06041628494858742,
"learning_rate": 0.00012536312849162012,
"loss": 0.9178,
"step": 340
},
{
"epoch": 1.8944444444444444,
"grad_norm": 0.052881740033626556,
"learning_rate": 0.00012513966480446928,
"loss": 0.8148,
"step": 341
},
{
"epoch": 1.9,
"grad_norm": 0.05886710062623024,
"learning_rate": 0.00012491620111731845,
"loss": 0.9192,
"step": 342
},
{
"epoch": 1.9055555555555554,
"grad_norm": 0.06002869829535484,
"learning_rate": 0.0001246927374301676,
"loss": 1.0299,
"step": 343
},
{
"epoch": 1.911111111111111,
"grad_norm": 0.06028445437550545,
"learning_rate": 0.00012446927374301677,
"loss": 0.8417,
"step": 344
},
{
"epoch": 1.9166666666666665,
"grad_norm": 0.054097313433885574,
"learning_rate": 0.00012424581005586593,
"loss": 0.9451,
"step": 345
},
{
"epoch": 1.9222222222222223,
"grad_norm": 0.06041548028588295,
"learning_rate": 0.0001240223463687151,
"loss": 0.9961,
"step": 346
},
{
"epoch": 1.9277777777777778,
"grad_norm": 0.06818769127130508,
"learning_rate": 0.00012379888268156426,
"loss": 0.9391,
"step": 347
},
{
"epoch": 1.9333333333333333,
"grad_norm": 0.05610937625169754,
"learning_rate": 0.0001235754189944134,
"loss": 0.9148,
"step": 348
},
{
"epoch": 1.9388888888888889,
"grad_norm": 0.053130947053432465,
"learning_rate": 0.00012335195530726258,
"loss": 0.8921,
"step": 349
},
{
"epoch": 1.9444444444444444,
"grad_norm": 0.054186947643756866,
"learning_rate": 0.00012312849162011172,
"loss": 0.8349,
"step": 350
},
{
"epoch": 1.95,
"grad_norm": 0.05862600356340408,
"learning_rate": 0.0001229050279329609,
"loss": 0.9988,
"step": 351
},
{
"epoch": 1.9555555555555557,
"grad_norm": 0.05840226262807846,
"learning_rate": 0.00012268156424581004,
"loss": 0.9984,
"step": 352
},
{
"epoch": 1.9611111111111112,
"grad_norm": 0.05921921879053116,
"learning_rate": 0.00012245810055865923,
"loss": 0.8881,
"step": 353
},
{
"epoch": 1.9666666666666668,
"grad_norm": 0.05658441781997681,
"learning_rate": 0.00012223463687150837,
"loss": 1.0116,
"step": 354
},
{
"epoch": 1.9722222222222223,
"grad_norm": 0.05988461151719093,
"learning_rate": 0.00012201117318435756,
"loss": 1.0666,
"step": 355
},
{
"epoch": 1.9777777777777779,
"grad_norm": 0.06414967775344849,
"learning_rate": 0.0001217877094972067,
"loss": 0.8861,
"step": 356
},
{
"epoch": 1.9833333333333334,
"grad_norm": 0.05677973851561546,
"learning_rate": 0.00012156424581005588,
"loss": 0.9792,
"step": 357
},
{
"epoch": 1.988888888888889,
"grad_norm": 0.05779249966144562,
"learning_rate": 0.00012134078212290503,
"loss": 0.7463,
"step": 358
},
{
"epoch": 1.9944444444444445,
"grad_norm": 0.05512448772788048,
"learning_rate": 0.0001211173184357542,
"loss": 0.862,
"step": 359
},
{
"epoch": 2.0,
"grad_norm": 0.05796084180474281,
"learning_rate": 0.00012089385474860335,
"loss": 0.8388,
"step": 360
},
{
"epoch": 2.0055555555555555,
"grad_norm": 0.05795562267303467,
"learning_rate": 0.00012067039106145253,
"loss": 0.8016,
"step": 361
},
{
"epoch": 2.011111111111111,
"grad_norm": 0.050691671669483185,
"learning_rate": 0.00012044692737430168,
"loss": 0.7879,
"step": 362
},
{
"epoch": 2.0166666666666666,
"grad_norm": 0.05370429530739784,
"learning_rate": 0.00012022346368715085,
"loss": 0.9062,
"step": 363
},
{
"epoch": 2.022222222222222,
"grad_norm": 0.058020543307065964,
"learning_rate": 0.00012,
"loss": 0.9786,
"step": 364
},
{
"epoch": 2.0277777777777777,
"grad_norm": 0.058133818209171295,
"learning_rate": 0.00011977653631284918,
"loss": 0.8352,
"step": 365
},
{
"epoch": 2.033333333333333,
"grad_norm": 0.06408903002738953,
"learning_rate": 0.00011955307262569833,
"loss": 0.7529,
"step": 366
},
{
"epoch": 2.0388888888888888,
"grad_norm": 0.05270511284470558,
"learning_rate": 0.0001193296089385475,
"loss": 0.8984,
"step": 367
},
{
"epoch": 2.0444444444444443,
"grad_norm": 0.06286352872848511,
"learning_rate": 0.00011910614525139665,
"loss": 0.8179,
"step": 368
},
{
"epoch": 2.05,
"grad_norm": 0.057727862149477005,
"learning_rate": 0.00011888268156424583,
"loss": 0.9198,
"step": 369
},
{
"epoch": 2.0555555555555554,
"grad_norm": 0.054201334714889526,
"learning_rate": 0.00011865921787709498,
"loss": 0.9529,
"step": 370
},
{
"epoch": 2.061111111111111,
"grad_norm": 0.0592007115483284,
"learning_rate": 0.00011843575418994415,
"loss": 0.9469,
"step": 371
},
{
"epoch": 2.066666666666667,
"grad_norm": 0.059728022664785385,
"learning_rate": 0.0001182122905027933,
"loss": 0.8239,
"step": 372
},
{
"epoch": 2.0722222222222224,
"grad_norm": 0.059505872428417206,
"learning_rate": 0.00011798882681564248,
"loss": 0.9161,
"step": 373
},
{
"epoch": 2.077777777777778,
"grad_norm": 0.05772401764988899,
"learning_rate": 0.00011776536312849163,
"loss": 0.8978,
"step": 374
},
{
"epoch": 2.0833333333333335,
"grad_norm": 0.05417037755250931,
"learning_rate": 0.0001175418994413408,
"loss": 0.8191,
"step": 375
},
{
"epoch": 2.088888888888889,
"grad_norm": 0.056001752614974976,
"learning_rate": 0.00011731843575418995,
"loss": 0.8713,
"step": 376
},
{
"epoch": 2.0944444444444446,
"grad_norm": 0.051353681832551956,
"learning_rate": 0.00011709497206703913,
"loss": 0.9181,
"step": 377
},
{
"epoch": 2.1,
"grad_norm": 0.06121430918574333,
"learning_rate": 0.00011687150837988828,
"loss": 0.853,
"step": 378
},
{
"epoch": 2.1055555555555556,
"grad_norm": 0.06297145783901215,
"learning_rate": 0.00011664804469273745,
"loss": 0.8925,
"step": 379
},
{
"epoch": 2.111111111111111,
"grad_norm": 0.05027139186859131,
"learning_rate": 0.0001164245810055866,
"loss": 0.8682,
"step": 380
},
{
"epoch": 2.1166666666666667,
"grad_norm": 0.056529451161623,
"learning_rate": 0.00011620111731843578,
"loss": 0.788,
"step": 381
},
{
"epoch": 2.1222222222222222,
"grad_norm": 0.06378895789384842,
"learning_rate": 0.00011597765363128493,
"loss": 0.8812,
"step": 382
},
{
"epoch": 2.1277777777777778,
"grad_norm": 0.057098448276519775,
"learning_rate": 0.00011575418994413407,
"loss": 0.8691,
"step": 383
},
{
"epoch": 2.1333333333333333,
"grad_norm": 0.056282833218574524,
"learning_rate": 0.00011553072625698325,
"loss": 0.8211,
"step": 384
},
{
"epoch": 2.138888888888889,
"grad_norm": 0.057828135788440704,
"learning_rate": 0.0001153072625698324,
"loss": 0.9009,
"step": 385
},
{
"epoch": 2.1444444444444444,
"grad_norm": 0.06760100275278091,
"learning_rate": 0.00011508379888268157,
"loss": 0.9088,
"step": 386
},
{
"epoch": 2.15,
"grad_norm": 0.06131958216428757,
"learning_rate": 0.00011486033519553072,
"loss": 0.893,
"step": 387
},
{
"epoch": 2.1555555555555554,
"grad_norm": 0.06303835660219193,
"learning_rate": 0.0001146368715083799,
"loss": 0.8712,
"step": 388
},
{
"epoch": 2.161111111111111,
"grad_norm": 0.07197017967700958,
"learning_rate": 0.00011441340782122905,
"loss": 0.7844,
"step": 389
},
{
"epoch": 2.1666666666666665,
"grad_norm": 0.07960271835327148,
"learning_rate": 0.00011418994413407822,
"loss": 1.105,
"step": 390
},
{
"epoch": 2.172222222222222,
"grad_norm": 0.061151616275310516,
"learning_rate": 0.00011396648044692737,
"loss": 0.9528,
"step": 391
},
{
"epoch": 2.1777777777777776,
"grad_norm": 0.06251414120197296,
"learning_rate": 0.00011374301675977655,
"loss": 0.9686,
"step": 392
},
{
"epoch": 2.183333333333333,
"grad_norm": 0.05882757902145386,
"learning_rate": 0.0001135195530726257,
"loss": 0.8891,
"step": 393
},
{
"epoch": 2.188888888888889,
"grad_norm": 0.06422755867242813,
"learning_rate": 0.00011329608938547487,
"loss": 0.8485,
"step": 394
},
{
"epoch": 2.1944444444444446,
"grad_norm": 0.06758706271648407,
"learning_rate": 0.00011307262569832402,
"loss": 1.0025,
"step": 395
},
{
"epoch": 2.2,
"grad_norm": 0.05804925039410591,
"learning_rate": 0.0001128491620111732,
"loss": 0.9549,
"step": 396
},
{
"epoch": 2.2055555555555557,
"grad_norm": 0.0643215924501419,
"learning_rate": 0.00011262569832402235,
"loss": 0.9752,
"step": 397
},
{
"epoch": 2.2111111111111112,
"grad_norm": 0.07827122509479523,
"learning_rate": 0.00011240223463687152,
"loss": 0.7972,
"step": 398
},
{
"epoch": 2.216666666666667,
"grad_norm": 0.06952020525932312,
"learning_rate": 0.00011217877094972067,
"loss": 0.8841,
"step": 399
},
{
"epoch": 2.2222222222222223,
"grad_norm": 0.06420132517814636,
"learning_rate": 0.00011195530726256985,
"loss": 0.9259,
"step": 400
},
{
"epoch": 2.227777777777778,
"grad_norm": 0.06278407573699951,
"learning_rate": 0.000111731843575419,
"loss": 0.8838,
"step": 401
},
{
"epoch": 2.2333333333333334,
"grad_norm": 0.06624957174062729,
"learning_rate": 0.00011150837988826817,
"loss": 0.8352,
"step": 402
},
{
"epoch": 2.238888888888889,
"grad_norm": 0.0669984444975853,
"learning_rate": 0.00011128491620111732,
"loss": 1.096,
"step": 403
},
{
"epoch": 2.2444444444444445,
"grad_norm": 0.0525604784488678,
"learning_rate": 0.0001110614525139665,
"loss": 0.8419,
"step": 404
},
{
"epoch": 2.25,
"grad_norm": 0.06767426431179047,
"learning_rate": 0.00011083798882681565,
"loss": 0.8489,
"step": 405
},
{
"epoch": 2.2555555555555555,
"grad_norm": 0.06003541871905327,
"learning_rate": 0.00011061452513966482,
"loss": 0.8687,
"step": 406
},
{
"epoch": 2.261111111111111,
"grad_norm": 0.058969881385564804,
"learning_rate": 0.00011039106145251397,
"loss": 0.9746,
"step": 407
},
{
"epoch": 2.2666666666666666,
"grad_norm": 0.06415044516324997,
"learning_rate": 0.00011016759776536315,
"loss": 0.7584,
"step": 408
},
{
"epoch": 2.272222222222222,
"grad_norm": 0.05901414901018143,
"learning_rate": 0.0001099441340782123,
"loss": 0.9582,
"step": 409
},
{
"epoch": 2.2777777777777777,
"grad_norm": 0.05653878673911095,
"learning_rate": 0.00010972067039106147,
"loss": 0.9437,
"step": 410
},
{
"epoch": 2.283333333333333,
"grad_norm": 0.09101811051368713,
"learning_rate": 0.00010949720670391062,
"loss": 0.7102,
"step": 411
},
{
"epoch": 2.2888888888888888,
"grad_norm": 0.07861984521150589,
"learning_rate": 0.0001092737430167598,
"loss": 0.9758,
"step": 412
},
{
"epoch": 2.2944444444444443,
"grad_norm": 0.06312280148267746,
"learning_rate": 0.00010905027932960894,
"loss": 0.8661,
"step": 413
},
{
"epoch": 2.3,
"grad_norm": 0.05427064001560211,
"learning_rate": 0.00010882681564245812,
"loss": 0.8831,
"step": 414
},
{
"epoch": 2.3055555555555554,
"grad_norm": 0.06113605201244354,
"learning_rate": 0.00010860335195530727,
"loss": 0.9743,
"step": 415
},
{
"epoch": 2.311111111111111,
"grad_norm": 0.06222099810838699,
"learning_rate": 0.00010837988826815643,
"loss": 0.951,
"step": 416
},
{
"epoch": 2.3166666666666664,
"grad_norm": 0.06552956253290176,
"learning_rate": 0.00010815642458100559,
"loss": 0.9082,
"step": 417
},
{
"epoch": 2.3222222222222224,
"grad_norm": 0.056746430695056915,
"learning_rate": 0.00010793296089385476,
"loss": 0.8688,
"step": 418
},
{
"epoch": 2.327777777777778,
"grad_norm": 0.06256411224603653,
"learning_rate": 0.00010770949720670392,
"loss": 0.9633,
"step": 419
},
{
"epoch": 2.3333333333333335,
"grad_norm": 0.059118397533893585,
"learning_rate": 0.00010748603351955308,
"loss": 0.8636,
"step": 420
},
{
"epoch": 2.338888888888889,
"grad_norm": 0.0635746568441391,
"learning_rate": 0.00010726256983240224,
"loss": 0.9987,
"step": 421
},
{
"epoch": 2.3444444444444446,
"grad_norm": 0.060392703860998154,
"learning_rate": 0.0001070391061452514,
"loss": 0.9516,
"step": 422
},
{
"epoch": 2.35,
"grad_norm": 0.06231021136045456,
"learning_rate": 0.00010681564245810057,
"loss": 0.8542,
"step": 423
},
{
"epoch": 2.3555555555555556,
"grad_norm": 0.06495688110589981,
"learning_rate": 0.00010659217877094973,
"loss": 0.9057,
"step": 424
},
{
"epoch": 2.361111111111111,
"grad_norm": 0.060686029493808746,
"learning_rate": 0.00010636871508379889,
"loss": 0.8741,
"step": 425
},
{
"epoch": 2.3666666666666667,
"grad_norm": 0.05688054487109184,
"learning_rate": 0.00010614525139664805,
"loss": 0.9297,
"step": 426
},
{
"epoch": 2.3722222222222222,
"grad_norm": 0.06722468882799149,
"learning_rate": 0.00010592178770949722,
"loss": 0.8538,
"step": 427
},
{
"epoch": 2.3777777777777778,
"grad_norm": 0.05857893079519272,
"learning_rate": 0.00010569832402234638,
"loss": 0.999,
"step": 428
},
{
"epoch": 2.3833333333333333,
"grad_norm": 0.07357199490070343,
"learning_rate": 0.00010547486033519554,
"loss": 0.8309,
"step": 429
},
{
"epoch": 2.388888888888889,
"grad_norm": 0.05783568322658539,
"learning_rate": 0.00010525139664804469,
"loss": 0.8526,
"step": 430
},
{
"epoch": 2.3944444444444444,
"grad_norm": 0.06645176559686661,
"learning_rate": 0.00010502793296089387,
"loss": 0.9398,
"step": 431
},
{
"epoch": 2.4,
"grad_norm": 0.058013804256916046,
"learning_rate": 0.00010480446927374301,
"loss": 0.8838,
"step": 432
},
{
"epoch": 2.4055555555555554,
"grad_norm": 0.058770034462213516,
"learning_rate": 0.00010458100558659219,
"loss": 0.8896,
"step": 433
},
{
"epoch": 2.411111111111111,
"grad_norm": 0.06524931639432907,
"learning_rate": 0.00010435754189944134,
"loss": 0.8416,
"step": 434
},
{
"epoch": 2.4166666666666665,
"grad_norm": 0.06197141110897064,
"learning_rate": 0.00010413407821229052,
"loss": 0.9319,
"step": 435
},
{
"epoch": 2.422222222222222,
"grad_norm": 0.0624687522649765,
"learning_rate": 0.00010391061452513966,
"loss": 0.9049,
"step": 436
},
{
"epoch": 2.4277777777777776,
"grad_norm": 0.056374967098236084,
"learning_rate": 0.00010368715083798884,
"loss": 0.8338,
"step": 437
},
{
"epoch": 2.4333333333333336,
"grad_norm": 0.07068292796611786,
"learning_rate": 0.00010346368715083799,
"loss": 0.8846,
"step": 438
},
{
"epoch": 2.438888888888889,
"grad_norm": 0.062448639422655106,
"learning_rate": 0.00010324022346368716,
"loss": 0.9501,
"step": 439
},
{
"epoch": 2.4444444444444446,
"grad_norm": 0.05375821515917778,
"learning_rate": 0.00010301675977653631,
"loss": 0.9341,
"step": 440
},
{
"epoch": 2.45,
"grad_norm": 0.07366905361413956,
"learning_rate": 0.00010279329608938548,
"loss": 0.9159,
"step": 441
},
{
"epoch": 2.4555555555555557,
"grad_norm": 0.06192503124475479,
"learning_rate": 0.00010256983240223464,
"loss": 0.8413,
"step": 442
},
{
"epoch": 2.4611111111111112,
"grad_norm": 0.055158581584692,
"learning_rate": 0.0001023463687150838,
"loss": 0.8213,
"step": 443
},
{
"epoch": 2.466666666666667,
"grad_norm": 0.07399091124534607,
"learning_rate": 0.00010212290502793296,
"loss": 0.7782,
"step": 444
},
{
"epoch": 2.4722222222222223,
"grad_norm": 0.06105738878250122,
"learning_rate": 0.00010189944134078212,
"loss": 0.7667,
"step": 445
},
{
"epoch": 2.477777777777778,
"grad_norm": 0.05666331201791763,
"learning_rate": 0.00010167597765363129,
"loss": 0.9552,
"step": 446
},
{
"epoch": 2.4833333333333334,
"grad_norm": 0.0822184756398201,
"learning_rate": 0.00010145251396648045,
"loss": 0.769,
"step": 447
},
{
"epoch": 2.488888888888889,
"grad_norm": 0.05613156408071518,
"learning_rate": 0.00010122905027932961,
"loss": 0.8304,
"step": 448
},
{
"epoch": 2.4944444444444445,
"grad_norm": 0.06470299512147903,
"learning_rate": 0.00010100558659217877,
"loss": 0.8313,
"step": 449
},
{
"epoch": 2.5,
"grad_norm": 0.05422027409076691,
"learning_rate": 0.00010078212290502794,
"loss": 0.9173,
"step": 450
},
{
"epoch": 2.5055555555555555,
"grad_norm": 0.06566402316093445,
"learning_rate": 0.0001005586592178771,
"loss": 0.7651,
"step": 451
},
{
"epoch": 2.511111111111111,
"grad_norm": 0.05321276932954788,
"learning_rate": 0.00010033519553072626,
"loss": 1.0276,
"step": 452
},
{
"epoch": 2.5166666666666666,
"grad_norm": 0.05509009584784508,
"learning_rate": 0.00010011173184357542,
"loss": 0.8098,
"step": 453
},
{
"epoch": 2.522222222222222,
"grad_norm": 0.05475517362356186,
"learning_rate": 9.988826815642459e-05,
"loss": 0.8852,
"step": 454
},
{
"epoch": 2.5277777777777777,
"grad_norm": 0.07419954985380173,
"learning_rate": 9.966480446927375e-05,
"loss": 0.8484,
"step": 455
},
{
"epoch": 2.533333333333333,
"grad_norm": 0.055524036288261414,
"learning_rate": 9.944134078212291e-05,
"loss": 0.9487,
"step": 456
},
{
"epoch": 2.5388888888888888,
"grad_norm": 0.06296243518590927,
"learning_rate": 9.921787709497207e-05,
"loss": 0.8428,
"step": 457
},
{
"epoch": 2.5444444444444443,
"grad_norm": 0.06132779270410538,
"learning_rate": 9.899441340782124e-05,
"loss": 0.896,
"step": 458
},
{
"epoch": 2.55,
"grad_norm": 0.06100643426179886,
"learning_rate": 9.87709497206704e-05,
"loss": 0.8459,
"step": 459
},
{
"epoch": 2.5555555555555554,
"grad_norm": 0.06480073928833008,
"learning_rate": 9.854748603351956e-05,
"loss": 0.8554,
"step": 460
},
{
"epoch": 2.561111111111111,
"grad_norm": 0.06085658445954323,
"learning_rate": 9.832402234636872e-05,
"loss": 0.8376,
"step": 461
},
{
"epoch": 2.5666666666666664,
"grad_norm": 0.0531584732234478,
"learning_rate": 9.810055865921788e-05,
"loss": 0.8304,
"step": 462
},
{
"epoch": 2.572222222222222,
"grad_norm": 0.058641497045755386,
"learning_rate": 9.787709497206705e-05,
"loss": 0.9549,
"step": 463
},
{
"epoch": 2.5777777777777775,
"grad_norm": 0.06060364469885826,
"learning_rate": 9.765363128491621e-05,
"loss": 0.9154,
"step": 464
},
{
"epoch": 2.5833333333333335,
"grad_norm": 0.05848725885152817,
"learning_rate": 9.743016759776537e-05,
"loss": 0.8697,
"step": 465
},
{
"epoch": 2.588888888888889,
"grad_norm": 0.052560560405254364,
"learning_rate": 9.720670391061453e-05,
"loss": 0.8149,
"step": 466
},
{
"epoch": 2.5944444444444446,
"grad_norm": 0.05442071706056595,
"learning_rate": 9.698324022346368e-05,
"loss": 0.9492,
"step": 467
},
{
"epoch": 2.6,
"grad_norm": 0.07098367810249329,
"learning_rate": 9.675977653631285e-05,
"loss": 0.8444,
"step": 468
},
{
"epoch": 2.6055555555555556,
"grad_norm": 0.06888148933649063,
"learning_rate": 9.653631284916201e-05,
"loss": 0.869,
"step": 469
},
{
"epoch": 2.611111111111111,
"grad_norm": 0.06614090502262115,
"learning_rate": 9.631284916201117e-05,
"loss": 0.8199,
"step": 470
},
{
"epoch": 2.6166666666666667,
"grad_norm": 0.07912636548280716,
"learning_rate": 9.608938547486033e-05,
"loss": 0.9456,
"step": 471
},
{
"epoch": 2.6222222222222222,
"grad_norm": 0.07283525168895721,
"learning_rate": 9.58659217877095e-05,
"loss": 0.9366,
"step": 472
},
{
"epoch": 2.6277777777777778,
"grad_norm": 0.06150941178202629,
"learning_rate": 9.564245810055866e-05,
"loss": 0.8277,
"step": 473
},
{
"epoch": 2.6333333333333333,
"grad_norm": 0.061703942716121674,
"learning_rate": 9.541899441340782e-05,
"loss": 0.8633,
"step": 474
},
{
"epoch": 2.638888888888889,
"grad_norm": 0.06387785077095032,
"learning_rate": 9.519553072625698e-05,
"loss": 0.9069,
"step": 475
},
{
"epoch": 2.6444444444444444,
"grad_norm": 0.06995640695095062,
"learning_rate": 9.497206703910614e-05,
"loss": 0.8612,
"step": 476
},
{
"epoch": 2.65,
"grad_norm": 0.06264820694923401,
"learning_rate": 9.47486033519553e-05,
"loss": 0.9511,
"step": 477
},
{
"epoch": 2.6555555555555554,
"grad_norm": 0.0607755109667778,
"learning_rate": 9.452513966480447e-05,
"loss": 0.9067,
"step": 478
},
{
"epoch": 2.661111111111111,
"grad_norm": 0.056160129606723785,
"learning_rate": 9.430167597765363e-05,
"loss": 0.9151,
"step": 479
},
{
"epoch": 2.6666666666666665,
"grad_norm": 0.06626291573047638,
"learning_rate": 9.407821229050279e-05,
"loss": 0.8162,
"step": 480
},
{
"epoch": 2.6722222222222225,
"grad_norm": 0.0568249337375164,
"learning_rate": 9.385474860335196e-05,
"loss": 0.7755,
"step": 481
},
{
"epoch": 2.677777777777778,
"grad_norm": 0.06192711368203163,
"learning_rate": 9.363128491620112e-05,
"loss": 0.9505,
"step": 482
},
{
"epoch": 2.6833333333333336,
"grad_norm": 0.060802996158599854,
"learning_rate": 9.340782122905028e-05,
"loss": 0.7398,
"step": 483
},
{
"epoch": 2.688888888888889,
"grad_norm": 0.062490034848451614,
"learning_rate": 9.318435754189944e-05,
"loss": 0.7442,
"step": 484
},
{
"epoch": 2.6944444444444446,
"grad_norm": 0.057932499796152115,
"learning_rate": 9.29608938547486e-05,
"loss": 0.8254,
"step": 485
},
{
"epoch": 2.7,
"grad_norm": 0.05519195646047592,
"learning_rate": 9.273743016759777e-05,
"loss": 0.8601,
"step": 486
},
{
"epoch": 2.7055555555555557,
"grad_norm": 0.06532099097967148,
"learning_rate": 9.251396648044693e-05,
"loss": 0.9135,
"step": 487
},
{
"epoch": 2.7111111111111112,
"grad_norm": 0.06363623589277267,
"learning_rate": 9.229050279329609e-05,
"loss": 1.1652,
"step": 488
},
{
"epoch": 2.716666666666667,
"grad_norm": 0.10435904562473297,
"learning_rate": 9.206703910614525e-05,
"loss": 0.8777,
"step": 489
},
{
"epoch": 2.7222222222222223,
"grad_norm": 0.05765729770064354,
"learning_rate": 9.184357541899442e-05,
"loss": 0.8535,
"step": 490
},
{
"epoch": 2.727777777777778,
"grad_norm": 0.06165571138262749,
"learning_rate": 9.162011173184358e-05,
"loss": 0.9044,
"step": 491
},
{
"epoch": 2.7333333333333334,
"grad_norm": 0.07434576749801636,
"learning_rate": 9.139664804469274e-05,
"loss": 0.7882,
"step": 492
},
{
"epoch": 2.738888888888889,
"grad_norm": 0.05665205791592598,
"learning_rate": 9.11731843575419e-05,
"loss": 0.9364,
"step": 493
},
{
"epoch": 2.7444444444444445,
"grad_norm": 0.06064401566982269,
"learning_rate": 9.094972067039107e-05,
"loss": 0.8404,
"step": 494
},
{
"epoch": 2.75,
"grad_norm": 0.07089365273714066,
"learning_rate": 9.072625698324023e-05,
"loss": 0.8383,
"step": 495
},
{
"epoch": 2.7555555555555555,
"grad_norm": 0.05261383205652237,
"learning_rate": 9.050279329608939e-05,
"loss": 0.9759,
"step": 496
},
{
"epoch": 2.761111111111111,
"grad_norm": 0.05961441621184349,
"learning_rate": 9.027932960893855e-05,
"loss": 1.0338,
"step": 497
},
{
"epoch": 2.7666666666666666,
"grad_norm": 0.05751103162765503,
"learning_rate": 9.005586592178772e-05,
"loss": 0.8853,
"step": 498
},
{
"epoch": 2.772222222222222,
"grad_norm": 0.0545254722237587,
"learning_rate": 8.983240223463688e-05,
"loss": 0.8918,
"step": 499
},
{
"epoch": 2.7777777777777777,
"grad_norm": 0.06573151797056198,
"learning_rate": 8.960893854748604e-05,
"loss": 1.0418,
"step": 500
},
{
"epoch": 2.783333333333333,
"grad_norm": 0.07065696269273758,
"learning_rate": 8.938547486033519e-05,
"loss": 0.9214,
"step": 501
},
{
"epoch": 2.7888888888888888,
"grad_norm": 0.05309811607003212,
"learning_rate": 8.916201117318435e-05,
"loss": 0.7963,
"step": 502
},
{
"epoch": 2.7944444444444443,
"grad_norm": 0.06055481359362602,
"learning_rate": 8.893854748603351e-05,
"loss": 0.902,
"step": 503
},
{
"epoch": 2.8,
"grad_norm": 0.06306245177984238,
"learning_rate": 8.871508379888268e-05,
"loss": 0.8308,
"step": 504
},
{
"epoch": 2.8055555555555554,
"grad_norm": 0.05715975910425186,
"learning_rate": 8.849162011173184e-05,
"loss": 0.8721,
"step": 505
},
{
"epoch": 2.811111111111111,
"grad_norm": 0.0644611120223999,
"learning_rate": 8.8268156424581e-05,
"loss": 0.9017,
"step": 506
},
{
"epoch": 2.8166666666666664,
"grad_norm": 0.055696483701467514,
"learning_rate": 8.804469273743016e-05,
"loss": 0.8612,
"step": 507
},
{
"epoch": 2.822222222222222,
"grad_norm": 0.06337593495845795,
"learning_rate": 8.782122905027932e-05,
"loss": 0.8918,
"step": 508
},
{
"epoch": 2.8277777777777775,
"grad_norm": 0.0640796646475792,
"learning_rate": 8.759776536312849e-05,
"loss": 0.7485,
"step": 509
},
{
"epoch": 2.8333333333333335,
"grad_norm": 0.059003688395023346,
"learning_rate": 8.737430167597765e-05,
"loss": 0.7898,
"step": 510
},
{
"epoch": 2.838888888888889,
"grad_norm": 0.06474993377923965,
"learning_rate": 8.715083798882681e-05,
"loss": 0.9111,
"step": 511
},
{
"epoch": 2.8444444444444446,
"grad_norm": 0.054653774946928024,
"learning_rate": 8.692737430167597e-05,
"loss": 0.8718,
"step": 512
},
{
"epoch": 2.85,
"grad_norm": 0.0752725899219513,
"learning_rate": 8.670391061452514e-05,
"loss": 0.9412,
"step": 513
},
{
"epoch": 2.8555555555555556,
"grad_norm": 0.058774758130311966,
"learning_rate": 8.64804469273743e-05,
"loss": 0.9482,
"step": 514
},
{
"epoch": 2.861111111111111,
"grad_norm": 0.0575130321085453,
"learning_rate": 8.625698324022346e-05,
"loss": 0.8133,
"step": 515
},
{
"epoch": 2.8666666666666667,
"grad_norm": 0.08530930429697037,
"learning_rate": 8.603351955307262e-05,
"loss": 0.8953,
"step": 516
},
{
"epoch": 2.8722222222222222,
"grad_norm": 0.0670664831995964,
"learning_rate": 8.581005586592179e-05,
"loss": 0.7985,
"step": 517
},
{
"epoch": 2.8777777777777778,
"grad_norm": 0.06128701567649841,
"learning_rate": 8.558659217877095e-05,
"loss": 0.9504,
"step": 518
},
{
"epoch": 2.8833333333333333,
"grad_norm": 0.06463362276554108,
"learning_rate": 8.536312849162011e-05,
"loss": 0.8723,
"step": 519
},
{
"epoch": 2.888888888888889,
"grad_norm": 0.05576709285378456,
"learning_rate": 8.513966480446927e-05,
"loss": 0.9225,
"step": 520
},
{
"epoch": 2.8944444444444444,
"grad_norm": 0.05458657816052437,
"learning_rate": 8.491620111731844e-05,
"loss": 0.9803,
"step": 521
},
{
"epoch": 2.9,
"grad_norm": 0.07112407684326172,
"learning_rate": 8.46927374301676e-05,
"loss": 0.871,
"step": 522
},
{
"epoch": 2.9055555555555554,
"grad_norm": 0.05647515505552292,
"learning_rate": 8.446927374301676e-05,
"loss": 0.8819,
"step": 523
},
{
"epoch": 2.911111111111111,
"grad_norm": 0.06105800345540047,
"learning_rate": 8.424581005586592e-05,
"loss": 0.904,
"step": 524
},
{
"epoch": 2.9166666666666665,
"grad_norm": 0.058846697211265564,
"learning_rate": 8.402234636871508e-05,
"loss": 0.9291,
"step": 525
},
{
"epoch": 2.9222222222222225,
"grad_norm": 0.06616098433732986,
"learning_rate": 8.379888268156425e-05,
"loss": 0.8572,
"step": 526
},
{
"epoch": 2.927777777777778,
"grad_norm": 0.07449668645858765,
"learning_rate": 8.357541899441341e-05,
"loss": 1.0035,
"step": 527
},
{
"epoch": 2.9333333333333336,
"grad_norm": 0.05502082407474518,
"learning_rate": 8.335195530726257e-05,
"loss": 0.8301,
"step": 528
},
{
"epoch": 2.938888888888889,
"grad_norm": 0.061066657304763794,
"learning_rate": 8.312849162011173e-05,
"loss": 1.0352,
"step": 529
},
{
"epoch": 2.9444444444444446,
"grad_norm": 0.06203857809305191,
"learning_rate": 8.29050279329609e-05,
"loss": 0.9107,
"step": 530
},
{
"epoch": 2.95,
"grad_norm": 0.06409101188182831,
"learning_rate": 8.268156424581006e-05,
"loss": 0.8879,
"step": 531
},
{
"epoch": 2.9555555555555557,
"grad_norm": 0.061299391090869904,
"learning_rate": 8.245810055865922e-05,
"loss": 0.9661,
"step": 532
},
{
"epoch": 2.9611111111111112,
"grad_norm": 0.06148533150553703,
"learning_rate": 8.223463687150838e-05,
"loss": 0.9174,
"step": 533
},
{
"epoch": 2.966666666666667,
"grad_norm": 0.07080871611833572,
"learning_rate": 8.201117318435755e-05,
"loss": 0.8577,
"step": 534
},
{
"epoch": 2.9722222222222223,
"grad_norm": 0.06243567168712616,
"learning_rate": 8.178770949720671e-05,
"loss": 0.8783,
"step": 535
},
{
"epoch": 2.977777777777778,
"grad_norm": 0.057299647480249405,
"learning_rate": 8.156424581005587e-05,
"loss": 0.9022,
"step": 536
},
{
"epoch": 2.9833333333333334,
"grad_norm": 0.07001875340938568,
"learning_rate": 8.134078212290503e-05,
"loss": 0.8131,
"step": 537
},
{
"epoch": 2.988888888888889,
"grad_norm": 0.07312119752168655,
"learning_rate": 8.11173184357542e-05,
"loss": 0.7677,
"step": 538
},
{
"epoch": 2.9944444444444445,
"grad_norm": 0.0653364360332489,
"learning_rate": 8.089385474860336e-05,
"loss": 0.7791,
"step": 539
},
{
"epoch": 3.0,
"grad_norm": 0.06341056525707245,
"learning_rate": 8.067039106145252e-05,
"loss": 0.8752,
"step": 540
},
{
"epoch": 3.0055555555555555,
"grad_norm": 0.059537846595048904,
"learning_rate": 8.044692737430168e-05,
"loss": 0.9272,
"step": 541
},
{
"epoch": 3.011111111111111,
"grad_norm": 0.05694005265831947,
"learning_rate": 8.022346368715084e-05,
"loss": 0.9407,
"step": 542
},
{
"epoch": 3.0166666666666666,
"grad_norm": 0.05771559104323387,
"learning_rate": 8e-05,
"loss": 0.7792,
"step": 543
},
{
"epoch": 3.022222222222222,
"grad_norm": 0.07127627730369568,
"learning_rate": 7.977653631284917e-05,
"loss": 0.9883,
"step": 544
},
{
"epoch": 3.0277777777777777,
"grad_norm": 0.05568571761250496,
"learning_rate": 7.955307262569833e-05,
"loss": 0.8275,
"step": 545
},
{
"epoch": 3.033333333333333,
"grad_norm": 0.055315401405096054,
"learning_rate": 7.93296089385475e-05,
"loss": 0.8727,
"step": 546
},
{
"epoch": 3.0388888888888888,
"grad_norm": 0.055111952126026154,
"learning_rate": 7.910614525139666e-05,
"loss": 0.9536,
"step": 547
},
{
"epoch": 3.0444444444444443,
"grad_norm": 0.05845943093299866,
"learning_rate": 7.88826815642458e-05,
"loss": 0.911,
"step": 548
},
{
"epoch": 3.05,
"grad_norm": 0.07708202302455902,
"learning_rate": 7.865921787709497e-05,
"loss": 0.7579,
"step": 549
},
{
"epoch": 3.0555555555555554,
"grad_norm": 0.061242036521434784,
"learning_rate": 7.843575418994413e-05,
"loss": 0.8589,
"step": 550
},
{
"epoch": 3.061111111111111,
"grad_norm": 0.05471673607826233,
"learning_rate": 7.821229050279329e-05,
"loss": 0.8064,
"step": 551
},
{
"epoch": 3.066666666666667,
"grad_norm": 0.0710383802652359,
"learning_rate": 7.798882681564245e-05,
"loss": 0.6753,
"step": 552
},
{
"epoch": 3.0722222222222224,
"grad_norm": 0.05542483553290367,
"learning_rate": 7.776536312849162e-05,
"loss": 0.836,
"step": 553
},
{
"epoch": 3.077777777777778,
"grad_norm": 0.07493164390325546,
"learning_rate": 7.754189944134078e-05,
"loss": 0.8456,
"step": 554
},
{
"epoch": 3.0833333333333335,
"grad_norm": 0.06546488404273987,
"learning_rate": 7.731843575418994e-05,
"loss": 0.8458,
"step": 555
},
{
"epoch": 3.088888888888889,
"grad_norm": 0.06345933675765991,
"learning_rate": 7.70949720670391e-05,
"loss": 0.8942,
"step": 556
},
{
"epoch": 3.0944444444444446,
"grad_norm": 0.05905034765601158,
"learning_rate": 7.687150837988827e-05,
"loss": 0.7957,
"step": 557
},
{
"epoch": 3.1,
"grad_norm": 0.05303044617176056,
"learning_rate": 7.664804469273743e-05,
"loss": 0.8961,
"step": 558
},
{
"epoch": 3.1055555555555556,
"grad_norm": 0.06295602023601532,
"learning_rate": 7.642458100558659e-05,
"loss": 0.724,
"step": 559
},
{
"epoch": 3.111111111111111,
"grad_norm": 0.0815122202038765,
"learning_rate": 7.620111731843575e-05,
"loss": 0.8327,
"step": 560
},
{
"epoch": 3.1166666666666667,
"grad_norm": 0.06387761980295181,
"learning_rate": 7.597765363128491e-05,
"loss": 0.8112,
"step": 561
},
{
"epoch": 3.1222222222222222,
"grad_norm": 0.062088917940855026,
"learning_rate": 7.575418994413408e-05,
"loss": 0.839,
"step": 562
},
{
"epoch": 3.1277777777777778,
"grad_norm": 0.06654959172010422,
"learning_rate": 7.553072625698324e-05,
"loss": 0.9513,
"step": 563
},
{
"epoch": 3.1333333333333333,
"grad_norm": 0.06470506638288498,
"learning_rate": 7.53072625698324e-05,
"loss": 0.9015,
"step": 564
},
{
"epoch": 3.138888888888889,
"grad_norm": 0.06290192157030106,
"learning_rate": 7.508379888268156e-05,
"loss": 0.8237,
"step": 565
},
{
"epoch": 3.1444444444444444,
"grad_norm": 0.06542884558439255,
"learning_rate": 7.486033519553073e-05,
"loss": 0.995,
"step": 566
},
{
"epoch": 3.15,
"grad_norm": 0.055929798632860184,
"learning_rate": 7.463687150837989e-05,
"loss": 0.8617,
"step": 567
},
{
"epoch": 3.1555555555555554,
"grad_norm": 0.06138373166322708,
"learning_rate": 7.441340782122905e-05,
"loss": 0.9203,
"step": 568
},
{
"epoch": 3.161111111111111,
"grad_norm": 0.07268285751342773,
"learning_rate": 7.418994413407821e-05,
"loss": 0.6976,
"step": 569
},
{
"epoch": 3.1666666666666665,
"grad_norm": 0.0731147900223732,
"learning_rate": 7.396648044692738e-05,
"loss": 0.837,
"step": 570
},
{
"epoch": 3.172222222222222,
"grad_norm": 0.07046571373939514,
"learning_rate": 7.374301675977654e-05,
"loss": 1.009,
"step": 571
},
{
"epoch": 3.1777777777777776,
"grad_norm": 0.062040820717811584,
"learning_rate": 7.35195530726257e-05,
"loss": 0.7878,
"step": 572
},
{
"epoch": 3.183333333333333,
"grad_norm": 0.09983498603105545,
"learning_rate": 7.329608938547486e-05,
"loss": 0.9348,
"step": 573
},
{
"epoch": 3.188888888888889,
"grad_norm": 0.06784769147634506,
"learning_rate": 7.307262569832403e-05,
"loss": 0.8148,
"step": 574
},
{
"epoch": 3.1944444444444446,
"grad_norm": 0.0642843022942543,
"learning_rate": 7.284916201117319e-05,
"loss": 0.8725,
"step": 575
},
{
"epoch": 3.2,
"grad_norm": 0.05647365376353264,
"learning_rate": 7.262569832402235e-05,
"loss": 0.7609,
"step": 576
},
{
"epoch": 3.2055555555555557,
"grad_norm": 0.09439057856798172,
"learning_rate": 7.240223463687151e-05,
"loss": 0.7815,
"step": 577
},
{
"epoch": 3.2111111111111112,
"grad_norm": 0.06756071001291275,
"learning_rate": 7.217877094972067e-05,
"loss": 0.8371,
"step": 578
},
{
"epoch": 3.216666666666667,
"grad_norm": 0.059290554374456406,
"learning_rate": 7.195530726256984e-05,
"loss": 0.867,
"step": 579
},
{
"epoch": 3.2222222222222223,
"grad_norm": 0.06018024682998657,
"learning_rate": 7.1731843575419e-05,
"loss": 0.8788,
"step": 580
},
{
"epoch": 3.227777777777778,
"grad_norm": 0.05990862846374512,
"learning_rate": 7.150837988826816e-05,
"loss": 0.9285,
"step": 581
},
{
"epoch": 3.2333333333333334,
"grad_norm": 0.07019732892513275,
"learning_rate": 7.128491620111732e-05,
"loss": 0.7933,
"step": 582
},
{
"epoch": 3.238888888888889,
"grad_norm": 0.06324657797813416,
"learning_rate": 7.106145251396649e-05,
"loss": 0.8966,
"step": 583
},
{
"epoch": 3.2444444444444445,
"grad_norm": 0.06172401085495949,
"learning_rate": 7.083798882681565e-05,
"loss": 0.7741,
"step": 584
},
{
"epoch": 3.25,
"grad_norm": 0.05882123112678528,
"learning_rate": 7.061452513966481e-05,
"loss": 0.8038,
"step": 585
},
{
"epoch": 3.2555555555555555,
"grad_norm": 0.06002512946724892,
"learning_rate": 7.039106145251397e-05,
"loss": 0.8359,
"step": 586
},
{
"epoch": 3.261111111111111,
"grad_norm": 0.06072268262505531,
"learning_rate": 7.016759776536314e-05,
"loss": 0.8718,
"step": 587
},
{
"epoch": 3.2666666666666666,
"grad_norm": 0.06172073259949684,
"learning_rate": 6.99441340782123e-05,
"loss": 0.8243,
"step": 588
},
{
"epoch": 3.272222222222222,
"grad_norm": 0.07151300460100174,
"learning_rate": 6.972067039106146e-05,
"loss": 0.7819,
"step": 589
},
{
"epoch": 3.2777777777777777,
"grad_norm": 0.06847742199897766,
"learning_rate": 6.949720670391062e-05,
"loss": 0.9227,
"step": 590
},
{
"epoch": 3.283333333333333,
"grad_norm": 0.05952233448624611,
"learning_rate": 6.927374301675979e-05,
"loss": 0.9275,
"step": 591
},
{
"epoch": 3.2888888888888888,
"grad_norm": 0.0579167939722538,
"learning_rate": 6.905027932960895e-05,
"loss": 0.8781,
"step": 592
},
{
"epoch": 3.2944444444444443,
"grad_norm": 0.06359118968248367,
"learning_rate": 6.882681564245811e-05,
"loss": 0.8284,
"step": 593
},
{
"epoch": 3.3,
"grad_norm": 0.06277986615896225,
"learning_rate": 6.860335195530727e-05,
"loss": 0.8671,
"step": 594
},
{
"epoch": 3.3055555555555554,
"grad_norm": 0.06046503409743309,
"learning_rate": 6.837988826815642e-05,
"loss": 0.8964,
"step": 595
},
{
"epoch": 3.311111111111111,
"grad_norm": 0.062156785279512405,
"learning_rate": 6.815642458100558e-05,
"loss": 0.9618,
"step": 596
},
{
"epoch": 3.3166666666666664,
"grad_norm": 0.06117270141839981,
"learning_rate": 6.793296089385475e-05,
"loss": 0.9061,
"step": 597
},
{
"epoch": 3.3222222222222224,
"grad_norm": 0.06024372577667236,
"learning_rate": 6.770949720670391e-05,
"loss": 0.8553,
"step": 598
},
{
"epoch": 3.327777777777778,
"grad_norm": 0.07103978097438812,
"learning_rate": 6.748603351955307e-05,
"loss": 0.844,
"step": 599
},
{
"epoch": 3.3333333333333335,
"grad_norm": 0.06111348792910576,
"learning_rate": 6.726256983240223e-05,
"loss": 0.9836,
"step": 600
},
{
"epoch": 3.338888888888889,
"grad_norm": 0.07593747973442078,
"learning_rate": 6.70391061452514e-05,
"loss": 0.9246,
"step": 601
},
{
"epoch": 3.3444444444444446,
"grad_norm": 0.06724842637777328,
"learning_rate": 6.681564245810056e-05,
"loss": 0.8799,
"step": 602
},
{
"epoch": 3.35,
"grad_norm": 0.0651603415608406,
"learning_rate": 6.659217877094972e-05,
"loss": 0.9114,
"step": 603
},
{
"epoch": 3.3555555555555556,
"grad_norm": 0.06483855843544006,
"learning_rate": 6.636871508379888e-05,
"loss": 0.8418,
"step": 604
},
{
"epoch": 3.361111111111111,
"grad_norm": 0.07553449273109436,
"learning_rate": 6.614525139664804e-05,
"loss": 0.8239,
"step": 605
},
{
"epoch": 3.3666666666666667,
"grad_norm": 0.06333702057600021,
"learning_rate": 6.59217877094972e-05,
"loss": 0.8718,
"step": 606
},
{
"epoch": 3.3722222222222222,
"grad_norm": 0.06561273336410522,
"learning_rate": 6.569832402234637e-05,
"loss": 1.0049,
"step": 607
},
{
"epoch": 3.3777777777777778,
"grad_norm": 0.05982871726155281,
"learning_rate": 6.547486033519553e-05,
"loss": 0.8011,
"step": 608
},
{
"epoch": 3.3833333333333333,
"grad_norm": 0.06759478896856308,
"learning_rate": 6.52513966480447e-05,
"loss": 0.973,
"step": 609
},
{
"epoch": 3.388888888888889,
"grad_norm": 0.06581491231918335,
"learning_rate": 6.502793296089386e-05,
"loss": 0.9308,
"step": 610
},
{
"epoch": 3.3944444444444444,
"grad_norm": 0.06133756786584854,
"learning_rate": 6.480446927374302e-05,
"loss": 0.8157,
"step": 611
},
{
"epoch": 3.4,
"grad_norm": 0.07396920770406723,
"learning_rate": 6.458100558659218e-05,
"loss": 0.8828,
"step": 612
},
{
"epoch": 3.4055555555555554,
"grad_norm": 0.06472024321556091,
"learning_rate": 6.435754189944134e-05,
"loss": 0.7748,
"step": 613
},
{
"epoch": 3.411111111111111,
"grad_norm": 0.06640879809856415,
"learning_rate": 6.41340782122905e-05,
"loss": 0.8435,
"step": 614
},
{
"epoch": 3.4166666666666665,
"grad_norm": 0.07183702290058136,
"learning_rate": 6.391061452513967e-05,
"loss": 0.9378,
"step": 615
},
{
"epoch": 3.422222222222222,
"grad_norm": 0.0727454274892807,
"learning_rate": 6.368715083798883e-05,
"loss": 0.9332,
"step": 616
},
{
"epoch": 3.4277777777777776,
"grad_norm": 0.06644386053085327,
"learning_rate": 6.346368715083799e-05,
"loss": 0.9157,
"step": 617
},
{
"epoch": 3.4333333333333336,
"grad_norm": 0.07607833296060562,
"learning_rate": 6.324022346368715e-05,
"loss": 0.7545,
"step": 618
},
{
"epoch": 3.438888888888889,
"grad_norm": 0.056877944618463516,
"learning_rate": 6.301675977653632e-05,
"loss": 0.8431,
"step": 619
},
{
"epoch": 3.4444444444444446,
"grad_norm": 0.0674533024430275,
"learning_rate": 6.279329608938548e-05,
"loss": 0.908,
"step": 620
},
{
"epoch": 3.45,
"grad_norm": 0.06054288148880005,
"learning_rate": 6.256983240223464e-05,
"loss": 0.9227,
"step": 621
},
{
"epoch": 3.4555555555555557,
"grad_norm": 0.06399651616811752,
"learning_rate": 6.23463687150838e-05,
"loss": 0.8975,
"step": 622
},
{
"epoch": 3.4611111111111112,
"grad_norm": 0.06626058369874954,
"learning_rate": 6.212290502793297e-05,
"loss": 0.9773,
"step": 623
},
{
"epoch": 3.466666666666667,
"grad_norm": 0.060863859951496124,
"learning_rate": 6.189944134078213e-05,
"loss": 1.0029,
"step": 624
},
{
"epoch": 3.4722222222222223,
"grad_norm": 0.0591045580804348,
"learning_rate": 6.167597765363129e-05,
"loss": 0.8533,
"step": 625
},
{
"epoch": 3.477777777777778,
"grad_norm": 0.056986406445503235,
"learning_rate": 6.145251396648045e-05,
"loss": 0.8151,
"step": 626
},
{
"epoch": 3.4833333333333334,
"grad_norm": 0.05965357646346092,
"learning_rate": 6.122905027932962e-05,
"loss": 0.9094,
"step": 627
},
{
"epoch": 3.488888888888889,
"grad_norm": 0.05617017298936844,
"learning_rate": 6.100558659217878e-05,
"loss": 0.7653,
"step": 628
},
{
"epoch": 3.4944444444444445,
"grad_norm": 0.09308428317308426,
"learning_rate": 6.078212290502794e-05,
"loss": 0.9318,
"step": 629
},
{
"epoch": 3.5,
"grad_norm": 0.06707720458507538,
"learning_rate": 6.05586592178771e-05,
"loss": 1.0462,
"step": 630
},
{
"epoch": 3.5055555555555555,
"grad_norm": 0.05806177482008934,
"learning_rate": 6.0335195530726265e-05,
"loss": 0.8771,
"step": 631
},
{
"epoch": 3.511111111111111,
"grad_norm": 0.060027267783880234,
"learning_rate": 6.011173184357543e-05,
"loss": 0.8578,
"step": 632
},
{
"epoch": 3.5166666666666666,
"grad_norm": 0.06268207728862762,
"learning_rate": 5.988826815642459e-05,
"loss": 0.8026,
"step": 633
},
{
"epoch": 3.522222222222222,
"grad_norm": 0.06065778434276581,
"learning_rate": 5.966480446927375e-05,
"loss": 0.8887,
"step": 634
},
{
"epoch": 3.5277777777777777,
"grad_norm": 0.06879955530166626,
"learning_rate": 5.9441340782122914e-05,
"loss": 0.9636,
"step": 635
},
{
"epoch": 3.533333333333333,
"grad_norm": 0.062394339591264725,
"learning_rate": 5.9217877094972076e-05,
"loss": 0.9258,
"step": 636
},
{
"epoch": 3.5388888888888888,
"grad_norm": 0.06418924033641815,
"learning_rate": 5.899441340782124e-05,
"loss": 0.9875,
"step": 637
},
{
"epoch": 3.5444444444444443,
"grad_norm": 0.06523976475000381,
"learning_rate": 5.87709497206704e-05,
"loss": 0.8122,
"step": 638
},
{
"epoch": 3.55,
"grad_norm": 0.09336890280246735,
"learning_rate": 5.8547486033519563e-05,
"loss": 0.7608,
"step": 639
},
{
"epoch": 3.5555555555555554,
"grad_norm": 0.06870478391647339,
"learning_rate": 5.8324022346368726e-05,
"loss": 0.8859,
"step": 640
},
{
"epoch": 3.561111111111111,
"grad_norm": 0.06951097398996353,
"learning_rate": 5.810055865921789e-05,
"loss": 0.8773,
"step": 641
},
{
"epoch": 3.5666666666666664,
"grad_norm": 0.0712515339255333,
"learning_rate": 5.787709497206704e-05,
"loss": 0.7315,
"step": 642
},
{
"epoch": 3.572222222222222,
"grad_norm": 0.0626714825630188,
"learning_rate": 5.76536312849162e-05,
"loss": 0.8983,
"step": 643
},
{
"epoch": 3.5777777777777775,
"grad_norm": 0.06400678306818008,
"learning_rate": 5.743016759776536e-05,
"loss": 0.8323,
"step": 644
},
{
"epoch": 3.5833333333333335,
"grad_norm": 0.07090960443019867,
"learning_rate": 5.7206703910614524e-05,
"loss": 0.8491,
"step": 645
},
{
"epoch": 3.588888888888889,
"grad_norm": 0.07009242475032806,
"learning_rate": 5.6983240223463686e-05,
"loss": 0.8861,
"step": 646
},
{
"epoch": 3.5944444444444446,
"grad_norm": 0.056394800543785095,
"learning_rate": 5.675977653631285e-05,
"loss": 0.9701,
"step": 647
},
{
"epoch": 3.6,
"grad_norm": 0.0645764097571373,
"learning_rate": 5.653631284916201e-05,
"loss": 0.872,
"step": 648
},
{
"epoch": 3.6055555555555556,
"grad_norm": 0.05909927189350128,
"learning_rate": 5.631284916201117e-05,
"loss": 0.7737,
"step": 649
},
{
"epoch": 3.611111111111111,
"grad_norm": 0.06914041191339493,
"learning_rate": 5.6089385474860336e-05,
"loss": 0.7916,
"step": 650
},
{
"epoch": 3.6166666666666667,
"grad_norm": 0.06700372695922852,
"learning_rate": 5.58659217877095e-05,
"loss": 0.9287,
"step": 651
},
{
"epoch": 3.6222222222222222,
"grad_norm": 0.08735419064760208,
"learning_rate": 5.564245810055866e-05,
"loss": 0.6891,
"step": 652
},
{
"epoch": 3.6277777777777778,
"grad_norm": 0.05871176719665527,
"learning_rate": 5.541899441340782e-05,
"loss": 0.8665,
"step": 653
},
{
"epoch": 3.6333333333333333,
"grad_norm": 0.060677025467157364,
"learning_rate": 5.5195530726256985e-05,
"loss": 0.7776,
"step": 654
},
{
"epoch": 3.638888888888889,
"grad_norm": 0.06749715656042099,
"learning_rate": 5.497206703910615e-05,
"loss": 0.8589,
"step": 655
},
{
"epoch": 3.6444444444444444,
"grad_norm": 0.06428337097167969,
"learning_rate": 5.474860335195531e-05,
"loss": 0.8476,
"step": 656
},
{
"epoch": 3.65,
"grad_norm": 0.07902880758047104,
"learning_rate": 5.452513966480447e-05,
"loss": 0.975,
"step": 657
},
{
"epoch": 3.6555555555555554,
"grad_norm": 0.07362475991249084,
"learning_rate": 5.4301675977653634e-05,
"loss": 0.8756,
"step": 658
},
{
"epoch": 3.661111111111111,
"grad_norm": 0.07670604437589645,
"learning_rate": 5.4078212290502797e-05,
"loss": 0.9614,
"step": 659
},
{
"epoch": 3.6666666666666665,
"grad_norm": 0.05876456946134567,
"learning_rate": 5.385474860335196e-05,
"loss": 1.0271,
"step": 660
},
{
"epoch": 3.6722222222222225,
"grad_norm": 0.06619323790073395,
"learning_rate": 5.363128491620112e-05,
"loss": 0.9151,
"step": 661
},
{
"epoch": 3.677777777777778,
"grad_norm": 0.06175459921360016,
"learning_rate": 5.3407821229050284e-05,
"loss": 0.9548,
"step": 662
},
{
"epoch": 3.6833333333333336,
"grad_norm": 0.06050381436944008,
"learning_rate": 5.3184357541899446e-05,
"loss": 0.9309,
"step": 663
},
{
"epoch": 3.688888888888889,
"grad_norm": 0.07536690682172775,
"learning_rate": 5.296089385474861e-05,
"loss": 0.8292,
"step": 664
},
{
"epoch": 3.6944444444444446,
"grad_norm": 0.05690660700201988,
"learning_rate": 5.273743016759777e-05,
"loss": 0.8964,
"step": 665
},
{
"epoch": 3.7,
"grad_norm": 0.05835000425577164,
"learning_rate": 5.251396648044693e-05,
"loss": 0.8679,
"step": 666
},
{
"epoch": 3.7055555555555557,
"grad_norm": 0.061024926602840424,
"learning_rate": 5.2290502793296095e-05,
"loss": 0.8628,
"step": 667
},
{
"epoch": 3.7111111111111112,
"grad_norm": 0.07365045696496964,
"learning_rate": 5.206703910614526e-05,
"loss": 0.918,
"step": 668
},
{
"epoch": 3.716666666666667,
"grad_norm": 0.06592633575201035,
"learning_rate": 5.184357541899442e-05,
"loss": 0.9424,
"step": 669
},
{
"epoch": 3.7222222222222223,
"grad_norm": 0.056026358157396317,
"learning_rate": 5.162011173184358e-05,
"loss": 0.8151,
"step": 670
},
{
"epoch": 3.727777777777778,
"grad_norm": 0.07303276658058167,
"learning_rate": 5.139664804469274e-05,
"loss": 0.8787,
"step": 671
},
{
"epoch": 3.7333333333333334,
"grad_norm": 0.07177183032035828,
"learning_rate": 5.11731843575419e-05,
"loss": 0.867,
"step": 672
},
{
"epoch": 3.738888888888889,
"grad_norm": 0.06418969482183456,
"learning_rate": 5.094972067039106e-05,
"loss": 0.9005,
"step": 673
},
{
"epoch": 3.7444444444444445,
"grad_norm": 0.07607243955135345,
"learning_rate": 5.0726256983240225e-05,
"loss": 0.646,
"step": 674
},
{
"epoch": 3.75,
"grad_norm": 0.06639571487903595,
"learning_rate": 5.050279329608939e-05,
"loss": 0.9202,
"step": 675
},
{
"epoch": 3.7555555555555555,
"grad_norm": 0.06520118564367294,
"learning_rate": 5.027932960893855e-05,
"loss": 1.0109,
"step": 676
},
{
"epoch": 3.761111111111111,
"grad_norm": 0.06542754173278809,
"learning_rate": 5.005586592178771e-05,
"loss": 0.9124,
"step": 677
},
{
"epoch": 3.7666666666666666,
"grad_norm": 0.06325247138738632,
"learning_rate": 4.9832402234636874e-05,
"loss": 0.7919,
"step": 678
},
{
"epoch": 3.772222222222222,
"grad_norm": 0.06934817135334015,
"learning_rate": 4.9608938547486036e-05,
"loss": 0.9353,
"step": 679
},
{
"epoch": 3.7777777777777777,
"grad_norm": 0.06293205171823502,
"learning_rate": 4.93854748603352e-05,
"loss": 0.8681,
"step": 680
},
{
"epoch": 3.783333333333333,
"grad_norm": 0.05741385743021965,
"learning_rate": 4.916201117318436e-05,
"loss": 0.9049,
"step": 681
},
{
"epoch": 3.7888888888888888,
"grad_norm": 0.06111886352300644,
"learning_rate": 4.8938547486033523e-05,
"loss": 0.8285,
"step": 682
},
{
"epoch": 3.7944444444444443,
"grad_norm": 0.06742309778928757,
"learning_rate": 4.8715083798882686e-05,
"loss": 0.8506,
"step": 683
},
{
"epoch": 3.8,
"grad_norm": 0.07073011994361877,
"learning_rate": 4.849162011173184e-05,
"loss": 0.8671,
"step": 684
},
{
"epoch": 3.8055555555555554,
"grad_norm": 0.05728191137313843,
"learning_rate": 4.8268156424581004e-05,
"loss": 0.8419,
"step": 685
},
{
"epoch": 3.811111111111111,
"grad_norm": 0.06402203440666199,
"learning_rate": 4.8044692737430166e-05,
"loss": 0.841,
"step": 686
},
{
"epoch": 3.8166666666666664,
"grad_norm": 0.0669245570898056,
"learning_rate": 4.782122905027933e-05,
"loss": 0.8425,
"step": 687
},
{
"epoch": 3.822222222222222,
"grad_norm": 0.06659059971570969,
"learning_rate": 4.759776536312849e-05,
"loss": 0.9707,
"step": 688
},
{
"epoch": 3.8277777777777775,
"grad_norm": 0.06549696624279022,
"learning_rate": 4.737430167597765e-05,
"loss": 0.9782,
"step": 689
},
{
"epoch": 3.8333333333333335,
"grad_norm": 0.05991567671298981,
"learning_rate": 4.7150837988826815e-05,
"loss": 0.8978,
"step": 690
},
{
"epoch": 3.838888888888889,
"grad_norm": 0.07296551018953323,
"learning_rate": 4.692737430167598e-05,
"loss": 0.8963,
"step": 691
},
{
"epoch": 3.8444444444444446,
"grad_norm": 0.07527071982622147,
"learning_rate": 4.670391061452514e-05,
"loss": 0.8314,
"step": 692
},
{
"epoch": 3.85,
"grad_norm": 0.08402854949235916,
"learning_rate": 4.64804469273743e-05,
"loss": 0.7886,
"step": 693
},
{
"epoch": 3.8555555555555556,
"grad_norm": 0.06636254489421844,
"learning_rate": 4.6256983240223465e-05,
"loss": 0.8322,
"step": 694
},
{
"epoch": 3.861111111111111,
"grad_norm": 0.06297782063484192,
"learning_rate": 4.603351955307263e-05,
"loss": 0.9423,
"step": 695
},
{
"epoch": 3.8666666666666667,
"grad_norm": 0.07213331013917923,
"learning_rate": 4.581005586592179e-05,
"loss": 0.8553,
"step": 696
},
{
"epoch": 3.8722222222222222,
"grad_norm": 0.0674607902765274,
"learning_rate": 4.558659217877095e-05,
"loss": 0.8657,
"step": 697
},
{
"epoch": 3.8777777777777778,
"grad_norm": 0.06301897764205933,
"learning_rate": 4.5363128491620114e-05,
"loss": 0.8108,
"step": 698
},
{
"epoch": 3.8833333333333333,
"grad_norm": 0.059832848608493805,
"learning_rate": 4.5139664804469276e-05,
"loss": 0.918,
"step": 699
},
{
"epoch": 3.888888888888889,
"grad_norm": 0.06674478203058243,
"learning_rate": 4.491620111731844e-05,
"loss": 0.8521,
"step": 700
},
{
"epoch": 3.8944444444444444,
"grad_norm": 0.07494413107633591,
"learning_rate": 4.4692737430167594e-05,
"loss": 0.8805,
"step": 701
},
{
"epoch": 3.9,
"grad_norm": 0.06808764487504959,
"learning_rate": 4.4469273743016757e-05,
"loss": 0.822,
"step": 702
},
{
"epoch": 3.9055555555555554,
"grad_norm": 0.061348509043455124,
"learning_rate": 4.424581005586592e-05,
"loss": 0.8472,
"step": 703
},
{
"epoch": 3.911111111111111,
"grad_norm": 0.06749361008405685,
"learning_rate": 4.402234636871508e-05,
"loss": 0.8881,
"step": 704
},
{
"epoch": 3.9166666666666665,
"grad_norm": 0.05673949047923088,
"learning_rate": 4.3798882681564244e-05,
"loss": 0.7887,
"step": 705
},
{
"epoch": 3.9222222222222225,
"grad_norm": 0.06126287952065468,
"learning_rate": 4.3575418994413406e-05,
"loss": 0.9302,
"step": 706
},
{
"epoch": 3.927777777777778,
"grad_norm": 0.06536653637886047,
"learning_rate": 4.335195530726257e-05,
"loss": 0.8985,
"step": 707
},
{
"epoch": 3.9333333333333336,
"grad_norm": 0.06179942563176155,
"learning_rate": 4.312849162011173e-05,
"loss": 0.9524,
"step": 708
},
{
"epoch": 3.938888888888889,
"grad_norm": 0.06911918520927429,
"learning_rate": 4.290502793296089e-05,
"loss": 0.8222,
"step": 709
},
{
"epoch": 3.9444444444444446,
"grad_norm": 0.058220285922288895,
"learning_rate": 4.2681564245810055e-05,
"loss": 0.7177,
"step": 710
},
{
"epoch": 3.95,
"grad_norm": 0.06330408155918121,
"learning_rate": 4.245810055865922e-05,
"loss": 0.7577,
"step": 711
},
{
"epoch": 3.9555555555555557,
"grad_norm": 0.06855887174606323,
"learning_rate": 4.223463687150838e-05,
"loss": 0.927,
"step": 712
},
{
"epoch": 3.9611111111111112,
"grad_norm": 0.0702371895313263,
"learning_rate": 4.201117318435754e-05,
"loss": 0.7464,
"step": 713
},
{
"epoch": 3.966666666666667,
"grad_norm": 0.07532446086406708,
"learning_rate": 4.1787709497206705e-05,
"loss": 0.8202,
"step": 714
},
{
"epoch": 3.9722222222222223,
"grad_norm": 0.07662215083837509,
"learning_rate": 4.156424581005587e-05,
"loss": 0.8381,
"step": 715
},
{
"epoch": 3.977777777777778,
"grad_norm": 0.0621059276163578,
"learning_rate": 4.134078212290503e-05,
"loss": 0.7477,
"step": 716
},
{
"epoch": 3.9833333333333334,
"grad_norm": 0.06151144951581955,
"learning_rate": 4.111731843575419e-05,
"loss": 0.8781,
"step": 717
},
{
"epoch": 3.988888888888889,
"grad_norm": 0.0767519623041153,
"learning_rate": 4.0893854748603354e-05,
"loss": 0.9478,
"step": 718
},
{
"epoch": 3.9944444444444445,
"grad_norm": 0.07194758951663971,
"learning_rate": 4.0670391061452516e-05,
"loss": 0.7946,
"step": 719
},
{
"epoch": 4.0,
"grad_norm": 0.07248340547084808,
"learning_rate": 4.044692737430168e-05,
"loss": 0.8131,
"step": 720
},
{
"epoch": 4.0055555555555555,
"grad_norm": 0.05817415192723274,
"learning_rate": 4.022346368715084e-05,
"loss": 0.9452,
"step": 721
},
{
"epoch": 4.011111111111111,
"grad_norm": 0.06506936997175217,
"learning_rate": 4e-05,
"loss": 0.8357,
"step": 722
},
{
"epoch": 4.016666666666667,
"grad_norm": 0.06475253403186798,
"learning_rate": 3.9776536312849166e-05,
"loss": 0.8215,
"step": 723
},
{
"epoch": 4.022222222222222,
"grad_norm": 0.06521406769752502,
"learning_rate": 3.955307262569833e-05,
"loss": 0.8996,
"step": 724
},
{
"epoch": 4.027777777777778,
"grad_norm": 0.06060001254081726,
"learning_rate": 3.9329608938547483e-05,
"loss": 0.7959,
"step": 725
},
{
"epoch": 4.033333333333333,
"grad_norm": 0.059213463217020035,
"learning_rate": 3.9106145251396646e-05,
"loss": 0.9704,
"step": 726
},
{
"epoch": 4.038888888888889,
"grad_norm": 0.05990111082792282,
"learning_rate": 3.888268156424581e-05,
"loss": 0.8538,
"step": 727
},
{
"epoch": 4.044444444444444,
"grad_norm": 0.057270485907793045,
"learning_rate": 3.865921787709497e-05,
"loss": 0.8653,
"step": 728
},
{
"epoch": 4.05,
"grad_norm": 0.0747293010354042,
"learning_rate": 3.843575418994413e-05,
"loss": 0.9716,
"step": 729
},
{
"epoch": 4.055555555555555,
"grad_norm": 0.06068810448050499,
"learning_rate": 3.8212290502793295e-05,
"loss": 0.8447,
"step": 730
},
{
"epoch": 4.061111111111111,
"grad_norm": 0.0651971846818924,
"learning_rate": 3.798882681564246e-05,
"loss": 0.7749,
"step": 731
},
{
"epoch": 4.066666666666666,
"grad_norm": 0.07306065410375595,
"learning_rate": 3.776536312849162e-05,
"loss": 0.9461,
"step": 732
},
{
"epoch": 4.072222222222222,
"grad_norm": 0.06800976395606995,
"learning_rate": 3.754189944134078e-05,
"loss": 0.8621,
"step": 733
},
{
"epoch": 4.0777777777777775,
"grad_norm": 0.07779917120933533,
"learning_rate": 3.7318435754189944e-05,
"loss": 0.8329,
"step": 734
},
{
"epoch": 4.083333333333333,
"grad_norm": 0.07067432999610901,
"learning_rate": 3.709497206703911e-05,
"loss": 0.8911,
"step": 735
},
{
"epoch": 4.088888888888889,
"grad_norm": 0.0689227506518364,
"learning_rate": 3.687150837988827e-05,
"loss": 0.8637,
"step": 736
},
{
"epoch": 4.094444444444444,
"grad_norm": 0.07578172534704208,
"learning_rate": 3.664804469273743e-05,
"loss": 0.7896,
"step": 737
},
{
"epoch": 4.1,
"grad_norm": 0.06386541575193405,
"learning_rate": 3.6424581005586594e-05,
"loss": 0.814,
"step": 738
},
{
"epoch": 4.105555555555555,
"grad_norm": 0.0776628702878952,
"learning_rate": 3.6201117318435756e-05,
"loss": 0.8236,
"step": 739
},
{
"epoch": 4.111111111111111,
"grad_norm": 0.07262839376926422,
"learning_rate": 3.597765363128492e-05,
"loss": 0.7797,
"step": 740
},
{
"epoch": 4.116666666666666,
"grad_norm": 0.06866869330406189,
"learning_rate": 3.575418994413408e-05,
"loss": 0.7972,
"step": 741
},
{
"epoch": 4.122222222222222,
"grad_norm": 0.0663917064666748,
"learning_rate": 3.553072625698324e-05,
"loss": 0.9338,
"step": 742
},
{
"epoch": 4.127777777777778,
"grad_norm": 0.06902816146612167,
"learning_rate": 3.5307262569832406e-05,
"loss": 1.0073,
"step": 743
},
{
"epoch": 4.133333333333334,
"grad_norm": 0.06993508338928223,
"learning_rate": 3.508379888268157e-05,
"loss": 0.7839,
"step": 744
},
{
"epoch": 4.138888888888889,
"grad_norm": 0.0647396519780159,
"learning_rate": 3.486033519553073e-05,
"loss": 0.8312,
"step": 745
},
{
"epoch": 4.144444444444445,
"grad_norm": 0.053603801876306534,
"learning_rate": 3.463687150837989e-05,
"loss": 0.7799,
"step": 746
},
{
"epoch": 4.15,
"grad_norm": 0.06209754943847656,
"learning_rate": 3.4413407821229055e-05,
"loss": 0.8136,
"step": 747
},
{
"epoch": 4.155555555555556,
"grad_norm": 0.09486910700798035,
"learning_rate": 3.418994413407821e-05,
"loss": 0.6833,
"step": 748
},
{
"epoch": 4.161111111111111,
"grad_norm": 0.06692782789468765,
"learning_rate": 3.396648044692737e-05,
"loss": 0.8619,
"step": 749
},
{
"epoch": 4.166666666666667,
"grad_norm": 0.05541648343205452,
"learning_rate": 3.3743016759776535e-05,
"loss": 0.8244,
"step": 750
},
{
"epoch": 4.1722222222222225,
"grad_norm": 0.06439889967441559,
"learning_rate": 3.35195530726257e-05,
"loss": 0.8413,
"step": 751
},
{
"epoch": 4.177777777777778,
"grad_norm": 0.07166414707899094,
"learning_rate": 3.329608938547486e-05,
"loss": 0.989,
"step": 752
},
{
"epoch": 4.183333333333334,
"grad_norm": 0.0640282854437828,
"learning_rate": 3.307262569832402e-05,
"loss": 0.9962,
"step": 753
},
{
"epoch": 4.188888888888889,
"grad_norm": 0.07067931443452835,
"learning_rate": 3.2849162011173184e-05,
"loss": 0.7365,
"step": 754
},
{
"epoch": 4.194444444444445,
"grad_norm": 0.07782124727964401,
"learning_rate": 3.262569832402235e-05,
"loss": 0.7209,
"step": 755
},
{
"epoch": 4.2,
"grad_norm": 0.06391673535108566,
"learning_rate": 3.240223463687151e-05,
"loss": 0.8479,
"step": 756
},
{
"epoch": 4.205555555555556,
"grad_norm": 0.06089261546730995,
"learning_rate": 3.217877094972067e-05,
"loss": 0.7635,
"step": 757
},
{
"epoch": 4.211111111111111,
"grad_norm": 0.06284917145967484,
"learning_rate": 3.1955307262569834e-05,
"loss": 0.9128,
"step": 758
},
{
"epoch": 4.216666666666667,
"grad_norm": 0.060241833329200745,
"learning_rate": 3.1731843575418996e-05,
"loss": 0.8521,
"step": 759
},
{
"epoch": 4.222222222222222,
"grad_norm": 0.07311747968196869,
"learning_rate": 3.150837988826816e-05,
"loss": 0.7396,
"step": 760
},
{
"epoch": 4.227777777777778,
"grad_norm": 0.06416069716215134,
"learning_rate": 3.128491620111732e-05,
"loss": 0.8738,
"step": 761
},
{
"epoch": 4.233333333333333,
"grad_norm": 0.0591534860432148,
"learning_rate": 3.106145251396648e-05,
"loss": 0.8741,
"step": 762
},
{
"epoch": 4.238888888888889,
"grad_norm": 0.06801345944404602,
"learning_rate": 3.0837988826815645e-05,
"loss": 1.0116,
"step": 763
},
{
"epoch": 4.2444444444444445,
"grad_norm": 0.06485697627067566,
"learning_rate": 3.061452513966481e-05,
"loss": 0.8626,
"step": 764
},
{
"epoch": 4.25,
"grad_norm": 0.07373441010713577,
"learning_rate": 3.039106145251397e-05,
"loss": 0.7986,
"step": 765
},
{
"epoch": 4.2555555555555555,
"grad_norm": 0.07167431712150574,
"learning_rate": 3.0167597765363132e-05,
"loss": 0.9507,
"step": 766
},
{
"epoch": 4.261111111111111,
"grad_norm": 0.06408189237117767,
"learning_rate": 2.9944134078212295e-05,
"loss": 0.7867,
"step": 767
},
{
"epoch": 4.266666666666667,
"grad_norm": 0.07456216216087341,
"learning_rate": 2.9720670391061457e-05,
"loss": 0.934,
"step": 768
},
{
"epoch": 4.272222222222222,
"grad_norm": 0.060554083436727524,
"learning_rate": 2.949720670391062e-05,
"loss": 0.8407,
"step": 769
},
{
"epoch": 4.277777777777778,
"grad_norm": 0.07266189157962799,
"learning_rate": 2.9273743016759782e-05,
"loss": 0.9627,
"step": 770
},
{
"epoch": 4.283333333333333,
"grad_norm": 0.06674201786518097,
"learning_rate": 2.9050279329608944e-05,
"loss": 0.9316,
"step": 771
},
{
"epoch": 4.288888888888889,
"grad_norm": 0.06580832600593567,
"learning_rate": 2.88268156424581e-05,
"loss": 0.7616,
"step": 772
},
{
"epoch": 4.294444444444444,
"grad_norm": 0.067823126912117,
"learning_rate": 2.8603351955307262e-05,
"loss": 0.7364,
"step": 773
},
{
"epoch": 4.3,
"grad_norm": 0.06775198131799698,
"learning_rate": 2.8379888268156424e-05,
"loss": 0.9093,
"step": 774
},
{
"epoch": 4.305555555555555,
"grad_norm": 0.06065399944782257,
"learning_rate": 2.8156424581005587e-05,
"loss": 0.6999,
"step": 775
},
{
"epoch": 4.311111111111111,
"grad_norm": 0.06072010472416878,
"learning_rate": 2.793296089385475e-05,
"loss": 0.8397,
"step": 776
},
{
"epoch": 4.316666666666666,
"grad_norm": 0.06833003461360931,
"learning_rate": 2.770949720670391e-05,
"loss": 0.7948,
"step": 777
},
{
"epoch": 4.322222222222222,
"grad_norm": 0.06961791962385178,
"learning_rate": 2.7486033519553074e-05,
"loss": 0.8539,
"step": 778
},
{
"epoch": 4.3277777777777775,
"grad_norm": 0.07114412635564804,
"learning_rate": 2.7262569832402236e-05,
"loss": 0.835,
"step": 779
},
{
"epoch": 4.333333333333333,
"grad_norm": 0.07904283702373505,
"learning_rate": 2.7039106145251398e-05,
"loss": 0.7917,
"step": 780
},
{
"epoch": 4.338888888888889,
"grad_norm": 0.06877896934747696,
"learning_rate": 2.681564245810056e-05,
"loss": 0.9066,
"step": 781
},
{
"epoch": 4.344444444444444,
"grad_norm": 0.06604032218456268,
"learning_rate": 2.6592178770949723e-05,
"loss": 0.8103,
"step": 782
},
{
"epoch": 4.35,
"grad_norm": 0.06570107489824295,
"learning_rate": 2.6368715083798885e-05,
"loss": 0.9216,
"step": 783
},
{
"epoch": 4.355555555555555,
"grad_norm": 0.0643831342458725,
"learning_rate": 2.6145251396648048e-05,
"loss": 0.8306,
"step": 784
},
{
"epoch": 4.361111111111111,
"grad_norm": 0.06995333731174469,
"learning_rate": 2.592178770949721e-05,
"loss": 0.8415,
"step": 785
},
{
"epoch": 4.366666666666666,
"grad_norm": 0.06058323010802269,
"learning_rate": 2.569832402234637e-05,
"loss": 0.9729,
"step": 786
},
{
"epoch": 4.372222222222222,
"grad_norm": 0.06180157512426376,
"learning_rate": 2.547486033519553e-05,
"loss": 0.8585,
"step": 787
},
{
"epoch": 4.377777777777778,
"grad_norm": 0.07014794647693634,
"learning_rate": 2.5251396648044694e-05,
"loss": 0.7898,
"step": 788
},
{
"epoch": 4.383333333333334,
"grad_norm": 0.06525201350450516,
"learning_rate": 2.5027932960893856e-05,
"loss": 0.8687,
"step": 789
},
{
"epoch": 4.388888888888889,
"grad_norm": 0.07381299883127213,
"learning_rate": 2.4804469273743018e-05,
"loss": 0.7705,
"step": 790
},
{
"epoch": 4.394444444444445,
"grad_norm": 0.06867001950740814,
"learning_rate": 2.458100558659218e-05,
"loss": 0.8818,
"step": 791
},
{
"epoch": 4.4,
"grad_norm": 0.08557435870170593,
"learning_rate": 2.4357541899441343e-05,
"loss": 0.7607,
"step": 792
},
{
"epoch": 4.405555555555556,
"grad_norm": 0.0627717450261116,
"learning_rate": 2.4134078212290502e-05,
"loss": 0.8485,
"step": 793
},
{
"epoch": 4.411111111111111,
"grad_norm": 0.06512073427438736,
"learning_rate": 2.3910614525139664e-05,
"loss": 0.9801,
"step": 794
},
{
"epoch": 4.416666666666667,
"grad_norm": 0.07923205196857452,
"learning_rate": 2.3687150837988827e-05,
"loss": 0.9049,
"step": 795
},
{
"epoch": 4.4222222222222225,
"grad_norm": 0.06704343855381012,
"learning_rate": 2.346368715083799e-05,
"loss": 0.8302,
"step": 796
},
{
"epoch": 4.427777777777778,
"grad_norm": 0.06392168998718262,
"learning_rate": 2.324022346368715e-05,
"loss": 0.7922,
"step": 797
},
{
"epoch": 4.433333333333334,
"grad_norm": 0.06558392196893692,
"learning_rate": 2.3016759776536314e-05,
"loss": 0.8636,
"step": 798
},
{
"epoch": 4.438888888888889,
"grad_norm": 0.06815050542354584,
"learning_rate": 2.2793296089385476e-05,
"loss": 0.836,
"step": 799
},
{
"epoch": 4.444444444444445,
"grad_norm": 0.06234079599380493,
"learning_rate": 2.2569832402234638e-05,
"loss": 0.863,
"step": 800
},
{
"epoch": 4.45,
"grad_norm": 0.060776371508836746,
"learning_rate": 2.2346368715083797e-05,
"loss": 0.768,
"step": 801
},
{
"epoch": 4.455555555555556,
"grad_norm": 0.06404553353786469,
"learning_rate": 2.212290502793296e-05,
"loss": 0.8383,
"step": 802
},
{
"epoch": 4.461111111111111,
"grad_norm": 0.0616544634103775,
"learning_rate": 2.1899441340782122e-05,
"loss": 0.9098,
"step": 803
},
{
"epoch": 4.466666666666667,
"grad_norm": 0.06308100372552872,
"learning_rate": 2.1675977653631284e-05,
"loss": 0.838,
"step": 804
},
{
"epoch": 4.472222222222222,
"grad_norm": 0.06575177609920502,
"learning_rate": 2.1452513966480446e-05,
"loss": 0.9344,
"step": 805
},
{
"epoch": 4.477777777777778,
"grad_norm": 0.073246531188488,
"learning_rate": 2.122905027932961e-05,
"loss": 0.8616,
"step": 806
},
{
"epoch": 4.483333333333333,
"grad_norm": 0.06593457609415054,
"learning_rate": 2.100558659217877e-05,
"loss": 0.7611,
"step": 807
},
{
"epoch": 4.488888888888889,
"grad_norm": 0.06681575626134872,
"learning_rate": 2.0782122905027933e-05,
"loss": 0.913,
"step": 808
},
{
"epoch": 4.4944444444444445,
"grad_norm": 0.07066091895103455,
"learning_rate": 2.0558659217877096e-05,
"loss": 0.8538,
"step": 809
},
{
"epoch": 4.5,
"grad_norm": 0.08290861546993256,
"learning_rate": 2.0335195530726258e-05,
"loss": 0.8322,
"step": 810
},
{
"epoch": 4.5055555555555555,
"grad_norm": 0.07008577138185501,
"learning_rate": 2.011173184357542e-05,
"loss": 0.7787,
"step": 811
},
{
"epoch": 4.511111111111111,
"grad_norm": 0.05752347782254219,
"learning_rate": 1.9888268156424583e-05,
"loss": 0.8318,
"step": 812
},
{
"epoch": 4.516666666666667,
"grad_norm": 0.06387963891029358,
"learning_rate": 1.9664804469273742e-05,
"loss": 0.9929,
"step": 813
},
{
"epoch": 4.522222222222222,
"grad_norm": 0.07318349927663803,
"learning_rate": 1.9441340782122904e-05,
"loss": 0.7613,
"step": 814
},
{
"epoch": 4.527777777777778,
"grad_norm": 0.06772953271865845,
"learning_rate": 1.9217877094972066e-05,
"loss": 0.8136,
"step": 815
},
{
"epoch": 4.533333333333333,
"grad_norm": 0.07693421840667725,
"learning_rate": 1.899441340782123e-05,
"loss": 0.9406,
"step": 816
},
{
"epoch": 4.538888888888889,
"grad_norm": 0.06594596058130264,
"learning_rate": 1.877094972067039e-05,
"loss": 0.8637,
"step": 817
},
{
"epoch": 4.544444444444444,
"grad_norm": 0.06739532947540283,
"learning_rate": 1.8547486033519553e-05,
"loss": 0.9043,
"step": 818
},
{
"epoch": 4.55,
"grad_norm": 0.07356348633766174,
"learning_rate": 1.8324022346368716e-05,
"loss": 0.9696,
"step": 819
},
{
"epoch": 4.555555555555555,
"grad_norm": 0.07079844176769257,
"learning_rate": 1.8100558659217878e-05,
"loss": 0.9524,
"step": 820
},
{
"epoch": 4.561111111111111,
"grad_norm": 0.07685678452253342,
"learning_rate": 1.787709497206704e-05,
"loss": 0.7816,
"step": 821
},
{
"epoch": 4.566666666666666,
"grad_norm": 0.06801366806030273,
"learning_rate": 1.7653631284916203e-05,
"loss": 0.7547,
"step": 822
},
{
"epoch": 4.572222222222222,
"grad_norm": 0.06588180363178253,
"learning_rate": 1.7430167597765365e-05,
"loss": 0.8329,
"step": 823
},
{
"epoch": 4.5777777777777775,
"grad_norm": 0.06872644275426865,
"learning_rate": 1.7206703910614527e-05,
"loss": 0.8596,
"step": 824
},
{
"epoch": 4.583333333333333,
"grad_norm": 0.07037709653377533,
"learning_rate": 1.6983240223463686e-05,
"loss": 0.8422,
"step": 825
},
{
"epoch": 4.588888888888889,
"grad_norm": 0.05817841365933418,
"learning_rate": 1.675977653631285e-05,
"loss": 0.9255,
"step": 826
},
{
"epoch": 4.594444444444444,
"grad_norm": 0.06256680935621262,
"learning_rate": 1.653631284916201e-05,
"loss": 0.9732,
"step": 827
},
{
"epoch": 4.6,
"grad_norm": 0.06470783799886703,
"learning_rate": 1.6312849162011173e-05,
"loss": 1.0082,
"step": 828
},
{
"epoch": 4.605555555555555,
"grad_norm": 0.06321726739406586,
"learning_rate": 1.6089385474860336e-05,
"loss": 0.7958,
"step": 829
},
{
"epoch": 4.611111111111111,
"grad_norm": 0.06101881340146065,
"learning_rate": 1.5865921787709498e-05,
"loss": 0.9288,
"step": 830
},
{
"epoch": 4.616666666666667,
"grad_norm": 0.061096347868442535,
"learning_rate": 1.564245810055866e-05,
"loss": 0.8065,
"step": 831
},
{
"epoch": 4.622222222222222,
"grad_norm": 0.07092749327421188,
"learning_rate": 1.5418994413407823e-05,
"loss": 0.9874,
"step": 832
},
{
"epoch": 4.627777777777778,
"grad_norm": 0.06334253400564194,
"learning_rate": 1.5195530726256985e-05,
"loss": 0.8788,
"step": 833
},
{
"epoch": 4.633333333333333,
"grad_norm": 0.06317714601755142,
"learning_rate": 1.4972067039106147e-05,
"loss": 0.864,
"step": 834
},
{
"epoch": 4.638888888888889,
"grad_norm": 0.06688254326581955,
"learning_rate": 1.474860335195531e-05,
"loss": 0.9415,
"step": 835
},
{
"epoch": 4.644444444444445,
"grad_norm": 0.07368700951337814,
"learning_rate": 1.4525139664804472e-05,
"loss": 0.8026,
"step": 836
},
{
"epoch": 4.65,
"grad_norm": 0.06767589598894119,
"learning_rate": 1.4301675977653631e-05,
"loss": 0.7902,
"step": 837
},
{
"epoch": 4.655555555555556,
"grad_norm": 0.06546707451343536,
"learning_rate": 1.4078212290502793e-05,
"loss": 0.8749,
"step": 838
},
{
"epoch": 4.661111111111111,
"grad_norm": 0.06208932027220726,
"learning_rate": 1.3854748603351956e-05,
"loss": 0.8563,
"step": 839
},
{
"epoch": 4.666666666666667,
"grad_norm": 0.07527874410152435,
"learning_rate": 1.3631284916201118e-05,
"loss": 0.8443,
"step": 840
},
{
"epoch": 4.6722222222222225,
"grad_norm": 0.06952167302370071,
"learning_rate": 1.340782122905028e-05,
"loss": 0.8012,
"step": 841
},
{
"epoch": 4.677777777777778,
"grad_norm": 0.06032046675682068,
"learning_rate": 1.3184357541899443e-05,
"loss": 0.8254,
"step": 842
},
{
"epoch": 4.683333333333334,
"grad_norm": 0.057982437312603,
"learning_rate": 1.2960893854748605e-05,
"loss": 0.9092,
"step": 843
},
{
"epoch": 4.688888888888889,
"grad_norm": 0.07537980377674103,
"learning_rate": 1.2737430167597766e-05,
"loss": 0.8206,
"step": 844
},
{
"epoch": 4.694444444444445,
"grad_norm": 0.0689520314335823,
"learning_rate": 1.2513966480446928e-05,
"loss": 0.8488,
"step": 845
},
{
"epoch": 4.7,
"grad_norm": 0.0652664303779602,
"learning_rate": 1.229050279329609e-05,
"loss": 0.8944,
"step": 846
},
{
"epoch": 4.705555555555556,
"grad_norm": 0.05868719518184662,
"learning_rate": 1.2067039106145251e-05,
"loss": 0.8372,
"step": 847
},
{
"epoch": 4.711111111111111,
"grad_norm": 0.061663344502449036,
"learning_rate": 1.1843575418994413e-05,
"loss": 0.8319,
"step": 848
},
{
"epoch": 4.716666666666667,
"grad_norm": 0.06301644444465637,
"learning_rate": 1.1620111731843576e-05,
"loss": 0.8292,
"step": 849
},
{
"epoch": 4.722222222222222,
"grad_norm": 0.06448386609554291,
"learning_rate": 1.1396648044692738e-05,
"loss": 0.9751,
"step": 850
},
{
"epoch": 4.727777777777778,
"grad_norm": 0.06298605352640152,
"learning_rate": 1.1173184357541899e-05,
"loss": 0.9132,
"step": 851
},
{
"epoch": 4.733333333333333,
"grad_norm": 0.0622861348092556,
"learning_rate": 1.0949720670391061e-05,
"loss": 0.851,
"step": 852
},
{
"epoch": 4.738888888888889,
"grad_norm": 0.07923610508441925,
"learning_rate": 1.0726256983240223e-05,
"loss": 0.8115,
"step": 853
},
{
"epoch": 4.7444444444444445,
"grad_norm": 0.06684275716543198,
"learning_rate": 1.0502793296089386e-05,
"loss": 0.8796,
"step": 854
},
{
"epoch": 4.75,
"grad_norm": 0.058858904987573624,
"learning_rate": 1.0279329608938548e-05,
"loss": 0.786,
"step": 855
},
{
"epoch": 4.7555555555555555,
"grad_norm": 0.05823403596878052,
"learning_rate": 1.005586592178771e-05,
"loss": 0.9475,
"step": 856
},
{
"epoch": 4.761111111111111,
"grad_norm": 0.06352592259645462,
"learning_rate": 9.832402234636871e-06,
"loss": 0.8574,
"step": 857
},
{
"epoch": 4.766666666666667,
"grad_norm": 0.05929254740476608,
"learning_rate": 9.608938547486033e-06,
"loss": 0.7926,
"step": 858
},
{
"epoch": 4.772222222222222,
"grad_norm": 0.07241322845220566,
"learning_rate": 9.385474860335196e-06,
"loss": 0.8635,
"step": 859
},
{
"epoch": 4.777777777777778,
"grad_norm": 0.066829152405262,
"learning_rate": 9.162011173184358e-06,
"loss": 0.8275,
"step": 860
},
{
"epoch": 4.783333333333333,
"grad_norm": 0.05805254727602005,
"learning_rate": 8.93854748603352e-06,
"loss": 0.9695,
"step": 861
},
{
"epoch": 4.788888888888889,
"grad_norm": 0.06599583476781845,
"learning_rate": 8.715083798882683e-06,
"loss": 0.9317,
"step": 862
},
{
"epoch": 4.794444444444444,
"grad_norm": 0.0690189003944397,
"learning_rate": 8.491620111731843e-06,
"loss": 0.719,
"step": 863
},
{
"epoch": 4.8,
"grad_norm": 0.0718541145324707,
"learning_rate": 8.268156424581006e-06,
"loss": 0.9752,
"step": 864
},
{
"epoch": 4.805555555555555,
"grad_norm": 0.06498520821332932,
"learning_rate": 8.044692737430168e-06,
"loss": 0.8896,
"step": 865
},
{
"epoch": 4.811111111111111,
"grad_norm": 0.06741782277822495,
"learning_rate": 7.82122905027933e-06,
"loss": 0.7783,
"step": 866
},
{
"epoch": 4.816666666666666,
"grad_norm": 0.05603065341711044,
"learning_rate": 7.5977653631284925e-06,
"loss": 0.7643,
"step": 867
},
{
"epoch": 4.822222222222222,
"grad_norm": 0.07300734519958496,
"learning_rate": 7.374301675977655e-06,
"loss": 0.8683,
"step": 868
},
{
"epoch": 4.8277777777777775,
"grad_norm": 0.06486313790082932,
"learning_rate": 7.1508379888268155e-06,
"loss": 0.9376,
"step": 869
},
{
"epoch": 4.833333333333333,
"grad_norm": 0.06596938520669937,
"learning_rate": 6.927374301675978e-06,
"loss": 0.7932,
"step": 870
},
{
"epoch": 4.838888888888889,
"grad_norm": 0.06245023012161255,
"learning_rate": 6.70391061452514e-06,
"loss": 0.7901,
"step": 871
},
{
"epoch": 4.844444444444444,
"grad_norm": 0.058026690036058426,
"learning_rate": 6.4804469273743025e-06,
"loss": 0.7906,
"step": 872
},
{
"epoch": 4.85,
"grad_norm": 0.07333751022815704,
"learning_rate": 6.256983240223464e-06,
"loss": 0.7123,
"step": 873
},
{
"epoch": 4.855555555555555,
"grad_norm": 0.0697869285941124,
"learning_rate": 6.0335195530726255e-06,
"loss": 0.8697,
"step": 874
},
{
"epoch": 4.861111111111111,
"grad_norm": 0.06364396214485168,
"learning_rate": 5.810055865921788e-06,
"loss": 0.9212,
"step": 875
},
{
"epoch": 4.866666666666667,
"grad_norm": 0.07756305485963821,
"learning_rate": 5.586592178770949e-06,
"loss": 0.7329,
"step": 876
},
{
"epoch": 4.872222222222222,
"grad_norm": 0.07673313468694687,
"learning_rate": 5.363128491620112e-06,
"loss": 0.9544,
"step": 877
},
{
"epoch": 4.877777777777778,
"grad_norm": 0.06823701411485672,
"learning_rate": 5.139664804469274e-06,
"loss": 0.8417,
"step": 878
},
{
"epoch": 4.883333333333333,
"grad_norm": 0.06566136330366135,
"learning_rate": 4.9162011173184354e-06,
"loss": 0.9043,
"step": 879
},
{
"epoch": 4.888888888888889,
"grad_norm": 0.07561615109443665,
"learning_rate": 4.692737430167598e-06,
"loss": 0.9289,
"step": 880
},
{
"epoch": 4.894444444444445,
"grad_norm": 0.0714927464723587,
"learning_rate": 4.46927374301676e-06,
"loss": 0.9992,
"step": 881
},
{
"epoch": 4.9,
"grad_norm": 0.07412128895521164,
"learning_rate": 4.245810055865922e-06,
"loss": 0.8937,
"step": 882
},
{
"epoch": 4.905555555555556,
"grad_norm": 0.06256308406591415,
"learning_rate": 4.022346368715084e-06,
"loss": 0.9327,
"step": 883
},
{
"epoch": 4.911111111111111,
"grad_norm": 0.06401494145393372,
"learning_rate": 3.7988826815642463e-06,
"loss": 0.9113,
"step": 884
},
{
"epoch": 4.916666666666667,
"grad_norm": 0.06480543315410614,
"learning_rate": 3.5754189944134077e-06,
"loss": 0.8912,
"step": 885
},
{
"epoch": 4.9222222222222225,
"grad_norm": 0.06543062627315521,
"learning_rate": 3.35195530726257e-06,
"loss": 0.8768,
"step": 886
},
{
"epoch": 4.927777777777778,
"grad_norm": 0.057017501443624496,
"learning_rate": 3.128491620111732e-06,
"loss": 0.7779,
"step": 887
},
{
"epoch": 4.933333333333334,
"grad_norm": 0.0745752677321434,
"learning_rate": 2.905027932960894e-06,
"loss": 0.8376,
"step": 888
},
{
"epoch": 4.938888888888889,
"grad_norm": 0.06534884124994278,
"learning_rate": 2.681564245810056e-06,
"loss": 0.8647,
"step": 889
},
{
"epoch": 4.944444444444445,
"grad_norm": 0.07408112287521362,
"learning_rate": 2.4581005586592177e-06,
"loss": 0.8212,
"step": 890
},
{
"epoch": 4.95,
"grad_norm": 0.06152744218707085,
"learning_rate": 2.23463687150838e-06,
"loss": 0.9138,
"step": 891
},
{
"epoch": 4.955555555555556,
"grad_norm": 0.06905697286128998,
"learning_rate": 2.011173184357542e-06,
"loss": 0.9246,
"step": 892
},
{
"epoch": 4.961111111111111,
"grad_norm": 0.06602156907320023,
"learning_rate": 1.7877094972067039e-06,
"loss": 0.8739,
"step": 893
},
{
"epoch": 4.966666666666667,
"grad_norm": 0.08502914756536484,
"learning_rate": 1.564245810055866e-06,
"loss": 0.7435,
"step": 894
},
{
"epoch": 4.972222222222222,
"grad_norm": 0.06289546936750412,
"learning_rate": 1.340782122905028e-06,
"loss": 0.864,
"step": 895
},
{
"epoch": 4.977777777777778,
"grad_norm": 0.05942307412624359,
"learning_rate": 1.11731843575419e-06,
"loss": 0.8965,
"step": 896
},
{
"epoch": 4.983333333333333,
"grad_norm": 0.056906238198280334,
"learning_rate": 8.938547486033519e-07,
"loss": 0.8629,
"step": 897
},
{
"epoch": 4.988888888888889,
"grad_norm": 0.06804513931274414,
"learning_rate": 6.70391061452514e-07,
"loss": 0.7078,
"step": 898
},
{
"epoch": 4.9944444444444445,
"grad_norm": 0.05733992159366608,
"learning_rate": 4.4692737430167597e-07,
"loss": 0.882,
"step": 899
},
{
"epoch": 5.0,
"grad_norm": 0.05951790511608124,
"learning_rate": 2.2346368715083798e-07,
"loss": 0.8055,
"step": 900
}
],
"logging_steps": 1,
"max_steps": 900,
"num_input_tokens_seen": 0,
"num_train_epochs": 5,
"save_steps": 300,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 9.924638745821184e+18,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}