shareit commited on
Commit
fd1cd2d
·
verified ·
1 Parent(s): b365cf3

Training in progress, step 450, checkpoint

Browse files
last-checkpoint/README.md CHANGED
@@ -1,14 +1,6 @@
1
  ---
2
  base_model: unsloth/phi-4-reasoning-unsloth-bnb-4bit
3
  library_name: peft
4
- pipeline_tag: text-generation
5
- tags:
6
- - base_model:adapter:unsloth/phi-4-reasoning-unsloth-bnb-4bit
7
- - lora
8
- - sft
9
- - transformers
10
- - trl
11
- - unsloth
12
  ---
13
 
14
  # Model Card for Model ID
@@ -207,5 +199,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
207
  [More Information Needed]
208
  ### Framework versions
209
 
210
- - PEFT 0.14.0
211
- - PEFT 0.18.1
 
1
  ---
2
  base_model: unsloth/phi-4-reasoning-unsloth-bnb-4bit
3
  library_name: peft
 
 
 
 
 
 
 
 
4
  ---
5
 
6
  # Model Card for Model ID
 
199
  [More Information Needed]
200
  ### Framework versions
201
 
202
+ - PEFT 0.14.0
 
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:53985acb31dd0998666fd1ef3b26164afc3209f9a5b83687825d987aea43c9f6
3
  size 170415112
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46446edb55375c8e30837b741ea6efdf301ab5e7c33a3e01a2228e7f2984fcfa
3
  size 170415112
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b36722f4c91b9b0fc6f5a698586c1c70039d77cbf978f47df7ad99a7f0ecb044
3
  size 86718091
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a6a68463284b4ad2a06822b70257392d6961fee2250f7ab39d5edb82b4dcbafc
3
  size 86718091
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a8e2011629d8bed3ef560fa11175cac55684c4e12a72634bb24abf767b6c7399
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:718a0f3db00824213036a2c0441849791319b7d9cf189065873bb26a7020738e
3
  size 14645
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7c6534683ab3f989236ae99e3358a88f1314e102299761d5177d621f24a30eb4
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0c2fa43c6f5c9db389e161efa317fdc098f9dc594a3395c416087750a9a40f32
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 3.3333333333333335,
6
  "eval_steps": 500,
7
- "global_step": 300,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -2108,6 +2108,1056 @@
2108
  "learning_rate": 6.786516853932583e-05,
2109
  "loss": 0.8799,
2110
  "step": 300
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2111
  }
2112
  ],
2113
  "logging_steps": 1,
@@ -2122,12 +3172,12 @@
2122
  "should_evaluate": false,
2123
  "should_log": false,
2124
  "should_save": true,
2125
- "should_training_stop": false
2126
  },
2127
  "attributes": {}
2128
  }
2129
  },
2130
- "total_flos": 3.347440736403456e+18,
2131
  "train_batch_size": 16,
2132
  "trial_name": null,
2133
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 5.0,
6
  "eval_steps": 500,
7
+ "global_step": 450,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
2108
  "learning_rate": 6.786516853932583e-05,
2109
  "loss": 0.8799,
2110
  "step": 300
2111
+ },
2112
+ {
2113
+ "epoch": 3.3444444444444446,
2114
+ "grad_norm": 0.06960175186395645,
2115
+ "learning_rate": 6.741573033707866e-05,
2116
+ "loss": 0.8587,
2117
+ "step": 301
2118
+ },
2119
+ {
2120
+ "epoch": 3.3555555555555556,
2121
+ "grad_norm": 0.06346665322780609,
2122
+ "learning_rate": 6.696629213483147e-05,
2123
+ "loss": 0.8311,
2124
+ "step": 302
2125
+ },
2126
+ {
2127
+ "epoch": 3.3666666666666667,
2128
+ "grad_norm": 0.06519903242588043,
2129
+ "learning_rate": 6.651685393258428e-05,
2130
+ "loss": 0.8537,
2131
+ "step": 303
2132
+ },
2133
+ {
2134
+ "epoch": 3.3777777777777778,
2135
+ "grad_norm": 0.060187116265296936,
2136
+ "learning_rate": 6.606741573033708e-05,
2137
+ "loss": 0.8614,
2138
+ "step": 304
2139
+ },
2140
+ {
2141
+ "epoch": 3.388888888888889,
2142
+ "grad_norm": 0.06387775391340256,
2143
+ "learning_rate": 6.561797752808989e-05,
2144
+ "loss": 0.8795,
2145
+ "step": 305
2146
+ },
2147
+ {
2148
+ "epoch": 3.4,
2149
+ "grad_norm": 0.06667324900627136,
2150
+ "learning_rate": 6.51685393258427e-05,
2151
+ "loss": 0.8086,
2152
+ "step": 306
2153
+ },
2154
+ {
2155
+ "epoch": 3.411111111111111,
2156
+ "grad_norm": 0.06455954164266586,
2157
+ "learning_rate": 6.47191011235955e-05,
2158
+ "loss": 0.7697,
2159
+ "step": 307
2160
+ },
2161
+ {
2162
+ "epoch": 3.422222222222222,
2163
+ "grad_norm": 0.06988281011581421,
2164
+ "learning_rate": 6.426966292134831e-05,
2165
+ "loss": 0.8821,
2166
+ "step": 308
2167
+ },
2168
+ {
2169
+ "epoch": 3.4333333333333336,
2170
+ "grad_norm": 0.07037835568189621,
2171
+ "learning_rate": 6.382022471910112e-05,
2172
+ "loss": 0.7936,
2173
+ "step": 309
2174
+ },
2175
+ {
2176
+ "epoch": 3.4444444444444446,
2177
+ "grad_norm": 0.060425762087106705,
2178
+ "learning_rate": 6.337078651685394e-05,
2179
+ "loss": 0.8403,
2180
+ "step": 310
2181
+ },
2182
+ {
2183
+ "epoch": 3.4555555555555557,
2184
+ "grad_norm": 0.06361618638038635,
2185
+ "learning_rate": 6.292134831460675e-05,
2186
+ "loss": 0.8605,
2187
+ "step": 311
2188
+ },
2189
+ {
2190
+ "epoch": 3.466666666666667,
2191
+ "grad_norm": 0.06325947493314743,
2192
+ "learning_rate": 6.247191011235956e-05,
2193
+ "loss": 0.9275,
2194
+ "step": 312
2195
+ },
2196
+ {
2197
+ "epoch": 3.477777777777778,
2198
+ "grad_norm": 0.054963476955890656,
2199
+ "learning_rate": 6.202247191011237e-05,
2200
+ "loss": 0.78,
2201
+ "step": 313
2202
+ },
2203
+ {
2204
+ "epoch": 3.488888888888889,
2205
+ "grad_norm": 0.09446276724338531,
2206
+ "learning_rate": 6.157303370786517e-05,
2207
+ "loss": 0.8164,
2208
+ "step": 314
2209
+ },
2210
+ {
2211
+ "epoch": 3.5,
2212
+ "grad_norm": 0.07087241113185883,
2213
+ "learning_rate": 6.112359550561798e-05,
2214
+ "loss": 0.9349,
2215
+ "step": 315
2216
+ },
2217
+ {
2218
+ "epoch": 3.511111111111111,
2219
+ "grad_norm": 0.057490210980176926,
2220
+ "learning_rate": 6.067415730337079e-05,
2221
+ "loss": 0.8346,
2222
+ "step": 316
2223
+ },
2224
+ {
2225
+ "epoch": 3.522222222222222,
2226
+ "grad_norm": 0.05834012106060982,
2227
+ "learning_rate": 6.0224719101123596e-05,
2228
+ "loss": 0.8413,
2229
+ "step": 317
2230
+ },
2231
+ {
2232
+ "epoch": 3.533333333333333,
2233
+ "grad_norm": 0.0664343386888504,
2234
+ "learning_rate": 5.977528089887641e-05,
2235
+ "loss": 0.8908,
2236
+ "step": 318
2237
+ },
2238
+ {
2239
+ "epoch": 3.5444444444444443,
2240
+ "grad_norm": 0.061850935220718384,
2241
+ "learning_rate": 5.932584269662922e-05,
2242
+ "loss": 0.8421,
2243
+ "step": 319
2244
+ },
2245
+ {
2246
+ "epoch": 3.5555555555555554,
2247
+ "grad_norm": 0.07486843317747116,
2248
+ "learning_rate": 5.8876404494382023e-05,
2249
+ "loss": 0.7768,
2250
+ "step": 320
2251
+ },
2252
+ {
2253
+ "epoch": 3.5666666666666664,
2254
+ "grad_norm": 0.06851966679096222,
2255
+ "learning_rate": 5.8426966292134835e-05,
2256
+ "loss": 0.7788,
2257
+ "step": 321
2258
+ },
2259
+ {
2260
+ "epoch": 3.5777777777777775,
2261
+ "grad_norm": 0.06413612514734268,
2262
+ "learning_rate": 5.7977528089887646e-05,
2263
+ "loss": 0.8243,
2264
+ "step": 322
2265
+ },
2266
+ {
2267
+ "epoch": 3.588888888888889,
2268
+ "grad_norm": 0.06908858567476273,
2269
+ "learning_rate": 5.752808988764046e-05,
2270
+ "loss": 0.8331,
2271
+ "step": 323
2272
+ },
2273
+ {
2274
+ "epoch": 3.6,
2275
+ "grad_norm": 0.056398071348667145,
2276
+ "learning_rate": 5.7078651685393256e-05,
2277
+ "loss": 0.8889,
2278
+ "step": 324
2279
+ },
2280
+ {
2281
+ "epoch": 3.611111111111111,
2282
+ "grad_norm": 0.06279837340116501,
2283
+ "learning_rate": 5.6629213483146074e-05,
2284
+ "loss": 0.7433,
2285
+ "step": 325
2286
+ },
2287
+ {
2288
+ "epoch": 3.6222222222222222,
2289
+ "grad_norm": 0.07156965136528015,
2290
+ "learning_rate": 5.6179775280898885e-05,
2291
+ "loss": 0.7733,
2292
+ "step": 326
2293
+ },
2294
+ {
2295
+ "epoch": 3.6333333333333333,
2296
+ "grad_norm": 0.058655962347984314,
2297
+ "learning_rate": 5.573033707865168e-05,
2298
+ "loss": 0.7912,
2299
+ "step": 327
2300
+ },
2301
+ {
2302
+ "epoch": 3.6444444444444444,
2303
+ "grad_norm": 0.06260320544242859,
2304
+ "learning_rate": 5.5280898876404495e-05,
2305
+ "loss": 0.8112,
2306
+ "step": 328
2307
+ },
2308
+ {
2309
+ "epoch": 3.6555555555555554,
2310
+ "grad_norm": 0.08468577265739441,
2311
+ "learning_rate": 5.4831460674157306e-05,
2312
+ "loss": 0.8475,
2313
+ "step": 329
2314
+ },
2315
+ {
2316
+ "epoch": 3.6666666666666665,
2317
+ "grad_norm": 0.06323560327291489,
2318
+ "learning_rate": 5.438202247191011e-05,
2319
+ "loss": 0.9234,
2320
+ "step": 330
2321
+ },
2322
+ {
2323
+ "epoch": 3.677777777777778,
2324
+ "grad_norm": 0.0636834055185318,
2325
+ "learning_rate": 5.393258426966292e-05,
2326
+ "loss": 0.8859,
2327
+ "step": 331
2328
+ },
2329
+ {
2330
+ "epoch": 3.688888888888889,
2331
+ "grad_norm": 0.06598466634750366,
2332
+ "learning_rate": 5.3483146067415734e-05,
2333
+ "loss": 0.8385,
2334
+ "step": 332
2335
+ },
2336
+ {
2337
+ "epoch": 3.7,
2338
+ "grad_norm": 0.0580470897257328,
2339
+ "learning_rate": 5.3033707865168545e-05,
2340
+ "loss": 0.8485,
2341
+ "step": 333
2342
+ },
2343
+ {
2344
+ "epoch": 3.7111111111111112,
2345
+ "grad_norm": 0.06465502083301544,
2346
+ "learning_rate": 5.258426966292135e-05,
2347
+ "loss": 0.8595,
2348
+ "step": 334
2349
+ },
2350
+ {
2351
+ "epoch": 3.7222222222222223,
2352
+ "grad_norm": 0.06161164864897728,
2353
+ "learning_rate": 5.213483146067416e-05,
2354
+ "loss": 0.8341,
2355
+ "step": 335
2356
+ },
2357
+ {
2358
+ "epoch": 3.7333333333333334,
2359
+ "grad_norm": 0.07357273995876312,
2360
+ "learning_rate": 5.168539325842697e-05,
2361
+ "loss": 0.7917,
2362
+ "step": 336
2363
+ },
2364
+ {
2365
+ "epoch": 3.7444444444444445,
2366
+ "grad_norm": 0.06672197580337524,
2367
+ "learning_rate": 5.123595505617977e-05,
2368
+ "loss": 0.7472,
2369
+ "step": 337
2370
+ },
2371
+ {
2372
+ "epoch": 3.7555555555555555,
2373
+ "grad_norm": 0.06582935154438019,
2374
+ "learning_rate": 5.078651685393259e-05,
2375
+ "loss": 0.9154,
2376
+ "step": 338
2377
+ },
2378
+ {
2379
+ "epoch": 3.7666666666666666,
2380
+ "grad_norm": 0.06434327363967896,
2381
+ "learning_rate": 5.03370786516854e-05,
2382
+ "loss": 0.7815,
2383
+ "step": 339
2384
+ },
2385
+ {
2386
+ "epoch": 3.7777777777777777,
2387
+ "grad_norm": 0.06618902832269669,
2388
+ "learning_rate": 4.9887640449438205e-05,
2389
+ "loss": 0.8484,
2390
+ "step": 340
2391
+ },
2392
+ {
2393
+ "epoch": 3.7888888888888888,
2394
+ "grad_norm": 0.05907148867845535,
2395
+ "learning_rate": 4.943820224719101e-05,
2396
+ "loss": 0.8342,
2397
+ "step": 341
2398
+ },
2399
+ {
2400
+ "epoch": 3.8,
2401
+ "grad_norm": 0.0687561109662056,
2402
+ "learning_rate": 4.898876404494382e-05,
2403
+ "loss": 0.7931,
2404
+ "step": 342
2405
+ },
2406
+ {
2407
+ "epoch": 3.811111111111111,
2408
+ "grad_norm": 0.06155551224946976,
2409
+ "learning_rate": 4.853932584269663e-05,
2410
+ "loss": 0.8265,
2411
+ "step": 343
2412
+ },
2413
+ {
2414
+ "epoch": 3.822222222222222,
2415
+ "grad_norm": 0.06934966892004013,
2416
+ "learning_rate": 4.808988764044944e-05,
2417
+ "loss": 0.8432,
2418
+ "step": 344
2419
+ },
2420
+ {
2421
+ "epoch": 3.8333333333333335,
2422
+ "grad_norm": 0.06328413635492325,
2423
+ "learning_rate": 4.764044943820225e-05,
2424
+ "loss": 0.9138,
2425
+ "step": 345
2426
+ },
2427
+ {
2428
+ "epoch": 3.8444444444444446,
2429
+ "grad_norm": 0.07244782894849777,
2430
+ "learning_rate": 4.719101123595506e-05,
2431
+ "loss": 0.8205,
2432
+ "step": 346
2433
+ },
2434
+ {
2435
+ "epoch": 3.8555555555555556,
2436
+ "grad_norm": 0.06606698781251907,
2437
+ "learning_rate": 4.674157303370787e-05,
2438
+ "loss": 0.7833,
2439
+ "step": 347
2440
+ },
2441
+ {
2442
+ "epoch": 3.8666666666666667,
2443
+ "grad_norm": 0.06491662561893463,
2444
+ "learning_rate": 4.629213483146068e-05,
2445
+ "loss": 0.834,
2446
+ "step": 348
2447
+ },
2448
+ {
2449
+ "epoch": 3.8777777777777778,
2450
+ "grad_norm": 0.059926439076662064,
2451
+ "learning_rate": 4.584269662921348e-05,
2452
+ "loss": 0.7969,
2453
+ "step": 349
2454
+ },
2455
+ {
2456
+ "epoch": 3.888888888888889,
2457
+ "grad_norm": 0.060968831181526184,
2458
+ "learning_rate": 4.539325842696629e-05,
2459
+ "loss": 0.846,
2460
+ "step": 350
2461
+ },
2462
+ {
2463
+ "epoch": 3.9,
2464
+ "grad_norm": 0.07196994125843048,
2465
+ "learning_rate": 4.4943820224719104e-05,
2466
+ "loss": 0.8191,
2467
+ "step": 351
2468
+ },
2469
+ {
2470
+ "epoch": 3.911111111111111,
2471
+ "grad_norm": 0.061406128108501434,
2472
+ "learning_rate": 4.4494382022471916e-05,
2473
+ "loss": 0.8128,
2474
+ "step": 352
2475
+ },
2476
+ {
2477
+ "epoch": 3.9222222222222225,
2478
+ "grad_norm": 0.05814112350344658,
2479
+ "learning_rate": 4.404494382022472e-05,
2480
+ "loss": 0.8453,
2481
+ "step": 353
2482
+ },
2483
+ {
2484
+ "epoch": 3.9333333333333336,
2485
+ "grad_norm": 0.06283029168844223,
2486
+ "learning_rate": 4.3595505617977525e-05,
2487
+ "loss": 0.899,
2488
+ "step": 354
2489
+ },
2490
+ {
2491
+ "epoch": 3.9444444444444446,
2492
+ "grad_norm": 0.06355167180299759,
2493
+ "learning_rate": 4.314606741573034e-05,
2494
+ "loss": 0.7727,
2495
+ "step": 355
2496
+ },
2497
+ {
2498
+ "epoch": 3.9555555555555557,
2499
+ "grad_norm": 0.06236105412244797,
2500
+ "learning_rate": 4.269662921348315e-05,
2501
+ "loss": 0.8153,
2502
+ "step": 356
2503
+ },
2504
+ {
2505
+ "epoch": 3.966666666666667,
2506
+ "grad_norm": 0.07224887609481812,
2507
+ "learning_rate": 4.224719101123596e-05,
2508
+ "loss": 0.7292,
2509
+ "step": 357
2510
+ },
2511
+ {
2512
+ "epoch": 3.977777777777778,
2513
+ "grad_norm": 0.06908698379993439,
2514
+ "learning_rate": 4.1797752808988764e-05,
2515
+ "loss": 0.7171,
2516
+ "step": 358
2517
+ },
2518
+ {
2519
+ "epoch": 3.988888888888889,
2520
+ "grad_norm": 0.06701194494962692,
2521
+ "learning_rate": 4.1348314606741576e-05,
2522
+ "loss": 0.8333,
2523
+ "step": 359
2524
+ },
2525
+ {
2526
+ "epoch": 4.0,
2527
+ "grad_norm": 0.06868044286966324,
2528
+ "learning_rate": 4.089887640449439e-05,
2529
+ "loss": 0.7593,
2530
+ "step": 360
2531
+ },
2532
+ {
2533
+ "epoch": 4.011111111111111,
2534
+ "grad_norm": 0.059760935604572296,
2535
+ "learning_rate": 4.044943820224719e-05,
2536
+ "loss": 0.8347,
2537
+ "step": 361
2538
+ },
2539
+ {
2540
+ "epoch": 4.022222222222222,
2541
+ "grad_norm": 0.06333184987306595,
2542
+ "learning_rate": 4e-05,
2543
+ "loss": 0.8283,
2544
+ "step": 362
2545
+ },
2546
+ {
2547
+ "epoch": 4.033333333333333,
2548
+ "grad_norm": 0.05701572820544243,
2549
+ "learning_rate": 3.955056179775281e-05,
2550
+ "loss": 0.8445,
2551
+ "step": 363
2552
+ },
2553
+ {
2554
+ "epoch": 4.044444444444444,
2555
+ "grad_norm": 0.057465020567178726,
2556
+ "learning_rate": 3.910112359550562e-05,
2557
+ "loss": 0.8068,
2558
+ "step": 364
2559
+ },
2560
+ {
2561
+ "epoch": 4.055555555555555,
2562
+ "grad_norm": 0.07226772606372833,
2563
+ "learning_rate": 3.865168539325843e-05,
2564
+ "loss": 0.8497,
2565
+ "step": 365
2566
+ },
2567
+ {
2568
+ "epoch": 4.066666666666666,
2569
+ "grad_norm": 0.07886355370283127,
2570
+ "learning_rate": 3.8202247191011236e-05,
2571
+ "loss": 0.8044,
2572
+ "step": 366
2573
+ },
2574
+ {
2575
+ "epoch": 4.0777777777777775,
2576
+ "grad_norm": 0.071531742811203,
2577
+ "learning_rate": 3.775280898876405e-05,
2578
+ "loss": 0.7713,
2579
+ "step": 367
2580
+ },
2581
+ {
2582
+ "epoch": 4.088888888888889,
2583
+ "grad_norm": 0.07198038697242737,
2584
+ "learning_rate": 3.730337078651686e-05,
2585
+ "loss": 0.8685,
2586
+ "step": 368
2587
+ },
2588
+ {
2589
+ "epoch": 4.1,
2590
+ "grad_norm": 0.07044125348329544,
2591
+ "learning_rate": 3.685393258426966e-05,
2592
+ "loss": 0.767,
2593
+ "step": 369
2594
+ },
2595
+ {
2596
+ "epoch": 4.111111111111111,
2597
+ "grad_norm": 0.07338492572307587,
2598
+ "learning_rate": 3.6404494382022475e-05,
2599
+ "loss": 0.7563,
2600
+ "step": 370
2601
+ },
2602
+ {
2603
+ "epoch": 4.122222222222222,
2604
+ "grad_norm": 0.06580597162246704,
2605
+ "learning_rate": 3.595505617977528e-05,
2606
+ "loss": 0.8228,
2607
+ "step": 371
2608
+ },
2609
+ {
2610
+ "epoch": 4.133333333333334,
2611
+ "grad_norm": 0.06712008267641068,
2612
+ "learning_rate": 3.550561797752809e-05,
2613
+ "loss": 0.8644,
2614
+ "step": 372
2615
+ },
2616
+ {
2617
+ "epoch": 4.144444444444445,
2618
+ "grad_norm": 0.0610797144472599,
2619
+ "learning_rate": 3.50561797752809e-05,
2620
+ "loss": 0.7718,
2621
+ "step": 373
2622
+ },
2623
+ {
2624
+ "epoch": 4.155555555555556,
2625
+ "grad_norm": 0.07456668466329575,
2626
+ "learning_rate": 3.460674157303371e-05,
2627
+ "loss": 0.7259,
2628
+ "step": 374
2629
+ },
2630
+ {
2631
+ "epoch": 4.166666666666667,
2632
+ "grad_norm": 0.05761990696191788,
2633
+ "learning_rate": 3.415730337078652e-05,
2634
+ "loss": 0.8152,
2635
+ "step": 375
2636
+ },
2637
+ {
2638
+ "epoch": 4.177777777777778,
2639
+ "grad_norm": 0.06759507954120636,
2640
+ "learning_rate": 3.370786516853933e-05,
2641
+ "loss": 0.8665,
2642
+ "step": 376
2643
+ },
2644
+ {
2645
+ "epoch": 4.188888888888889,
2646
+ "grad_norm": 0.06531881541013718,
2647
+ "learning_rate": 3.325842696629214e-05,
2648
+ "loss": 0.8211,
2649
+ "step": 377
2650
+ },
2651
+ {
2652
+ "epoch": 4.2,
2653
+ "grad_norm": 0.06870734691619873,
2654
+ "learning_rate": 3.2808988764044946e-05,
2655
+ "loss": 0.7547,
2656
+ "step": 378
2657
+ },
2658
+ {
2659
+ "epoch": 4.211111111111111,
2660
+ "grad_norm": 0.06056152656674385,
2661
+ "learning_rate": 3.235955056179775e-05,
2662
+ "loss": 0.7779,
2663
+ "step": 379
2664
+ },
2665
+ {
2666
+ "epoch": 4.222222222222222,
2667
+ "grad_norm": 0.06231197342276573,
2668
+ "learning_rate": 3.191011235955056e-05,
2669
+ "loss": 0.767,
2670
+ "step": 380
2671
+ },
2672
+ {
2673
+ "epoch": 4.233333333333333,
2674
+ "grad_norm": 0.06242848560214043,
2675
+ "learning_rate": 3.1460674157303374e-05,
2676
+ "loss": 0.8473,
2677
+ "step": 381
2678
+ },
2679
+ {
2680
+ "epoch": 4.2444444444444445,
2681
+ "grad_norm": 0.06435809284448624,
2682
+ "learning_rate": 3.1011235955056185e-05,
2683
+ "loss": 0.898,
2684
+ "step": 382
2685
+ },
2686
+ {
2687
+ "epoch": 4.2555555555555555,
2688
+ "grad_norm": 0.06603720039129257,
2689
+ "learning_rate": 3.056179775280899e-05,
2690
+ "loss": 0.8338,
2691
+ "step": 383
2692
+ },
2693
+ {
2694
+ "epoch": 4.266666666666667,
2695
+ "grad_norm": 0.06830265372991562,
2696
+ "learning_rate": 3.0112359550561798e-05,
2697
+ "loss": 0.8323,
2698
+ "step": 384
2699
+ },
2700
+ {
2701
+ "epoch": 4.277777777777778,
2702
+ "grad_norm": 0.06457255780696869,
2703
+ "learning_rate": 2.966292134831461e-05,
2704
+ "loss": 0.8353,
2705
+ "step": 385
2706
+ },
2707
+ {
2708
+ "epoch": 4.288888888888889,
2709
+ "grad_norm": 0.06458742916584015,
2710
+ "learning_rate": 2.9213483146067417e-05,
2711
+ "loss": 0.7949,
2712
+ "step": 386
2713
+ },
2714
+ {
2715
+ "epoch": 4.3,
2716
+ "grad_norm": 0.07112720608711243,
2717
+ "learning_rate": 2.876404494382023e-05,
2718
+ "loss": 0.7822,
2719
+ "step": 387
2720
+ },
2721
+ {
2722
+ "epoch": 4.311111111111111,
2723
+ "grad_norm": 0.06759954988956451,
2724
+ "learning_rate": 2.8314606741573037e-05,
2725
+ "loss": 0.7434,
2726
+ "step": 388
2727
+ },
2728
+ {
2729
+ "epoch": 4.322222222222222,
2730
+ "grad_norm": 0.061707496643066406,
2731
+ "learning_rate": 2.786516853932584e-05,
2732
+ "loss": 0.7928,
2733
+ "step": 389
2734
+ },
2735
+ {
2736
+ "epoch": 4.333333333333333,
2737
+ "grad_norm": 0.07415860146284103,
2738
+ "learning_rate": 2.7415730337078653e-05,
2739
+ "loss": 0.7564,
2740
+ "step": 390
2741
+ },
2742
+ {
2743
+ "epoch": 4.344444444444444,
2744
+ "grad_norm": 0.06894145160913467,
2745
+ "learning_rate": 2.696629213483146e-05,
2746
+ "loss": 0.7985,
2747
+ "step": 391
2748
+ },
2749
+ {
2750
+ "epoch": 4.355555555555555,
2751
+ "grad_norm": 0.06181568279862404,
2752
+ "learning_rate": 2.6516853932584273e-05,
2753
+ "loss": 0.8546,
2754
+ "step": 392
2755
+ },
2756
+ {
2757
+ "epoch": 4.366666666666666,
2758
+ "grad_norm": 0.0904124304652214,
2759
+ "learning_rate": 2.606741573033708e-05,
2760
+ "loss": 0.8677,
2761
+ "step": 393
2762
+ },
2763
+ {
2764
+ "epoch": 4.377777777777778,
2765
+ "grad_norm": 0.06363783776760101,
2766
+ "learning_rate": 2.5617977528089885e-05,
2767
+ "loss": 0.7788,
2768
+ "step": 394
2769
+ },
2770
+ {
2771
+ "epoch": 4.388888888888889,
2772
+ "grad_norm": 0.06672205030918121,
2773
+ "learning_rate": 2.51685393258427e-05,
2774
+ "loss": 0.8017,
2775
+ "step": 395
2776
+ },
2777
+ {
2778
+ "epoch": 4.4,
2779
+ "grad_norm": 0.07275419682264328,
2780
+ "learning_rate": 2.4719101123595505e-05,
2781
+ "loss": 0.7785,
2782
+ "step": 396
2783
+ },
2784
+ {
2785
+ "epoch": 4.411111111111111,
2786
+ "grad_norm": 0.05966269597411156,
2787
+ "learning_rate": 2.4269662921348316e-05,
2788
+ "loss": 0.8946,
2789
+ "step": 397
2790
+ },
2791
+ {
2792
+ "epoch": 4.4222222222222225,
2793
+ "grad_norm": 0.07346921414136887,
2794
+ "learning_rate": 2.3820224719101125e-05,
2795
+ "loss": 0.8088,
2796
+ "step": 398
2797
+ },
2798
+ {
2799
+ "epoch": 4.433333333333334,
2800
+ "grad_norm": 0.06261128932237625,
2801
+ "learning_rate": 2.3370786516853936e-05,
2802
+ "loss": 0.7987,
2803
+ "step": 399
2804
+ },
2805
+ {
2806
+ "epoch": 4.444444444444445,
2807
+ "grad_norm": 0.06262333691120148,
2808
+ "learning_rate": 2.292134831460674e-05,
2809
+ "loss": 0.8036,
2810
+ "step": 400
2811
+ },
2812
+ {
2813
+ "epoch": 4.455555555555556,
2814
+ "grad_norm": 0.061543941497802734,
2815
+ "learning_rate": 2.2471910112359552e-05,
2816
+ "loss": 0.7783,
2817
+ "step": 401
2818
+ },
2819
+ {
2820
+ "epoch": 4.466666666666667,
2821
+ "grad_norm": 0.061959441751241684,
2822
+ "learning_rate": 2.202247191011236e-05,
2823
+ "loss": 0.8373,
2824
+ "step": 402
2825
+ },
2826
+ {
2827
+ "epoch": 4.477777777777778,
2828
+ "grad_norm": 0.06770654022693634,
2829
+ "learning_rate": 2.157303370786517e-05,
2830
+ "loss": 0.843,
2831
+ "step": 403
2832
+ },
2833
+ {
2834
+ "epoch": 4.488888888888889,
2835
+ "grad_norm": 0.06563393771648407,
2836
+ "learning_rate": 2.112359550561798e-05,
2837
+ "loss": 0.7825,
2838
+ "step": 404
2839
+ },
2840
+ {
2841
+ "epoch": 4.5,
2842
+ "grad_norm": 0.07568306475877762,
2843
+ "learning_rate": 2.0674157303370788e-05,
2844
+ "loss": 0.8061,
2845
+ "step": 405
2846
+ },
2847
+ {
2848
+ "epoch": 4.511111111111111,
2849
+ "grad_norm": 0.06064269691705704,
2850
+ "learning_rate": 2.0224719101123596e-05,
2851
+ "loss": 0.7677,
2852
+ "step": 406
2853
+ },
2854
+ {
2855
+ "epoch": 4.522222222222222,
2856
+ "grad_norm": 0.06697507947683334,
2857
+ "learning_rate": 1.9775280898876404e-05,
2858
+ "loss": 0.838,
2859
+ "step": 407
2860
+ },
2861
+ {
2862
+ "epoch": 4.533333333333333,
2863
+ "grad_norm": 0.07317288964986801,
2864
+ "learning_rate": 1.9325842696629215e-05,
2865
+ "loss": 0.8156,
2866
+ "step": 408
2867
+ },
2868
+ {
2869
+ "epoch": 4.544444444444444,
2870
+ "grad_norm": 0.06405317783355713,
2871
+ "learning_rate": 1.8876404494382024e-05,
2872
+ "loss": 0.8283,
2873
+ "step": 409
2874
+ },
2875
+ {
2876
+ "epoch": 4.555555555555555,
2877
+ "grad_norm": 0.0716167539358139,
2878
+ "learning_rate": 1.842696629213483e-05,
2879
+ "loss": 0.8894,
2880
+ "step": 410
2881
+ },
2882
+ {
2883
+ "epoch": 4.566666666666666,
2884
+ "grad_norm": 0.07410852611064911,
2885
+ "learning_rate": 1.797752808988764e-05,
2886
+ "loss": 0.7339,
2887
+ "step": 411
2888
+ },
2889
+ {
2890
+ "epoch": 4.5777777777777775,
2891
+ "grad_norm": 0.06780914962291718,
2892
+ "learning_rate": 1.752808988764045e-05,
2893
+ "loss": 0.7925,
2894
+ "step": 412
2895
+ },
2896
+ {
2897
+ "epoch": 4.588888888888889,
2898
+ "grad_norm": 0.065445177257061,
2899
+ "learning_rate": 1.707865168539326e-05,
2900
+ "loss": 0.8451,
2901
+ "step": 413
2902
+ },
2903
+ {
2904
+ "epoch": 4.6,
2905
+ "grad_norm": 0.06177813559770584,
2906
+ "learning_rate": 1.662921348314607e-05,
2907
+ "loss": 0.9403,
2908
+ "step": 414
2909
+ },
2910
+ {
2911
+ "epoch": 4.611111111111111,
2912
+ "grad_norm": 0.0611334890127182,
2913
+ "learning_rate": 1.6179775280898875e-05,
2914
+ "loss": 0.8064,
2915
+ "step": 415
2916
+ },
2917
+ {
2918
+ "epoch": 4.622222222222222,
2919
+ "grad_norm": 0.06584127992391586,
2920
+ "learning_rate": 1.5730337078651687e-05,
2921
+ "loss": 0.8344,
2922
+ "step": 416
2923
+ },
2924
+ {
2925
+ "epoch": 4.633333333333333,
2926
+ "grad_norm": 0.06387150287628174,
2927
+ "learning_rate": 1.5280898876404495e-05,
2928
+ "loss": 0.8348,
2929
+ "step": 417
2930
+ },
2931
+ {
2932
+ "epoch": 4.644444444444445,
2933
+ "grad_norm": 0.07291285693645477,
2934
+ "learning_rate": 1.4831460674157305e-05,
2935
+ "loss": 0.8291,
2936
+ "step": 418
2937
+ },
2938
+ {
2939
+ "epoch": 4.655555555555556,
2940
+ "grad_norm": 0.06709293276071548,
2941
+ "learning_rate": 1.4382022471910114e-05,
2942
+ "loss": 0.7971,
2943
+ "step": 419
2944
+ },
2945
+ {
2946
+ "epoch": 4.666666666666667,
2947
+ "grad_norm": 0.06627030670642853,
2948
+ "learning_rate": 1.393258426966292e-05,
2949
+ "loss": 0.7975,
2950
+ "step": 420
2951
+ },
2952
+ {
2953
+ "epoch": 4.677777777777778,
2954
+ "grad_norm": 0.06093061715364456,
2955
+ "learning_rate": 1.348314606741573e-05,
2956
+ "loss": 0.7644,
2957
+ "step": 421
2958
+ },
2959
+ {
2960
+ "epoch": 4.688888888888889,
2961
+ "grad_norm": 0.06513749808073044,
2962
+ "learning_rate": 1.303370786516854e-05,
2963
+ "loss": 0.8221,
2964
+ "step": 422
2965
+ },
2966
+ {
2967
+ "epoch": 4.7,
2968
+ "grad_norm": 0.06582172214984894,
2969
+ "learning_rate": 1.258426966292135e-05,
2970
+ "loss": 0.84,
2971
+ "step": 423
2972
+ },
2973
+ {
2974
+ "epoch": 4.711111111111111,
2975
+ "grad_norm": 0.05726146325469017,
2976
+ "learning_rate": 1.2134831460674158e-05,
2977
+ "loss": 0.8009,
2978
+ "step": 424
2979
+ },
2980
+ {
2981
+ "epoch": 4.722222222222222,
2982
+ "grad_norm": 0.060694370418787,
2983
+ "learning_rate": 1.1685393258426968e-05,
2984
+ "loss": 0.8697,
2985
+ "step": 425
2986
+ },
2987
+ {
2988
+ "epoch": 4.733333333333333,
2989
+ "grad_norm": 0.0613742358982563,
2990
+ "learning_rate": 1.1235955056179776e-05,
2991
+ "loss": 0.8642,
2992
+ "step": 426
2993
+ },
2994
+ {
2995
+ "epoch": 4.7444444444444445,
2996
+ "grad_norm": 0.07079113274812698,
2997
+ "learning_rate": 1.0786516853932586e-05,
2998
+ "loss": 0.7765,
2999
+ "step": 427
3000
+ },
3001
+ {
3002
+ "epoch": 4.7555555555555555,
3003
+ "grad_norm": 0.058669183403253555,
3004
+ "learning_rate": 1.0337078651685394e-05,
3005
+ "loss": 0.8284,
3006
+ "step": 428
3007
+ },
3008
+ {
3009
+ "epoch": 4.766666666666667,
3010
+ "grad_norm": 0.058568935841321945,
3011
+ "learning_rate": 9.887640449438202e-06,
3012
+ "loss": 0.8041,
3013
+ "step": 429
3014
+ },
3015
+ {
3016
+ "epoch": 4.777777777777778,
3017
+ "grad_norm": 0.3323858678340912,
3018
+ "learning_rate": 9.438202247191012e-06,
3019
+ "loss": 0.7972,
3020
+ "step": 430
3021
+ },
3022
+ {
3023
+ "epoch": 4.788888888888889,
3024
+ "grad_norm": 0.060114577412605286,
3025
+ "learning_rate": 8.98876404494382e-06,
3026
+ "loss": 0.918,
3027
+ "step": 431
3028
+ },
3029
+ {
3030
+ "epoch": 4.8,
3031
+ "grad_norm": 0.07039128243923187,
3032
+ "learning_rate": 8.53932584269663e-06,
3033
+ "loss": 0.7934,
3034
+ "step": 432
3035
+ },
3036
+ {
3037
+ "epoch": 4.811111111111111,
3038
+ "grad_norm": 0.06390310078859329,
3039
+ "learning_rate": 8.089887640449438e-06,
3040
+ "loss": 0.8117,
3041
+ "step": 433
3042
+ },
3043
+ {
3044
+ "epoch": 4.822222222222222,
3045
+ "grad_norm": 0.06396052241325378,
3046
+ "learning_rate": 7.640449438202247e-06,
3047
+ "loss": 0.7735,
3048
+ "step": 434
3049
+ },
3050
+ {
3051
+ "epoch": 4.833333333333333,
3052
+ "grad_norm": 0.12294171750545502,
3053
+ "learning_rate": 7.191011235955057e-06,
3054
+ "loss": 0.8392,
3055
+ "step": 435
3056
+ },
3057
+ {
3058
+ "epoch": 4.844444444444444,
3059
+ "grad_norm": 0.056867167353630066,
3060
+ "learning_rate": 6.741573033707865e-06,
3061
+ "loss": 0.7539,
3062
+ "step": 436
3063
+ },
3064
+ {
3065
+ "epoch": 4.855555555555555,
3066
+ "grad_norm": 0.06927565485239029,
3067
+ "learning_rate": 6.292134831460675e-06,
3068
+ "loss": 0.7451,
3069
+ "step": 437
3070
+ },
3071
+ {
3072
+ "epoch": 4.866666666666667,
3073
+ "grad_norm": 0.06880547106266022,
3074
+ "learning_rate": 5.842696629213484e-06,
3075
+ "loss": 0.799,
3076
+ "step": 438
3077
+ },
3078
+ {
3079
+ "epoch": 4.877777777777778,
3080
+ "grad_norm": 0.07145966589450836,
3081
+ "learning_rate": 5.393258426966293e-06,
3082
+ "loss": 0.8621,
3083
+ "step": 439
3084
+ },
3085
+ {
3086
+ "epoch": 4.888888888888889,
3087
+ "grad_norm": 0.06943900138139725,
3088
+ "learning_rate": 4.943820224719101e-06,
3089
+ "loss": 0.871,
3090
+ "step": 440
3091
+ },
3092
+ {
3093
+ "epoch": 4.9,
3094
+ "grad_norm": 0.14493992924690247,
3095
+ "learning_rate": 4.49438202247191e-06,
3096
+ "loss": 0.8927,
3097
+ "step": 441
3098
+ },
3099
+ {
3100
+ "epoch": 4.911111111111111,
3101
+ "grad_norm": 0.060017552226781845,
3102
+ "learning_rate": 4.044943820224719e-06,
3103
+ "loss": 0.8933,
3104
+ "step": 442
3105
+ },
3106
+ {
3107
+ "epoch": 4.9222222222222225,
3108
+ "grad_norm": 0.0633043721318245,
3109
+ "learning_rate": 3.5955056179775286e-06,
3110
+ "loss": 0.8325,
3111
+ "step": 443
3112
+ },
3113
+ {
3114
+ "epoch": 4.933333333333334,
3115
+ "grad_norm": 0.06329839676618576,
3116
+ "learning_rate": 3.1460674157303375e-06,
3117
+ "loss": 0.7598,
3118
+ "step": 444
3119
+ },
3120
+ {
3121
+ "epoch": 4.944444444444445,
3122
+ "grad_norm": 0.07061803340911865,
3123
+ "learning_rate": 2.6966292134831465e-06,
3124
+ "loss": 0.7973,
3125
+ "step": 445
3126
+ },
3127
+ {
3128
+ "epoch": 4.955555555555556,
3129
+ "grad_norm": 0.06513971835374832,
3130
+ "learning_rate": 2.247191011235955e-06,
3131
+ "loss": 0.8717,
3132
+ "step": 446
3133
+ },
3134
+ {
3135
+ "epoch": 4.966666666666667,
3136
+ "grad_norm": 0.07594099640846252,
3137
+ "learning_rate": 1.7977528089887643e-06,
3138
+ "loss": 0.7733,
3139
+ "step": 447
3140
+ },
3141
+ {
3142
+ "epoch": 4.977777777777778,
3143
+ "grad_norm": 0.06038981303572655,
3144
+ "learning_rate": 1.3483146067415732e-06,
3145
+ "loss": 0.7951,
3146
+ "step": 448
3147
+ },
3148
+ {
3149
+ "epoch": 4.988888888888889,
3150
+ "grad_norm": 0.061661411076784134,
3151
+ "learning_rate": 8.988764044943822e-07,
3152
+ "loss": 0.7623,
3153
+ "step": 449
3154
+ },
3155
+ {
3156
+ "epoch": 5.0,
3157
+ "grad_norm": 0.05862731486558914,
3158
+ "learning_rate": 4.494382022471911e-07,
3159
+ "loss": 0.819,
3160
+ "step": 450
3161
  }
3162
  ],
3163
  "logging_steps": 1,
 
3172
  "should_evaluate": false,
3173
  "should_log": false,
3174
  "should_save": true,
3175
+ "should_training_stop": true
3176
  },
3177
  "attributes": {}
3178
  }
3179
  },
3180
+ "total_flos": 5.021161104605184e+18,
3181
  "train_batch_size": 16,
3182
  "trial_name": null,
3183
  "trial_params": null