ParamDev commited on
Commit
bc1ba1b
·
verified ·
1 Parent(s): d3438a6

Training in progress, step 4587, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:316b5b66c011ab655d2de0d0f9b4e3fb9737869533eff5fc1cb619905299a286
3
  size 167832240
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9fd7f4d081b21537033b2e160ee74b52ff15f87f0e71f38ed6e387185a25b5e5
3
  size 167832240
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:51fea0149fe130b7385c5c2c92755ef0f42f6621fac6fad2ea562cd36563f8ab
3
  size 335929123
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c737b1b79e1bfe3e9e148430849f11da864c1df799a3157441e39c1df3ea568e
3
  size 335929123
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:aac6559199f848eb2e15456c1e5cee636970b1ba1477e47f5e59da91c5e0c169
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b8946718702c3c2d38c431f0f7665cb26032dd3547d26860b2c656bc09d58caf
3
  size 14645
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3571d042b38772fa078cbf10ae0e9c85dcf4749dee484ca4e2ce1b0fc9a1dab4
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7b642c5acc0130ce5250f6eb7e0e04c4b290c2f7e9e26d0ace9cf16a6273c57c
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": 1529,
3
  "best_metric": 0.15474164485931396,
4
  "best_model_checkpoint": "./results_ner_lora_entity_aware/checkpoint-1529",
5
- "epoch": 0.993663688058489,
6
  "eval_steps": 1529,
7
- "global_step": 3058,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -2159,6 +2159,1085 @@
2159
  "eval_samples_per_second": 3.816,
2160
  "eval_steps_per_second": 3.816,
2161
  "step": 3058
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2162
  }
2163
  ],
2164
  "logging_steps": 10,
@@ -2173,7 +3252,7 @@
2173
  "early_stopping_threshold": 0.0
2174
  },
2175
  "attributes": {
2176
- "early_stopping_patience_counter": 1
2177
  }
2178
  },
2179
  "TrainerControl": {
@@ -2182,12 +3261,12 @@
2182
  "should_evaluate": false,
2183
  "should_log": false,
2184
  "should_save": true,
2185
- "should_training_stop": false
2186
  },
2187
  "attributes": {}
2188
  }
2189
  },
2190
- "total_flos": 2.385847921489871e+18,
2191
  "train_batch_size": 1,
2192
  "trial_name": null,
2193
  "trial_params": null
 
2
  "best_global_step": 1529,
3
  "best_metric": 0.15474164485931396,
4
  "best_model_checkpoint": "./results_ner_lora_entity_aware/checkpoint-1529",
5
+ "epoch": 1.4903330625507718,
6
  "eval_steps": 1529,
7
+ "global_step": 4587,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
2159
  "eval_samples_per_second": 3.816,
2160
  "eval_steps_per_second": 3.816,
2161
  "step": 3058
2162
+ },
2163
+ {
2164
+ "epoch": 0.9943135662063363,
2165
+ "grad_norm": 0.6474146246910095,
2166
+ "learning_rate": 2.7320081563371948e-05,
2167
+ "loss": 0.0085,
2168
+ "step": 3060
2169
+ },
2170
+ {
2171
+ "epoch": 0.9975629569455727,
2172
+ "grad_norm": 0.4375881850719452,
2173
+ "learning_rate": 2.718632630219907e-05,
2174
+ "loss": 0.0114,
2175
+ "step": 3070
2176
+ },
2177
+ {
2178
+ "epoch": 1.0006498781478472,
2179
+ "grad_norm": 0.327910840511322,
2180
+ "learning_rate": 2.7052507945443927e-05,
2181
+ "loss": 0.009,
2182
+ "step": 3080
2183
+ },
2184
+ {
2185
+ "epoch": 1.0038992688870836,
2186
+ "grad_norm": 0.4386765658855438,
2187
+ "learning_rate": 2.6918630354994434e-05,
2188
+ "loss": 0.0081,
2189
+ "step": 3090
2190
+ },
2191
+ {
2192
+ "epoch": 1.0071486596263202,
2193
+ "grad_norm": 0.3415273129940033,
2194
+ "learning_rate": 2.6784697394447942e-05,
2195
+ "loss": 0.007,
2196
+ "step": 3100
2197
+ },
2198
+ {
2199
+ "epoch": 1.0103980503655565,
2200
+ "grad_norm": 0.31640973687171936,
2201
+ "learning_rate": 2.6650712928999755e-05,
2202
+ "loss": 0.009,
2203
+ "step": 3110
2204
+ },
2205
+ {
2206
+ "epoch": 1.0136474411047929,
2207
+ "grad_norm": 0.4809754490852356,
2208
+ "learning_rate": 2.6516680825331548e-05,
2209
+ "loss": 0.0065,
2210
+ "step": 3120
2211
+ },
2212
+ {
2213
+ "epoch": 1.0168968318440292,
2214
+ "grad_norm": 0.48411983251571655,
2215
+ "learning_rate": 2.6382604951499802e-05,
2216
+ "loss": 0.0064,
2217
+ "step": 3130
2218
+ },
2219
+ {
2220
+ "epoch": 1.0201462225832656,
2221
+ "grad_norm": 0.5264196395874023,
2222
+ "learning_rate": 2.624848917682417e-05,
2223
+ "loss": 0.0076,
2224
+ "step": 3140
2225
+ },
2226
+ {
2227
+ "epoch": 1.023395613322502,
2228
+ "grad_norm": 0.5818049311637878,
2229
+ "learning_rate": 2.6114337371775815e-05,
2230
+ "loss": 0.0069,
2231
+ "step": 3150
2232
+ },
2233
+ {
2234
+ "epoch": 1.0266450040617385,
2235
+ "grad_norm": 0.20237238705158234,
2236
+ "learning_rate": 2.5980153407865694e-05,
2237
+ "loss": 0.0059,
2238
+ "step": 3160
2239
+ },
2240
+ {
2241
+ "epoch": 1.0298943948009749,
2242
+ "grad_norm": 0.4652661681175232,
2243
+ "learning_rate": 2.5845941157532856e-05,
2244
+ "loss": 0.0058,
2245
+ "step": 3170
2246
+ },
2247
+ {
2248
+ "epoch": 1.0331437855402112,
2249
+ "grad_norm": 0.42343178391456604,
2250
+ "learning_rate": 2.5711704494032662e-05,
2251
+ "loss": 0.0072,
2252
+ "step": 3180
2253
+ },
2254
+ {
2255
+ "epoch": 1.0363931762794476,
2256
+ "grad_norm": 0.31664910912513733,
2257
+ "learning_rate": 2.557744729132503e-05,
2258
+ "loss": 0.0062,
2259
+ "step": 3190
2260
+ },
2261
+ {
2262
+ "epoch": 1.039642567018684,
2263
+ "grad_norm": 0.4600023627281189,
2264
+ "learning_rate": 2.5443173423962606e-05,
2265
+ "loss": 0.0065,
2266
+ "step": 3200
2267
+ },
2268
+ {
2269
+ "epoch": 1.0428919577579203,
2270
+ "grad_norm": 0.21867072582244873,
2271
+ "learning_rate": 2.5308886766978985e-05,
2272
+ "loss": 0.0075,
2273
+ "step": 3210
2274
+ },
2275
+ {
2276
+ "epoch": 1.0461413484971567,
2277
+ "grad_norm": 0.2808971405029297,
2278
+ "learning_rate": 2.517459119577685e-05,
2279
+ "loss": 0.0064,
2280
+ "step": 3220
2281
+ },
2282
+ {
2283
+ "epoch": 1.0493907392363933,
2284
+ "grad_norm": 0.3623920679092407,
2285
+ "learning_rate": 2.504029058601612e-05,
2286
+ "loss": 0.0057,
2287
+ "step": 3230
2288
+ },
2289
+ {
2290
+ "epoch": 1.0526401299756296,
2291
+ "grad_norm": 0.7856932282447815,
2292
+ "learning_rate": 2.490598881350215e-05,
2293
+ "loss": 0.0069,
2294
+ "step": 3240
2295
+ },
2296
+ {
2297
+ "epoch": 1.055889520714866,
2298
+ "grad_norm": 0.3538922965526581,
2299
+ "learning_rate": 2.4771689754073858e-05,
2300
+ "loss": 0.0067,
2301
+ "step": 3250
2302
+ },
2303
+ {
2304
+ "epoch": 1.0591389114541023,
2305
+ "grad_norm": 0.40585437417030334,
2306
+ "learning_rate": 2.4637397283491828e-05,
2307
+ "loss": 0.0068,
2308
+ "step": 3260
2309
+ },
2310
+ {
2311
+ "epoch": 1.0623883021933387,
2312
+ "grad_norm": 0.3392549753189087,
2313
+ "learning_rate": 2.450311527732653e-05,
2314
+ "loss": 0.0075,
2315
+ "step": 3270
2316
+ },
2317
+ {
2318
+ "epoch": 1.065637692932575,
2319
+ "grad_norm": 0.4685852527618408,
2320
+ "learning_rate": 2.436884761084642e-05,
2321
+ "loss": 0.0076,
2322
+ "step": 3280
2323
+ },
2324
+ {
2325
+ "epoch": 1.0688870836718116,
2326
+ "grad_norm": 0.2836906611919403,
2327
+ "learning_rate": 2.423459815890614e-05,
2328
+ "loss": 0.0063,
2329
+ "step": 3290
2330
+ },
2331
+ {
2332
+ "epoch": 1.072136474411048,
2333
+ "grad_norm": 0.3446894586086273,
2334
+ "learning_rate": 2.4100370795834652e-05,
2335
+ "loss": 0.0056,
2336
+ "step": 3300
2337
+ },
2338
+ {
2339
+ "epoch": 1.0753858651502843,
2340
+ "grad_norm": 0.6391892433166504,
2341
+ "learning_rate": 2.3966169395323466e-05,
2342
+ "loss": 0.007,
2343
+ "step": 3310
2344
+ },
2345
+ {
2346
+ "epoch": 1.0786352558895207,
2347
+ "grad_norm": 0.4981069564819336,
2348
+ "learning_rate": 2.383199783031484e-05,
2349
+ "loss": 0.0069,
2350
+ "step": 3320
2351
+ },
2352
+ {
2353
+ "epoch": 1.081884646628757,
2354
+ "grad_norm": 0.3438924252986908,
2355
+ "learning_rate": 2.369785997288998e-05,
2356
+ "loss": 0.0062,
2357
+ "step": 3330
2358
+ },
2359
+ {
2360
+ "epoch": 1.0851340373679934,
2361
+ "grad_norm": 0.6114248633384705,
2362
+ "learning_rate": 2.356375969415735e-05,
2363
+ "loss": 0.006,
2364
+ "step": 3340
2365
+ },
2366
+ {
2367
+ "epoch": 1.08838342810723,
2368
+ "grad_norm": 0.658473551273346,
2369
+ "learning_rate": 2.3429700864140892e-05,
2370
+ "loss": 0.0057,
2371
+ "step": 3350
2372
+ },
2373
+ {
2374
+ "epoch": 1.0916328188464663,
2375
+ "grad_norm": 0.2530268430709839,
2376
+ "learning_rate": 2.3295687351668407e-05,
2377
+ "loss": 0.0057,
2378
+ "step": 3360
2379
+ },
2380
+ {
2381
+ "epoch": 1.0948822095857027,
2382
+ "grad_norm": 0.33400505781173706,
2383
+ "learning_rate": 2.3161723024259832e-05,
2384
+ "loss": 0.0058,
2385
+ "step": 3370
2386
+ },
2387
+ {
2388
+ "epoch": 1.098131600324939,
2389
+ "grad_norm": 0.47318515181541443,
2390
+ "learning_rate": 2.302781174801569e-05,
2391
+ "loss": 0.0058,
2392
+ "step": 3380
2393
+ },
2394
+ {
2395
+ "epoch": 1.1013809910641754,
2396
+ "grad_norm": 0.18566595017910004,
2397
+ "learning_rate": 2.2893957387505488e-05,
2398
+ "loss": 0.0048,
2399
+ "step": 3390
2400
+ },
2401
+ {
2402
+ "epoch": 1.1046303818034118,
2403
+ "grad_norm": 0.43583136796951294,
2404
+ "learning_rate": 2.2760163805656172e-05,
2405
+ "loss": 0.0062,
2406
+ "step": 3400
2407
+ },
2408
+ {
2409
+ "epoch": 1.1078797725426484,
2410
+ "grad_norm": 0.09334202855825424,
2411
+ "learning_rate": 2.262643486364069e-05,
2412
+ "loss": 0.0054,
2413
+ "step": 3410
2414
+ },
2415
+ {
2416
+ "epoch": 1.1111291632818847,
2417
+ "grad_norm": 0.4679158627986908,
2418
+ "learning_rate": 2.2492774420766518e-05,
2419
+ "loss": 0.0058,
2420
+ "step": 3420
2421
+ },
2422
+ {
2423
+ "epoch": 1.114378554021121,
2424
+ "grad_norm": 0.2904549539089203,
2425
+ "learning_rate": 2.2359186334364314e-05,
2426
+ "loss": 0.0062,
2427
+ "step": 3430
2428
+ },
2429
+ {
2430
+ "epoch": 1.1176279447603574,
2431
+ "grad_norm": 0.2544921338558197,
2432
+ "learning_rate": 2.22256744596766e-05,
2433
+ "loss": 0.0054,
2434
+ "step": 3440
2435
+ },
2436
+ {
2437
+ "epoch": 1.1208773354995938,
2438
+ "grad_norm": 0.3968259394168854,
2439
+ "learning_rate": 2.2092242649746468e-05,
2440
+ "loss": 0.007,
2441
+ "step": 3450
2442
+ },
2443
+ {
2444
+ "epoch": 1.1241267262388301,
2445
+ "grad_norm": 0.5143113732337952,
2446
+ "learning_rate": 2.195889475530641e-05,
2447
+ "loss": 0.0063,
2448
+ "step": 3460
2449
+ },
2450
+ {
2451
+ "epoch": 1.1273761169780667,
2452
+ "grad_norm": 0.39842620491981506,
2453
+ "learning_rate": 2.1825634624667188e-05,
2454
+ "loss": 0.0043,
2455
+ "step": 3470
2456
+ },
2457
+ {
2458
+ "epoch": 1.130625507717303,
2459
+ "grad_norm": 0.7474611401557922,
2460
+ "learning_rate": 2.169246610360679e-05,
2461
+ "loss": 0.0044,
2462
+ "step": 3480
2463
+ },
2464
+ {
2465
+ "epoch": 1.1338748984565394,
2466
+ "grad_norm": 0.43382173776626587,
2467
+ "learning_rate": 2.15593930352594e-05,
2468
+ "loss": 0.0068,
2469
+ "step": 3490
2470
+ },
2471
+ {
2472
+ "epoch": 1.1371242891957758,
2473
+ "grad_norm": 0.43323034048080444,
2474
+ "learning_rate": 2.1426419260004533e-05,
2475
+ "loss": 0.0066,
2476
+ "step": 3500
2477
+ },
2478
+ {
2479
+ "epoch": 1.1403736799350122,
2480
+ "grad_norm": 0.5351451635360718,
2481
+ "learning_rate": 2.1293548615356175e-05,
2482
+ "loss": 0.0059,
2483
+ "step": 3510
2484
+ },
2485
+ {
2486
+ "epoch": 1.1436230706742485,
2487
+ "grad_norm": 0.3306446373462677,
2488
+ "learning_rate": 2.1160784935852065e-05,
2489
+ "loss": 0.0063,
2490
+ "step": 3520
2491
+ },
2492
+ {
2493
+ "epoch": 1.1468724614134849,
2494
+ "grad_norm": 0.8898324370384216,
2495
+ "learning_rate": 2.1028132052942995e-05,
2496
+ "loss": 0.0059,
2497
+ "step": 3530
2498
+ },
2499
+ {
2500
+ "epoch": 1.1501218521527214,
2501
+ "grad_norm": 0.3271152973175049,
2502
+ "learning_rate": 2.0895593794882268e-05,
2503
+ "loss": 0.0055,
2504
+ "step": 3540
2505
+ },
2506
+ {
2507
+ "epoch": 1.1533712428919578,
2508
+ "grad_norm": 0.22426745295524597,
2509
+ "learning_rate": 2.0763173986615216e-05,
2510
+ "loss": 0.005,
2511
+ "step": 3550
2512
+ },
2513
+ {
2514
+ "epoch": 1.1566206336311942,
2515
+ "grad_norm": 0.42375096678733826,
2516
+ "learning_rate": 2.063087644966879e-05,
2517
+ "loss": 0.0049,
2518
+ "step": 3560
2519
+ },
2520
+ {
2521
+ "epoch": 1.1598700243704305,
2522
+ "grad_norm": 0.4661770761013031,
2523
+ "learning_rate": 2.04987050020413e-05,
2524
+ "loss": 0.0048,
2525
+ "step": 3570
2526
+ },
2527
+ {
2528
+ "epoch": 1.1631194151096669,
2529
+ "grad_norm": 0.4002689719200134,
2530
+ "learning_rate": 2.0366663458092224e-05,
2531
+ "loss": 0.0045,
2532
+ "step": 3580
2533
+ },
2534
+ {
2535
+ "epoch": 1.1663688058489032,
2536
+ "grad_norm": 0.5181555151939392,
2537
+ "learning_rate": 2.0234755628432133e-05,
2538
+ "loss": 0.0043,
2539
+ "step": 3590
2540
+ },
2541
+ {
2542
+ "epoch": 1.1696181965881398,
2543
+ "grad_norm": 0.4838791787624359,
2544
+ "learning_rate": 2.0102985319812688e-05,
2545
+ "loss": 0.0059,
2546
+ "step": 3600
2547
+ },
2548
+ {
2549
+ "epoch": 1.1728675873273762,
2550
+ "grad_norm": 0.5321421027183533,
2551
+ "learning_rate": 1.9971356335016834e-05,
2552
+ "loss": 0.0062,
2553
+ "step": 3610
2554
+ },
2555
+ {
2556
+ "epoch": 1.1761169780666125,
2557
+ "grad_norm": 0.17948143184185028,
2558
+ "learning_rate": 1.9839872472749013e-05,
2559
+ "loss": 0.0046,
2560
+ "step": 3620
2561
+ },
2562
+ {
2563
+ "epoch": 1.1793663688058489,
2564
+ "grad_norm": 0.5810254216194153,
2565
+ "learning_rate": 1.9708537527525544e-05,
2566
+ "loss": 0.0051,
2567
+ "step": 3630
2568
+ },
2569
+ {
2570
+ "epoch": 1.1826157595450852,
2571
+ "grad_norm": 0.32746565341949463,
2572
+ "learning_rate": 1.957735528956514e-05,
2573
+ "loss": 0.0061,
2574
+ "step": 3640
2575
+ },
2576
+ {
2577
+ "epoch": 1.1858651502843216,
2578
+ "grad_norm": 0.359332412481308,
2579
+ "learning_rate": 1.9446329544679488e-05,
2580
+ "loss": 0.0058,
2581
+ "step": 3650
2582
+ },
2583
+ {
2584
+ "epoch": 1.189114541023558,
2585
+ "grad_norm": 0.4285711944103241,
2586
+ "learning_rate": 1.9315464074164036e-05,
2587
+ "loss": 0.004,
2588
+ "step": 3660
2589
+ },
2590
+ {
2591
+ "epoch": 1.1923639317627945,
2592
+ "grad_norm": 0.42309272289276123,
2593
+ "learning_rate": 1.918476265468882e-05,
2594
+ "loss": 0.0049,
2595
+ "step": 3670
2596
+ },
2597
+ {
2598
+ "epoch": 1.195613322502031,
2599
+ "grad_norm": 0.495802640914917,
2600
+ "learning_rate": 1.9054229058189514e-05,
2601
+ "loss": 0.0046,
2602
+ "step": 3680
2603
+ },
2604
+ {
2605
+ "epoch": 1.1988627132412673,
2606
+ "grad_norm": 0.39304494857788086,
2607
+ "learning_rate": 1.892386705175856e-05,
2608
+ "loss": 0.0043,
2609
+ "step": 3690
2610
+ },
2611
+ {
2612
+ "epoch": 1.2021121039805036,
2613
+ "grad_norm": 0.30474936962127686,
2614
+ "learning_rate": 1.879368039753644e-05,
2615
+ "loss": 0.0042,
2616
+ "step": 3700
2617
+ },
2618
+ {
2619
+ "epoch": 1.20536149471974,
2620
+ "grad_norm": 0.19054022431373596,
2621
+ "learning_rate": 1.866367285260312e-05,
2622
+ "loss": 0.0045,
2623
+ "step": 3710
2624
+ },
2625
+ {
2626
+ "epoch": 1.2086108854589765,
2627
+ "grad_norm": 0.38206177949905396,
2628
+ "learning_rate": 1.853384816886962e-05,
2629
+ "loss": 0.0056,
2630
+ "step": 3720
2631
+ },
2632
+ {
2633
+ "epoch": 1.211860276198213,
2634
+ "grad_norm": 0.34758618474006653,
2635
+ "learning_rate": 1.840421009296975e-05,
2636
+ "loss": 0.0034,
2637
+ "step": 3730
2638
+ },
2639
+ {
2640
+ "epoch": 1.2151096669374493,
2641
+ "grad_norm": 0.3336513638496399,
2642
+ "learning_rate": 1.827476236615194e-05,
2643
+ "loss": 0.0051,
2644
+ "step": 3740
2645
+ },
2646
+ {
2647
+ "epoch": 1.2183590576766856,
2648
+ "grad_norm": 0.6265475153923035,
2649
+ "learning_rate": 1.8145508724171316e-05,
2650
+ "loss": 0.0032,
2651
+ "step": 3750
2652
+ },
2653
+ {
2654
+ "epoch": 1.221608448415922,
2655
+ "grad_norm": 0.4233214259147644,
2656
+ "learning_rate": 1.80164528971819e-05,
2657
+ "loss": 0.0063,
2658
+ "step": 3760
2659
+ },
2660
+ {
2661
+ "epoch": 1.2248578391551583,
2662
+ "grad_norm": 0.2057565301656723,
2663
+ "learning_rate": 1.7887598609628897e-05,
2664
+ "loss": 0.0037,
2665
+ "step": 3770
2666
+ },
2667
+ {
2668
+ "epoch": 1.2281072298943947,
2669
+ "grad_norm": 0.2737014889717102,
2670
+ "learning_rate": 1.7758949580141276e-05,
2671
+ "loss": 0.0047,
2672
+ "step": 3780
2673
+ },
2674
+ {
2675
+ "epoch": 1.2313566206336313,
2676
+ "grad_norm": 0.38340964913368225,
2677
+ "learning_rate": 1.7630509521424407e-05,
2678
+ "loss": 0.0049,
2679
+ "step": 3790
2680
+ },
2681
+ {
2682
+ "epoch": 1.2346060113728676,
2683
+ "grad_norm": 0.3404456377029419,
2684
+ "learning_rate": 1.750228214015295e-05,
2685
+ "loss": 0.0034,
2686
+ "step": 3800
2687
+ },
2688
+ {
2689
+ "epoch": 1.237855402112104,
2690
+ "grad_norm": 0.40690556168556213,
2691
+ "learning_rate": 1.7374271136863863e-05,
2692
+ "loss": 0.0042,
2693
+ "step": 3810
2694
+ },
2695
+ {
2696
+ "epoch": 1.2411047928513403,
2697
+ "grad_norm": 0.22202616930007935,
2698
+ "learning_rate": 1.7246480205849613e-05,
2699
+ "loss": 0.0046,
2700
+ "step": 3820
2701
+ },
2702
+ {
2703
+ "epoch": 1.2443541835905767,
2704
+ "grad_norm": 0.37885475158691406,
2705
+ "learning_rate": 1.7118913035051564e-05,
2706
+ "loss": 0.004,
2707
+ "step": 3830
2708
+ },
2709
+ {
2710
+ "epoch": 1.2476035743298133,
2711
+ "grad_norm": 0.16762322187423706,
2712
+ "learning_rate": 1.6991573305953533e-05,
2713
+ "loss": 0.0034,
2714
+ "step": 3840
2715
+ },
2716
+ {
2717
+ "epoch": 1.2508529650690496,
2718
+ "grad_norm": 0.5190407633781433,
2719
+ "learning_rate": 1.686446469347558e-05,
2720
+ "loss": 0.0042,
2721
+ "step": 3850
2722
+ },
2723
+ {
2724
+ "epoch": 1.254102355808286,
2725
+ "grad_norm": 0.290955126285553,
2726
+ "learning_rate": 1.6737590865867907e-05,
2727
+ "loss": 0.0056,
2728
+ "step": 3860
2729
+ },
2730
+ {
2731
+ "epoch": 1.2573517465475224,
2732
+ "grad_norm": 0.240234836935997,
2733
+ "learning_rate": 1.6610955484605023e-05,
2734
+ "loss": 0.0034,
2735
+ "step": 3870
2736
+ },
2737
+ {
2738
+ "epoch": 1.2606011372867587,
2739
+ "grad_norm": 0.29844263195991516,
2740
+ "learning_rate": 1.6484562204280075e-05,
2741
+ "loss": 0.0038,
2742
+ "step": 3880
2743
+ },
2744
+ {
2745
+ "epoch": 1.263850528025995,
2746
+ "grad_norm": 0.3929229974746704,
2747
+ "learning_rate": 1.6358414672499377e-05,
2748
+ "loss": 0.0051,
2749
+ "step": 3890
2750
+ },
2751
+ {
2752
+ "epoch": 1.2670999187652314,
2753
+ "grad_norm": 0.3525027632713318,
2754
+ "learning_rate": 1.623251652977713e-05,
2755
+ "loss": 0.0037,
2756
+ "step": 3900
2757
+ },
2758
+ {
2759
+ "epoch": 1.2703493095044678,
2760
+ "grad_norm": 0.20320917665958405,
2761
+ "learning_rate": 1.6106871409430387e-05,
2762
+ "loss": 0.0044,
2763
+ "step": 3910
2764
+ },
2765
+ {
2766
+ "epoch": 1.2735987002437044,
2767
+ "grad_norm": 0.1730404794216156,
2768
+ "learning_rate": 1.5981482937474172e-05,
2769
+ "loss": 0.0039,
2770
+ "step": 3920
2771
+ },
2772
+ {
2773
+ "epoch": 1.2768480909829407,
2774
+ "grad_norm": 0.3508148789405823,
2775
+ "learning_rate": 1.5856354732516865e-05,
2776
+ "loss": 0.0041,
2777
+ "step": 3930
2778
+ },
2779
+ {
2780
+ "epoch": 1.280097481722177,
2781
+ "grad_norm": 0.35546788573265076,
2782
+ "learning_rate": 1.573149040565572e-05,
2783
+ "loss": 0.0043,
2784
+ "step": 3940
2785
+ },
2786
+ {
2787
+ "epoch": 1.2833468724614134,
2788
+ "grad_norm": 0.2085341513156891,
2789
+ "learning_rate": 1.5606893560372714e-05,
2790
+ "loss": 0.0043,
2791
+ "step": 3950
2792
+ },
2793
+ {
2794
+ "epoch": 1.28659626320065,
2795
+ "grad_norm": 0.18922321498394012,
2796
+ "learning_rate": 1.548256779243052e-05,
2797
+ "loss": 0.0037,
2798
+ "step": 3960
2799
+ },
2800
+ {
2801
+ "epoch": 1.2898456539398864,
2802
+ "grad_norm": 0.3243728280067444,
2803
+ "learning_rate": 1.5358516689768734e-05,
2804
+ "loss": 0.0044,
2805
+ "step": 3970
2806
+ },
2807
+ {
2808
+ "epoch": 1.2930950446791227,
2809
+ "grad_norm": 0.37964773178100586,
2810
+ "learning_rate": 1.5234743832400344e-05,
2811
+ "loss": 0.0031,
2812
+ "step": 3980
2813
+ },
2814
+ {
2815
+ "epoch": 1.296344435418359,
2816
+ "grad_norm": 0.3203120529651642,
2817
+ "learning_rate": 1.5111252792308406e-05,
2818
+ "loss": 0.0031,
2819
+ "step": 3990
2820
+ },
2821
+ {
2822
+ "epoch": 1.2995938261575954,
2823
+ "grad_norm": 0.1457476019859314,
2824
+ "learning_rate": 1.4988047133342964e-05,
2825
+ "loss": 0.0042,
2826
+ "step": 4000
2827
+ },
2828
+ {
2829
+ "epoch": 1.3028432168968318,
2830
+ "grad_norm": 0.14640583097934723,
2831
+ "learning_rate": 1.486513041111819e-05,
2832
+ "loss": 0.003,
2833
+ "step": 4010
2834
+ },
2835
+ {
2836
+ "epoch": 1.3060926076360682,
2837
+ "grad_norm": 0.5449049472808838,
2838
+ "learning_rate": 1.4742506172909775e-05,
2839
+ "loss": 0.0033,
2840
+ "step": 4020
2841
+ },
2842
+ {
2843
+ "epoch": 1.3093419983753045,
2844
+ "grad_norm": 0.40858981013298035,
2845
+ "learning_rate": 1.4620177957552578e-05,
2846
+ "loss": 0.0038,
2847
+ "step": 4030
2848
+ },
2849
+ {
2850
+ "epoch": 1.312591389114541,
2851
+ "grad_norm": 0.5728728175163269,
2852
+ "learning_rate": 1.4498149295338464e-05,
2853
+ "loss": 0.0031,
2854
+ "step": 4040
2855
+ },
2856
+ {
2857
+ "epoch": 1.3158407798537775,
2858
+ "grad_norm": 0.24417610466480255,
2859
+ "learning_rate": 1.437642370791446e-05,
2860
+ "loss": 0.0034,
2861
+ "step": 4050
2862
+ },
2863
+ {
2864
+ "epoch": 1.3190901705930138,
2865
+ "grad_norm": 0.317682683467865,
2866
+ "learning_rate": 1.4255004708181075e-05,
2867
+ "loss": 0.0028,
2868
+ "step": 4060
2869
+ },
2870
+ {
2871
+ "epoch": 1.3223395613322502,
2872
+ "grad_norm": 0.6588785648345947,
2873
+ "learning_rate": 1.4133895800190983e-05,
2874
+ "loss": 0.004,
2875
+ "step": 4070
2876
+ },
2877
+ {
2878
+ "epoch": 1.3255889520714865,
2879
+ "grad_norm": 0.44252049922943115,
2880
+ "learning_rate": 1.4013100479047825e-05,
2881
+ "loss": 0.0034,
2882
+ "step": 4080
2883
+ },
2884
+ {
2885
+ "epoch": 1.328838342810723,
2886
+ "grad_norm": 0.4248214066028595,
2887
+ "learning_rate": 1.3892622230805436e-05,
2888
+ "loss": 0.005,
2889
+ "step": 4090
2890
+ },
2891
+ {
2892
+ "epoch": 1.3320877335499595,
2893
+ "grad_norm": 0.31828951835632324,
2894
+ "learning_rate": 1.3772464532367125e-05,
2895
+ "loss": 0.0026,
2896
+ "step": 4100
2897
+ },
2898
+ {
2899
+ "epoch": 1.3353371242891958,
2900
+ "grad_norm": 0.25999122858047485,
2901
+ "learning_rate": 1.3652630851385454e-05,
2902
+ "loss": 0.0035,
2903
+ "step": 4110
2904
+ },
2905
+ {
2906
+ "epoch": 1.3385865150284322,
2907
+ "grad_norm": 0.15871325135231018,
2908
+ "learning_rate": 1.353312464616207e-05,
2909
+ "loss": 0.0035,
2910
+ "step": 4120
2911
+ },
2912
+ {
2913
+ "epoch": 1.3418359057676685,
2914
+ "grad_norm": 0.44427499175071716,
2915
+ "learning_rate": 1.341394936554794e-05,
2916
+ "loss": 0.0028,
2917
+ "step": 4130
2918
+ },
2919
+ {
2920
+ "epoch": 1.345085296506905,
2921
+ "grad_norm": 0.306194543838501,
2922
+ "learning_rate": 1.329510844884385e-05,
2923
+ "loss": 0.0026,
2924
+ "step": 4140
2925
+ },
2926
+ {
2927
+ "epoch": 1.3483346872461413,
2928
+ "grad_norm": 0.19543297588825226,
2929
+ "learning_rate": 1.3176605325701086e-05,
2930
+ "loss": 0.0028,
2931
+ "step": 4150
2932
+ },
2933
+ {
2934
+ "epoch": 1.3515840779853776,
2935
+ "grad_norm": 0.21941304206848145,
2936
+ "learning_rate": 1.305844341602249e-05,
2937
+ "loss": 0.0018,
2938
+ "step": 4160
2939
+ },
2940
+ {
2941
+ "epoch": 1.3548334687246142,
2942
+ "grad_norm": 0.36652112007141113,
2943
+ "learning_rate": 1.2940626129863792e-05,
2944
+ "loss": 0.003,
2945
+ "step": 4170
2946
+ },
2947
+ {
2948
+ "epoch": 1.3580828594638505,
2949
+ "grad_norm": 0.47468826174736023,
2950
+ "learning_rate": 1.282315686733514e-05,
2951
+ "loss": 0.0025,
2952
+ "step": 4180
2953
+ },
2954
+ {
2955
+ "epoch": 1.361332250203087,
2956
+ "grad_norm": 0.3629470765590668,
2957
+ "learning_rate": 1.2706039018503013e-05,
2958
+ "loss": 0.003,
2959
+ "step": 4190
2960
+ },
2961
+ {
2962
+ "epoch": 1.3645816409423233,
2963
+ "grad_norm": 0.3716108500957489,
2964
+ "learning_rate": 1.2589275963292397e-05,
2965
+ "loss": 0.0027,
2966
+ "step": 4200
2967
+ },
2968
+ {
2969
+ "epoch": 1.3678310316815598,
2970
+ "grad_norm": 0.8420029878616333,
2971
+ "learning_rate": 1.2472871071389205e-05,
2972
+ "loss": 0.0027,
2973
+ "step": 4210
2974
+ },
2975
+ {
2976
+ "epoch": 1.3710804224207962,
2977
+ "grad_norm": 0.43932396173477173,
2978
+ "learning_rate": 1.2356827702143048e-05,
2979
+ "loss": 0.003,
2980
+ "step": 4220
2981
+ },
2982
+ {
2983
+ "epoch": 1.3743298131600326,
2984
+ "grad_norm": 0.28611013293266296,
2985
+ "learning_rate": 1.2241149204470314e-05,
2986
+ "loss": 0.0034,
2987
+ "step": 4230
2988
+ },
2989
+ {
2990
+ "epoch": 1.377579203899269,
2991
+ "grad_norm": 0.30783408880233765,
2992
+ "learning_rate": 1.2125838916757471e-05,
2993
+ "loss": 0.0034,
2994
+ "step": 4240
2995
+ },
2996
+ {
2997
+ "epoch": 1.3808285946385053,
2998
+ "grad_norm": 0.16370636224746704,
2999
+ "learning_rate": 1.2010900166764774e-05,
3000
+ "loss": 0.0028,
3001
+ "step": 4250
3002
+ },
3003
+ {
3004
+ "epoch": 1.3840779853777416,
3005
+ "grad_norm": 0.055241186171770096,
3006
+ "learning_rate": 1.1896336271530187e-05,
3007
+ "loss": 0.0035,
3008
+ "step": 4260
3009
+ },
3010
+ {
3011
+ "epoch": 1.387327376116978,
3012
+ "grad_norm": 0.42322880029678345,
3013
+ "learning_rate": 1.1782150537273665e-05,
3014
+ "loss": 0.0029,
3015
+ "step": 4270
3016
+ },
3017
+ {
3018
+ "epoch": 1.3905767668562143,
3019
+ "grad_norm": 0.12644466757774353,
3020
+ "learning_rate": 1.166834625930178e-05,
3021
+ "loss": 0.0022,
3022
+ "step": 4280
3023
+ },
3024
+ {
3025
+ "epoch": 1.393826157595451,
3026
+ "grad_norm": 0.24443909525871277,
3027
+ "learning_rate": 1.1554926721912562e-05,
3028
+ "loss": 0.0022,
3029
+ "step": 4290
3030
+ },
3031
+ {
3032
+ "epoch": 1.3970755483346873,
3033
+ "grad_norm": 0.12778101861476898,
3034
+ "learning_rate": 1.144189519830074e-05,
3035
+ "loss": 0.003,
3036
+ "step": 4300
3037
+ },
3038
+ {
3039
+ "epoch": 1.4003249390739236,
3040
+ "grad_norm": 0.15853983163833618,
3041
+ "learning_rate": 1.1329254950463315e-05,
3042
+ "loss": 0.0023,
3043
+ "step": 4310
3044
+ },
3045
+ {
3046
+ "epoch": 1.40357432981316,
3047
+ "grad_norm": 0.11951529234647751,
3048
+ "learning_rate": 1.1217009229105357e-05,
3049
+ "loss": 0.0031,
3050
+ "step": 4320
3051
+ },
3052
+ {
3053
+ "epoch": 1.4068237205523964,
3054
+ "grad_norm": 0.21437332034111023,
3055
+ "learning_rate": 1.1105161273546236e-05,
3056
+ "loss": 0.0019,
3057
+ "step": 4330
3058
+ },
3059
+ {
3060
+ "epoch": 1.410073111291633,
3061
+ "grad_norm": 0.8929743766784668,
3062
+ "learning_rate": 1.0993714311626146e-05,
3063
+ "loss": 0.0024,
3064
+ "step": 4340
3065
+ },
3066
+ {
3067
+ "epoch": 1.4133225020308693,
3068
+ "grad_norm": 0.2045769989490509,
3069
+ "learning_rate": 1.0882671559612909e-05,
3070
+ "loss": 0.0029,
3071
+ "step": 4350
3072
+ },
3073
+ {
3074
+ "epoch": 1.4165718927701056,
3075
+ "grad_norm": 0.08286549896001816,
3076
+ "learning_rate": 1.0772036222109182e-05,
3077
+ "loss": 0.0029,
3078
+ "step": 4360
3079
+ },
3080
+ {
3081
+ "epoch": 1.419821283509342,
3082
+ "grad_norm": 0.09282595664262772,
3083
+ "learning_rate": 1.066181149196e-05,
3084
+ "loss": 0.0018,
3085
+ "step": 4370
3086
+ },
3087
+ {
3088
+ "epoch": 1.4230706742485784,
3089
+ "grad_norm": 0.2858879566192627,
3090
+ "learning_rate": 1.055200055016057e-05,
3091
+ "loss": 0.0029,
3092
+ "step": 4380
3093
+ },
3094
+ {
3095
+ "epoch": 1.4263200649878147,
3096
+ "grad_norm": 0.2344265580177307,
3097
+ "learning_rate": 1.0442606565764534e-05,
3098
+ "loss": 0.0019,
3099
+ "step": 4390
3100
+ },
3101
+ {
3102
+ "epoch": 1.429569455727051,
3103
+ "grad_norm": 0.346629798412323,
3104
+ "learning_rate": 1.0333632695792492e-05,
3105
+ "loss": 0.0025,
3106
+ "step": 4400
3107
+ },
3108
+ {
3109
+ "epoch": 1.4328188464662874,
3110
+ "grad_norm": 0.29290953278541565,
3111
+ "learning_rate": 1.0225082085140856e-05,
3112
+ "loss": 0.0022,
3113
+ "step": 4410
3114
+ },
3115
+ {
3116
+ "epoch": 1.436068237205524,
3117
+ "grad_norm": 0.43641456961631775,
3118
+ "learning_rate": 1.0116957866491128e-05,
3119
+ "loss": 0.0021,
3120
+ "step": 4420
3121
+ },
3122
+ {
3123
+ "epoch": 1.4393176279447604,
3124
+ "grad_norm": 0.3562842309474945,
3125
+ "learning_rate": 1.000926316021952e-05,
3126
+ "loss": 0.0022,
3127
+ "step": 4430
3128
+ },
3129
+ {
3130
+ "epoch": 1.4425670186839967,
3131
+ "grad_norm": 0.4262392520904541,
3132
+ "learning_rate": 9.902001074306835e-06,
3133
+ "loss": 0.0028,
3134
+ "step": 4440
3135
+ },
3136
+ {
3137
+ "epoch": 1.445816409423233,
3138
+ "grad_norm": 0.2457405924797058,
3139
+ "learning_rate": 9.795174704248808e-06,
3140
+ "loss": 0.0025,
3141
+ "step": 4450
3142
+ },
3143
+ {
3144
+ "epoch": 1.4490658001624697,
3145
+ "grad_norm": 0.22532138228416443,
3146
+ "learning_rate": 9.6887871329668e-06,
3147
+ "loss": 0.0019,
3148
+ "step": 4460
3149
+ },
3150
+ {
3151
+ "epoch": 1.452315190901706,
3152
+ "grad_norm": 0.4915858507156372,
3153
+ "learning_rate": 9.582841430718767e-06,
3154
+ "loss": 0.0023,
3155
+ "step": 4470
3156
+ },
3157
+ {
3158
+ "epoch": 1.4555645816409424,
3159
+ "grad_norm": 0.18646268546581268,
3160
+ "learning_rate": 9.477340655010716e-06,
3161
+ "loss": 0.0021,
3162
+ "step": 4480
3163
+ },
3164
+ {
3165
+ "epoch": 1.4588139723801787,
3166
+ "grad_norm": 0.10206873714923859,
3167
+ "learning_rate": 9.372287850508421e-06,
3168
+ "loss": 0.0017,
3169
+ "step": 4490
3170
+ },
3171
+ {
3172
+ "epoch": 1.462063363119415,
3173
+ "grad_norm": 0.3298508822917938,
3174
+ "learning_rate": 9.267686048949568e-06,
3175
+ "loss": 0.0018,
3176
+ "step": 4500
3177
+ },
3178
+ {
3179
+ "epoch": 1.4653127538586515,
3180
+ "grad_norm": 0.5361196398735046,
3181
+ "learning_rate": 9.163538269056296e-06,
3182
+ "loss": 0.003,
3183
+ "step": 4510
3184
+ },
3185
+ {
3186
+ "epoch": 1.4685621445978878,
3187
+ "grad_norm": 0.41454723477363586,
3188
+ "learning_rate": 9.05984751644803e-06,
3189
+ "loss": 0.0019,
3190
+ "step": 4520
3191
+ },
3192
+ {
3193
+ "epoch": 1.4718115353371242,
3194
+ "grad_norm": 0.47003769874572754,
3195
+ "learning_rate": 8.956616783554759e-06,
3196
+ "loss": 0.0025,
3197
+ "step": 4530
3198
+ },
3199
+ {
3200
+ "epoch": 1.4750609260763607,
3201
+ "grad_norm": 0.2163703888654709,
3202
+ "learning_rate": 8.853849049530703e-06,
3203
+ "loss": 0.0018,
3204
+ "step": 4540
3205
+ },
3206
+ {
3207
+ "epoch": 1.478310316815597,
3208
+ "grad_norm": 0.08466655015945435,
3209
+ "learning_rate": 8.751547280168297e-06,
3210
+ "loss": 0.0021,
3211
+ "step": 4550
3212
+ },
3213
+ {
3214
+ "epoch": 1.4815597075548335,
3215
+ "grad_norm": 0.2865130305290222,
3216
+ "learning_rate": 8.649714427812607e-06,
3217
+ "loss": 0.0017,
3218
+ "step": 4560
3219
+ },
3220
+ {
3221
+ "epoch": 1.4848090982940698,
3222
+ "grad_norm": 0.2946512699127197,
3223
+ "learning_rate": 8.548353431276182e-06,
3224
+ "loss": 0.0019,
3225
+ "step": 4570
3226
+ },
3227
+ {
3228
+ "epoch": 1.4880584890333062,
3229
+ "grad_norm": 0.4205271303653717,
3230
+ "learning_rate": 8.447467215754157e-06,
3231
+ "loss": 0.0021,
3232
+ "step": 4580
3233
+ },
3234
+ {
3235
+ "epoch": 1.4903330625507718,
3236
+ "eval_loss": 0.20176434516906738,
3237
+ "eval_runtime": 733.5854,
3238
+ "eval_samples_per_second": 3.817,
3239
+ "eval_steps_per_second": 3.817,
3240
+ "step": 4587
3241
  }
3242
  ],
3243
  "logging_steps": 10,
 
3252
  "early_stopping_threshold": 0.0
3253
  },
3254
  "attributes": {
3255
+ "early_stopping_patience_counter": 2
3256
  }
3257
  },
3258
  "TrainerControl": {
 
3261
  "should_evaluate": false,
3262
  "should_log": false,
3263
  "should_save": true,
3264
+ "should_training_stop": true
3265
  },
3266
  "attributes": {}
3267
  }
3268
  },
3269
+ "total_flos": 3.5805200990465556e+18,
3270
  "train_batch_size": 1,
3271
  "trial_name": null,
3272
  "trial_params": null