ErrorAI commited on
Commit
83672df
·
verified ·
1 Parent(s): 7ce658f

Training in progress, step 678, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3572517217a4a1c1f4189c139a7cda46c254e50206307410fe0f251761b4d642
3
  size 59933632
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ba19194e4a5b9086e60652ceb255afdf27cf1615639b7ec033a6ef1c49e3025b
3
  size 59933632
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:949269b800a107b09ea647cb81aad43561fd951f187a3125eeee55655d7e0148
3
  size 31823460
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5cdf9379ee6afa80350d79bcd5263969bfa1069cfd31b296b13a8324eb8102e9
3
  size 31823460
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:745daf332594f22965d4d263304c942a7b606dd19aa1f3443cd947bef9d4a609
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8d80092e98990ad16bd04c6bdc13ab21f8968fa024d4ffb0e439fb35359d90a4
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6dc8162959edd9624718a599f5b64981812ed513ea13a3717ef898622cc7453b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e58a1f189fa49844e0a8b0fc017ed772705566337859dc459c55af78a8975c99
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.01605037640263245,
5
  "eval_steps": 500,
6
- "global_step": 339,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2380,6 +2380,2379 @@
2380
  "learning_rate": 8.560166594400878e-05,
2381
  "loss": 1.4472,
2382
  "step": 339
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2383
  }
2384
  ],
2385
  "logging_steps": 1,
@@ -2399,7 +4772,7 @@
2399
  "attributes": {}
2400
  }
2401
  },
2402
- "total_flos": 9.296825985427046e+16,
2403
  "train_batch_size": 4,
2404
  "trial_name": null,
2405
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.0321007528052649,
5
  "eval_steps": 500,
6
+ "global_step": 678,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2380
  "learning_rate": 8.560166594400878e-05,
2381
  "loss": 1.4472,
2382
  "step": 339
2383
+ },
2384
+ {
2385
+ "epoch": 0.016097722645708062,
2386
+ "grad_norm": 1.2615294456481934,
2387
+ "learning_rate": 8.551974975930194e-05,
2388
+ "loss": 1.7209,
2389
+ "step": 340
2390
+ },
2391
+ {
2392
+ "epoch": 0.016145068888783674,
2393
+ "grad_norm": 1.0856550931930542,
2394
+ "learning_rate": 8.543764064908295e-05,
2395
+ "loss": 1.406,
2396
+ "step": 341
2397
+ },
2398
+ {
2399
+ "epoch": 0.016192415131859286,
2400
+ "grad_norm": 1.315007209777832,
2401
+ "learning_rate": 8.535533905932738e-05,
2402
+ "loss": 1.6584,
2403
+ "step": 342
2404
+ },
2405
+ {
2406
+ "epoch": 0.016239761374934897,
2407
+ "grad_norm": 1.180970311164856,
2408
+ "learning_rate": 8.527284543705632e-05,
2409
+ "loss": 1.3438,
2410
+ "step": 343
2411
+ },
2412
+ {
2413
+ "epoch": 0.01628710761801051,
2414
+ "grad_norm": 1.186798095703125,
2415
+ "learning_rate": 8.519016023033383e-05,
2416
+ "loss": 1.3434,
2417
+ "step": 344
2418
+ },
2419
+ {
2420
+ "epoch": 0.01633445386108612,
2421
+ "grad_norm": 1.1144177913665771,
2422
+ "learning_rate": 8.510728388826463e-05,
2423
+ "loss": 1.5506,
2424
+ "step": 345
2425
+ },
2426
+ {
2427
+ "epoch": 0.016381800104161733,
2428
+ "grad_norm": 1.2593318223953247,
2429
+ "learning_rate": 8.502421686099153e-05,
2430
+ "loss": 1.6704,
2431
+ "step": 346
2432
+ },
2433
+ {
2434
+ "epoch": 0.016429146347237345,
2435
+ "grad_norm": 1.1712514162063599,
2436
+ "learning_rate": 8.494095959969308e-05,
2437
+ "loss": 1.2738,
2438
+ "step": 347
2439
+ },
2440
+ {
2441
+ "epoch": 0.016476492590312957,
2442
+ "grad_norm": 1.7519192695617676,
2443
+ "learning_rate": 8.485751255658106e-05,
2444
+ "loss": 1.4788,
2445
+ "step": 348
2446
+ },
2447
+ {
2448
+ "epoch": 0.01652383883338857,
2449
+ "grad_norm": 1.3057172298431396,
2450
+ "learning_rate": 8.477387618489807e-05,
2451
+ "loss": 1.1369,
2452
+ "step": 349
2453
+ },
2454
+ {
2455
+ "epoch": 0.01657118507646418,
2456
+ "grad_norm": 1.533386468887329,
2457
+ "learning_rate": 8.469005093891505e-05,
2458
+ "loss": 1.1792,
2459
+ "step": 350
2460
+ },
2461
+ {
2462
+ "epoch": 0.016618531319539793,
2463
+ "grad_norm": 1.0570282936096191,
2464
+ "learning_rate": 8.460603727392877e-05,
2465
+ "loss": 1.6635,
2466
+ "step": 351
2467
+ },
2468
+ {
2469
+ "epoch": 0.016665877562615405,
2470
+ "grad_norm": 0.9694927930831909,
2471
+ "learning_rate": 8.452183564625948e-05,
2472
+ "loss": 1.5728,
2473
+ "step": 352
2474
+ },
2475
+ {
2476
+ "epoch": 0.01671322380569102,
2477
+ "grad_norm": 1.0785024166107178,
2478
+ "learning_rate": 8.443744651324827e-05,
2479
+ "loss": 1.8904,
2480
+ "step": 353
2481
+ },
2482
+ {
2483
+ "epoch": 0.016760570048766632,
2484
+ "grad_norm": 1.146831750869751,
2485
+ "learning_rate": 8.435287033325472e-05,
2486
+ "loss": 1.4965,
2487
+ "step": 354
2488
+ },
2489
+ {
2490
+ "epoch": 0.016807916291842244,
2491
+ "grad_norm": 0.9391350150108337,
2492
+ "learning_rate": 8.426810756565429e-05,
2493
+ "loss": 1.4763,
2494
+ "step": 355
2495
+ },
2496
+ {
2497
+ "epoch": 0.016855262534917856,
2498
+ "grad_norm": 1.0124608278274536,
2499
+ "learning_rate": 8.418315867083595e-05,
2500
+ "loss": 1.3741,
2501
+ "step": 356
2502
+ },
2503
+ {
2504
+ "epoch": 0.016902608777993468,
2505
+ "grad_norm": 1.037788987159729,
2506
+ "learning_rate": 8.409802411019963e-05,
2507
+ "loss": 1.2912,
2508
+ "step": 357
2509
+ },
2510
+ {
2511
+ "epoch": 0.01694995502106908,
2512
+ "grad_norm": 1.1288650035858154,
2513
+ "learning_rate": 8.401270434615365e-05,
2514
+ "loss": 1.3734,
2515
+ "step": 358
2516
+ },
2517
+ {
2518
+ "epoch": 0.01699730126414469,
2519
+ "grad_norm": 0.9866798520088196,
2520
+ "learning_rate": 8.392719984211228e-05,
2521
+ "loss": 1.2654,
2522
+ "step": 359
2523
+ },
2524
+ {
2525
+ "epoch": 0.017044647507220304,
2526
+ "grad_norm": 1.1551830768585205,
2527
+ "learning_rate": 8.384151106249323e-05,
2528
+ "loss": 1.7818,
2529
+ "step": 360
2530
+ },
2531
+ {
2532
+ "epoch": 0.017091993750295915,
2533
+ "grad_norm": 0.9992442727088928,
2534
+ "learning_rate": 8.375563847271506e-05,
2535
+ "loss": 1.4939,
2536
+ "step": 361
2537
+ },
2538
+ {
2539
+ "epoch": 0.017139339993371527,
2540
+ "grad_norm": 1.0358177423477173,
2541
+ "learning_rate": 8.366958253919475e-05,
2542
+ "loss": 1.3252,
2543
+ "step": 362
2544
+ },
2545
+ {
2546
+ "epoch": 0.01718668623644714,
2547
+ "grad_norm": 1.1302683353424072,
2548
+ "learning_rate": 8.358334372934509e-05,
2549
+ "loss": 1.5499,
2550
+ "step": 363
2551
+ },
2552
+ {
2553
+ "epoch": 0.01723403247952275,
2554
+ "grad_norm": 1.0650432109832764,
2555
+ "learning_rate": 8.349692251157211e-05,
2556
+ "loss": 1.6008,
2557
+ "step": 364
2558
+ },
2559
+ {
2560
+ "epoch": 0.017281378722598363,
2561
+ "grad_norm": 1.2165616750717163,
2562
+ "learning_rate": 8.341031935527267e-05,
2563
+ "loss": 1.8869,
2564
+ "step": 365
2565
+ },
2566
+ {
2567
+ "epoch": 0.017328724965673975,
2568
+ "grad_norm": 1.2423419952392578,
2569
+ "learning_rate": 8.332353473083179e-05,
2570
+ "loss": 1.5879,
2571
+ "step": 366
2572
+ },
2573
+ {
2574
+ "epoch": 0.017376071208749587,
2575
+ "grad_norm": 1.2204476594924927,
2576
+ "learning_rate": 8.323656910962011e-05,
2577
+ "loss": 1.5686,
2578
+ "step": 367
2579
+ },
2580
+ {
2581
+ "epoch": 0.0174234174518252,
2582
+ "grad_norm": 1.0241512060165405,
2583
+ "learning_rate": 8.314942296399141e-05,
2584
+ "loss": 1.5046,
2585
+ "step": 368
2586
+ },
2587
+ {
2588
+ "epoch": 0.01747076369490081,
2589
+ "grad_norm": 1.2489361763000488,
2590
+ "learning_rate": 8.306209676727994e-05,
2591
+ "loss": 1.6071,
2592
+ "step": 369
2593
+ },
2594
+ {
2595
+ "epoch": 0.017518109937976423,
2596
+ "grad_norm": 1.0107746124267578,
2597
+ "learning_rate": 8.297459099379794e-05,
2598
+ "loss": 1.3928,
2599
+ "step": 370
2600
+ },
2601
+ {
2602
+ "epoch": 0.017565456181052035,
2603
+ "grad_norm": 1.192285180091858,
2604
+ "learning_rate": 8.288690611883295e-05,
2605
+ "loss": 1.4469,
2606
+ "step": 371
2607
+ },
2608
+ {
2609
+ "epoch": 0.017612802424127647,
2610
+ "grad_norm": 1.2728925943374634,
2611
+ "learning_rate": 8.279904261864539e-05,
2612
+ "loss": 1.5513,
2613
+ "step": 372
2614
+ },
2615
+ {
2616
+ "epoch": 0.01766014866720326,
2617
+ "grad_norm": 1.3038040399551392,
2618
+ "learning_rate": 8.271100097046584e-05,
2619
+ "loss": 1.3809,
2620
+ "step": 373
2621
+ },
2622
+ {
2623
+ "epoch": 0.01770749491027887,
2624
+ "grad_norm": 1.1194548606872559,
2625
+ "learning_rate": 8.262278165249247e-05,
2626
+ "loss": 1.4155,
2627
+ "step": 374
2628
+ },
2629
+ {
2630
+ "epoch": 0.017754841153354482,
2631
+ "grad_norm": 1.4333120584487915,
2632
+ "learning_rate": 8.25343851438885e-05,
2633
+ "loss": 1.8168,
2634
+ "step": 375
2635
+ },
2636
+ {
2637
+ "epoch": 0.017802187396430094,
2638
+ "grad_norm": 1.1379622220993042,
2639
+ "learning_rate": 8.244581192477953e-05,
2640
+ "loss": 1.7745,
2641
+ "step": 376
2642
+ },
2643
+ {
2644
+ "epoch": 0.017849533639505706,
2645
+ "grad_norm": 1.1049047708511353,
2646
+ "learning_rate": 8.235706247625098e-05,
2647
+ "loss": 1.5711,
2648
+ "step": 377
2649
+ },
2650
+ {
2651
+ "epoch": 0.017896879882581318,
2652
+ "grad_norm": 1.0843724012374878,
2653
+ "learning_rate": 8.226813728034546e-05,
2654
+ "loss": 1.5343,
2655
+ "step": 378
2656
+ },
2657
+ {
2658
+ "epoch": 0.01794422612565693,
2659
+ "grad_norm": 0.9932480454444885,
2660
+ "learning_rate": 8.217903682006017e-05,
2661
+ "loss": 1.5807,
2662
+ "step": 379
2663
+ },
2664
+ {
2665
+ "epoch": 0.017991572368732542,
2666
+ "grad_norm": 1.000180721282959,
2667
+ "learning_rate": 8.208976157934422e-05,
2668
+ "loss": 1.517,
2669
+ "step": 380
2670
+ },
2671
+ {
2672
+ "epoch": 0.018038918611808154,
2673
+ "grad_norm": 1.5340940952301025,
2674
+ "learning_rate": 8.200031204309603e-05,
2675
+ "loss": 1.5985,
2676
+ "step": 381
2677
+ },
2678
+ {
2679
+ "epoch": 0.018086264854883766,
2680
+ "grad_norm": 1.100239634513855,
2681
+ "learning_rate": 8.19106886971608e-05,
2682
+ "loss": 1.7124,
2683
+ "step": 382
2684
+ },
2685
+ {
2686
+ "epoch": 0.018133611097959378,
2687
+ "grad_norm": 1.123328685760498,
2688
+ "learning_rate": 8.182089202832767e-05,
2689
+ "loss": 1.6103,
2690
+ "step": 383
2691
+ },
2692
+ {
2693
+ "epoch": 0.01818095734103499,
2694
+ "grad_norm": 1.1449183225631714,
2695
+ "learning_rate": 8.173092252432721e-05,
2696
+ "loss": 1.4786,
2697
+ "step": 384
2698
+ },
2699
+ {
2700
+ "epoch": 0.0182283035841106,
2701
+ "grad_norm": 1.0747967958450317,
2702
+ "learning_rate": 8.164078067382882e-05,
2703
+ "loss": 1.6038,
2704
+ "step": 385
2705
+ },
2706
+ {
2707
+ "epoch": 0.018275649827186213,
2708
+ "grad_norm": 0.9646826982498169,
2709
+ "learning_rate": 8.155046696643787e-05,
2710
+ "loss": 1.2486,
2711
+ "step": 386
2712
+ },
2713
+ {
2714
+ "epoch": 0.018322996070261825,
2715
+ "grad_norm": 1.163071632385254,
2716
+ "learning_rate": 8.145998189269326e-05,
2717
+ "loss": 1.3863,
2718
+ "step": 387
2719
+ },
2720
+ {
2721
+ "epoch": 0.018370342313337437,
2722
+ "grad_norm": 1.092169165611267,
2723
+ "learning_rate": 8.136932594406468e-05,
2724
+ "loss": 1.4198,
2725
+ "step": 388
2726
+ },
2727
+ {
2728
+ "epoch": 0.01841768855641305,
2729
+ "grad_norm": 1.1086021661758423,
2730
+ "learning_rate": 8.127849961294984e-05,
2731
+ "loss": 1.4193,
2732
+ "step": 389
2733
+ },
2734
+ {
2735
+ "epoch": 0.01846503479948866,
2736
+ "grad_norm": 1.2102797031402588,
2737
+ "learning_rate": 8.118750339267198e-05,
2738
+ "loss": 1.6943,
2739
+ "step": 390
2740
+ },
2741
+ {
2742
+ "epoch": 0.018512381042564273,
2743
+ "grad_norm": 1.0669124126434326,
2744
+ "learning_rate": 8.109633777747703e-05,
2745
+ "loss": 1.5252,
2746
+ "step": 391
2747
+ },
2748
+ {
2749
+ "epoch": 0.018559727285639885,
2750
+ "grad_norm": 1.1494920253753662,
2751
+ "learning_rate": 8.100500326253101e-05,
2752
+ "loss": 1.5225,
2753
+ "step": 392
2754
+ },
2755
+ {
2756
+ "epoch": 0.018607073528715497,
2757
+ "grad_norm": 1.2124680280685425,
2758
+ "learning_rate": 8.091350034391732e-05,
2759
+ "loss": 1.7474,
2760
+ "step": 393
2761
+ },
2762
+ {
2763
+ "epoch": 0.01865441977179111,
2764
+ "grad_norm": 1.1262034177780151,
2765
+ "learning_rate": 8.082182951863402e-05,
2766
+ "loss": 1.2812,
2767
+ "step": 394
2768
+ },
2769
+ {
2770
+ "epoch": 0.01870176601486672,
2771
+ "grad_norm": 1.3504730463027954,
2772
+ "learning_rate": 8.072999128459119e-05,
2773
+ "loss": 1.4917,
2774
+ "step": 395
2775
+ },
2776
+ {
2777
+ "epoch": 0.018749112257942332,
2778
+ "grad_norm": 1.1630171537399292,
2779
+ "learning_rate": 8.063798614060819e-05,
2780
+ "loss": 1.4038,
2781
+ "step": 396
2782
+ },
2783
+ {
2784
+ "epoch": 0.018796458501017944,
2785
+ "grad_norm": 1.2764859199523926,
2786
+ "learning_rate": 8.05458145864109e-05,
2787
+ "loss": 1.489,
2788
+ "step": 397
2789
+ },
2790
+ {
2791
+ "epoch": 0.018843804744093556,
2792
+ "grad_norm": 1.1614313125610352,
2793
+ "learning_rate": 8.045347712262912e-05,
2794
+ "loss": 1.2777,
2795
+ "step": 398
2796
+ },
2797
+ {
2798
+ "epoch": 0.018891150987169168,
2799
+ "grad_norm": 1.272247314453125,
2800
+ "learning_rate": 8.036097425079378e-05,
2801
+ "loss": 1.3734,
2802
+ "step": 399
2803
+ },
2804
+ {
2805
+ "epoch": 0.01893849723024478,
2806
+ "grad_norm": 1.4819856882095337,
2807
+ "learning_rate": 8.026830647333416e-05,
2808
+ "loss": 1.4693,
2809
+ "step": 400
2810
+ },
2811
+ {
2812
+ "epoch": 0.018985843473320392,
2813
+ "grad_norm": 1.1174564361572266,
2814
+ "learning_rate": 8.017547429357532e-05,
2815
+ "loss": 1.7608,
2816
+ "step": 401
2817
+ },
2818
+ {
2819
+ "epoch": 0.019033189716396004,
2820
+ "grad_norm": 0.9090219140052795,
2821
+ "learning_rate": 8.008247821573518e-05,
2822
+ "loss": 1.2873,
2823
+ "step": 402
2824
+ },
2825
+ {
2826
+ "epoch": 0.019080535959471616,
2827
+ "grad_norm": 1.025678038597107,
2828
+ "learning_rate": 7.998931874492193e-05,
2829
+ "loss": 1.4831,
2830
+ "step": 403
2831
+ },
2832
+ {
2833
+ "epoch": 0.019127882202547228,
2834
+ "grad_norm": 1.1207436323165894,
2835
+ "learning_rate": 7.989599638713122e-05,
2836
+ "loss": 1.6693,
2837
+ "step": 404
2838
+ },
2839
+ {
2840
+ "epoch": 0.01917522844562284,
2841
+ "grad_norm": 1.031245231628418,
2842
+ "learning_rate": 7.98025116492434e-05,
2843
+ "loss": 1.4521,
2844
+ "step": 405
2845
+ },
2846
+ {
2847
+ "epoch": 0.01922257468869845,
2848
+ "grad_norm": 1.0481898784637451,
2849
+ "learning_rate": 7.970886503902082e-05,
2850
+ "loss": 1.5691,
2851
+ "step": 406
2852
+ },
2853
+ {
2854
+ "epoch": 0.019269920931774064,
2855
+ "grad_norm": 0.929305911064148,
2856
+ "learning_rate": 7.961505706510499e-05,
2857
+ "loss": 1.2938,
2858
+ "step": 407
2859
+ },
2860
+ {
2861
+ "epoch": 0.019317267174849675,
2862
+ "grad_norm": 1.1896798610687256,
2863
+ "learning_rate": 7.952108823701393e-05,
2864
+ "loss": 1.2882,
2865
+ "step": 408
2866
+ },
2867
+ {
2868
+ "epoch": 0.019364613417925287,
2869
+ "grad_norm": 1.116339087486267,
2870
+ "learning_rate": 7.94269590651393e-05,
2871
+ "loss": 1.5144,
2872
+ "step": 409
2873
+ },
2874
+ {
2875
+ "epoch": 0.0194119596610009,
2876
+ "grad_norm": 1.0536943674087524,
2877
+ "learning_rate": 7.933267006074366e-05,
2878
+ "loss": 1.4844,
2879
+ "step": 410
2880
+ },
2881
+ {
2882
+ "epoch": 0.01945930590407651,
2883
+ "grad_norm": 1.1302292346954346,
2884
+ "learning_rate": 7.923822173595772e-05,
2885
+ "loss": 1.5484,
2886
+ "step": 411
2887
+ },
2888
+ {
2889
+ "epoch": 0.019506652147152123,
2890
+ "grad_norm": 1.0949054956436157,
2891
+ "learning_rate": 7.914361460377755e-05,
2892
+ "loss": 1.5731,
2893
+ "step": 412
2894
+ },
2895
+ {
2896
+ "epoch": 0.019553998390227735,
2897
+ "grad_norm": 1.1493390798568726,
2898
+ "learning_rate": 7.904884917806174e-05,
2899
+ "loss": 1.5251,
2900
+ "step": 413
2901
+ },
2902
+ {
2903
+ "epoch": 0.019601344633303347,
2904
+ "grad_norm": 1.150673270225525,
2905
+ "learning_rate": 7.895392597352869e-05,
2906
+ "loss": 1.4642,
2907
+ "step": 414
2908
+ },
2909
+ {
2910
+ "epoch": 0.01964869087637896,
2911
+ "grad_norm": 1.1738483905792236,
2912
+ "learning_rate": 7.885884550575376e-05,
2913
+ "loss": 1.6378,
2914
+ "step": 415
2915
+ },
2916
+ {
2917
+ "epoch": 0.01969603711945457,
2918
+ "grad_norm": 1.1144845485687256,
2919
+ "learning_rate": 7.876360829116647e-05,
2920
+ "loss": 1.4802,
2921
+ "step": 416
2922
+ },
2923
+ {
2924
+ "epoch": 0.019743383362530183,
2925
+ "grad_norm": 1.1597155332565308,
2926
+ "learning_rate": 7.866821484704776e-05,
2927
+ "loss": 1.4787,
2928
+ "step": 417
2929
+ },
2930
+ {
2931
+ "epoch": 0.019790729605605795,
2932
+ "grad_norm": 1.2034460306167603,
2933
+ "learning_rate": 7.85726656915271e-05,
2934
+ "loss": 1.3434,
2935
+ "step": 418
2936
+ },
2937
+ {
2938
+ "epoch": 0.019838075848681407,
2939
+ "grad_norm": 1.213287115097046,
2940
+ "learning_rate": 7.847696134357966e-05,
2941
+ "loss": 1.5816,
2942
+ "step": 419
2943
+ },
2944
+ {
2945
+ "epoch": 0.01988542209175702,
2946
+ "grad_norm": 1.4430410861968994,
2947
+ "learning_rate": 7.838110232302362e-05,
2948
+ "loss": 1.5156,
2949
+ "step": 420
2950
+ },
2951
+ {
2952
+ "epoch": 0.01993276833483263,
2953
+ "grad_norm": 1.4468246698379517,
2954
+ "learning_rate": 7.828508915051724e-05,
2955
+ "loss": 1.6498,
2956
+ "step": 421
2957
+ },
2958
+ {
2959
+ "epoch": 0.019980114577908242,
2960
+ "grad_norm": 1.3097630739212036,
2961
+ "learning_rate": 7.818892234755599e-05,
2962
+ "loss": 1.7392,
2963
+ "step": 422
2964
+ },
2965
+ {
2966
+ "epoch": 0.020027460820983854,
2967
+ "grad_norm": 1.0946062803268433,
2968
+ "learning_rate": 7.80926024364699e-05,
2969
+ "loss": 1.5731,
2970
+ "step": 423
2971
+ },
2972
+ {
2973
+ "epoch": 0.020074807064059466,
2974
+ "grad_norm": 1.2427587509155273,
2975
+ "learning_rate": 7.799612994042049e-05,
2976
+ "loss": 1.7339,
2977
+ "step": 424
2978
+ },
2979
+ {
2980
+ "epoch": 0.020122153307135078,
2981
+ "grad_norm": 1.1726187467575073,
2982
+ "learning_rate": 7.789950538339812e-05,
2983
+ "loss": 1.6152,
2984
+ "step": 425
2985
+ },
2986
+ {
2987
+ "epoch": 0.02016949955021069,
2988
+ "grad_norm": 1.4452691078186035,
2989
+ "learning_rate": 7.780272929021906e-05,
2990
+ "loss": 1.9271,
2991
+ "step": 426
2992
+ },
2993
+ {
2994
+ "epoch": 0.020216845793286302,
2995
+ "grad_norm": 1.174172282218933,
2996
+ "learning_rate": 7.770580218652261e-05,
2997
+ "loss": 1.5024,
2998
+ "step": 427
2999
+ },
3000
+ {
3001
+ "epoch": 0.020264192036361914,
3002
+ "grad_norm": 1.14840567111969,
3003
+ "learning_rate": 7.760872459876834e-05,
3004
+ "loss": 1.467,
3005
+ "step": 428
3006
+ },
3007
+ {
3008
+ "epoch": 0.020311538279437526,
3009
+ "grad_norm": 1.1591323614120483,
3010
+ "learning_rate": 7.751149705423312e-05,
3011
+ "loss": 1.5206,
3012
+ "step": 429
3013
+ },
3014
+ {
3015
+ "epoch": 0.020358884522513138,
3016
+ "grad_norm": 1.0279210805892944,
3017
+ "learning_rate": 7.741412008100834e-05,
3018
+ "loss": 1.6793,
3019
+ "step": 430
3020
+ },
3021
+ {
3022
+ "epoch": 0.02040623076558875,
3023
+ "grad_norm": 1.0675665140151978,
3024
+ "learning_rate": 7.731659420799703e-05,
3025
+ "loss": 1.2579,
3026
+ "step": 431
3027
+ },
3028
+ {
3029
+ "epoch": 0.02045357700866436,
3030
+ "grad_norm": 1.1949347257614136,
3031
+ "learning_rate": 7.721891996491091e-05,
3032
+ "loss": 1.7004,
3033
+ "step": 432
3034
+ },
3035
+ {
3036
+ "epoch": 0.020500923251739973,
3037
+ "grad_norm": 1.1350997686386108,
3038
+ "learning_rate": 7.712109788226762e-05,
3039
+ "loss": 1.5066,
3040
+ "step": 433
3041
+ },
3042
+ {
3043
+ "epoch": 0.020548269494815585,
3044
+ "grad_norm": 1.492813229560852,
3045
+ "learning_rate": 7.70231284913878e-05,
3046
+ "loss": 1.5321,
3047
+ "step": 434
3048
+ },
3049
+ {
3050
+ "epoch": 0.020595615737891197,
3051
+ "grad_norm": 1.1236470937728882,
3052
+ "learning_rate": 7.692501232439214e-05,
3053
+ "loss": 1.5698,
3054
+ "step": 435
3055
+ },
3056
+ {
3057
+ "epoch": 0.02064296198096681,
3058
+ "grad_norm": 1.1587574481964111,
3059
+ "learning_rate": 7.682674991419861e-05,
3060
+ "loss": 1.5557,
3061
+ "step": 436
3062
+ },
3063
+ {
3064
+ "epoch": 0.02069030822404242,
3065
+ "grad_norm": 1.0571719408035278,
3066
+ "learning_rate": 7.672834179451942e-05,
3067
+ "loss": 1.3085,
3068
+ "step": 437
3069
+ },
3070
+ {
3071
+ "epoch": 0.020737654467118033,
3072
+ "grad_norm": 1.024495005607605,
3073
+ "learning_rate": 7.662978849985829e-05,
3074
+ "loss": 1.4495,
3075
+ "step": 438
3076
+ },
3077
+ {
3078
+ "epoch": 0.020785000710193645,
3079
+ "grad_norm": 1.062393307685852,
3080
+ "learning_rate": 7.653109056550741e-05,
3081
+ "loss": 1.16,
3082
+ "step": 439
3083
+ },
3084
+ {
3085
+ "epoch": 0.020832346953269257,
3086
+ "grad_norm": 1.0015718936920166,
3087
+ "learning_rate": 7.643224852754458e-05,
3088
+ "loss": 1.419,
3089
+ "step": 440
3090
+ },
3091
+ {
3092
+ "epoch": 0.02087969319634487,
3093
+ "grad_norm": 1.134616494178772,
3094
+ "learning_rate": 7.633326292283028e-05,
3095
+ "loss": 1.3081,
3096
+ "step": 441
3097
+ },
3098
+ {
3099
+ "epoch": 0.02092703943942048,
3100
+ "grad_norm": 1.2353401184082031,
3101
+ "learning_rate": 7.623413428900485e-05,
3102
+ "loss": 1.3393,
3103
+ "step": 442
3104
+ },
3105
+ {
3106
+ "epoch": 0.020974385682496093,
3107
+ "grad_norm": 1.1951806545257568,
3108
+ "learning_rate": 7.613486316448539e-05,
3109
+ "loss": 1.4668,
3110
+ "step": 443
3111
+ },
3112
+ {
3113
+ "epoch": 0.021021731925571704,
3114
+ "grad_norm": 1.1466597318649292,
3115
+ "learning_rate": 7.603545008846303e-05,
3116
+ "loss": 1.4044,
3117
+ "step": 444
3118
+ },
3119
+ {
3120
+ "epoch": 0.021069078168647316,
3121
+ "grad_norm": 1.498052716255188,
3122
+ "learning_rate": 7.593589560089985e-05,
3123
+ "loss": 1.4792,
3124
+ "step": 445
3125
+ },
3126
+ {
3127
+ "epoch": 0.02111642441172293,
3128
+ "grad_norm": 1.357369065284729,
3129
+ "learning_rate": 7.5836200242526e-05,
3130
+ "loss": 1.6335,
3131
+ "step": 446
3132
+ },
3133
+ {
3134
+ "epoch": 0.02116377065479854,
3135
+ "grad_norm": 1.073910117149353,
3136
+ "learning_rate": 7.573636455483683e-05,
3137
+ "loss": 1.2684,
3138
+ "step": 447
3139
+ },
3140
+ {
3141
+ "epoch": 0.021211116897874152,
3142
+ "grad_norm": 1.3562556505203247,
3143
+ "learning_rate": 7.563638908008985e-05,
3144
+ "loss": 1.4344,
3145
+ "step": 448
3146
+ },
3147
+ {
3148
+ "epoch": 0.021258463140949764,
3149
+ "grad_norm": 1.2978427410125732,
3150
+ "learning_rate": 7.553627436130183e-05,
3151
+ "loss": 1.3625,
3152
+ "step": 449
3153
+ },
3154
+ {
3155
+ "epoch": 0.021305809384025376,
3156
+ "grad_norm": 1.2368243932724,
3157
+ "learning_rate": 7.543602094224582e-05,
3158
+ "loss": 1.0972,
3159
+ "step": 450
3160
+ },
3161
+ {
3162
+ "epoch": 0.021353155627100988,
3163
+ "grad_norm": 0.983315110206604,
3164
+ "learning_rate": 7.533562936744825e-05,
3165
+ "loss": 1.6439,
3166
+ "step": 451
3167
+ },
3168
+ {
3169
+ "epoch": 0.0214005018701766,
3170
+ "grad_norm": 1.003436803817749,
3171
+ "learning_rate": 7.523510018218593e-05,
3172
+ "loss": 1.6331,
3173
+ "step": 452
3174
+ },
3175
+ {
3176
+ "epoch": 0.021447848113252215,
3177
+ "grad_norm": 0.9159024357795715,
3178
+ "learning_rate": 7.513443393248312e-05,
3179
+ "loss": 1.4203,
3180
+ "step": 453
3181
+ },
3182
+ {
3183
+ "epoch": 0.021495194356327827,
3184
+ "grad_norm": 1.0519555807113647,
3185
+ "learning_rate": 7.503363116510851e-05,
3186
+ "loss": 1.4515,
3187
+ "step": 454
3188
+ },
3189
+ {
3190
+ "epoch": 0.02154254059940344,
3191
+ "grad_norm": 1.0524705648422241,
3192
+ "learning_rate": 7.493269242757233e-05,
3193
+ "loss": 1.5003,
3194
+ "step": 455
3195
+ },
3196
+ {
3197
+ "epoch": 0.02158988684247905,
3198
+ "grad_norm": 1.0478808879852295,
3199
+ "learning_rate": 7.483161826812328e-05,
3200
+ "loss": 1.4334,
3201
+ "step": 456
3202
+ },
3203
+ {
3204
+ "epoch": 0.021637233085554663,
3205
+ "grad_norm": 1.092322826385498,
3206
+ "learning_rate": 7.473040923574567e-05,
3207
+ "loss": 1.4022,
3208
+ "step": 457
3209
+ },
3210
+ {
3211
+ "epoch": 0.021684579328630275,
3212
+ "grad_norm": 1.1703879833221436,
3213
+ "learning_rate": 7.46290658801563e-05,
3214
+ "loss": 1.7451,
3215
+ "step": 458
3216
+ },
3217
+ {
3218
+ "epoch": 0.021731925571705887,
3219
+ "grad_norm": 1.0476280450820923,
3220
+ "learning_rate": 7.45275887518016e-05,
3221
+ "loss": 1.5566,
3222
+ "step": 459
3223
+ },
3224
+ {
3225
+ "epoch": 0.0217792718147815,
3226
+ "grad_norm": 1.0837757587432861,
3227
+ "learning_rate": 7.442597840185456e-05,
3228
+ "loss": 1.6164,
3229
+ "step": 460
3230
+ },
3231
+ {
3232
+ "epoch": 0.02182661805785711,
3233
+ "grad_norm": 1.053000569343567,
3234
+ "learning_rate": 7.432423538221178e-05,
3235
+ "loss": 1.3632,
3236
+ "step": 461
3237
+ },
3238
+ {
3239
+ "epoch": 0.021873964300932722,
3240
+ "grad_norm": 1.14542555809021,
3241
+ "learning_rate": 7.422236024549043e-05,
3242
+ "loss": 1.3115,
3243
+ "step": 462
3244
+ },
3245
+ {
3246
+ "epoch": 0.021921310544008334,
3247
+ "grad_norm": 1.0363187789916992,
3248
+ "learning_rate": 7.412035354502532e-05,
3249
+ "loss": 1.1298,
3250
+ "step": 463
3251
+ },
3252
+ {
3253
+ "epoch": 0.021968656787083946,
3254
+ "grad_norm": 1.152509093284607,
3255
+ "learning_rate": 7.401821583486576e-05,
3256
+ "loss": 1.6052,
3257
+ "step": 464
3258
+ },
3259
+ {
3260
+ "epoch": 0.022016003030159558,
3261
+ "grad_norm": 1.1238806247711182,
3262
+ "learning_rate": 7.391594766977277e-05,
3263
+ "loss": 1.3573,
3264
+ "step": 465
3265
+ },
3266
+ {
3267
+ "epoch": 0.02206334927323517,
3268
+ "grad_norm": 1.072085976600647,
3269
+ "learning_rate": 7.381354960521582e-05,
3270
+ "loss": 1.4479,
3271
+ "step": 466
3272
+ },
3273
+ {
3274
+ "epoch": 0.022110695516310782,
3275
+ "grad_norm": 1.342141032218933,
3276
+ "learning_rate": 7.371102219737e-05,
3277
+ "loss": 1.6094,
3278
+ "step": 467
3279
+ },
3280
+ {
3281
+ "epoch": 0.022158041759386394,
3282
+ "grad_norm": 1.165441870689392,
3283
+ "learning_rate": 7.360836600311286e-05,
3284
+ "loss": 1.589,
3285
+ "step": 468
3286
+ },
3287
+ {
3288
+ "epoch": 0.022205388002462006,
3289
+ "grad_norm": 1.105671763420105,
3290
+ "learning_rate": 7.350558158002154e-05,
3291
+ "loss": 1.5632,
3292
+ "step": 469
3293
+ },
3294
+ {
3295
+ "epoch": 0.022252734245537618,
3296
+ "grad_norm": 1.151079535484314,
3297
+ "learning_rate": 7.340266948636957e-05,
3298
+ "loss": 1.5647,
3299
+ "step": 470
3300
+ },
3301
+ {
3302
+ "epoch": 0.02230008048861323,
3303
+ "grad_norm": 1.3369741439819336,
3304
+ "learning_rate": 7.329963028112398e-05,
3305
+ "loss": 1.7085,
3306
+ "step": 471
3307
+ },
3308
+ {
3309
+ "epoch": 0.02234742673168884,
3310
+ "grad_norm": 1.3554760217666626,
3311
+ "learning_rate": 7.31964645239422e-05,
3312
+ "loss": 1.7893,
3313
+ "step": 472
3314
+ },
3315
+ {
3316
+ "epoch": 0.022394772974764453,
3317
+ "grad_norm": 1.2745559215545654,
3318
+ "learning_rate": 7.3093172775169e-05,
3319
+ "loss": 1.5171,
3320
+ "step": 473
3321
+ },
3322
+ {
3323
+ "epoch": 0.022442119217840065,
3324
+ "grad_norm": 1.1908695697784424,
3325
+ "learning_rate": 7.298975559583348e-05,
3326
+ "loss": 1.6895,
3327
+ "step": 474
3328
+ },
3329
+ {
3330
+ "epoch": 0.022489465460915677,
3331
+ "grad_norm": 1.2285094261169434,
3332
+ "learning_rate": 7.288621354764604e-05,
3333
+ "loss": 1.7527,
3334
+ "step": 475
3335
+ },
3336
+ {
3337
+ "epoch": 0.02253681170399129,
3338
+ "grad_norm": 2.27028489112854,
3339
+ "learning_rate": 7.278254719299528e-05,
3340
+ "loss": 1.671,
3341
+ "step": 476
3342
+ },
3343
+ {
3344
+ "epoch": 0.0225841579470669,
3345
+ "grad_norm": 1.16270911693573,
3346
+ "learning_rate": 7.267875709494499e-05,
3347
+ "loss": 1.5574,
3348
+ "step": 477
3349
+ },
3350
+ {
3351
+ "epoch": 0.022631504190142513,
3352
+ "grad_norm": 1.2359905242919922,
3353
+ "learning_rate": 7.257484381723107e-05,
3354
+ "loss": 1.8739,
3355
+ "step": 478
3356
+ },
3357
+ {
3358
+ "epoch": 0.022678850433218125,
3359
+ "grad_norm": 1.1558997631072998,
3360
+ "learning_rate": 7.247080792425844e-05,
3361
+ "loss": 1.7564,
3362
+ "step": 479
3363
+ },
3364
+ {
3365
+ "epoch": 0.022726196676293737,
3366
+ "grad_norm": 1.1397159099578857,
3367
+ "learning_rate": 7.236664998109803e-05,
3368
+ "loss": 1.5661,
3369
+ "step": 480
3370
+ },
3371
+ {
3372
+ "epoch": 0.02277354291936935,
3373
+ "grad_norm": 1.050812840461731,
3374
+ "learning_rate": 7.22623705534837e-05,
3375
+ "loss": 1.4053,
3376
+ "step": 481
3377
+ },
3378
+ {
3379
+ "epoch": 0.02282088916244496,
3380
+ "grad_norm": 1.070478916168213,
3381
+ "learning_rate": 7.21579702078091e-05,
3382
+ "loss": 1.5102,
3383
+ "step": 482
3384
+ },
3385
+ {
3386
+ "epoch": 0.022868235405520573,
3387
+ "grad_norm": 1.0024526119232178,
3388
+ "learning_rate": 7.205344951112474e-05,
3389
+ "loss": 1.631,
3390
+ "step": 483
3391
+ },
3392
+ {
3393
+ "epoch": 0.022915581648596185,
3394
+ "grad_norm": 1.031777024269104,
3395
+ "learning_rate": 7.194880903113471e-05,
3396
+ "loss": 1.5878,
3397
+ "step": 484
3398
+ },
3399
+ {
3400
+ "epoch": 0.022962927891671796,
3401
+ "grad_norm": 1.2618625164031982,
3402
+ "learning_rate": 7.184404933619377e-05,
3403
+ "loss": 1.6548,
3404
+ "step": 485
3405
+ },
3406
+ {
3407
+ "epoch": 0.02301027413474741,
3408
+ "grad_norm": 1.1872750520706177,
3409
+ "learning_rate": 7.173917099530418e-05,
3410
+ "loss": 1.7397,
3411
+ "step": 486
3412
+ },
3413
+ {
3414
+ "epoch": 0.02305762037782302,
3415
+ "grad_norm": 1.1944125890731812,
3416
+ "learning_rate": 7.163417457811261e-05,
3417
+ "loss": 1.6646,
3418
+ "step": 487
3419
+ },
3420
+ {
3421
+ "epoch": 0.023104966620898632,
3422
+ "grad_norm": 1.050458312034607,
3423
+ "learning_rate": 7.152906065490708e-05,
3424
+ "loss": 1.3215,
3425
+ "step": 488
3426
+ },
3427
+ {
3428
+ "epoch": 0.023152312863974244,
3429
+ "grad_norm": 0.999083936214447,
3430
+ "learning_rate": 7.142382979661386e-05,
3431
+ "loss": 1.3683,
3432
+ "step": 489
3433
+ },
3434
+ {
3435
+ "epoch": 0.023199659107049856,
3436
+ "grad_norm": 1.1480274200439453,
3437
+ "learning_rate": 7.13184825747943e-05,
3438
+ "loss": 1.4883,
3439
+ "step": 490
3440
+ },
3441
+ {
3442
+ "epoch": 0.023247005350125468,
3443
+ "grad_norm": 1.0551904439926147,
3444
+ "learning_rate": 7.121301956164184e-05,
3445
+ "loss": 1.462,
3446
+ "step": 491
3447
+ },
3448
+ {
3449
+ "epoch": 0.02329435159320108,
3450
+ "grad_norm": 1.1817728281021118,
3451
+ "learning_rate": 7.110744132997877e-05,
3452
+ "loss": 1.4887,
3453
+ "step": 492
3454
+ },
3455
+ {
3456
+ "epoch": 0.023341697836276692,
3457
+ "grad_norm": 1.1094098091125488,
3458
+ "learning_rate": 7.100174845325327e-05,
3459
+ "loss": 1.4593,
3460
+ "step": 493
3461
+ },
3462
+ {
3463
+ "epoch": 0.023389044079352304,
3464
+ "grad_norm": 1.0678788423538208,
3465
+ "learning_rate": 7.089594150553615e-05,
3466
+ "loss": 1.3145,
3467
+ "step": 494
3468
+ },
3469
+ {
3470
+ "epoch": 0.023436390322427916,
3471
+ "grad_norm": 1.2436941862106323,
3472
+ "learning_rate": 7.079002106151782e-05,
3473
+ "loss": 1.3822,
3474
+ "step": 495
3475
+ },
3476
+ {
3477
+ "epoch": 0.023483736565503528,
3478
+ "grad_norm": 1.3193278312683105,
3479
+ "learning_rate": 7.068398769650516e-05,
3480
+ "loss": 1.5251,
3481
+ "step": 496
3482
+ },
3483
+ {
3484
+ "epoch": 0.02353108280857914,
3485
+ "grad_norm": 1.4025723934173584,
3486
+ "learning_rate": 7.057784198641834e-05,
3487
+ "loss": 1.3896,
3488
+ "step": 497
3489
+ },
3490
+ {
3491
+ "epoch": 0.02357842905165475,
3492
+ "grad_norm": 1.537299394607544,
3493
+ "learning_rate": 7.047158450778782e-05,
3494
+ "loss": 1.6854,
3495
+ "step": 498
3496
+ },
3497
+ {
3498
+ "epoch": 0.023625775294730363,
3499
+ "grad_norm": 1.4015412330627441,
3500
+ "learning_rate": 7.036521583775099e-05,
3501
+ "loss": 1.6335,
3502
+ "step": 499
3503
+ },
3504
+ {
3505
+ "epoch": 0.023673121537805975,
3506
+ "grad_norm": 1.3199678659439087,
3507
+ "learning_rate": 7.025873655404931e-05,
3508
+ "loss": 1.0554,
3509
+ "step": 500
3510
+ },
3511
+ {
3512
+ "epoch": 0.023720467780881587,
3513
+ "grad_norm": 1.0300636291503906,
3514
+ "learning_rate": 7.015214723502496e-05,
3515
+ "loss": 1.854,
3516
+ "step": 501
3517
+ },
3518
+ {
3519
+ "epoch": 0.0237678140239572,
3520
+ "grad_norm": 1.021327018737793,
3521
+ "learning_rate": 7.00454484596178e-05,
3522
+ "loss": 1.5568,
3523
+ "step": 502
3524
+ },
3525
+ {
3526
+ "epoch": 0.02381516026703281,
3527
+ "grad_norm": 1.1301056146621704,
3528
+ "learning_rate": 6.99386408073622e-05,
3529
+ "loss": 1.703,
3530
+ "step": 503
3531
+ },
3532
+ {
3533
+ "epoch": 0.023862506510108423,
3534
+ "grad_norm": 1.0863914489746094,
3535
+ "learning_rate": 6.983172485838394e-05,
3536
+ "loss": 1.4904,
3537
+ "step": 504
3538
+ },
3539
+ {
3540
+ "epoch": 0.023909852753184035,
3541
+ "grad_norm": 1.0221482515335083,
3542
+ "learning_rate": 6.972470119339691e-05,
3543
+ "loss": 1.5025,
3544
+ "step": 505
3545
+ },
3546
+ {
3547
+ "epoch": 0.023957198996259647,
3548
+ "grad_norm": 0.9677168726921082,
3549
+ "learning_rate": 6.961757039370016e-05,
3550
+ "loss": 1.5255,
3551
+ "step": 506
3552
+ },
3553
+ {
3554
+ "epoch": 0.02400454523933526,
3555
+ "grad_norm": 1.0375566482543945,
3556
+ "learning_rate": 6.951033304117458e-05,
3557
+ "loss": 1.4896,
3558
+ "step": 507
3559
+ },
3560
+ {
3561
+ "epoch": 0.02405189148241087,
3562
+ "grad_norm": 1.0411720275878906,
3563
+ "learning_rate": 6.940298971827985e-05,
3564
+ "loss": 1.4138,
3565
+ "step": 508
3566
+ },
3567
+ {
3568
+ "epoch": 0.024099237725486482,
3569
+ "grad_norm": 0.9705979824066162,
3570
+ "learning_rate": 6.929554100805118e-05,
3571
+ "loss": 1.3712,
3572
+ "step": 509
3573
+ },
3574
+ {
3575
+ "epoch": 0.024146583968562094,
3576
+ "grad_norm": 1.141237735748291,
3577
+ "learning_rate": 6.91879874940962e-05,
3578
+ "loss": 1.4621,
3579
+ "step": 510
3580
+ },
3581
+ {
3582
+ "epoch": 0.024193930211637706,
3583
+ "grad_norm": 1.0020304918289185,
3584
+ "learning_rate": 6.908032976059183e-05,
3585
+ "loss": 1.3593,
3586
+ "step": 511
3587
+ },
3588
+ {
3589
+ "epoch": 0.024241276454713318,
3590
+ "grad_norm": 1.116170048713684,
3591
+ "learning_rate": 6.897256839228101e-05,
3592
+ "loss": 1.3145,
3593
+ "step": 512
3594
+ },
3595
+ {
3596
+ "epoch": 0.02428862269778893,
3597
+ "grad_norm": 1.0256245136260986,
3598
+ "learning_rate": 6.886470397446958e-05,
3599
+ "loss": 1.195,
3600
+ "step": 513
3601
+ },
3602
+ {
3603
+ "epoch": 0.024335968940864542,
3604
+ "grad_norm": 1.0521621704101562,
3605
+ "learning_rate": 6.875673709302311e-05,
3606
+ "loss": 1.4941,
3607
+ "step": 514
3608
+ },
3609
+ {
3610
+ "epoch": 0.024383315183940154,
3611
+ "grad_norm": 1.030476450920105,
3612
+ "learning_rate": 6.864866833436368e-05,
3613
+ "loss": 1.2982,
3614
+ "step": 515
3615
+ },
3616
+ {
3617
+ "epoch": 0.024430661427015766,
3618
+ "grad_norm": 1.0907087326049805,
3619
+ "learning_rate": 6.854049828546674e-05,
3620
+ "loss": 1.4964,
3621
+ "step": 516
3622
+ },
3623
+ {
3624
+ "epoch": 0.024478007670091378,
3625
+ "grad_norm": 1.2865772247314453,
3626
+ "learning_rate": 6.843222753385786e-05,
3627
+ "loss": 1.638,
3628
+ "step": 517
3629
+ },
3630
+ {
3631
+ "epoch": 0.02452535391316699,
3632
+ "grad_norm": 1.044796109199524,
3633
+ "learning_rate": 6.832385666760962e-05,
3634
+ "loss": 1.4634,
3635
+ "step": 518
3636
+ },
3637
+ {
3638
+ "epoch": 0.0245727001562426,
3639
+ "grad_norm": 1.0215106010437012,
3640
+ "learning_rate": 6.821538627533833e-05,
3641
+ "loss": 1.2617,
3642
+ "step": 519
3643
+ },
3644
+ {
3645
+ "epoch": 0.024620046399318214,
3646
+ "grad_norm": 1.2929142713546753,
3647
+ "learning_rate": 6.810681694620093e-05,
3648
+ "loss": 1.5473,
3649
+ "step": 520
3650
+ },
3651
+ {
3652
+ "epoch": 0.024667392642393825,
3653
+ "grad_norm": 1.5338375568389893,
3654
+ "learning_rate": 6.79981492698917e-05,
3655
+ "loss": 1.8097,
3656
+ "step": 521
3657
+ },
3658
+ {
3659
+ "epoch": 0.024714738885469437,
3660
+ "grad_norm": 1.2600690126419067,
3661
+ "learning_rate": 6.78893838366391e-05,
3662
+ "loss": 1.4513,
3663
+ "step": 522
3664
+ },
3665
+ {
3666
+ "epoch": 0.02476208512854505,
3667
+ "grad_norm": 1.225058674812317,
3668
+ "learning_rate": 6.778052123720252e-05,
3669
+ "loss": 1.6699,
3670
+ "step": 523
3671
+ },
3672
+ {
3673
+ "epoch": 0.02480943137162066,
3674
+ "grad_norm": 1.2140684127807617,
3675
+ "learning_rate": 6.767156206286917e-05,
3676
+ "loss": 1.6982,
3677
+ "step": 524
3678
+ },
3679
+ {
3680
+ "epoch": 0.024856777614696273,
3681
+ "grad_norm": 1.104151964187622,
3682
+ "learning_rate": 6.756250690545079e-05,
3683
+ "loss": 1.6381,
3684
+ "step": 525
3685
+ },
3686
+ {
3687
+ "epoch": 0.024904123857771885,
3688
+ "grad_norm": 1.1987253427505493,
3689
+ "learning_rate": 6.745335635728041e-05,
3690
+ "loss": 1.7105,
3691
+ "step": 526
3692
+ },
3693
+ {
3694
+ "epoch": 0.024951470100847497,
3695
+ "grad_norm": 1.0873751640319824,
3696
+ "learning_rate": 6.734411101120924e-05,
3697
+ "loss": 1.6234,
3698
+ "step": 527
3699
+ },
3700
+ {
3701
+ "epoch": 0.02499881634392311,
3702
+ "grad_norm": 1.1724483966827393,
3703
+ "learning_rate": 6.723477146060333e-05,
3704
+ "loss": 1.4267,
3705
+ "step": 528
3706
+ },
3707
+ {
3708
+ "epoch": 0.02504616258699872,
3709
+ "grad_norm": 1.009129285812378,
3710
+ "learning_rate": 6.712533829934042e-05,
3711
+ "loss": 1.347,
3712
+ "step": 529
3713
+ },
3714
+ {
3715
+ "epoch": 0.025093508830074333,
3716
+ "grad_norm": 1.1746597290039062,
3717
+ "learning_rate": 6.701581212180671e-05,
3718
+ "loss": 1.6072,
3719
+ "step": 530
3720
+ },
3721
+ {
3722
+ "epoch": 0.025140855073149945,
3723
+ "grad_norm": 1.082383394241333,
3724
+ "learning_rate": 6.690619352289359e-05,
3725
+ "loss": 1.5734,
3726
+ "step": 531
3727
+ },
3728
+ {
3729
+ "epoch": 0.025188201316225556,
3730
+ "grad_norm": 1.2403680086135864,
3731
+ "learning_rate": 6.679648309799447e-05,
3732
+ "loss": 1.8346,
3733
+ "step": 532
3734
+ },
3735
+ {
3736
+ "epoch": 0.02523554755930117,
3737
+ "grad_norm": 1.135392427444458,
3738
+ "learning_rate": 6.668668144300149e-05,
3739
+ "loss": 1.4422,
3740
+ "step": 533
3741
+ },
3742
+ {
3743
+ "epoch": 0.02528289380237678,
3744
+ "grad_norm": 1.0954493284225464,
3745
+ "learning_rate": 6.65767891543023e-05,
3746
+ "loss": 1.5561,
3747
+ "step": 534
3748
+ },
3749
+ {
3750
+ "epoch": 0.025330240045452392,
3751
+ "grad_norm": 1.1450875997543335,
3752
+ "learning_rate": 6.646680682877687e-05,
3753
+ "loss": 1.4436,
3754
+ "step": 535
3755
+ },
3756
+ {
3757
+ "epoch": 0.025377586288528004,
3758
+ "grad_norm": 1.028868317604065,
3759
+ "learning_rate": 6.635673506379415e-05,
3760
+ "loss": 1.4269,
3761
+ "step": 536
3762
+ },
3763
+ {
3764
+ "epoch": 0.025424932531603616,
3765
+ "grad_norm": 1.1591053009033203,
3766
+ "learning_rate": 6.62465744572089e-05,
3767
+ "loss": 1.4876,
3768
+ "step": 537
3769
+ },
3770
+ {
3771
+ "epoch": 0.025472278774679228,
3772
+ "grad_norm": 1.1316996812820435,
3773
+ "learning_rate": 6.613632560735845e-05,
3774
+ "loss": 1.593,
3775
+ "step": 538
3776
+ },
3777
+ {
3778
+ "epoch": 0.02551962501775484,
3779
+ "grad_norm": 1.2574400901794434,
3780
+ "learning_rate": 6.602598911305938e-05,
3781
+ "loss": 1.5639,
3782
+ "step": 539
3783
+ },
3784
+ {
3785
+ "epoch": 0.025566971260830452,
3786
+ "grad_norm": 1.1778851747512817,
3787
+ "learning_rate": 6.591556557360436e-05,
3788
+ "loss": 1.5958,
3789
+ "step": 540
3790
+ },
3791
+ {
3792
+ "epoch": 0.025614317503906064,
3793
+ "grad_norm": 1.0932775735855103,
3794
+ "learning_rate": 6.580505558875877e-05,
3795
+ "loss": 1.3915,
3796
+ "step": 541
3797
+ },
3798
+ {
3799
+ "epoch": 0.025661663746981676,
3800
+ "grad_norm": 0.9905120134353638,
3801
+ "learning_rate": 6.569445975875763e-05,
3802
+ "loss": 1.2847,
3803
+ "step": 542
3804
+ },
3805
+ {
3806
+ "epoch": 0.025709009990057288,
3807
+ "grad_norm": 1.07041597366333,
3808
+ "learning_rate": 6.558377868430211e-05,
3809
+ "loss": 1.4003,
3810
+ "step": 543
3811
+ },
3812
+ {
3813
+ "epoch": 0.0257563562331329,
3814
+ "grad_norm": 1.1834315061569214,
3815
+ "learning_rate": 6.547301296655647e-05,
3816
+ "loss": 1.4869,
3817
+ "step": 544
3818
+ },
3819
+ {
3820
+ "epoch": 0.02580370247620851,
3821
+ "grad_norm": 1.2603247165679932,
3822
+ "learning_rate": 6.536216320714466e-05,
3823
+ "loss": 1.2922,
3824
+ "step": 545
3825
+ },
3826
+ {
3827
+ "epoch": 0.025851048719284123,
3828
+ "grad_norm": 1.1863409280776978,
3829
+ "learning_rate": 6.525123000814712e-05,
3830
+ "loss": 1.2475,
3831
+ "step": 546
3832
+ },
3833
+ {
3834
+ "epoch": 0.025898394962359735,
3835
+ "grad_norm": 1.3121163845062256,
3836
+ "learning_rate": 6.51402139720975e-05,
3837
+ "loss": 1.3717,
3838
+ "step": 547
3839
+ },
3840
+ {
3841
+ "epoch": 0.025945741205435347,
3842
+ "grad_norm": 1.8999866247177124,
3843
+ "learning_rate": 6.502911570197939e-05,
3844
+ "loss": 1.3112,
3845
+ "step": 548
3846
+ },
3847
+ {
3848
+ "epoch": 0.02599308744851096,
3849
+ "grad_norm": 1.1127601861953735,
3850
+ "learning_rate": 6.491793580122301e-05,
3851
+ "loss": 1.334,
3852
+ "step": 549
3853
+ },
3854
+ {
3855
+ "epoch": 0.02604043369158657,
3856
+ "grad_norm": 1.446142554283142,
3857
+ "learning_rate": 6.480667487370193e-05,
3858
+ "loss": 1.1253,
3859
+ "step": 550
3860
+ },
3861
+ {
3862
+ "epoch": 0.026087779934662183,
3863
+ "grad_norm": 1.0348849296569824,
3864
+ "learning_rate": 6.469533352372989e-05,
3865
+ "loss": 1.7429,
3866
+ "step": 551
3867
+ },
3868
+ {
3869
+ "epoch": 0.026135126177737795,
3870
+ "grad_norm": 1.0058255195617676,
3871
+ "learning_rate": 6.458391235605739e-05,
3872
+ "loss": 1.5335,
3873
+ "step": 552
3874
+ },
3875
+ {
3876
+ "epoch": 0.026182472420813407,
3877
+ "grad_norm": 1.1435742378234863,
3878
+ "learning_rate": 6.447241197586847e-05,
3879
+ "loss": 1.5263,
3880
+ "step": 553
3881
+ },
3882
+ {
3883
+ "epoch": 0.026229818663889022,
3884
+ "grad_norm": 1.0566860437393188,
3885
+ "learning_rate": 6.436083298877744e-05,
3886
+ "loss": 1.3886,
3887
+ "step": 554
3888
+ },
3889
+ {
3890
+ "epoch": 0.026277164906964634,
3891
+ "grad_norm": 1.139036774635315,
3892
+ "learning_rate": 6.424917600082551e-05,
3893
+ "loss": 1.3902,
3894
+ "step": 555
3895
+ },
3896
+ {
3897
+ "epoch": 0.026324511150040246,
3898
+ "grad_norm": 1.220698356628418,
3899
+ "learning_rate": 6.413744161847761e-05,
3900
+ "loss": 1.4474,
3901
+ "step": 556
3902
+ },
3903
+ {
3904
+ "epoch": 0.026371857393115858,
3905
+ "grad_norm": 1.146551489830017,
3906
+ "learning_rate": 6.4025630448619e-05,
3907
+ "loss": 1.5885,
3908
+ "step": 557
3909
+ },
3910
+ {
3911
+ "epoch": 0.02641920363619147,
3912
+ "grad_norm": 1.2537118196487427,
3913
+ "learning_rate": 6.391374309855201e-05,
3914
+ "loss": 1.6038,
3915
+ "step": 558
3916
+ },
3917
+ {
3918
+ "epoch": 0.02646654987926708,
3919
+ "grad_norm": 1.116015076637268,
3920
+ "learning_rate": 6.380178017599276e-05,
3921
+ "loss": 1.4602,
3922
+ "step": 559
3923
+ },
3924
+ {
3925
+ "epoch": 0.026513896122342694,
3926
+ "grad_norm": 1.0770164728164673,
3927
+ "learning_rate": 6.368974228906785e-05,
3928
+ "loss": 1.5029,
3929
+ "step": 560
3930
+ },
3931
+ {
3932
+ "epoch": 0.026561242365418306,
3933
+ "grad_norm": 1.1019155979156494,
3934
+ "learning_rate": 6.357763004631104e-05,
3935
+ "loss": 1.5474,
3936
+ "step": 561
3937
+ },
3938
+ {
3939
+ "epoch": 0.026608588608493917,
3940
+ "grad_norm": 1.127123475074768,
3941
+ "learning_rate": 6.346544405665992e-05,
3942
+ "loss": 1.6436,
3943
+ "step": 562
3944
+ },
3945
+ {
3946
+ "epoch": 0.02665593485156953,
3947
+ "grad_norm": 1.0497205257415771,
3948
+ "learning_rate": 6.335318492945271e-05,
3949
+ "loss": 1.3378,
3950
+ "step": 563
3951
+ },
3952
+ {
3953
+ "epoch": 0.02670328109464514,
3954
+ "grad_norm": 1.2064182758331299,
3955
+ "learning_rate": 6.324085327442477e-05,
3956
+ "loss": 1.3007,
3957
+ "step": 564
3958
+ },
3959
+ {
3960
+ "epoch": 0.026750627337720753,
3961
+ "grad_norm": 1.085641860961914,
3962
+ "learning_rate": 6.31284497017055e-05,
3963
+ "loss": 1.3083,
3964
+ "step": 565
3965
+ },
3966
+ {
3967
+ "epoch": 0.026797973580796365,
3968
+ "grad_norm": 1.1102137565612793,
3969
+ "learning_rate": 6.30159748218149e-05,
3970
+ "loss": 1.3017,
3971
+ "step": 566
3972
+ },
3973
+ {
3974
+ "epoch": 0.026845319823871977,
3975
+ "grad_norm": 1.2144014835357666,
3976
+ "learning_rate": 6.290342924566019e-05,
3977
+ "loss": 1.7009,
3978
+ "step": 567
3979
+ },
3980
+ {
3981
+ "epoch": 0.02689266606694759,
3982
+ "grad_norm": 1.1694127321243286,
3983
+ "learning_rate": 6.279081358453268e-05,
3984
+ "loss": 1.3694,
3985
+ "step": 568
3986
+ },
3987
+ {
3988
+ "epoch": 0.0269400123100232,
3989
+ "grad_norm": 1.145224690437317,
3990
+ "learning_rate": 6.26781284501043e-05,
3991
+ "loss": 1.5255,
3992
+ "step": 569
3993
+ },
3994
+ {
3995
+ "epoch": 0.026987358553098813,
3996
+ "grad_norm": 1.0720521211624146,
3997
+ "learning_rate": 6.256537445442432e-05,
3998
+ "loss": 1.3011,
3999
+ "step": 570
4000
+ },
4001
+ {
4002
+ "epoch": 0.027034704796174425,
4003
+ "grad_norm": 1.1498228311538696,
4004
+ "learning_rate": 6.245255220991606e-05,
4005
+ "loss": 1.6562,
4006
+ "step": 571
4007
+ },
4008
+ {
4009
+ "epoch": 0.027082051039250037,
4010
+ "grad_norm": 1.1388801336288452,
4011
+ "learning_rate": 6.233966232937349e-05,
4012
+ "loss": 1.4365,
4013
+ "step": 572
4014
+ },
4015
+ {
4016
+ "epoch": 0.02712939728232565,
4017
+ "grad_norm": 1.1685620546340942,
4018
+ "learning_rate": 6.2226705425958e-05,
4019
+ "loss": 1.4001,
4020
+ "step": 573
4021
+ },
4022
+ {
4023
+ "epoch": 0.02717674352540126,
4024
+ "grad_norm": 1.1403052806854248,
4025
+ "learning_rate": 6.211368211319495e-05,
4026
+ "loss": 1.584,
4027
+ "step": 574
4028
+ },
4029
+ {
4030
+ "epoch": 0.027224089768476872,
4031
+ "grad_norm": 1.2580426931381226,
4032
+ "learning_rate": 6.200059300497045e-05,
4033
+ "loss": 1.6061,
4034
+ "step": 575
4035
+ },
4036
+ {
4037
+ "epoch": 0.027271436011552484,
4038
+ "grad_norm": 1.106146216392517,
4039
+ "learning_rate": 6.188743871552796e-05,
4040
+ "loss": 1.6067,
4041
+ "step": 576
4042
+ },
4043
+ {
4044
+ "epoch": 0.027318782254628096,
4045
+ "grad_norm": 1.1391223669052124,
4046
+ "learning_rate": 6.177421985946499e-05,
4047
+ "loss": 1.7163,
4048
+ "step": 577
4049
+ },
4050
+ {
4051
+ "epoch": 0.027366128497703708,
4052
+ "grad_norm": 1.0916639566421509,
4053
+ "learning_rate": 6.166093705172971e-05,
4054
+ "loss": 1.4578,
4055
+ "step": 578
4056
+ },
4057
+ {
4058
+ "epoch": 0.02741347474077932,
4059
+ "grad_norm": 1.0076122283935547,
4060
+ "learning_rate": 6.154759090761768e-05,
4061
+ "loss": 1.4665,
4062
+ "step": 579
4063
+ },
4064
+ {
4065
+ "epoch": 0.027460820983854932,
4066
+ "grad_norm": 1.1860275268554688,
4067
+ "learning_rate": 6.143418204276843e-05,
4068
+ "loss": 1.5437,
4069
+ "step": 580
4070
+ },
4071
+ {
4072
+ "epoch": 0.027508167226930544,
4073
+ "grad_norm": 1.1275054216384888,
4074
+ "learning_rate": 6.13207110731622e-05,
4075
+ "loss": 1.6615,
4076
+ "step": 581
4077
+ },
4078
+ {
4079
+ "epoch": 0.027555513470006156,
4080
+ "grad_norm": 1.229531168937683,
4081
+ "learning_rate": 6.120717861511655e-05,
4082
+ "loss": 1.6994,
4083
+ "step": 582
4084
+ },
4085
+ {
4086
+ "epoch": 0.027602859713081768,
4087
+ "grad_norm": 1.1395683288574219,
4088
+ "learning_rate": 6.109358528528296e-05,
4089
+ "loss": 1.6029,
4090
+ "step": 583
4091
+ },
4092
+ {
4093
+ "epoch": 0.02765020595615738,
4094
+ "grad_norm": 1.202475905418396,
4095
+ "learning_rate": 6.09799317006436e-05,
4096
+ "loss": 1.4413,
4097
+ "step": 584
4098
+ },
4099
+ {
4100
+ "epoch": 0.02769755219923299,
4101
+ "grad_norm": 1.087605595588684,
4102
+ "learning_rate": 6.086621847850788e-05,
4103
+ "loss": 1.4957,
4104
+ "step": 585
4105
+ },
4106
+ {
4107
+ "epoch": 0.027744898442308603,
4108
+ "grad_norm": 1.20675790309906,
4109
+ "learning_rate": 6.075244623650913e-05,
4110
+ "loss": 1.487,
4111
+ "step": 586
4112
+ },
4113
+ {
4114
+ "epoch": 0.027792244685384215,
4115
+ "grad_norm": 1.214881181716919,
4116
+ "learning_rate": 6.0638615592601265e-05,
4117
+ "loss": 1.5525,
4118
+ "step": 587
4119
+ },
4120
+ {
4121
+ "epoch": 0.027839590928459827,
4122
+ "grad_norm": 1.6232247352600098,
4123
+ "learning_rate": 6.0524727165055395e-05,
4124
+ "loss": 1.5852,
4125
+ "step": 588
4126
+ },
4127
+ {
4128
+ "epoch": 0.02788693717153544,
4129
+ "grad_norm": 1.1975793838500977,
4130
+ "learning_rate": 6.0410781572456486e-05,
4131
+ "loss": 1.3506,
4132
+ "step": 589
4133
+ },
4134
+ {
4135
+ "epoch": 0.02793428341461105,
4136
+ "grad_norm": 1.2239601612091064,
4137
+ "learning_rate": 6.029677943370001e-05,
4138
+ "loss": 1.3936,
4139
+ "step": 590
4140
+ },
4141
+ {
4142
+ "epoch": 0.027981629657686663,
4143
+ "grad_norm": 1.2145081758499146,
4144
+ "learning_rate": 6.018272136798854e-05,
4145
+ "loss": 1.3082,
4146
+ "step": 591
4147
+ },
4148
+ {
4149
+ "epoch": 0.028028975900762275,
4150
+ "grad_norm": 1.1785577535629272,
4151
+ "learning_rate": 6.006860799482844e-05,
4152
+ "loss": 1.2617,
4153
+ "step": 592
4154
+ },
4155
+ {
4156
+ "epoch": 0.028076322143837887,
4157
+ "grad_norm": 1.4417402744293213,
4158
+ "learning_rate": 5.995443993402647e-05,
4159
+ "loss": 1.3944,
4160
+ "step": 593
4161
+ },
4162
+ {
4163
+ "epoch": 0.0281236683869135,
4164
+ "grad_norm": 1.0939041376113892,
4165
+ "learning_rate": 5.9840217805686426e-05,
4166
+ "loss": 1.322,
4167
+ "step": 594
4168
+ },
4169
+ {
4170
+ "epoch": 0.02817101462998911,
4171
+ "grad_norm": 1.2456567287445068,
4172
+ "learning_rate": 5.972594223020576e-05,
4173
+ "loss": 1.3403,
4174
+ "step": 595
4175
+ },
4176
+ {
4177
+ "epoch": 0.028218360873064723,
4178
+ "grad_norm": 1.145764708518982,
4179
+ "learning_rate": 5.961161382827223e-05,
4180
+ "loss": 1.1613,
4181
+ "step": 596
4182
+ },
4183
+ {
4184
+ "epoch": 0.028265707116140334,
4185
+ "grad_norm": 1.1802617311477661,
4186
+ "learning_rate": 5.949723322086053e-05,
4187
+ "loss": 1.1702,
4188
+ "step": 597
4189
+ },
4190
+ {
4191
+ "epoch": 0.028313053359215946,
4192
+ "grad_norm": 1.3801965713500977,
4193
+ "learning_rate": 5.9382801029228904e-05,
4194
+ "loss": 1.599,
4195
+ "step": 598
4196
+ },
4197
+ {
4198
+ "epoch": 0.02836039960229156,
4199
+ "grad_norm": 1.3491289615631104,
4200
+ "learning_rate": 5.926831787491577e-05,
4201
+ "loss": 1.3966,
4202
+ "step": 599
4203
+ },
4204
+ {
4205
+ "epoch": 0.02840774584536717,
4206
+ "grad_norm": 1.4206387996673584,
4207
+ "learning_rate": 5.9153784379736355e-05,
4208
+ "loss": 1.2928,
4209
+ "step": 600
4210
+ },
4211
+ {
4212
+ "epoch": 0.028455092088442782,
4213
+ "grad_norm": 1.088247299194336,
4214
+ "learning_rate": 5.9039201165779315e-05,
4215
+ "loss": 1.7898,
4216
+ "step": 601
4217
+ },
4218
+ {
4219
+ "epoch": 0.028502438331518394,
4220
+ "grad_norm": 1.12989342212677,
4221
+ "learning_rate": 5.892456885540333e-05,
4222
+ "loss": 1.6844,
4223
+ "step": 602
4224
+ },
4225
+ {
4226
+ "epoch": 0.028549784574594006,
4227
+ "grad_norm": 1.0441310405731201,
4228
+ "learning_rate": 5.8809888071233785e-05,
4229
+ "loss": 1.392,
4230
+ "step": 603
4231
+ },
4232
+ {
4233
+ "epoch": 0.028597130817669618,
4234
+ "grad_norm": 0.9600141048431396,
4235
+ "learning_rate": 5.869515943615932e-05,
4236
+ "loss": 1.5506,
4237
+ "step": 604
4238
+ },
4239
+ {
4240
+ "epoch": 0.02864447706074523,
4241
+ "grad_norm": 1.1483334302902222,
4242
+ "learning_rate": 5.85803835733285e-05,
4243
+ "loss": 1.5322,
4244
+ "step": 605
4245
+ },
4246
+ {
4247
+ "epoch": 0.02869182330382084,
4248
+ "grad_norm": 1.0461188554763794,
4249
+ "learning_rate": 5.8465561106146386e-05,
4250
+ "loss": 1.404,
4251
+ "step": 606
4252
+ },
4253
+ {
4254
+ "epoch": 0.028739169546896454,
4255
+ "grad_norm": 1.073137640953064,
4256
+ "learning_rate": 5.835069265827119e-05,
4257
+ "loss": 1.3054,
4258
+ "step": 607
4259
+ },
4260
+ {
4261
+ "epoch": 0.028786515789972066,
4262
+ "grad_norm": 1.1550793647766113,
4263
+ "learning_rate": 5.8235778853610845e-05,
4264
+ "loss": 1.6782,
4265
+ "step": 608
4266
+ },
4267
+ {
4268
+ "epoch": 0.028833862033047677,
4269
+ "grad_norm": 1.1815844774246216,
4270
+ "learning_rate": 5.812082031631966e-05,
4271
+ "loss": 1.7661,
4272
+ "step": 609
4273
+ },
4274
+ {
4275
+ "epoch": 0.02888120827612329,
4276
+ "grad_norm": 1.0953624248504639,
4277
+ "learning_rate": 5.80058176707949e-05,
4278
+ "loss": 1.3478,
4279
+ "step": 610
4280
+ },
4281
+ {
4282
+ "epoch": 0.0289285545191989,
4283
+ "grad_norm": 0.9961740970611572,
4284
+ "learning_rate": 5.7890771541673415e-05,
4285
+ "loss": 1.1861,
4286
+ "step": 611
4287
+ },
4288
+ {
4289
+ "epoch": 0.028975900762274513,
4290
+ "grad_norm": 1.1952297687530518,
4291
+ "learning_rate": 5.7775682553828224e-05,
4292
+ "loss": 1.5975,
4293
+ "step": 612
4294
+ },
4295
+ {
4296
+ "epoch": 0.029023247005350125,
4297
+ "grad_norm": 1.2598936557769775,
4298
+ "learning_rate": 5.766055133236513e-05,
4299
+ "loss": 1.5,
4300
+ "step": 613
4301
+ },
4302
+ {
4303
+ "epoch": 0.029070593248425737,
4304
+ "grad_norm": 1.236576795578003,
4305
+ "learning_rate": 5.754537850261934e-05,
4306
+ "loss": 1.5108,
4307
+ "step": 614
4308
+ },
4309
+ {
4310
+ "epoch": 0.02911793949150135,
4311
+ "grad_norm": 1.1170661449432373,
4312
+ "learning_rate": 5.743016469015204e-05,
4313
+ "loss": 1.3738,
4314
+ "step": 615
4315
+ },
4316
+ {
4317
+ "epoch": 0.02916528573457696,
4318
+ "grad_norm": 1.0549659729003906,
4319
+ "learning_rate": 5.731491052074704e-05,
4320
+ "loss": 1.3512,
4321
+ "step": 616
4322
+ },
4323
+ {
4324
+ "epoch": 0.029212631977652573,
4325
+ "grad_norm": 1.2418321371078491,
4326
+ "learning_rate": 5.719961662040733e-05,
4327
+ "loss": 1.6309,
4328
+ "step": 617
4329
+ },
4330
+ {
4331
+ "epoch": 0.029259978220728185,
4332
+ "grad_norm": 1.1811386346817017,
4333
+ "learning_rate": 5.7084283615351694e-05,
4334
+ "loss": 1.5017,
4335
+ "step": 618
4336
+ },
4337
+ {
4338
+ "epoch": 0.029307324463803797,
4339
+ "grad_norm": 1.3130184412002563,
4340
+ "learning_rate": 5.6968912132011334e-05,
4341
+ "loss": 1.5756,
4342
+ "step": 619
4343
+ },
4344
+ {
4345
+ "epoch": 0.02935467070687941,
4346
+ "grad_norm": 1.171229362487793,
4347
+ "learning_rate": 5.685350279702641e-05,
4348
+ "loss": 1.3932,
4349
+ "step": 620
4350
+ },
4351
+ {
4352
+ "epoch": 0.02940201694995502,
4353
+ "grad_norm": 1.0718367099761963,
4354
+ "learning_rate": 5.673805623724272e-05,
4355
+ "loss": 1.2716,
4356
+ "step": 621
4357
+ },
4358
+ {
4359
+ "epoch": 0.029449363193030632,
4360
+ "grad_norm": 1.3737154006958008,
4361
+ "learning_rate": 5.662257307970822e-05,
4362
+ "loss": 1.6383,
4363
+ "step": 622
4364
+ },
4365
+ {
4366
+ "epoch": 0.029496709436106244,
4367
+ "grad_norm": 1.2305822372436523,
4368
+ "learning_rate": 5.650705395166964e-05,
4369
+ "loss": 1.6972,
4370
+ "step": 623
4371
+ },
4372
+ {
4373
+ "epoch": 0.029544055679181856,
4374
+ "grad_norm": 1.3053735494613647,
4375
+ "learning_rate": 5.639149948056911e-05,
4376
+ "loss": 1.5476,
4377
+ "step": 624
4378
+ },
4379
+ {
4380
+ "epoch": 0.029591401922257468,
4381
+ "grad_norm": 1.2132328748703003,
4382
+ "learning_rate": 5.627591029404071e-05,
4383
+ "loss": 1.6751,
4384
+ "step": 625
4385
+ },
4386
+ {
4387
+ "epoch": 0.02963874816533308,
4388
+ "grad_norm": 1.1572853326797485,
4389
+ "learning_rate": 5.616028701990708e-05,
4390
+ "loss": 1.7647,
4391
+ "step": 626
4392
+ },
4393
+ {
4394
+ "epoch": 0.029686094408408692,
4395
+ "grad_norm": 1.0607131719589233,
4396
+ "learning_rate": 5.604463028617598e-05,
4397
+ "loss": 1.3218,
4398
+ "step": 627
4399
+ },
4400
+ {
4401
+ "epoch": 0.029733440651484304,
4402
+ "grad_norm": 1.1433614492416382,
4403
+ "learning_rate": 5.592894072103697e-05,
4404
+ "loss": 1.4143,
4405
+ "step": 628
4406
+ },
4407
+ {
4408
+ "epoch": 0.029780786894559916,
4409
+ "grad_norm": 1.2053921222686768,
4410
+ "learning_rate": 5.581321895285787e-05,
4411
+ "loss": 1.5408,
4412
+ "step": 629
4413
+ },
4414
+ {
4415
+ "epoch": 0.029828133137635528,
4416
+ "grad_norm": 1.139135479927063,
4417
+ "learning_rate": 5.5697465610181445e-05,
4418
+ "loss": 1.5326,
4419
+ "step": 630
4420
+ },
4421
+ {
4422
+ "epoch": 0.02987547938071114,
4423
+ "grad_norm": 1.0945171117782593,
4424
+ "learning_rate": 5.558168132172194e-05,
4425
+ "loss": 1.5827,
4426
+ "step": 631
4427
+ },
4428
+ {
4429
+ "epoch": 0.02992282562378675,
4430
+ "grad_norm": 1.1602097749710083,
4431
+ "learning_rate": 5.5465866716361704e-05,
4432
+ "loss": 1.5157,
4433
+ "step": 632
4434
+ },
4435
+ {
4436
+ "epoch": 0.029970171866862363,
4437
+ "grad_norm": 1.279569387435913,
4438
+ "learning_rate": 5.535002242314772e-05,
4439
+ "loss": 1.4067,
4440
+ "step": 633
4441
+ },
4442
+ {
4443
+ "epoch": 0.030017518109937975,
4444
+ "grad_norm": 1.4093965291976929,
4445
+ "learning_rate": 5.5234149071288245e-05,
4446
+ "loss": 1.6564,
4447
+ "step": 634
4448
+ },
4449
+ {
4450
+ "epoch": 0.030064864353013587,
4451
+ "grad_norm": 1.4158297777175903,
4452
+ "learning_rate": 5.511824729014936e-05,
4453
+ "loss": 1.5333,
4454
+ "step": 635
4455
+ },
4456
+ {
4457
+ "epoch": 0.0301122105960892,
4458
+ "grad_norm": 1.002573847770691,
4459
+ "learning_rate": 5.500231770925157e-05,
4460
+ "loss": 1.1366,
4461
+ "step": 636
4462
+ },
4463
+ {
4464
+ "epoch": 0.03015955683916481,
4465
+ "grad_norm": 1.1367785930633545,
4466
+ "learning_rate": 5.488636095826636e-05,
4467
+ "loss": 1.2451,
4468
+ "step": 637
4469
+ },
4470
+ {
4471
+ "epoch": 0.030206903082240423,
4472
+ "grad_norm": 1.1791261434555054,
4473
+ "learning_rate": 5.477037766701278e-05,
4474
+ "loss": 1.3949,
4475
+ "step": 638
4476
+ },
4477
+ {
4478
+ "epoch": 0.030254249325316035,
4479
+ "grad_norm": 1.093300700187683,
4480
+ "learning_rate": 5.465436846545407e-05,
4481
+ "loss": 1.3358,
4482
+ "step": 639
4483
+ },
4484
+ {
4485
+ "epoch": 0.030301595568391647,
4486
+ "grad_norm": 1.2502402067184448,
4487
+ "learning_rate": 5.453833398369419e-05,
4488
+ "loss": 1.535,
4489
+ "step": 640
4490
+ },
4491
+ {
4492
+ "epoch": 0.03034894181146726,
4493
+ "grad_norm": 1.2500826120376587,
4494
+ "learning_rate": 5.442227485197435e-05,
4495
+ "loss": 1.5574,
4496
+ "step": 641
4497
+ },
4498
+ {
4499
+ "epoch": 0.03039628805454287,
4500
+ "grad_norm": 1.234018325805664,
4501
+ "learning_rate": 5.430619170066975e-05,
4502
+ "loss": 1.2698,
4503
+ "step": 642
4504
+ },
4505
+ {
4506
+ "epoch": 0.030443634297618483,
4507
+ "grad_norm": 1.372062087059021,
4508
+ "learning_rate": 5.419008516028596e-05,
4509
+ "loss": 1.3608,
4510
+ "step": 643
4511
+ },
4512
+ {
4513
+ "epoch": 0.030490980540694095,
4514
+ "grad_norm": 1.2977724075317383,
4515
+ "learning_rate": 5.407395586145566e-05,
4516
+ "loss": 1.1454,
4517
+ "step": 644
4518
+ },
4519
+ {
4520
+ "epoch": 0.030538326783769706,
4521
+ "grad_norm": 1.3347288370132446,
4522
+ "learning_rate": 5.395780443493508e-05,
4523
+ "loss": 1.6372,
4524
+ "step": 645
4525
+ },
4526
+ {
4527
+ "epoch": 0.03058567302684532,
4528
+ "grad_norm": 1.4768805503845215,
4529
+ "learning_rate": 5.384163151160068e-05,
4530
+ "loss": 1.5887,
4531
+ "step": 646
4532
+ },
4533
+ {
4534
+ "epoch": 0.03063301926992093,
4535
+ "grad_norm": 1.2934019565582275,
4536
+ "learning_rate": 5.3725437722445656e-05,
4537
+ "loss": 1.3144,
4538
+ "step": 647
4539
+ },
4540
+ {
4541
+ "epoch": 0.030680365512996542,
4542
+ "grad_norm": 1.254329800605774,
4543
+ "learning_rate": 5.360922369857655e-05,
4544
+ "loss": 1.2691,
4545
+ "step": 648
4546
+ },
4547
+ {
4548
+ "epoch": 0.030727711756072154,
4549
+ "grad_norm": 1.3698008060455322,
4550
+ "learning_rate": 5.3492990071209806e-05,
4551
+ "loss": 1.2337,
4552
+ "step": 649
4553
+ },
4554
+ {
4555
+ "epoch": 0.030775057999147766,
4556
+ "grad_norm": 1.4372755289077759,
4557
+ "learning_rate": 5.337673747166834e-05,
4558
+ "loss": 1.1736,
4559
+ "step": 650
4560
+ },
4561
+ {
4562
+ "epoch": 0.030822404242223378,
4563
+ "grad_norm": 1.0708941221237183,
4564
+ "learning_rate": 5.3260466531378106e-05,
4565
+ "loss": 1.6468,
4566
+ "step": 651
4567
+ },
4568
+ {
4569
+ "epoch": 0.03086975048529899,
4570
+ "grad_norm": 1.1300220489501953,
4571
+ "learning_rate": 5.314417788186471e-05,
4572
+ "loss": 1.6485,
4573
+ "step": 652
4574
+ },
4575
+ {
4576
+ "epoch": 0.030917096728374602,
4577
+ "grad_norm": 1.0736169815063477,
4578
+ "learning_rate": 5.3027872154749915e-05,
4579
+ "loss": 1.3527,
4580
+ "step": 653
4581
+ },
4582
+ {
4583
+ "epoch": 0.030964442971450217,
4584
+ "grad_norm": 1.1438918113708496,
4585
+ "learning_rate": 5.291154998174824e-05,
4586
+ "loss": 1.4718,
4587
+ "step": 654
4588
+ },
4589
+ {
4590
+ "epoch": 0.03101178921452583,
4591
+ "grad_norm": 1.1480180025100708,
4592
+ "learning_rate": 5.279521199466356e-05,
4593
+ "loss": 1.6733,
4594
+ "step": 655
4595
+ },
4596
+ {
4597
+ "epoch": 0.03105913545760144,
4598
+ "grad_norm": 1.0300452709197998,
4599
+ "learning_rate": 5.2678858825385604e-05,
4600
+ "loss": 1.1472,
4601
+ "step": 656
4602
+ },
4603
+ {
4604
+ "epoch": 0.031106481700677053,
4605
+ "grad_norm": 1.1770920753479004,
4606
+ "learning_rate": 5.256249110588659e-05,
4607
+ "loss": 1.5572,
4608
+ "step": 657
4609
+ },
4610
+ {
4611
+ "epoch": 0.031153827943752665,
4612
+ "grad_norm": 1.1315271854400635,
4613
+ "learning_rate": 5.244610946821776e-05,
4614
+ "loss": 1.4018,
4615
+ "step": 658
4616
+ },
4617
+ {
4618
+ "epoch": 0.031201174186828277,
4619
+ "grad_norm": 1.072265386581421,
4620
+ "learning_rate": 5.232971454450595e-05,
4621
+ "loss": 1.3648,
4622
+ "step": 659
4623
+ },
4624
+ {
4625
+ "epoch": 0.03124852042990389,
4626
+ "grad_norm": 1.0530691146850586,
4627
+ "learning_rate": 5.2213306966950146e-05,
4628
+ "loss": 1.3735,
4629
+ "step": 660
4630
+ },
4631
+ {
4632
+ "epoch": 0.0312958666729795,
4633
+ "grad_norm": 1.23915433883667,
4634
+ "learning_rate": 5.2096887367818105e-05,
4635
+ "loss": 1.6796,
4636
+ "step": 661
4637
+ },
4638
+ {
4639
+ "epoch": 0.03134321291605511,
4640
+ "grad_norm": 1.2694331407546997,
4641
+ "learning_rate": 5.198045637944283e-05,
4642
+ "loss": 1.4603,
4643
+ "step": 662
4644
+ },
4645
+ {
4646
+ "epoch": 0.03139055915913072,
4647
+ "grad_norm": 1.1831574440002441,
4648
+ "learning_rate": 5.1864014634219214e-05,
4649
+ "loss": 1.0448,
4650
+ "step": 663
4651
+ },
4652
+ {
4653
+ "epoch": 0.03143790540220633,
4654
+ "grad_norm": 1.2854231595993042,
4655
+ "learning_rate": 5.174756276460056e-05,
4656
+ "loss": 1.4597,
4657
+ "step": 664
4658
+ },
4659
+ {
4660
+ "epoch": 0.031485251645281945,
4661
+ "grad_norm": 1.0730315446853638,
4662
+ "learning_rate": 5.1631101403095184e-05,
4663
+ "loss": 1.3382,
4664
+ "step": 665
4665
+ },
4666
+ {
4667
+ "epoch": 0.03153259788835756,
4668
+ "grad_norm": 1.163493275642395,
4669
+ "learning_rate": 5.151463118226294e-05,
4670
+ "loss": 1.3837,
4671
+ "step": 666
4672
+ },
4673
+ {
4674
+ "epoch": 0.03157994413143317,
4675
+ "grad_norm": 1.2980921268463135,
4676
+ "learning_rate": 5.139815273471177e-05,
4677
+ "loss": 1.5276,
4678
+ "step": 667
4679
+ },
4680
+ {
4681
+ "epoch": 0.03162729037450878,
4682
+ "grad_norm": 1.4798357486724854,
4683
+ "learning_rate": 5.128166669309438e-05,
4684
+ "loss": 1.8276,
4685
+ "step": 668
4686
+ },
4687
+ {
4688
+ "epoch": 0.03167463661758439,
4689
+ "grad_norm": 1.2314108610153198,
4690
+ "learning_rate": 5.116517369010466e-05,
4691
+ "loss": 1.3072,
4692
+ "step": 669
4693
+ },
4694
+ {
4695
+ "epoch": 0.031721982860660004,
4696
+ "grad_norm": 1.2994263172149658,
4697
+ "learning_rate": 5.1048674358474325e-05,
4698
+ "loss": 1.5165,
4699
+ "step": 670
4700
+ },
4701
+ {
4702
+ "epoch": 0.031769329103735616,
4703
+ "grad_norm": 1.2647054195404053,
4704
+ "learning_rate": 5.093216933096946e-05,
4705
+ "loss": 1.5609,
4706
+ "step": 671
4707
+ },
4708
+ {
4709
+ "epoch": 0.03181667534681123,
4710
+ "grad_norm": 1.350826382637024,
4711
+ "learning_rate": 5.081565924038711e-05,
4712
+ "loss": 1.6365,
4713
+ "step": 672
4714
+ },
4715
+ {
4716
+ "epoch": 0.03186402158988684,
4717
+ "grad_norm": 1.1930540800094604,
4718
+ "learning_rate": 5.069914471955178e-05,
4719
+ "loss": 1.5473,
4720
+ "step": 673
4721
+ },
4722
+ {
4723
+ "epoch": 0.03191136783296245,
4724
+ "grad_norm": 1.2137759923934937,
4725
+ "learning_rate": 5.058262640131209e-05,
4726
+ "loss": 1.6863,
4727
+ "step": 674
4728
+ },
4729
+ {
4730
+ "epoch": 0.031958714076038064,
4731
+ "grad_norm": 1.1367132663726807,
4732
+ "learning_rate": 5.046610491853724e-05,
4733
+ "loss": 1.5055,
4734
+ "step": 675
4735
+ },
4736
+ {
4737
+ "epoch": 0.032006060319113676,
4738
+ "grad_norm": 1.1324983835220337,
4739
+ "learning_rate": 5.034958090411364e-05,
4740
+ "loss": 1.5342,
4741
+ "step": 676
4742
+ },
4743
+ {
4744
+ "epoch": 0.03205340656218929,
4745
+ "grad_norm": 1.3015636205673218,
4746
+ "learning_rate": 5.023305499094144e-05,
4747
+ "loss": 1.8074,
4748
+ "step": 677
4749
+ },
4750
+ {
4751
+ "epoch": 0.0321007528052649,
4752
+ "grad_norm": 1.1993989944458008,
4753
+ "learning_rate": 5.011652781193111e-05,
4754
+ "loss": 1.7739,
4755
+ "step": 678
4756
  }
4757
  ],
4758
  "logging_steps": 1,
 
4772
  "attributes": {}
4773
  }
4774
  },
4775
+ "total_flos": 1.8593651970854093e+17,
4776
  "train_batch_size": 4,
4777
  "trial_name": null,
4778
  "trial_params": null