error577 commited on
Commit
5268099
·
verified ·
1 Parent(s): 9d0597e

Training in progress, step 2800, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:aa0d8c133c714f34edf8fd03646b382fb067772b39824358b181c490478c15c5
3
  size 194563400
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6346ec9c2fc630afc64a5311517ac2eac6ff1e6833aa739291d31d306c2e24ac
3
  size 194563400
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1f63812690855d22a640c5cbf18f560cb8e411e3935163c4216c799f218c4134
3
  size 99236212
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fc97543ca84f150fd82eecb20b7f437afbe67ece68c3c40adaebe457970950fe
3
  size 99236212
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2ad8b40ccbd1d90b9993c9e93e76cf6eaacd30fba6c62ba8025f7e9c8010a9c7
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:731444cf41158675de327cda9d4feb58be70de92206d441af128616645c8f442
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:78bda13c853eda6c549e792e712b7ded9ffbe2eb192f99f48ebd74566f2e8317
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7e693d8e71f0501dcdfc5100a0c98588ec87421f666980f31a682924adc6da16
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.14199309148997175,
5
  "eval_steps": 200,
6
- "global_step": 2600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -18319,6 +18319,1414 @@
18319
  "eval_samples_per_second": 5.659,
18320
  "eval_steps_per_second": 2.833,
18321
  "step": 2600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
18322
  }
18323
  ],
18324
  "logging_steps": 1,
@@ -18338,7 +19746,7 @@
18338
  "attributes": {}
18339
  }
18340
  },
18341
- "total_flos": 3.664367748907008e+17,
18342
  "train_batch_size": 2,
18343
  "trial_name": null,
18344
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.15291563698920033,
5
  "eval_steps": 200,
6
+ "global_step": 2800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
18319
  "eval_samples_per_second": 5.659,
18320
  "eval_steps_per_second": 2.833,
18321
  "step": 2600
18322
+ },
18323
+ {
18324
+ "epoch": 0.14204770421746787,
18325
+ "grad_norm": 1.9675447940826416,
18326
+ "learning_rate": 0.00019891969667901202,
18327
+ "loss": 1.3125,
18328
+ "step": 2601
18329
+ },
18330
+ {
18331
+ "epoch": 0.14210231694496403,
18332
+ "grad_norm": 1.6557165384292603,
18333
+ "learning_rate": 0.0001989188576574544,
18334
+ "loss": 1.1112,
18335
+ "step": 2602
18336
+ },
18337
+ {
18338
+ "epoch": 0.14215692967246016,
18339
+ "grad_norm": 2.13806414604187,
18340
+ "learning_rate": 0.0001989180183119795,
18341
+ "loss": 1.5006,
18342
+ "step": 2603
18343
+ },
18344
+ {
18345
+ "epoch": 0.14221154239995631,
18346
+ "grad_norm": 1.6992318630218506,
18347
+ "learning_rate": 0.00019891717864259004,
18348
+ "loss": 0.8899,
18349
+ "step": 2604
18350
+ },
18351
+ {
18352
+ "epoch": 0.14226615512745244,
18353
+ "grad_norm": 2.255143165588379,
18354
+ "learning_rate": 0.00019891633864928875,
18355
+ "loss": 1.013,
18356
+ "step": 2605
18357
+ },
18358
+ {
18359
+ "epoch": 0.1423207678549486,
18360
+ "grad_norm": 2.3282182216644287,
18361
+ "learning_rate": 0.0001989154983320784,
18362
+ "loss": 1.1372,
18363
+ "step": 2606
18364
+ },
18365
+ {
18366
+ "epoch": 0.14237538058244473,
18367
+ "grad_norm": 1.3245198726654053,
18368
+ "learning_rate": 0.0001989146576909618,
18369
+ "loss": 1.0781,
18370
+ "step": 2607
18371
+ },
18372
+ {
18373
+ "epoch": 0.14242999330994088,
18374
+ "grad_norm": 1.7864173650741577,
18375
+ "learning_rate": 0.0001989138167259416,
18376
+ "loss": 0.994,
18377
+ "step": 2608
18378
+ },
18379
+ {
18380
+ "epoch": 0.142484606037437,
18381
+ "grad_norm": 2.287313222885132,
18382
+ "learning_rate": 0.0001989129754370206,
18383
+ "loss": 0.3689,
18384
+ "step": 2609
18385
+ },
18386
+ {
18387
+ "epoch": 0.14253921876493317,
18388
+ "grad_norm": 1.6671093702316284,
18389
+ "learning_rate": 0.00019891213382420162,
18390
+ "loss": 0.7558,
18391
+ "step": 2610
18392
+ },
18393
+ {
18394
+ "epoch": 0.14259383149242932,
18395
+ "grad_norm": 1.979641318321228,
18396
+ "learning_rate": 0.0001989112918874873,
18397
+ "loss": 0.9,
18398
+ "step": 2611
18399
+ },
18400
+ {
18401
+ "epoch": 0.14264844421992545,
18402
+ "grad_norm": 1.8960154056549072,
18403
+ "learning_rate": 0.00019891044962688046,
18404
+ "loss": 0.5069,
18405
+ "step": 2612
18406
+ },
18407
+ {
18408
+ "epoch": 0.1427030569474216,
18409
+ "grad_norm": 2.103856325149536,
18410
+ "learning_rate": 0.00019890960704238385,
18411
+ "loss": 0.6754,
18412
+ "step": 2613
18413
+ },
18414
+ {
18415
+ "epoch": 0.14275766967491774,
18416
+ "grad_norm": 1.8117141723632812,
18417
+ "learning_rate": 0.00019890876413400024,
18418
+ "loss": 0.7098,
18419
+ "step": 2614
18420
+ },
18421
+ {
18422
+ "epoch": 0.1428122824024139,
18423
+ "grad_norm": 1.4500601291656494,
18424
+ "learning_rate": 0.00019890792090173235,
18425
+ "loss": 0.8941,
18426
+ "step": 2615
18427
+ },
18428
+ {
18429
+ "epoch": 0.14286689512991002,
18430
+ "grad_norm": 1.6712303161621094,
18431
+ "learning_rate": 0.000198907077345583,
18432
+ "loss": 0.7895,
18433
+ "step": 2616
18434
+ },
18435
+ {
18436
+ "epoch": 0.14292150785740618,
18437
+ "grad_norm": 1.7938462495803833,
18438
+ "learning_rate": 0.00019890623346555494,
18439
+ "loss": 0.7008,
18440
+ "step": 2617
18441
+ },
18442
+ {
18443
+ "epoch": 0.1429761205849023,
18444
+ "grad_norm": 3.6714251041412354,
18445
+ "learning_rate": 0.00019890538926165086,
18446
+ "loss": 0.9739,
18447
+ "step": 2618
18448
+ },
18449
+ {
18450
+ "epoch": 0.14303073331239846,
18451
+ "grad_norm": 1.5379624366760254,
18452
+ "learning_rate": 0.0001989045447338736,
18453
+ "loss": 1.0084,
18454
+ "step": 2619
18455
+ },
18456
+ {
18457
+ "epoch": 0.1430853460398946,
18458
+ "grad_norm": 2.3418309688568115,
18459
+ "learning_rate": 0.00019890369988222593,
18460
+ "loss": 1.1453,
18461
+ "step": 2620
18462
+ },
18463
+ {
18464
+ "epoch": 0.14313995876739075,
18465
+ "grad_norm": 1.4479302167892456,
18466
+ "learning_rate": 0.00019890285470671056,
18467
+ "loss": 1.0905,
18468
+ "step": 2621
18469
+ },
18470
+ {
18471
+ "epoch": 0.14319457149488687,
18472
+ "grad_norm": 1.6533782482147217,
18473
+ "learning_rate": 0.00019890200920733028,
18474
+ "loss": 0.8396,
18475
+ "step": 2622
18476
+ },
18477
+ {
18478
+ "epoch": 0.14324918422238303,
18479
+ "grad_norm": 2.117384195327759,
18480
+ "learning_rate": 0.00019890116338408791,
18481
+ "loss": 1.1526,
18482
+ "step": 2623
18483
+ },
18484
+ {
18485
+ "epoch": 0.14330379694987916,
18486
+ "grad_norm": 1.9346644878387451,
18487
+ "learning_rate": 0.00019890031723698615,
18488
+ "loss": 0.8882,
18489
+ "step": 2624
18490
+ },
18491
+ {
18492
+ "epoch": 0.14335840967737531,
18493
+ "grad_norm": 2.1802587509155273,
18494
+ "learning_rate": 0.0001988994707660278,
18495
+ "loss": 0.9722,
18496
+ "step": 2625
18497
+ },
18498
+ {
18499
+ "epoch": 0.14341302240487144,
18500
+ "grad_norm": 1.447142243385315,
18501
+ "learning_rate": 0.00019889862397121563,
18502
+ "loss": 0.8026,
18503
+ "step": 2626
18504
+ },
18505
+ {
18506
+ "epoch": 0.1434676351323676,
18507
+ "grad_norm": 2.0532312393188477,
18508
+ "learning_rate": 0.00019889777685255244,
18509
+ "loss": 0.7543,
18510
+ "step": 2627
18511
+ },
18512
+ {
18513
+ "epoch": 0.14352224785986373,
18514
+ "grad_norm": 4.068509101867676,
18515
+ "learning_rate": 0.00019889692941004095,
18516
+ "loss": 0.8926,
18517
+ "step": 2628
18518
+ },
18519
+ {
18520
+ "epoch": 0.14357686058735988,
18521
+ "grad_norm": 3.5306849479675293,
18522
+ "learning_rate": 0.00019889608164368398,
18523
+ "loss": 0.9027,
18524
+ "step": 2629
18525
+ },
18526
+ {
18527
+ "epoch": 0.14363147331485604,
18528
+ "grad_norm": 1.9456961154937744,
18529
+ "learning_rate": 0.00019889523355348426,
18530
+ "loss": 0.642,
18531
+ "step": 2630
18532
+ },
18533
+ {
18534
+ "epoch": 0.14368608604235217,
18535
+ "grad_norm": 2.1192240715026855,
18536
+ "learning_rate": 0.0001988943851394446,
18537
+ "loss": 1.0973,
18538
+ "step": 2631
18539
+ },
18540
+ {
18541
+ "epoch": 0.14374069876984832,
18542
+ "grad_norm": 1.5850498676300049,
18543
+ "learning_rate": 0.00019889353640156778,
18544
+ "loss": 0.6584,
18545
+ "step": 2632
18546
+ },
18547
+ {
18548
+ "epoch": 0.14379531149734445,
18549
+ "grad_norm": 2.097519636154175,
18550
+ "learning_rate": 0.00019889268733985657,
18551
+ "loss": 0.944,
18552
+ "step": 2633
18553
+ },
18554
+ {
18555
+ "epoch": 0.1438499242248406,
18556
+ "grad_norm": 1.3007044792175293,
18557
+ "learning_rate": 0.00019889183795431377,
18558
+ "loss": 0.5068,
18559
+ "step": 2634
18560
+ },
18561
+ {
18562
+ "epoch": 0.14390453695233674,
18563
+ "grad_norm": 2.9998133182525635,
18564
+ "learning_rate": 0.0001988909882449421,
18565
+ "loss": 0.8292,
18566
+ "step": 2635
18567
+ },
18568
+ {
18569
+ "epoch": 0.1439591496798329,
18570
+ "grad_norm": 1.8329561948776245,
18571
+ "learning_rate": 0.00019889013821174445,
18572
+ "loss": 1.0945,
18573
+ "step": 2636
18574
+ },
18575
+ {
18576
+ "epoch": 0.14401376240732902,
18577
+ "grad_norm": 3.1251323223114014,
18578
+ "learning_rate": 0.0001988892878547235,
18579
+ "loss": 0.7789,
18580
+ "step": 2637
18581
+ },
18582
+ {
18583
+ "epoch": 0.14406837513482518,
18584
+ "grad_norm": 1.3007616996765137,
18585
+ "learning_rate": 0.0001988884371738821,
18586
+ "loss": 0.8591,
18587
+ "step": 2638
18588
+ },
18589
+ {
18590
+ "epoch": 0.1441229878623213,
18591
+ "grad_norm": 2.3713624477386475,
18592
+ "learning_rate": 0.000198887586169223,
18593
+ "loss": 0.9803,
18594
+ "step": 2639
18595
+ },
18596
+ {
18597
+ "epoch": 0.14417760058981746,
18598
+ "grad_norm": 2.984135866165161,
18599
+ "learning_rate": 0.000198886734840749,
18600
+ "loss": 0.8772,
18601
+ "step": 2640
18602
+ },
18603
+ {
18604
+ "epoch": 0.1442322133173136,
18605
+ "grad_norm": 2.2852423191070557,
18606
+ "learning_rate": 0.00019888588318846287,
18607
+ "loss": 1.0078,
18608
+ "step": 2641
18609
+ },
18610
+ {
18611
+ "epoch": 0.14428682604480975,
18612
+ "grad_norm": 1.9723005294799805,
18613
+ "learning_rate": 0.00019888503121236743,
18614
+ "loss": 0.8908,
18615
+ "step": 2642
18616
+ },
18617
+ {
18618
+ "epoch": 0.14434143877230587,
18619
+ "grad_norm": 2.2382209300994873,
18620
+ "learning_rate": 0.0001988841789124654,
18621
+ "loss": 0.5707,
18622
+ "step": 2643
18623
+ },
18624
+ {
18625
+ "epoch": 0.14439605149980203,
18626
+ "grad_norm": 3.3436057567596436,
18627
+ "learning_rate": 0.0001988833262887597,
18628
+ "loss": 0.5135,
18629
+ "step": 2644
18630
+ },
18631
+ {
18632
+ "epoch": 0.14445066422729816,
18633
+ "grad_norm": 2.3811473846435547,
18634
+ "learning_rate": 0.00019888247334125302,
18635
+ "loss": 0.8002,
18636
+ "step": 2645
18637
+ },
18638
+ {
18639
+ "epoch": 0.14450527695479432,
18640
+ "grad_norm": 3.048485040664673,
18641
+ "learning_rate": 0.00019888162006994817,
18642
+ "loss": 0.7058,
18643
+ "step": 2646
18644
+ },
18645
+ {
18646
+ "epoch": 0.14455988968229047,
18647
+ "grad_norm": 2.3165524005889893,
18648
+ "learning_rate": 0.00019888076647484794,
18649
+ "loss": 0.5923,
18650
+ "step": 2647
18651
+ },
18652
+ {
18653
+ "epoch": 0.1446145024097866,
18654
+ "grad_norm": 1.5516905784606934,
18655
+ "learning_rate": 0.00019887991255595518,
18656
+ "loss": 0.9048,
18657
+ "step": 2648
18658
+ },
18659
+ {
18660
+ "epoch": 0.14466911513728276,
18661
+ "grad_norm": 2.239407539367676,
18662
+ "learning_rate": 0.0001988790583132726,
18663
+ "loss": 1.1311,
18664
+ "step": 2649
18665
+ },
18666
+ {
18667
+ "epoch": 0.14472372786477888,
18668
+ "grad_norm": 2.23154616355896,
18669
+ "learning_rate": 0.00019887820374680308,
18670
+ "loss": 0.9655,
18671
+ "step": 2650
18672
+ },
18673
+ {
18674
+ "epoch": 0.14477834059227504,
18675
+ "grad_norm": 2.046393632888794,
18676
+ "learning_rate": 0.00019887734885654936,
18677
+ "loss": 1.0438,
18678
+ "step": 2651
18679
+ },
18680
+ {
18681
+ "epoch": 0.14483295331977117,
18682
+ "grad_norm": 2.342525005340576,
18683
+ "learning_rate": 0.00019887649364251427,
18684
+ "loss": 0.7212,
18685
+ "step": 2652
18686
+ },
18687
+ {
18688
+ "epoch": 0.14488756604726732,
18689
+ "grad_norm": 1.5183298587799072,
18690
+ "learning_rate": 0.0001988756381047006,
18691
+ "loss": 1.0687,
18692
+ "step": 2653
18693
+ },
18694
+ {
18695
+ "epoch": 0.14494217877476345,
18696
+ "grad_norm": 1.844386100769043,
18697
+ "learning_rate": 0.00019887478224311114,
18698
+ "loss": 1.0379,
18699
+ "step": 2654
18700
+ },
18701
+ {
18702
+ "epoch": 0.1449967915022596,
18703
+ "grad_norm": 1.4525327682495117,
18704
+ "learning_rate": 0.0001988739260577487,
18705
+ "loss": 0.6351,
18706
+ "step": 2655
18707
+ },
18708
+ {
18709
+ "epoch": 0.14505140422975574,
18710
+ "grad_norm": 2.1992275714874268,
18711
+ "learning_rate": 0.0001988730695486161,
18712
+ "loss": 0.7244,
18713
+ "step": 2656
18714
+ },
18715
+ {
18716
+ "epoch": 0.1451060169572519,
18717
+ "grad_norm": 2.515889883041382,
18718
+ "learning_rate": 0.00019887221271571614,
18719
+ "loss": 0.9762,
18720
+ "step": 2657
18721
+ },
18722
+ {
18723
+ "epoch": 0.14516062968474802,
18724
+ "grad_norm": 2.3240787982940674,
18725
+ "learning_rate": 0.00019887135555905162,
18726
+ "loss": 0.789,
18727
+ "step": 2658
18728
+ },
18729
+ {
18730
+ "epoch": 0.14521524241224418,
18731
+ "grad_norm": 3.129967451095581,
18732
+ "learning_rate": 0.00019887049807862535,
18733
+ "loss": 0.8144,
18734
+ "step": 2659
18735
+ },
18736
+ {
18737
+ "epoch": 0.1452698551397403,
18738
+ "grad_norm": 2.8204922676086426,
18739
+ "learning_rate": 0.0001988696402744401,
18740
+ "loss": 0.634,
18741
+ "step": 2660
18742
+ },
18743
+ {
18744
+ "epoch": 0.14532446786723646,
18745
+ "grad_norm": 1.9979032278060913,
18746
+ "learning_rate": 0.00019886878214649874,
18747
+ "loss": 0.197,
18748
+ "step": 2661
18749
+ },
18750
+ {
18751
+ "epoch": 0.1453790805947326,
18752
+ "grad_norm": 1.5281023979187012,
18753
+ "learning_rate": 0.00019886792369480405,
18754
+ "loss": 1.0516,
18755
+ "step": 2662
18756
+ },
18757
+ {
18758
+ "epoch": 0.14543369332222875,
18759
+ "grad_norm": 1.9274574518203735,
18760
+ "learning_rate": 0.00019886706491935882,
18761
+ "loss": 1.0132,
18762
+ "step": 2663
18763
+ },
18764
+ {
18765
+ "epoch": 0.14548830604972487,
18766
+ "grad_norm": 1.901302695274353,
18767
+ "learning_rate": 0.00019886620582016594,
18768
+ "loss": 0.5818,
18769
+ "step": 2664
18770
+ },
18771
+ {
18772
+ "epoch": 0.14554291877722103,
18773
+ "grad_norm": 2.557666778564453,
18774
+ "learning_rate": 0.00019886534639722812,
18775
+ "loss": 1.0113,
18776
+ "step": 2665
18777
+ },
18778
+ {
18779
+ "epoch": 0.1455975315047172,
18780
+ "grad_norm": 1.5517172813415527,
18781
+ "learning_rate": 0.00019886448665054824,
18782
+ "loss": 1.6449,
18783
+ "step": 2666
18784
+ },
18785
+ {
18786
+ "epoch": 0.14565214423221332,
18787
+ "grad_norm": 2.8510541915893555,
18788
+ "learning_rate": 0.0001988636265801291,
18789
+ "loss": 0.8573,
18790
+ "step": 2667
18791
+ },
18792
+ {
18793
+ "epoch": 0.14570675695970947,
18794
+ "grad_norm": 1.5874429941177368,
18795
+ "learning_rate": 0.00019886276618597348,
18796
+ "loss": 1.3692,
18797
+ "step": 2668
18798
+ },
18799
+ {
18800
+ "epoch": 0.1457613696872056,
18801
+ "grad_norm": 1.4592057466506958,
18802
+ "learning_rate": 0.00019886190546808427,
18803
+ "loss": 0.9496,
18804
+ "step": 2669
18805
+ },
18806
+ {
18807
+ "epoch": 0.14581598241470176,
18808
+ "grad_norm": 2.3567230701446533,
18809
+ "learning_rate": 0.00019886104442646424,
18810
+ "loss": 0.9617,
18811
+ "step": 2670
18812
+ },
18813
+ {
18814
+ "epoch": 0.14587059514219788,
18815
+ "grad_norm": 1.5248456001281738,
18816
+ "learning_rate": 0.0001988601830611162,
18817
+ "loss": 0.953,
18818
+ "step": 2671
18819
+ },
18820
+ {
18821
+ "epoch": 0.14592520786969404,
18822
+ "grad_norm": 1.4352314472198486,
18823
+ "learning_rate": 0.00019885932137204303,
18824
+ "loss": 0.8599,
18825
+ "step": 2672
18826
+ },
18827
+ {
18828
+ "epoch": 0.14597982059719017,
18829
+ "grad_norm": 3.6577091217041016,
18830
+ "learning_rate": 0.0001988584593592475,
18831
+ "loss": 1.0245,
18832
+ "step": 2673
18833
+ },
18834
+ {
18835
+ "epoch": 0.14603443332468632,
18836
+ "grad_norm": 1.7402386665344238,
18837
+ "learning_rate": 0.00019885759702273242,
18838
+ "loss": 0.9609,
18839
+ "step": 2674
18840
+ },
18841
+ {
18842
+ "epoch": 0.14608904605218245,
18843
+ "grad_norm": 2.361206293106079,
18844
+ "learning_rate": 0.00019885673436250068,
18845
+ "loss": 0.8275,
18846
+ "step": 2675
18847
+ },
18848
+ {
18849
+ "epoch": 0.1461436587796786,
18850
+ "grad_norm": 2.393519401550293,
18851
+ "learning_rate": 0.00019885587137855504,
18852
+ "loss": 0.7928,
18853
+ "step": 2676
18854
+ },
18855
+ {
18856
+ "epoch": 0.14619827150717474,
18857
+ "grad_norm": 1.3981091976165771,
18858
+ "learning_rate": 0.00019885500807089837,
18859
+ "loss": 0.5974,
18860
+ "step": 2677
18861
+ },
18862
+ {
18863
+ "epoch": 0.1462528842346709,
18864
+ "grad_norm": 1.4254957437515259,
18865
+ "learning_rate": 0.00019885414443953346,
18866
+ "loss": 0.9874,
18867
+ "step": 2678
18868
+ },
18869
+ {
18870
+ "epoch": 0.14630749696216702,
18871
+ "grad_norm": 2.507106065750122,
18872
+ "learning_rate": 0.00019885328048446313,
18873
+ "loss": 1.4146,
18874
+ "step": 2679
18875
+ },
18876
+ {
18877
+ "epoch": 0.14636210968966318,
18878
+ "grad_norm": 2.2176008224487305,
18879
+ "learning_rate": 0.00019885241620569026,
18880
+ "loss": 1.0837,
18881
+ "step": 2680
18882
+ },
18883
+ {
18884
+ "epoch": 0.1464167224171593,
18885
+ "grad_norm": 2.063263416290283,
18886
+ "learning_rate": 0.00019885155160321764,
18887
+ "loss": 1.0727,
18888
+ "step": 2681
18889
+ },
18890
+ {
18891
+ "epoch": 0.14647133514465546,
18892
+ "grad_norm": 3.1005680561065674,
18893
+ "learning_rate": 0.00019885068667704813,
18894
+ "loss": 0.8213,
18895
+ "step": 2682
18896
+ },
18897
+ {
18898
+ "epoch": 0.14652594787215162,
18899
+ "grad_norm": 1.4112834930419922,
18900
+ "learning_rate": 0.00019884982142718457,
18901
+ "loss": 0.7625,
18902
+ "step": 2683
18903
+ },
18904
+ {
18905
+ "epoch": 0.14658056059964775,
18906
+ "grad_norm": 1.7127093076705933,
18907
+ "learning_rate": 0.00019884895585362973,
18908
+ "loss": 1.052,
18909
+ "step": 2684
18910
+ },
18911
+ {
18912
+ "epoch": 0.1466351733271439,
18913
+ "grad_norm": 2.1003785133361816,
18914
+ "learning_rate": 0.00019884808995638647,
18915
+ "loss": 0.7627,
18916
+ "step": 2685
18917
+ },
18918
+ {
18919
+ "epoch": 0.14668978605464003,
18920
+ "grad_norm": 8.529407501220703,
18921
+ "learning_rate": 0.00019884722373545767,
18922
+ "loss": 0.7729,
18923
+ "step": 2686
18924
+ },
18925
+ {
18926
+ "epoch": 0.1467443987821362,
18927
+ "grad_norm": 4.34306001663208,
18928
+ "learning_rate": 0.00019884635719084616,
18929
+ "loss": 0.5896,
18930
+ "step": 2687
18931
+ },
18932
+ {
18933
+ "epoch": 0.14679901150963232,
18934
+ "grad_norm": 1.8891562223434448,
18935
+ "learning_rate": 0.00019884549032255473,
18936
+ "loss": 0.9795,
18937
+ "step": 2688
18938
+ },
18939
+ {
18940
+ "epoch": 0.14685362423712847,
18941
+ "grad_norm": 2.1428472995758057,
18942
+ "learning_rate": 0.00019884462313058622,
18943
+ "loss": 0.8533,
18944
+ "step": 2689
18945
+ },
18946
+ {
18947
+ "epoch": 0.1469082369646246,
18948
+ "grad_norm": 2.2574172019958496,
18949
+ "learning_rate": 0.00019884375561494353,
18950
+ "loss": 0.5661,
18951
+ "step": 2690
18952
+ },
18953
+ {
18954
+ "epoch": 0.14696284969212076,
18955
+ "grad_norm": 1.9759063720703125,
18956
+ "learning_rate": 0.00019884288777562945,
18957
+ "loss": 1.0536,
18958
+ "step": 2691
18959
+ },
18960
+ {
18961
+ "epoch": 0.14701746241961688,
18962
+ "grad_norm": 1.704126238822937,
18963
+ "learning_rate": 0.00019884201961264687,
18964
+ "loss": 0.6391,
18965
+ "step": 2692
18966
+ },
18967
+ {
18968
+ "epoch": 0.14707207514711304,
18969
+ "grad_norm": 1.8217055797576904,
18970
+ "learning_rate": 0.00019884115112599852,
18971
+ "loss": 0.7117,
18972
+ "step": 2693
18973
+ },
18974
+ {
18975
+ "epoch": 0.14712668787460917,
18976
+ "grad_norm": 2.7498085498809814,
18977
+ "learning_rate": 0.00019884028231568736,
18978
+ "loss": 0.8243,
18979
+ "step": 2694
18980
+ },
18981
+ {
18982
+ "epoch": 0.14718130060210532,
18983
+ "grad_norm": 2.1578738689422607,
18984
+ "learning_rate": 0.00019883941318171622,
18985
+ "loss": 0.932,
18986
+ "step": 2695
18987
+ },
18988
+ {
18989
+ "epoch": 0.14723591332960145,
18990
+ "grad_norm": 1.8477070331573486,
18991
+ "learning_rate": 0.00019883854372408793,
18992
+ "loss": 0.8184,
18993
+ "step": 2696
18994
+ },
18995
+ {
18996
+ "epoch": 0.1472905260570976,
18997
+ "grad_norm": 1.8194098472595215,
18998
+ "learning_rate": 0.00019883767394280528,
18999
+ "loss": 0.9783,
19000
+ "step": 2697
19001
+ },
19002
+ {
19003
+ "epoch": 0.14734513878459374,
19004
+ "grad_norm": 2.446748733520508,
19005
+ "learning_rate": 0.0001988368038378712,
19006
+ "loss": 1.008,
19007
+ "step": 2698
19008
+ },
19009
+ {
19010
+ "epoch": 0.1473997515120899,
19011
+ "grad_norm": 2.314774990081787,
19012
+ "learning_rate": 0.0001988359334092885,
19013
+ "loss": 0.7522,
19014
+ "step": 2699
19015
+ },
19016
+ {
19017
+ "epoch": 0.14745436423958602,
19018
+ "grad_norm": 2.6063055992126465,
19019
+ "learning_rate": 0.00019883506265706006,
19020
+ "loss": 1.0006,
19021
+ "step": 2700
19022
+ },
19023
+ {
19024
+ "epoch": 0.14750897696708218,
19025
+ "grad_norm": 1.985562801361084,
19026
+ "learning_rate": 0.00019883419158118869,
19027
+ "loss": 1.0614,
19028
+ "step": 2701
19029
+ },
19030
+ {
19031
+ "epoch": 0.14756358969457833,
19032
+ "grad_norm": 1.206392526626587,
19033
+ "learning_rate": 0.00019883332018167727,
19034
+ "loss": 0.6942,
19035
+ "step": 2702
19036
+ },
19037
+ {
19038
+ "epoch": 0.14761820242207446,
19039
+ "grad_norm": 1.872355580329895,
19040
+ "learning_rate": 0.0001988324484585286,
19041
+ "loss": 0.9488,
19042
+ "step": 2703
19043
+ },
19044
+ {
19045
+ "epoch": 0.14767281514957062,
19046
+ "grad_norm": 2.8146653175354004,
19047
+ "learning_rate": 0.00019883157641174563,
19048
+ "loss": 1.0682,
19049
+ "step": 2704
19050
+ },
19051
+ {
19052
+ "epoch": 0.14772742787706675,
19053
+ "grad_norm": 2.5133306980133057,
19054
+ "learning_rate": 0.00019883070404133114,
19055
+ "loss": 0.9873,
19056
+ "step": 2705
19057
+ },
19058
+ {
19059
+ "epoch": 0.1477820406045629,
19060
+ "grad_norm": 2.001645565032959,
19061
+ "learning_rate": 0.00019882983134728805,
19062
+ "loss": 0.7692,
19063
+ "step": 2706
19064
+ },
19065
+ {
19066
+ "epoch": 0.14783665333205903,
19067
+ "grad_norm": 1.9411556720733643,
19068
+ "learning_rate": 0.00019882895832961915,
19069
+ "loss": 0.7355,
19070
+ "step": 2707
19071
+ },
19072
+ {
19073
+ "epoch": 0.1478912660595552,
19074
+ "grad_norm": 2.655757188796997,
19075
+ "learning_rate": 0.00019882808498832732,
19076
+ "loss": 1.0771,
19077
+ "step": 2708
19078
+ },
19079
+ {
19080
+ "epoch": 0.14794587878705132,
19081
+ "grad_norm": 2.579369068145752,
19082
+ "learning_rate": 0.00019882721132341544,
19083
+ "loss": 0.5937,
19084
+ "step": 2709
19085
+ },
19086
+ {
19087
+ "epoch": 0.14800049151454747,
19088
+ "grad_norm": 2.166398525238037,
19089
+ "learning_rate": 0.00019882633733488638,
19090
+ "loss": 1.0384,
19091
+ "step": 2710
19092
+ },
19093
+ {
19094
+ "epoch": 0.1480551042420436,
19095
+ "grad_norm": 1.7291511297225952,
19096
+ "learning_rate": 0.00019882546302274294,
19097
+ "loss": 1.0934,
19098
+ "step": 2711
19099
+ },
19100
+ {
19101
+ "epoch": 0.14810971696953976,
19102
+ "grad_norm": 2.123735189437866,
19103
+ "learning_rate": 0.00019882458838698806,
19104
+ "loss": 0.8169,
19105
+ "step": 2712
19106
+ },
19107
+ {
19108
+ "epoch": 0.14816432969703588,
19109
+ "grad_norm": 2.3190250396728516,
19110
+ "learning_rate": 0.00019882371342762456,
19111
+ "loss": 0.6478,
19112
+ "step": 2713
19113
+ },
19114
+ {
19115
+ "epoch": 0.14821894242453204,
19116
+ "grad_norm": 2.296694755554199,
19117
+ "learning_rate": 0.0001988228381446553,
19118
+ "loss": 0.6843,
19119
+ "step": 2714
19120
+ },
19121
+ {
19122
+ "epoch": 0.14827355515202817,
19123
+ "grad_norm": 1.845637559890747,
19124
+ "learning_rate": 0.00019882196253808316,
19125
+ "loss": 0.4689,
19126
+ "step": 2715
19127
+ },
19128
+ {
19129
+ "epoch": 0.14832816787952433,
19130
+ "grad_norm": 2.096134662628174,
19131
+ "learning_rate": 0.00019882108660791101,
19132
+ "loss": 0.97,
19133
+ "step": 2716
19134
+ },
19135
+ {
19136
+ "epoch": 0.14838278060702045,
19137
+ "grad_norm": 1.7246994972229004,
19138
+ "learning_rate": 0.0001988202103541417,
19139
+ "loss": 0.8352,
19140
+ "step": 2717
19141
+ },
19142
+ {
19143
+ "epoch": 0.1484373933345166,
19144
+ "grad_norm": 2.0635170936584473,
19145
+ "learning_rate": 0.00019881933377677814,
19146
+ "loss": 2.1232,
19147
+ "step": 2718
19148
+ },
19149
+ {
19150
+ "epoch": 0.14849200606201277,
19151
+ "grad_norm": 1.880438208580017,
19152
+ "learning_rate": 0.00019881845687582316,
19153
+ "loss": 0.93,
19154
+ "step": 2719
19155
+ },
19156
+ {
19157
+ "epoch": 0.1485466187895089,
19158
+ "grad_norm": 1.7553173303604126,
19159
+ "learning_rate": 0.00019881757965127967,
19160
+ "loss": 1.2541,
19161
+ "step": 2720
19162
+ },
19163
+ {
19164
+ "epoch": 0.14860123151700505,
19165
+ "grad_norm": 2.18910551071167,
19166
+ "learning_rate": 0.00019881670210315048,
19167
+ "loss": 0.8867,
19168
+ "step": 2721
19169
+ },
19170
+ {
19171
+ "epoch": 0.14865584424450118,
19172
+ "grad_norm": 2.082124948501587,
19173
+ "learning_rate": 0.00019881582423143855,
19174
+ "loss": 0.8635,
19175
+ "step": 2722
19176
+ },
19177
+ {
19178
+ "epoch": 0.14871045697199733,
19179
+ "grad_norm": 2.220001220703125,
19180
+ "learning_rate": 0.00019881494603614668,
19181
+ "loss": 1.1001,
19182
+ "step": 2723
19183
+ },
19184
+ {
19185
+ "epoch": 0.14876506969949346,
19186
+ "grad_norm": 1.7460182905197144,
19187
+ "learning_rate": 0.00019881406751727778,
19188
+ "loss": 0.9825,
19189
+ "step": 2724
19190
+ },
19191
+ {
19192
+ "epoch": 0.14881968242698962,
19193
+ "grad_norm": 1.7882492542266846,
19194
+ "learning_rate": 0.0001988131886748347,
19195
+ "loss": 1.0177,
19196
+ "step": 2725
19197
+ },
19198
+ {
19199
+ "epoch": 0.14887429515448575,
19200
+ "grad_norm": 2.2312111854553223,
19201
+ "learning_rate": 0.00019881230950882035,
19202
+ "loss": 1.2631,
19203
+ "step": 2726
19204
+ },
19205
+ {
19206
+ "epoch": 0.1489289078819819,
19207
+ "grad_norm": 1.2826441526412964,
19208
+ "learning_rate": 0.00019881143001923758,
19209
+ "loss": 0.9503,
19210
+ "step": 2727
19211
+ },
19212
+ {
19213
+ "epoch": 0.14898352060947803,
19214
+ "grad_norm": 2.0942203998565674,
19215
+ "learning_rate": 0.00019881055020608935,
19216
+ "loss": 0.9446,
19217
+ "step": 2728
19218
+ },
19219
+ {
19220
+ "epoch": 0.1490381333369742,
19221
+ "grad_norm": 2.280137300491333,
19222
+ "learning_rate": 0.00019880967006937842,
19223
+ "loss": 1.1193,
19224
+ "step": 2729
19225
+ },
19226
+ {
19227
+ "epoch": 0.14909274606447032,
19228
+ "grad_norm": 2.1435365676879883,
19229
+ "learning_rate": 0.00019880878960910772,
19230
+ "loss": 0.9959,
19231
+ "step": 2730
19232
+ },
19233
+ {
19234
+ "epoch": 0.14914735879196647,
19235
+ "grad_norm": 1.857260823249817,
19236
+ "learning_rate": 0.00019880790882528015,
19237
+ "loss": 1.0414,
19238
+ "step": 2731
19239
+ },
19240
+ {
19241
+ "epoch": 0.1492019715194626,
19242
+ "grad_norm": 1.9386374950408936,
19243
+ "learning_rate": 0.0001988070277178986,
19244
+ "loss": 0.7741,
19245
+ "step": 2732
19246
+ },
19247
+ {
19248
+ "epoch": 0.14925658424695876,
19249
+ "grad_norm": 1.4980814456939697,
19250
+ "learning_rate": 0.00019880614628696596,
19251
+ "loss": 1.0318,
19252
+ "step": 2733
19253
+ },
19254
+ {
19255
+ "epoch": 0.14931119697445489,
19256
+ "grad_norm": 2.2667858600616455,
19257
+ "learning_rate": 0.00019880526453248506,
19258
+ "loss": 1.1446,
19259
+ "step": 2734
19260
+ },
19261
+ {
19262
+ "epoch": 0.14936580970195104,
19263
+ "grad_norm": 2.426069498062134,
19264
+ "learning_rate": 0.00019880438245445885,
19265
+ "loss": 0.7961,
19266
+ "step": 2735
19267
+ },
19268
+ {
19269
+ "epoch": 0.14942042242944717,
19270
+ "grad_norm": 2.6500134468078613,
19271
+ "learning_rate": 0.00019880350005289018,
19272
+ "loss": 0.7238,
19273
+ "step": 2736
19274
+ },
19275
+ {
19276
+ "epoch": 0.14947503515694333,
19277
+ "grad_norm": 3.2176504135131836,
19278
+ "learning_rate": 0.00019880261732778198,
19279
+ "loss": 0.4564,
19280
+ "step": 2737
19281
+ },
19282
+ {
19283
+ "epoch": 0.14952964788443948,
19284
+ "grad_norm": 1.931604027748108,
19285
+ "learning_rate": 0.0001988017342791371,
19286
+ "loss": 0.7736,
19287
+ "step": 2738
19288
+ },
19289
+ {
19290
+ "epoch": 0.1495842606119356,
19291
+ "grad_norm": 1.9924472570419312,
19292
+ "learning_rate": 0.00019880085090695843,
19293
+ "loss": 0.8928,
19294
+ "step": 2739
19295
+ },
19296
+ {
19297
+ "epoch": 0.14963887333943177,
19298
+ "grad_norm": 2.5373213291168213,
19299
+ "learning_rate": 0.00019879996721124888,
19300
+ "loss": 0.7367,
19301
+ "step": 2740
19302
+ },
19303
+ {
19304
+ "epoch": 0.1496934860669279,
19305
+ "grad_norm": 1.7311171293258667,
19306
+ "learning_rate": 0.00019879908319201138,
19307
+ "loss": 0.8868,
19308
+ "step": 2741
19309
+ },
19310
+ {
19311
+ "epoch": 0.14974809879442405,
19312
+ "grad_norm": 1.891203761100769,
19313
+ "learning_rate": 0.00019879819884924876,
19314
+ "loss": 0.8156,
19315
+ "step": 2742
19316
+ },
19317
+ {
19318
+ "epoch": 0.14980271152192018,
19319
+ "grad_norm": 1.7081297636032104,
19320
+ "learning_rate": 0.00019879731418296395,
19321
+ "loss": 0.9163,
19322
+ "step": 2743
19323
+ },
19324
+ {
19325
+ "epoch": 0.14985732424941633,
19326
+ "grad_norm": 1.6797429323196411,
19327
+ "learning_rate": 0.00019879642919315982,
19328
+ "loss": 0.8057,
19329
+ "step": 2744
19330
+ },
19331
+ {
19332
+ "epoch": 0.14991193697691246,
19333
+ "grad_norm": 2.0713582038879395,
19334
+ "learning_rate": 0.0001987955438798393,
19335
+ "loss": 0.4786,
19336
+ "step": 2745
19337
+ },
19338
+ {
19339
+ "epoch": 0.14996654970440862,
19340
+ "grad_norm": 1.5857809782028198,
19341
+ "learning_rate": 0.00019879465824300526,
19342
+ "loss": 1.0095,
19343
+ "step": 2746
19344
+ },
19345
+ {
19346
+ "epoch": 0.15002116243190475,
19347
+ "grad_norm": 2.501239776611328,
19348
+ "learning_rate": 0.00019879377228266062,
19349
+ "loss": 1.0176,
19350
+ "step": 2747
19351
+ },
19352
+ {
19353
+ "epoch": 0.1500757751594009,
19354
+ "grad_norm": 1.8433363437652588,
19355
+ "learning_rate": 0.00019879288599880833,
19356
+ "loss": 0.9179,
19357
+ "step": 2748
19358
+ },
19359
+ {
19360
+ "epoch": 0.15013038788689703,
19361
+ "grad_norm": 2.186718702316284,
19362
+ "learning_rate": 0.0001987919993914512,
19363
+ "loss": 0.6716,
19364
+ "step": 2749
19365
+ },
19366
+ {
19367
+ "epoch": 0.1501850006143932,
19368
+ "grad_norm": 2.769829750061035,
19369
+ "learning_rate": 0.00019879111246059216,
19370
+ "loss": 0.606,
19371
+ "step": 2750
19372
+ },
19373
+ {
19374
+ "epoch": 0.15023961334188932,
19375
+ "grad_norm": 2.052267074584961,
19376
+ "learning_rate": 0.00019879022520623413,
19377
+ "loss": 1.1815,
19378
+ "step": 2751
19379
+ },
19380
+ {
19381
+ "epoch": 0.15029422606938547,
19382
+ "grad_norm": 2.4618077278137207,
19383
+ "learning_rate": 0.00019878933762838003,
19384
+ "loss": 0.9444,
19385
+ "step": 2752
19386
+ },
19387
+ {
19388
+ "epoch": 0.1503488387968816,
19389
+ "grad_norm": 1.3105969429016113,
19390
+ "learning_rate": 0.00019878844972703275,
19391
+ "loss": 0.8352,
19392
+ "step": 2753
19393
+ },
19394
+ {
19395
+ "epoch": 0.15040345152437776,
19396
+ "grad_norm": 1.3196015357971191,
19397
+ "learning_rate": 0.00019878756150219518,
19398
+ "loss": 0.5661,
19399
+ "step": 2754
19400
+ },
19401
+ {
19402
+ "epoch": 0.1504580642518739,
19403
+ "grad_norm": 1.6748098134994507,
19404
+ "learning_rate": 0.00019878667295387026,
19405
+ "loss": 1.1578,
19406
+ "step": 2755
19407
+ },
19408
+ {
19409
+ "epoch": 0.15051267697937004,
19410
+ "grad_norm": 2.0721006393432617,
19411
+ "learning_rate": 0.00019878578408206088,
19412
+ "loss": 1.0043,
19413
+ "step": 2756
19414
+ },
19415
+ {
19416
+ "epoch": 0.1505672897068662,
19417
+ "grad_norm": 1.212064266204834,
19418
+ "learning_rate": 0.00019878489488676996,
19419
+ "loss": 0.6491,
19420
+ "step": 2757
19421
+ },
19422
+ {
19423
+ "epoch": 0.15062190243436233,
19424
+ "grad_norm": 2.638810873031616,
19425
+ "learning_rate": 0.0001987840053680004,
19426
+ "loss": 0.8793,
19427
+ "step": 2758
19428
+ },
19429
+ {
19430
+ "epoch": 0.15067651516185848,
19431
+ "grad_norm": 2.5256216526031494,
19432
+ "learning_rate": 0.00019878311552575512,
19433
+ "loss": 0.4549,
19434
+ "step": 2759
19435
+ },
19436
+ {
19437
+ "epoch": 0.1507311278893546,
19438
+ "grad_norm": 1.8811897039413452,
19439
+ "learning_rate": 0.00019878222536003705,
19440
+ "loss": 1.0018,
19441
+ "step": 2760
19442
+ },
19443
+ {
19444
+ "epoch": 0.15078574061685077,
19445
+ "grad_norm": 2.146721601486206,
19446
+ "learning_rate": 0.00019878133487084907,
19447
+ "loss": 0.5966,
19448
+ "step": 2761
19449
+ },
19450
+ {
19451
+ "epoch": 0.1508403533443469,
19452
+ "grad_norm": 2.2631945610046387,
19453
+ "learning_rate": 0.00019878044405819412,
19454
+ "loss": 0.7991,
19455
+ "step": 2762
19456
+ },
19457
+ {
19458
+ "epoch": 0.15089496607184305,
19459
+ "grad_norm": 2.2810568809509277,
19460
+ "learning_rate": 0.0001987795529220751,
19461
+ "loss": 0.6071,
19462
+ "step": 2763
19463
+ },
19464
+ {
19465
+ "epoch": 0.15094957879933918,
19466
+ "grad_norm": 1.9592335224151611,
19467
+ "learning_rate": 0.00019877866146249498,
19468
+ "loss": 1.2905,
19469
+ "step": 2764
19470
+ },
19471
+ {
19472
+ "epoch": 0.15100419152683534,
19473
+ "grad_norm": 3.4965219497680664,
19474
+ "learning_rate": 0.00019877776967945661,
19475
+ "loss": 0.9153,
19476
+ "step": 2765
19477
+ },
19478
+ {
19479
+ "epoch": 0.15105880425433146,
19480
+ "grad_norm": 1.982102394104004,
19481
+ "learning_rate": 0.00019877687757296296,
19482
+ "loss": 0.7687,
19483
+ "step": 2766
19484
+ },
19485
+ {
19486
+ "epoch": 0.15111341698182762,
19487
+ "grad_norm": 2.681962728500366,
19488
+ "learning_rate": 0.0001987759851430169,
19489
+ "loss": 0.8552,
19490
+ "step": 2767
19491
+ },
19492
+ {
19493
+ "epoch": 0.15116802970932375,
19494
+ "grad_norm": 3.0645318031311035,
19495
+ "learning_rate": 0.0001987750923896214,
19496
+ "loss": 0.637,
19497
+ "step": 2768
19498
+ },
19499
+ {
19500
+ "epoch": 0.1512226424368199,
19501
+ "grad_norm": 1.837036371231079,
19502
+ "learning_rate": 0.00019877419931277937,
19503
+ "loss": 1.0427,
19504
+ "step": 2769
19505
+ },
19506
+ {
19507
+ "epoch": 0.15127725516431603,
19508
+ "grad_norm": 1.9876384735107422,
19509
+ "learning_rate": 0.0001987733059124937,
19510
+ "loss": 0.6584,
19511
+ "step": 2770
19512
+ },
19513
+ {
19514
+ "epoch": 0.1513318678918122,
19515
+ "grad_norm": 1.6097309589385986,
19516
+ "learning_rate": 0.00019877241218876738,
19517
+ "loss": 0.9624,
19518
+ "step": 2771
19519
+ },
19520
+ {
19521
+ "epoch": 0.15138648061930832,
19522
+ "grad_norm": 1.8329401016235352,
19523
+ "learning_rate": 0.0001987715181416033,
19524
+ "loss": 0.5214,
19525
+ "step": 2772
19526
+ },
19527
+ {
19528
+ "epoch": 0.15144109334680447,
19529
+ "grad_norm": 2.022430658340454,
19530
+ "learning_rate": 0.00019877062377100438,
19531
+ "loss": 0.9516,
19532
+ "step": 2773
19533
+ },
19534
+ {
19535
+ "epoch": 0.15149570607430063,
19536
+ "grad_norm": 2.1713316440582275,
19537
+ "learning_rate": 0.00019876972907697358,
19538
+ "loss": 1.2816,
19539
+ "step": 2774
19540
+ },
19541
+ {
19542
+ "epoch": 0.15155031880179676,
19543
+ "grad_norm": 1.909159541130066,
19544
+ "learning_rate": 0.00019876883405951377,
19545
+ "loss": 0.9002,
19546
+ "step": 2775
19547
+ },
19548
+ {
19549
+ "epoch": 0.1516049315292929,
19550
+ "grad_norm": 1.8220977783203125,
19551
+ "learning_rate": 0.00019876793871862795,
19552
+ "loss": 1.2096,
19553
+ "step": 2776
19554
+ },
19555
+ {
19556
+ "epoch": 0.15165954425678904,
19557
+ "grad_norm": 2.264089822769165,
19558
+ "learning_rate": 0.000198767043054319,
19559
+ "loss": 0.7516,
19560
+ "step": 2777
19561
+ },
19562
+ {
19563
+ "epoch": 0.1517141569842852,
19564
+ "grad_norm": 1.4928382635116577,
19565
+ "learning_rate": 0.0001987661470665899,
19566
+ "loss": 0.8267,
19567
+ "step": 2778
19568
+ },
19569
+ {
19570
+ "epoch": 0.15176876971178133,
19571
+ "grad_norm": 2.0752010345458984,
19572
+ "learning_rate": 0.00019876525075544356,
19573
+ "loss": 0.9813,
19574
+ "step": 2779
19575
+ },
19576
+ {
19577
+ "epoch": 0.15182338243927748,
19578
+ "grad_norm": 1.890947699546814,
19579
+ "learning_rate": 0.0001987643541208829,
19580
+ "loss": 0.9797,
19581
+ "step": 2780
19582
+ },
19583
+ {
19584
+ "epoch": 0.1518779951667736,
19585
+ "grad_norm": 1.7337243556976318,
19586
+ "learning_rate": 0.0001987634571629109,
19587
+ "loss": 0.9058,
19588
+ "step": 2781
19589
+ },
19590
+ {
19591
+ "epoch": 0.15193260789426977,
19592
+ "grad_norm": 2.316878318786621,
19593
+ "learning_rate": 0.0001987625598815304,
19594
+ "loss": 0.7128,
19595
+ "step": 2782
19596
+ },
19597
+ {
19598
+ "epoch": 0.1519872206217659,
19599
+ "grad_norm": 3.0627024173736572,
19600
+ "learning_rate": 0.00019876166227674448,
19601
+ "loss": 0.96,
19602
+ "step": 2783
19603
+ },
19604
+ {
19605
+ "epoch": 0.15204183334926205,
19606
+ "grad_norm": 1.716168761253357,
19607
+ "learning_rate": 0.00019876076434855594,
19608
+ "loss": 1.1075,
19609
+ "step": 2784
19610
+ },
19611
+ {
19612
+ "epoch": 0.15209644607675818,
19613
+ "grad_norm": 1.7971574068069458,
19614
+ "learning_rate": 0.00019875986609696784,
19615
+ "loss": 0.8329,
19616
+ "step": 2785
19617
+ },
19618
+ {
19619
+ "epoch": 0.15215105880425434,
19620
+ "grad_norm": 2.1646296977996826,
19621
+ "learning_rate": 0.00019875896752198302,
19622
+ "loss": 0.9939,
19623
+ "step": 2786
19624
+ },
19625
+ {
19626
+ "epoch": 0.15220567153175046,
19627
+ "grad_norm": 2.67802357673645,
19628
+ "learning_rate": 0.0001987580686236045,
19629
+ "loss": 0.6616,
19630
+ "step": 2787
19631
+ },
19632
+ {
19633
+ "epoch": 0.15226028425924662,
19634
+ "grad_norm": 2.1048121452331543,
19635
+ "learning_rate": 0.00019875716940183518,
19636
+ "loss": 1.3742,
19637
+ "step": 2788
19638
+ },
19639
+ {
19640
+ "epoch": 0.15231489698674275,
19641
+ "grad_norm": 1.5040028095245361,
19642
+ "learning_rate": 0.000198756269856678,
19643
+ "loss": 0.5814,
19644
+ "step": 2789
19645
+ },
19646
+ {
19647
+ "epoch": 0.1523695097142389,
19648
+ "grad_norm": 1.6928883790969849,
19649
+ "learning_rate": 0.00019875536998813594,
19650
+ "loss": 0.5544,
19651
+ "step": 2790
19652
+ },
19653
+ {
19654
+ "epoch": 0.15242412244173503,
19655
+ "grad_norm": 1.8813495635986328,
19656
+ "learning_rate": 0.00019875446979621196,
19657
+ "loss": 0.9428,
19658
+ "step": 2791
19659
+ },
19660
+ {
19661
+ "epoch": 0.1524787351692312,
19662
+ "grad_norm": 1.8716480731964111,
19663
+ "learning_rate": 0.00019875356928090892,
19664
+ "loss": 1.2162,
19665
+ "step": 2792
19666
+ },
19667
+ {
19668
+ "epoch": 0.15253334789672734,
19669
+ "grad_norm": 2.835150718688965,
19670
+ "learning_rate": 0.00019875266844222986,
19671
+ "loss": 1.3037,
19672
+ "step": 2793
19673
+ },
19674
+ {
19675
+ "epoch": 0.15258796062422347,
19676
+ "grad_norm": 1.2813414335250854,
19677
+ "learning_rate": 0.0001987517672801777,
19678
+ "loss": 0.9625,
19679
+ "step": 2794
19680
+ },
19681
+ {
19682
+ "epoch": 0.15264257335171963,
19683
+ "grad_norm": 2.040393114089966,
19684
+ "learning_rate": 0.00019875086579475534,
19685
+ "loss": 1.059,
19686
+ "step": 2795
19687
+ },
19688
+ {
19689
+ "epoch": 0.15269718607921576,
19690
+ "grad_norm": 2.334904193878174,
19691
+ "learning_rate": 0.00019874996398596583,
19692
+ "loss": 0.8035,
19693
+ "step": 2796
19694
+ },
19695
+ {
19696
+ "epoch": 0.1527517988067119,
19697
+ "grad_norm": 2.2701148986816406,
19698
+ "learning_rate": 0.00019874906185381205,
19699
+ "loss": 1.0823,
19700
+ "step": 2797
19701
+ },
19702
+ {
19703
+ "epoch": 0.15280641153420804,
19704
+ "grad_norm": 2.7322912216186523,
19705
+ "learning_rate": 0.00019874815939829697,
19706
+ "loss": 0.9504,
19707
+ "step": 2798
19708
+ },
19709
+ {
19710
+ "epoch": 0.1528610242617042,
19711
+ "grad_norm": 2.3031201362609863,
19712
+ "learning_rate": 0.00019874725661942356,
19713
+ "loss": 0.9628,
19714
+ "step": 2799
19715
+ },
19716
+ {
19717
+ "epoch": 0.15291563698920033,
19718
+ "grad_norm": 3.016313314437866,
19719
+ "learning_rate": 0.00019874635351719476,
19720
+ "loss": 1.0407,
19721
+ "step": 2800
19722
+ },
19723
+ {
19724
+ "epoch": 0.15291563698920033,
19725
+ "eval_loss": 0.7779847383499146,
19726
+ "eval_runtime": 130.14,
19727
+ "eval_samples_per_second": 5.663,
19728
+ "eval_steps_per_second": 2.835,
19729
+ "step": 2800
19730
  }
19731
  ],
19732
  "logging_steps": 1,
 
19746
  "attributes": {}
19747
  }
19748
  },
19749
+ "total_flos": 3.946242191130624e+17,
19750
  "train_batch_size": 2,
19751
  "trial_name": null,
19752
  "trial_params": null