error577 commited on
Commit
016d2be
·
verified ·
1 Parent(s): 7536ba6

Training in progress, step 1800, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ca056086550804c9c801597be8166c41fe09b9251a298dc8fab2eda883549190
3
  size 22573704
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5b2771309b54cad22a6d12b43f2a88fbb5afc22c03f682444f479a7fce98561d
3
  size 22573704
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:30c52a8ae4bd179a171944edd0012ce84510e43d48f53b8a756135d6c7754d2a
3
  size 17437818
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a61685d18f810f6a4fed1647d54ba4b3b16ad699872c167b11c2edaa87c2eb01
3
  size 17437818
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bad29ab8b7610c11b20739f4df731e1cd19439d024bb48ac043295bf61b93f95
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ae96998c01a7ee338eee30377bf1e5f04258e6479e2af6c6075624f0f7738fe3
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6e5445e47acab4827f0d63911d407a642ad0e4745ee7d56ccdc919de2508baed
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d8e1e886ba269f608335b2a2a84983b4f136968a26a27413a91ebbba4d3699d3
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.32298070192337036,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1600",
4
- "epoch": 0.051473012860210554,
5
  "eval_steps": 200,
6
- "global_step": 1600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -11279,6 +11279,1414 @@
11279
  "eval_samples_per_second": 8.651,
11280
  "eval_steps_per_second": 4.343,
11281
  "step": 1600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11282
  }
11283
  ],
11284
  "logging_steps": 1,
@@ -11293,7 +12701,7 @@
11293
  "early_stopping_threshold": 0.0
11294
  },
11295
  "attributes": {
11296
- "early_stopping_patience_counter": 0
11297
  }
11298
  },
11299
  "TrainerControl": {
@@ -11307,7 +12715,7 @@
11307
  "attributes": {}
11308
  }
11309
  },
11310
- "total_flos": 1.0515447207375667e+17,
11311
  "train_batch_size": 2,
11312
  "trial_name": null,
11313
  "trial_params": null
 
1
  {
2
  "best_metric": 0.32298070192337036,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1600",
4
+ "epoch": 0.05790713946773687,
5
  "eval_steps": 200,
6
+ "global_step": 1800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
11279
  "eval_samples_per_second": 8.651,
11280
  "eval_steps_per_second": 4.343,
11281
  "step": 1600
11282
+ },
11283
+ {
11284
+ "epoch": 0.05150518349324819,
11285
+ "grad_norm": 1.293373703956604,
11286
+ "learning_rate": 0.0002,
11287
+ "loss": 0.2867,
11288
+ "step": 1601
11289
+ },
11290
+ {
11291
+ "epoch": 0.05153735412628582,
11292
+ "grad_norm": 1.954478144645691,
11293
+ "learning_rate": 0.0002,
11294
+ "loss": 0.2713,
11295
+ "step": 1602
11296
+ },
11297
+ {
11298
+ "epoch": 0.05156952475932345,
11299
+ "grad_norm": 1.4226385354995728,
11300
+ "learning_rate": 0.0002,
11301
+ "loss": 0.3493,
11302
+ "step": 1603
11303
+ },
11304
+ {
11305
+ "epoch": 0.051601695392361084,
11306
+ "grad_norm": 1.4402284622192383,
11307
+ "learning_rate": 0.0002,
11308
+ "loss": 0.3488,
11309
+ "step": 1604
11310
+ },
11311
+ {
11312
+ "epoch": 0.05163386602539871,
11313
+ "grad_norm": 1.2787245512008667,
11314
+ "learning_rate": 0.0002,
11315
+ "loss": 0.3158,
11316
+ "step": 1605
11317
+ },
11318
+ {
11319
+ "epoch": 0.051666036658436346,
11320
+ "grad_norm": 1.3623970746994019,
11321
+ "learning_rate": 0.0002,
11322
+ "loss": 0.326,
11323
+ "step": 1606
11324
+ },
11325
+ {
11326
+ "epoch": 0.05169820729147398,
11327
+ "grad_norm": 1.5353353023529053,
11328
+ "learning_rate": 0.0002,
11329
+ "loss": 0.3247,
11330
+ "step": 1607
11331
+ },
11332
+ {
11333
+ "epoch": 0.05173037792451161,
11334
+ "grad_norm": 1.0746046304702759,
11335
+ "learning_rate": 0.0002,
11336
+ "loss": 0.276,
11337
+ "step": 1608
11338
+ },
11339
+ {
11340
+ "epoch": 0.05176254855754924,
11341
+ "grad_norm": 1.6327682733535767,
11342
+ "learning_rate": 0.0002,
11343
+ "loss": 0.4567,
11344
+ "step": 1609
11345
+ },
11346
+ {
11347
+ "epoch": 0.051794719190586876,
11348
+ "grad_norm": 1.284000039100647,
11349
+ "learning_rate": 0.0002,
11350
+ "loss": 0.2964,
11351
+ "step": 1610
11352
+ },
11353
+ {
11354
+ "epoch": 0.0518268898236245,
11355
+ "grad_norm": 1.4247043132781982,
11356
+ "learning_rate": 0.0002,
11357
+ "loss": 0.4059,
11358
+ "step": 1611
11359
+ },
11360
+ {
11361
+ "epoch": 0.05185906045666214,
11362
+ "grad_norm": 1.3963816165924072,
11363
+ "learning_rate": 0.0002,
11364
+ "loss": 0.2186,
11365
+ "step": 1612
11366
+ },
11367
+ {
11368
+ "epoch": 0.051891231089699764,
11369
+ "grad_norm": 1.5223742723464966,
11370
+ "learning_rate": 0.0002,
11371
+ "loss": 0.4245,
11372
+ "step": 1613
11373
+ },
11374
+ {
11375
+ "epoch": 0.0519234017227374,
11376
+ "grad_norm": 1.524560570716858,
11377
+ "learning_rate": 0.0002,
11378
+ "loss": 0.3594,
11379
+ "step": 1614
11380
+ },
11381
+ {
11382
+ "epoch": 0.05195557235577503,
11383
+ "grad_norm": 1.2883237600326538,
11384
+ "learning_rate": 0.0002,
11385
+ "loss": 0.3207,
11386
+ "step": 1615
11387
+ },
11388
+ {
11389
+ "epoch": 0.05198774298881266,
11390
+ "grad_norm": 1.3281550407409668,
11391
+ "learning_rate": 0.0002,
11392
+ "loss": 0.2525,
11393
+ "step": 1616
11394
+ },
11395
+ {
11396
+ "epoch": 0.052019913621850294,
11397
+ "grad_norm": 1.4164742231369019,
11398
+ "learning_rate": 0.0002,
11399
+ "loss": 0.3592,
11400
+ "step": 1617
11401
+ },
11402
+ {
11403
+ "epoch": 0.05205208425488793,
11404
+ "grad_norm": 1.3430583477020264,
11405
+ "learning_rate": 0.0002,
11406
+ "loss": 0.3874,
11407
+ "step": 1618
11408
+ },
11409
+ {
11410
+ "epoch": 0.052084254887925556,
11411
+ "grad_norm": 1.2102442979812622,
11412
+ "learning_rate": 0.0002,
11413
+ "loss": 0.3332,
11414
+ "step": 1619
11415
+ },
11416
+ {
11417
+ "epoch": 0.05211642552096319,
11418
+ "grad_norm": 1.2358921766281128,
11419
+ "learning_rate": 0.0002,
11420
+ "loss": 0.3808,
11421
+ "step": 1620
11422
+ },
11423
+ {
11424
+ "epoch": 0.05214859615400082,
11425
+ "grad_norm": 2.1207656860351562,
11426
+ "learning_rate": 0.0002,
11427
+ "loss": 0.3696,
11428
+ "step": 1621
11429
+ },
11430
+ {
11431
+ "epoch": 0.05218076678703845,
11432
+ "grad_norm": 1.2918682098388672,
11433
+ "learning_rate": 0.0002,
11434
+ "loss": 0.3035,
11435
+ "step": 1622
11436
+ },
11437
+ {
11438
+ "epoch": 0.052212937420076086,
11439
+ "grad_norm": 1.468856930732727,
11440
+ "learning_rate": 0.0002,
11441
+ "loss": 0.4139,
11442
+ "step": 1623
11443
+ },
11444
+ {
11445
+ "epoch": 0.05224510805311371,
11446
+ "grad_norm": 1.2353788614273071,
11447
+ "learning_rate": 0.0002,
11448
+ "loss": 0.3485,
11449
+ "step": 1624
11450
+ },
11451
+ {
11452
+ "epoch": 0.05227727868615135,
11453
+ "grad_norm": 1.2309379577636719,
11454
+ "learning_rate": 0.0002,
11455
+ "loss": 0.3515,
11456
+ "step": 1625
11457
+ },
11458
+ {
11459
+ "epoch": 0.05230944931918898,
11460
+ "grad_norm": 1.4282273054122925,
11461
+ "learning_rate": 0.0002,
11462
+ "loss": 0.2622,
11463
+ "step": 1626
11464
+ },
11465
+ {
11466
+ "epoch": 0.05234161995222661,
11467
+ "grad_norm": 1.4643419981002808,
11468
+ "learning_rate": 0.0002,
11469
+ "loss": 0.3148,
11470
+ "step": 1627
11471
+ },
11472
+ {
11473
+ "epoch": 0.05237379058526424,
11474
+ "grad_norm": 1.2791427373886108,
11475
+ "learning_rate": 0.0002,
11476
+ "loss": 0.2369,
11477
+ "step": 1628
11478
+ },
11479
+ {
11480
+ "epoch": 0.05240596121830187,
11481
+ "grad_norm": 1.4609307050704956,
11482
+ "learning_rate": 0.0002,
11483
+ "loss": 0.3716,
11484
+ "step": 1629
11485
+ },
11486
+ {
11487
+ "epoch": 0.052438131851339505,
11488
+ "grad_norm": 1.3073168992996216,
11489
+ "learning_rate": 0.0002,
11490
+ "loss": 0.3514,
11491
+ "step": 1630
11492
+ },
11493
+ {
11494
+ "epoch": 0.05247030248437714,
11495
+ "grad_norm": 1.682662844657898,
11496
+ "learning_rate": 0.0002,
11497
+ "loss": 0.4786,
11498
+ "step": 1631
11499
+ },
11500
+ {
11501
+ "epoch": 0.052502473117414766,
11502
+ "grad_norm": 1.6667532920837402,
11503
+ "learning_rate": 0.0002,
11504
+ "loss": 0.3054,
11505
+ "step": 1632
11506
+ },
11507
+ {
11508
+ "epoch": 0.0525346437504524,
11509
+ "grad_norm": 1.7224571704864502,
11510
+ "learning_rate": 0.0002,
11511
+ "loss": 0.3226,
11512
+ "step": 1633
11513
+ },
11514
+ {
11515
+ "epoch": 0.05256681438349003,
11516
+ "grad_norm": 1.6179438829421997,
11517
+ "learning_rate": 0.0002,
11518
+ "loss": 0.3544,
11519
+ "step": 1634
11520
+ },
11521
+ {
11522
+ "epoch": 0.05259898501652766,
11523
+ "grad_norm": 1.5665251016616821,
11524
+ "learning_rate": 0.0002,
11525
+ "loss": 0.2653,
11526
+ "step": 1635
11527
+ },
11528
+ {
11529
+ "epoch": 0.052631155649565296,
11530
+ "grad_norm": 1.6938865184783936,
11531
+ "learning_rate": 0.0002,
11532
+ "loss": 0.3111,
11533
+ "step": 1636
11534
+ },
11535
+ {
11536
+ "epoch": 0.052663326282602924,
11537
+ "grad_norm": 1.654742956161499,
11538
+ "learning_rate": 0.0002,
11539
+ "loss": 0.296,
11540
+ "step": 1637
11541
+ },
11542
+ {
11543
+ "epoch": 0.05269549691564056,
11544
+ "grad_norm": 1.2744419574737549,
11545
+ "learning_rate": 0.0002,
11546
+ "loss": 0.3968,
11547
+ "step": 1638
11548
+ },
11549
+ {
11550
+ "epoch": 0.05272766754867819,
11551
+ "grad_norm": 1.5279433727264404,
11552
+ "learning_rate": 0.0002,
11553
+ "loss": 0.3807,
11554
+ "step": 1639
11555
+ },
11556
+ {
11557
+ "epoch": 0.05275983818171582,
11558
+ "grad_norm": 1.4322067499160767,
11559
+ "learning_rate": 0.0002,
11560
+ "loss": 0.3944,
11561
+ "step": 1640
11562
+ },
11563
+ {
11564
+ "epoch": 0.052792008814753454,
11565
+ "grad_norm": 1.7231345176696777,
11566
+ "learning_rate": 0.0002,
11567
+ "loss": 0.3679,
11568
+ "step": 1641
11569
+ },
11570
+ {
11571
+ "epoch": 0.05282417944779108,
11572
+ "grad_norm": 1.3890626430511475,
11573
+ "learning_rate": 0.0002,
11574
+ "loss": 0.3432,
11575
+ "step": 1642
11576
+ },
11577
+ {
11578
+ "epoch": 0.052856350080828715,
11579
+ "grad_norm": 1.8426936864852905,
11580
+ "learning_rate": 0.0002,
11581
+ "loss": 0.3827,
11582
+ "step": 1643
11583
+ },
11584
+ {
11585
+ "epoch": 0.05288852071386635,
11586
+ "grad_norm": 1.3114937543869019,
11587
+ "learning_rate": 0.0002,
11588
+ "loss": 0.3065,
11589
+ "step": 1644
11590
+ },
11591
+ {
11592
+ "epoch": 0.05292069134690398,
11593
+ "grad_norm": 1.37386155128479,
11594
+ "learning_rate": 0.0002,
11595
+ "loss": 0.3879,
11596
+ "step": 1645
11597
+ },
11598
+ {
11599
+ "epoch": 0.05295286197994161,
11600
+ "grad_norm": 1.399117112159729,
11601
+ "learning_rate": 0.0002,
11602
+ "loss": 0.3109,
11603
+ "step": 1646
11604
+ },
11605
+ {
11606
+ "epoch": 0.052985032612979245,
11607
+ "grad_norm": 1.4952045679092407,
11608
+ "learning_rate": 0.0002,
11609
+ "loss": 0.3416,
11610
+ "step": 1647
11611
+ },
11612
+ {
11613
+ "epoch": 0.05301720324601687,
11614
+ "grad_norm": 1.2361903190612793,
11615
+ "learning_rate": 0.0002,
11616
+ "loss": 0.3465,
11617
+ "step": 1648
11618
+ },
11619
+ {
11620
+ "epoch": 0.05304937387905451,
11621
+ "grad_norm": 1.3692654371261597,
11622
+ "learning_rate": 0.0002,
11623
+ "loss": 0.309,
11624
+ "step": 1649
11625
+ },
11626
+ {
11627
+ "epoch": 0.053081544512092134,
11628
+ "grad_norm": 1.401586651802063,
11629
+ "learning_rate": 0.0002,
11630
+ "loss": 0.3781,
11631
+ "step": 1650
11632
+ },
11633
+ {
11634
+ "epoch": 0.05311371514512977,
11635
+ "grad_norm": 1.240088939666748,
11636
+ "learning_rate": 0.0002,
11637
+ "loss": 0.2762,
11638
+ "step": 1651
11639
+ },
11640
+ {
11641
+ "epoch": 0.0531458857781674,
11642
+ "grad_norm": 1.792125940322876,
11643
+ "learning_rate": 0.0002,
11644
+ "loss": 0.4918,
11645
+ "step": 1652
11646
+ },
11647
+ {
11648
+ "epoch": 0.05317805641120503,
11649
+ "grad_norm": 1.360266923904419,
11650
+ "learning_rate": 0.0002,
11651
+ "loss": 0.3424,
11652
+ "step": 1653
11653
+ },
11654
+ {
11655
+ "epoch": 0.053210227044242664,
11656
+ "grad_norm": 1.3013075590133667,
11657
+ "learning_rate": 0.0002,
11658
+ "loss": 0.3393,
11659
+ "step": 1654
11660
+ },
11661
+ {
11662
+ "epoch": 0.0532423976772803,
11663
+ "grad_norm": 1.6117784976959229,
11664
+ "learning_rate": 0.0002,
11665
+ "loss": 0.2893,
11666
+ "step": 1655
11667
+ },
11668
+ {
11669
+ "epoch": 0.053274568310317925,
11670
+ "grad_norm": 1.3652844429016113,
11671
+ "learning_rate": 0.0002,
11672
+ "loss": 0.3569,
11673
+ "step": 1656
11674
+ },
11675
+ {
11676
+ "epoch": 0.05330673894335556,
11677
+ "grad_norm": 1.434241533279419,
11678
+ "learning_rate": 0.0002,
11679
+ "loss": 0.3126,
11680
+ "step": 1657
11681
+ },
11682
+ {
11683
+ "epoch": 0.05333890957639319,
11684
+ "grad_norm": 1.442833662033081,
11685
+ "learning_rate": 0.0002,
11686
+ "loss": 0.2712,
11687
+ "step": 1658
11688
+ },
11689
+ {
11690
+ "epoch": 0.05337108020943082,
11691
+ "grad_norm": 1.1605110168457031,
11692
+ "learning_rate": 0.0002,
11693
+ "loss": 0.2821,
11694
+ "step": 1659
11695
+ },
11696
+ {
11697
+ "epoch": 0.053403250842468455,
11698
+ "grad_norm": 1.3498077392578125,
11699
+ "learning_rate": 0.0002,
11700
+ "loss": 0.4021,
11701
+ "step": 1660
11702
+ },
11703
+ {
11704
+ "epoch": 0.05343542147550608,
11705
+ "grad_norm": 1.5127185583114624,
11706
+ "learning_rate": 0.0002,
11707
+ "loss": 0.4155,
11708
+ "step": 1661
11709
+ },
11710
+ {
11711
+ "epoch": 0.05346759210854372,
11712
+ "grad_norm": 1.2818982601165771,
11713
+ "learning_rate": 0.0002,
11714
+ "loss": 0.3557,
11715
+ "step": 1662
11716
+ },
11717
+ {
11718
+ "epoch": 0.053499762741581344,
11719
+ "grad_norm": 1.0614053010940552,
11720
+ "learning_rate": 0.0002,
11721
+ "loss": 0.2353,
11722
+ "step": 1663
11723
+ },
11724
+ {
11725
+ "epoch": 0.05353193337461898,
11726
+ "grad_norm": 1.554489016532898,
11727
+ "learning_rate": 0.0002,
11728
+ "loss": 0.3121,
11729
+ "step": 1664
11730
+ },
11731
+ {
11732
+ "epoch": 0.05356410400765661,
11733
+ "grad_norm": 1.8659179210662842,
11734
+ "learning_rate": 0.0002,
11735
+ "loss": 0.3481,
11736
+ "step": 1665
11737
+ },
11738
+ {
11739
+ "epoch": 0.05359627464069424,
11740
+ "grad_norm": 1.556249737739563,
11741
+ "learning_rate": 0.0002,
11742
+ "loss": 0.3768,
11743
+ "step": 1666
11744
+ },
11745
+ {
11746
+ "epoch": 0.053628445273731874,
11747
+ "grad_norm": 1.8973748683929443,
11748
+ "learning_rate": 0.0002,
11749
+ "loss": 0.4356,
11750
+ "step": 1667
11751
+ },
11752
+ {
11753
+ "epoch": 0.05366061590676951,
11754
+ "grad_norm": 1.4099444150924683,
11755
+ "learning_rate": 0.0002,
11756
+ "loss": 0.3529,
11757
+ "step": 1668
11758
+ },
11759
+ {
11760
+ "epoch": 0.053692786539807136,
11761
+ "grad_norm": 1.4847983121871948,
11762
+ "learning_rate": 0.0002,
11763
+ "loss": 0.228,
11764
+ "step": 1669
11765
+ },
11766
+ {
11767
+ "epoch": 0.05372495717284477,
11768
+ "grad_norm": 1.6904289722442627,
11769
+ "learning_rate": 0.0002,
11770
+ "loss": 0.4133,
11771
+ "step": 1670
11772
+ },
11773
+ {
11774
+ "epoch": 0.0537571278058824,
11775
+ "grad_norm": 1.9371005296707153,
11776
+ "learning_rate": 0.0002,
11777
+ "loss": 0.4057,
11778
+ "step": 1671
11779
+ },
11780
+ {
11781
+ "epoch": 0.05378929843892003,
11782
+ "grad_norm": 1.69685697555542,
11783
+ "learning_rate": 0.0002,
11784
+ "loss": 0.351,
11785
+ "step": 1672
11786
+ },
11787
+ {
11788
+ "epoch": 0.053821469071957666,
11789
+ "grad_norm": 1.3266903162002563,
11790
+ "learning_rate": 0.0002,
11791
+ "loss": 0.3825,
11792
+ "step": 1673
11793
+ },
11794
+ {
11795
+ "epoch": 0.05385363970499529,
11796
+ "grad_norm": 1.290021538734436,
11797
+ "learning_rate": 0.0002,
11798
+ "loss": 0.3304,
11799
+ "step": 1674
11800
+ },
11801
+ {
11802
+ "epoch": 0.05388581033803293,
11803
+ "grad_norm": 1.6238058805465698,
11804
+ "learning_rate": 0.0002,
11805
+ "loss": 0.3901,
11806
+ "step": 1675
11807
+ },
11808
+ {
11809
+ "epoch": 0.05391798097107056,
11810
+ "grad_norm": 1.4297298192977905,
11811
+ "learning_rate": 0.0002,
11812
+ "loss": 0.3819,
11813
+ "step": 1676
11814
+ },
11815
+ {
11816
+ "epoch": 0.05395015160410819,
11817
+ "grad_norm": 1.24575936794281,
11818
+ "learning_rate": 0.0002,
11819
+ "loss": 0.2963,
11820
+ "step": 1677
11821
+ },
11822
+ {
11823
+ "epoch": 0.05398232223714582,
11824
+ "grad_norm": 1.966524362564087,
11825
+ "learning_rate": 0.0002,
11826
+ "loss": 0.4083,
11827
+ "step": 1678
11828
+ },
11829
+ {
11830
+ "epoch": 0.05401449287018345,
11831
+ "grad_norm": 1.5879671573638916,
11832
+ "learning_rate": 0.0002,
11833
+ "loss": 0.2824,
11834
+ "step": 1679
11835
+ },
11836
+ {
11837
+ "epoch": 0.054046663503221085,
11838
+ "grad_norm": 1.4699482917785645,
11839
+ "learning_rate": 0.0002,
11840
+ "loss": 0.3661,
11841
+ "step": 1680
11842
+ },
11843
+ {
11844
+ "epoch": 0.05407883413625872,
11845
+ "grad_norm": 1.4641050100326538,
11846
+ "learning_rate": 0.0002,
11847
+ "loss": 0.4356,
11848
+ "step": 1681
11849
+ },
11850
+ {
11851
+ "epoch": 0.054111004769296346,
11852
+ "grad_norm": 1.235504388809204,
11853
+ "learning_rate": 0.0002,
11854
+ "loss": 0.3851,
11855
+ "step": 1682
11856
+ },
11857
+ {
11858
+ "epoch": 0.05414317540233398,
11859
+ "grad_norm": 1.5182708501815796,
11860
+ "learning_rate": 0.0002,
11861
+ "loss": 0.4544,
11862
+ "step": 1683
11863
+ },
11864
+ {
11865
+ "epoch": 0.05417534603537161,
11866
+ "grad_norm": 1.5309251546859741,
11867
+ "learning_rate": 0.0002,
11868
+ "loss": 0.4457,
11869
+ "step": 1684
11870
+ },
11871
+ {
11872
+ "epoch": 0.05420751666840924,
11873
+ "grad_norm": 1.1779826879501343,
11874
+ "learning_rate": 0.0002,
11875
+ "loss": 0.3409,
11876
+ "step": 1685
11877
+ },
11878
+ {
11879
+ "epoch": 0.054239687301446876,
11880
+ "grad_norm": 1.5744260549545288,
11881
+ "learning_rate": 0.0002,
11882
+ "loss": 0.4168,
11883
+ "step": 1686
11884
+ },
11885
+ {
11886
+ "epoch": 0.0542718579344845,
11887
+ "grad_norm": 1.139620304107666,
11888
+ "learning_rate": 0.0002,
11889
+ "loss": 0.2686,
11890
+ "step": 1687
11891
+ },
11892
+ {
11893
+ "epoch": 0.05430402856752214,
11894
+ "grad_norm": 2.2010507583618164,
11895
+ "learning_rate": 0.0002,
11896
+ "loss": 0.4929,
11897
+ "step": 1688
11898
+ },
11899
+ {
11900
+ "epoch": 0.05433619920055977,
11901
+ "grad_norm": 1.3266719579696655,
11902
+ "learning_rate": 0.0002,
11903
+ "loss": 0.4041,
11904
+ "step": 1689
11905
+ },
11906
+ {
11907
+ "epoch": 0.0543683698335974,
11908
+ "grad_norm": 1.3262860774993896,
11909
+ "learning_rate": 0.0002,
11910
+ "loss": 0.3981,
11911
+ "step": 1690
11912
+ },
11913
+ {
11914
+ "epoch": 0.05440054046663503,
11915
+ "grad_norm": 1.2893167734146118,
11916
+ "learning_rate": 0.0002,
11917
+ "loss": 0.4294,
11918
+ "step": 1691
11919
+ },
11920
+ {
11921
+ "epoch": 0.05443271109967266,
11922
+ "grad_norm": 1.4548931121826172,
11923
+ "learning_rate": 0.0002,
11924
+ "loss": 0.362,
11925
+ "step": 1692
11926
+ },
11927
+ {
11928
+ "epoch": 0.054464881732710295,
11929
+ "grad_norm": 1.2379785776138306,
11930
+ "learning_rate": 0.0002,
11931
+ "loss": 0.3363,
11932
+ "step": 1693
11933
+ },
11934
+ {
11935
+ "epoch": 0.05449705236574793,
11936
+ "grad_norm": 1.282060980796814,
11937
+ "learning_rate": 0.0002,
11938
+ "loss": 0.3301,
11939
+ "step": 1694
11940
+ },
11941
+ {
11942
+ "epoch": 0.054529222998785556,
11943
+ "grad_norm": 1.3144274950027466,
11944
+ "learning_rate": 0.0002,
11945
+ "loss": 0.3098,
11946
+ "step": 1695
11947
+ },
11948
+ {
11949
+ "epoch": 0.05456139363182319,
11950
+ "grad_norm": 1.3063935041427612,
11951
+ "learning_rate": 0.0002,
11952
+ "loss": 0.4182,
11953
+ "step": 1696
11954
+ },
11955
+ {
11956
+ "epoch": 0.054593564264860825,
11957
+ "grad_norm": 1.367294430732727,
11958
+ "learning_rate": 0.0002,
11959
+ "loss": 0.3198,
11960
+ "step": 1697
11961
+ },
11962
+ {
11963
+ "epoch": 0.05462573489789845,
11964
+ "grad_norm": 1.199182152748108,
11965
+ "learning_rate": 0.0002,
11966
+ "loss": 0.2503,
11967
+ "step": 1698
11968
+ },
11969
+ {
11970
+ "epoch": 0.054657905530936086,
11971
+ "grad_norm": 1.6057204008102417,
11972
+ "learning_rate": 0.0002,
11973
+ "loss": 0.4208,
11974
+ "step": 1699
11975
+ },
11976
+ {
11977
+ "epoch": 0.054690076163973714,
11978
+ "grad_norm": 1.375246286392212,
11979
+ "learning_rate": 0.0002,
11980
+ "loss": 0.369,
11981
+ "step": 1700
11982
+ },
11983
+ {
11984
+ "epoch": 0.05472224679701135,
11985
+ "grad_norm": 1.4277704954147339,
11986
+ "learning_rate": 0.0002,
11987
+ "loss": 0.4014,
11988
+ "step": 1701
11989
+ },
11990
+ {
11991
+ "epoch": 0.05475441743004898,
11992
+ "grad_norm": 1.760572075843811,
11993
+ "learning_rate": 0.0002,
11994
+ "loss": 0.4971,
11995
+ "step": 1702
11996
+ },
11997
+ {
11998
+ "epoch": 0.05478658806308661,
11999
+ "grad_norm": 1.1767444610595703,
12000
+ "learning_rate": 0.0002,
12001
+ "loss": 0.3887,
12002
+ "step": 1703
12003
+ },
12004
+ {
12005
+ "epoch": 0.054818758696124244,
12006
+ "grad_norm": 1.5637484788894653,
12007
+ "learning_rate": 0.0002,
12008
+ "loss": 0.423,
12009
+ "step": 1704
12010
+ },
12011
+ {
12012
+ "epoch": 0.05485092932916188,
12013
+ "grad_norm": 1.5630580186843872,
12014
+ "learning_rate": 0.0002,
12015
+ "loss": 0.3064,
12016
+ "step": 1705
12017
+ },
12018
+ {
12019
+ "epoch": 0.054883099962199505,
12020
+ "grad_norm": 1.4884583950042725,
12021
+ "learning_rate": 0.0002,
12022
+ "loss": 0.4479,
12023
+ "step": 1706
12024
+ },
12025
+ {
12026
+ "epoch": 0.05491527059523714,
12027
+ "grad_norm": 1.4628565311431885,
12028
+ "learning_rate": 0.0002,
12029
+ "loss": 0.3498,
12030
+ "step": 1707
12031
+ },
12032
+ {
12033
+ "epoch": 0.05494744122827477,
12034
+ "grad_norm": 1.5383150577545166,
12035
+ "learning_rate": 0.0002,
12036
+ "loss": 0.3374,
12037
+ "step": 1708
12038
+ },
12039
+ {
12040
+ "epoch": 0.0549796118613124,
12041
+ "grad_norm": 1.2963407039642334,
12042
+ "learning_rate": 0.0002,
12043
+ "loss": 0.3092,
12044
+ "step": 1709
12045
+ },
12046
+ {
12047
+ "epoch": 0.055011782494350035,
12048
+ "grad_norm": 1.195543646812439,
12049
+ "learning_rate": 0.0002,
12050
+ "loss": 0.2963,
12051
+ "step": 1710
12052
+ },
12053
+ {
12054
+ "epoch": 0.05504395312738766,
12055
+ "grad_norm": 1.6504194736480713,
12056
+ "learning_rate": 0.0002,
12057
+ "loss": 0.4263,
12058
+ "step": 1711
12059
+ },
12060
+ {
12061
+ "epoch": 0.0550761237604253,
12062
+ "grad_norm": 1.2097197771072388,
12063
+ "learning_rate": 0.0002,
12064
+ "loss": 0.3503,
12065
+ "step": 1712
12066
+ },
12067
+ {
12068
+ "epoch": 0.055108294393462924,
12069
+ "grad_norm": 1.5624823570251465,
12070
+ "learning_rate": 0.0002,
12071
+ "loss": 0.4007,
12072
+ "step": 1713
12073
+ },
12074
+ {
12075
+ "epoch": 0.05514046502650056,
12076
+ "grad_norm": 1.2153539657592773,
12077
+ "learning_rate": 0.0002,
12078
+ "loss": 0.3014,
12079
+ "step": 1714
12080
+ },
12081
+ {
12082
+ "epoch": 0.05517263565953819,
12083
+ "grad_norm": 1.3091020584106445,
12084
+ "learning_rate": 0.0002,
12085
+ "loss": 0.3353,
12086
+ "step": 1715
12087
+ },
12088
+ {
12089
+ "epoch": 0.05520480629257582,
12090
+ "grad_norm": 1.2249510288238525,
12091
+ "learning_rate": 0.0002,
12092
+ "loss": 0.3109,
12093
+ "step": 1716
12094
+ },
12095
+ {
12096
+ "epoch": 0.055236976925613454,
12097
+ "grad_norm": 1.6217988729476929,
12098
+ "learning_rate": 0.0002,
12099
+ "loss": 0.4435,
12100
+ "step": 1717
12101
+ },
12102
+ {
12103
+ "epoch": 0.05526914755865109,
12104
+ "grad_norm": 1.774591088294983,
12105
+ "learning_rate": 0.0002,
12106
+ "loss": 0.4297,
12107
+ "step": 1718
12108
+ },
12109
+ {
12110
+ "epoch": 0.055301318191688716,
12111
+ "grad_norm": 1.2918236255645752,
12112
+ "learning_rate": 0.0002,
12113
+ "loss": 0.404,
12114
+ "step": 1719
12115
+ },
12116
+ {
12117
+ "epoch": 0.05533348882472635,
12118
+ "grad_norm": 1.9299715757369995,
12119
+ "learning_rate": 0.0002,
12120
+ "loss": 0.3822,
12121
+ "step": 1720
12122
+ },
12123
+ {
12124
+ "epoch": 0.05536565945776398,
12125
+ "grad_norm": 1.424896478652954,
12126
+ "learning_rate": 0.0002,
12127
+ "loss": 0.3738,
12128
+ "step": 1721
12129
+ },
12130
+ {
12131
+ "epoch": 0.05539783009080161,
12132
+ "grad_norm": 1.4504587650299072,
12133
+ "learning_rate": 0.0002,
12134
+ "loss": 0.4341,
12135
+ "step": 1722
12136
+ },
12137
+ {
12138
+ "epoch": 0.055430000723839246,
12139
+ "grad_norm": 1.7236900329589844,
12140
+ "learning_rate": 0.0002,
12141
+ "loss": 0.3607,
12142
+ "step": 1723
12143
+ },
12144
+ {
12145
+ "epoch": 0.05546217135687687,
12146
+ "grad_norm": 1.5733604431152344,
12147
+ "learning_rate": 0.0002,
12148
+ "loss": 0.3498,
12149
+ "step": 1724
12150
+ },
12151
+ {
12152
+ "epoch": 0.05549434198991451,
12153
+ "grad_norm": 1.577148199081421,
12154
+ "learning_rate": 0.0002,
12155
+ "loss": 0.3519,
12156
+ "step": 1725
12157
+ },
12158
+ {
12159
+ "epoch": 0.05552651262295214,
12160
+ "grad_norm": 1.3532757759094238,
12161
+ "learning_rate": 0.0002,
12162
+ "loss": 0.2584,
12163
+ "step": 1726
12164
+ },
12165
+ {
12166
+ "epoch": 0.05555868325598977,
12167
+ "grad_norm": 1.3213073015213013,
12168
+ "learning_rate": 0.0002,
12169
+ "loss": 0.2993,
12170
+ "step": 1727
12171
+ },
12172
+ {
12173
+ "epoch": 0.0555908538890274,
12174
+ "grad_norm": 1.2618013620376587,
12175
+ "learning_rate": 0.0002,
12176
+ "loss": 0.2884,
12177
+ "step": 1728
12178
+ },
12179
+ {
12180
+ "epoch": 0.05562302452206503,
12181
+ "grad_norm": 1.2675014734268188,
12182
+ "learning_rate": 0.0002,
12183
+ "loss": 0.3005,
12184
+ "step": 1729
12185
+ },
12186
+ {
12187
+ "epoch": 0.055655195155102664,
12188
+ "grad_norm": 1.7479132413864136,
12189
+ "learning_rate": 0.0002,
12190
+ "loss": 0.4917,
12191
+ "step": 1730
12192
+ },
12193
+ {
12194
+ "epoch": 0.0556873657881403,
12195
+ "grad_norm": 1.501369595527649,
12196
+ "learning_rate": 0.0002,
12197
+ "loss": 0.3491,
12198
+ "step": 1731
12199
+ },
12200
+ {
12201
+ "epoch": 0.055719536421177926,
12202
+ "grad_norm": 1.3929688930511475,
12203
+ "learning_rate": 0.0002,
12204
+ "loss": 0.3628,
12205
+ "step": 1732
12206
+ },
12207
+ {
12208
+ "epoch": 0.05575170705421556,
12209
+ "grad_norm": 1.3868218660354614,
12210
+ "learning_rate": 0.0002,
12211
+ "loss": 0.4068,
12212
+ "step": 1733
12213
+ },
12214
+ {
12215
+ "epoch": 0.05578387768725319,
12216
+ "grad_norm": 1.8729850053787231,
12217
+ "learning_rate": 0.0002,
12218
+ "loss": 0.4231,
12219
+ "step": 1734
12220
+ },
12221
+ {
12222
+ "epoch": 0.05581604832029082,
12223
+ "grad_norm": 1.530115008354187,
12224
+ "learning_rate": 0.0002,
12225
+ "loss": 0.2897,
12226
+ "step": 1735
12227
+ },
12228
+ {
12229
+ "epoch": 0.055848218953328456,
12230
+ "grad_norm": 1.0476127862930298,
12231
+ "learning_rate": 0.0002,
12232
+ "loss": 0.2669,
12233
+ "step": 1736
12234
+ },
12235
+ {
12236
+ "epoch": 0.05588038958636608,
12237
+ "grad_norm": 1.67778742313385,
12238
+ "learning_rate": 0.0002,
12239
+ "loss": 0.309,
12240
+ "step": 1737
12241
+ },
12242
+ {
12243
+ "epoch": 0.05591256021940372,
12244
+ "grad_norm": 1.740838646888733,
12245
+ "learning_rate": 0.0002,
12246
+ "loss": 0.3692,
12247
+ "step": 1738
12248
+ },
12249
+ {
12250
+ "epoch": 0.05594473085244135,
12251
+ "grad_norm": 1.2610220909118652,
12252
+ "learning_rate": 0.0002,
12253
+ "loss": 0.3833,
12254
+ "step": 1739
12255
+ },
12256
+ {
12257
+ "epoch": 0.05597690148547898,
12258
+ "grad_norm": 1.3762145042419434,
12259
+ "learning_rate": 0.0002,
12260
+ "loss": 0.3073,
12261
+ "step": 1740
12262
+ },
12263
+ {
12264
+ "epoch": 0.05600907211851661,
12265
+ "grad_norm": 1.4256093502044678,
12266
+ "learning_rate": 0.0002,
12267
+ "loss": 0.2849,
12268
+ "step": 1741
12269
+ },
12270
+ {
12271
+ "epoch": 0.05604124275155424,
12272
+ "grad_norm": 1.1765705347061157,
12273
+ "learning_rate": 0.0002,
12274
+ "loss": 0.3274,
12275
+ "step": 1742
12276
+ },
12277
+ {
12278
+ "epoch": 0.056073413384591875,
12279
+ "grad_norm": 1.3820139169692993,
12280
+ "learning_rate": 0.0002,
12281
+ "loss": 0.2519,
12282
+ "step": 1743
12283
+ },
12284
+ {
12285
+ "epoch": 0.05610558401762951,
12286
+ "grad_norm": 1.3904192447662354,
12287
+ "learning_rate": 0.0002,
12288
+ "loss": 0.3481,
12289
+ "step": 1744
12290
+ },
12291
+ {
12292
+ "epoch": 0.056137754650667136,
12293
+ "grad_norm": 1.578075647354126,
12294
+ "learning_rate": 0.0002,
12295
+ "loss": 0.3838,
12296
+ "step": 1745
12297
+ },
12298
+ {
12299
+ "epoch": 0.05616992528370477,
12300
+ "grad_norm": 2.1633901596069336,
12301
+ "learning_rate": 0.0002,
12302
+ "loss": 0.5132,
12303
+ "step": 1746
12304
+ },
12305
+ {
12306
+ "epoch": 0.056202095916742405,
12307
+ "grad_norm": 1.5895938873291016,
12308
+ "learning_rate": 0.0002,
12309
+ "loss": 0.3685,
12310
+ "step": 1747
12311
+ },
12312
+ {
12313
+ "epoch": 0.05623426654978003,
12314
+ "grad_norm": 1.3263061046600342,
12315
+ "learning_rate": 0.0002,
12316
+ "loss": 0.3321,
12317
+ "step": 1748
12318
+ },
12319
+ {
12320
+ "epoch": 0.056266437182817666,
12321
+ "grad_norm": 1.7387034893035889,
12322
+ "learning_rate": 0.0002,
12323
+ "loss": 0.4441,
12324
+ "step": 1749
12325
+ },
12326
+ {
12327
+ "epoch": 0.056298607815855294,
12328
+ "grad_norm": 1.5756828784942627,
12329
+ "learning_rate": 0.0002,
12330
+ "loss": 0.4804,
12331
+ "step": 1750
12332
+ },
12333
+ {
12334
+ "epoch": 0.05633077844889293,
12335
+ "grad_norm": 1.5541918277740479,
12336
+ "learning_rate": 0.0002,
12337
+ "loss": 0.4562,
12338
+ "step": 1751
12339
+ },
12340
+ {
12341
+ "epoch": 0.05636294908193056,
12342
+ "grad_norm": 1.2700080871582031,
12343
+ "learning_rate": 0.0002,
12344
+ "loss": 0.3591,
12345
+ "step": 1752
12346
+ },
12347
+ {
12348
+ "epoch": 0.05639511971496819,
12349
+ "grad_norm": 1.5825947523117065,
12350
+ "learning_rate": 0.0002,
12351
+ "loss": 0.4042,
12352
+ "step": 1753
12353
+ },
12354
+ {
12355
+ "epoch": 0.056427290348005824,
12356
+ "grad_norm": 1.5457230806350708,
12357
+ "learning_rate": 0.0002,
12358
+ "loss": 0.3447,
12359
+ "step": 1754
12360
+ },
12361
+ {
12362
+ "epoch": 0.05645946098104346,
12363
+ "grad_norm": 1.6879940032958984,
12364
+ "learning_rate": 0.0002,
12365
+ "loss": 0.4371,
12366
+ "step": 1755
12367
+ },
12368
+ {
12369
+ "epoch": 0.056491631614081085,
12370
+ "grad_norm": 1.3551236391067505,
12371
+ "learning_rate": 0.0002,
12372
+ "loss": 0.2969,
12373
+ "step": 1756
12374
+ },
12375
+ {
12376
+ "epoch": 0.05652380224711872,
12377
+ "grad_norm": 1.4704535007476807,
12378
+ "learning_rate": 0.0002,
12379
+ "loss": 0.3708,
12380
+ "step": 1757
12381
+ },
12382
+ {
12383
+ "epoch": 0.05655597288015635,
12384
+ "grad_norm": 1.2458895444869995,
12385
+ "learning_rate": 0.0002,
12386
+ "loss": 0.2914,
12387
+ "step": 1758
12388
+ },
12389
+ {
12390
+ "epoch": 0.05658814351319398,
12391
+ "grad_norm": 1.4119230508804321,
12392
+ "learning_rate": 0.0002,
12393
+ "loss": 0.4314,
12394
+ "step": 1759
12395
+ },
12396
+ {
12397
+ "epoch": 0.056620314146231615,
12398
+ "grad_norm": 1.4540210962295532,
12399
+ "learning_rate": 0.0002,
12400
+ "loss": 0.3175,
12401
+ "step": 1760
12402
+ },
12403
+ {
12404
+ "epoch": 0.05665248477926924,
12405
+ "grad_norm": 1.4042888879776,
12406
+ "learning_rate": 0.0002,
12407
+ "loss": 0.3327,
12408
+ "step": 1761
12409
+ },
12410
+ {
12411
+ "epoch": 0.05668465541230688,
12412
+ "grad_norm": 1.3778269290924072,
12413
+ "learning_rate": 0.0002,
12414
+ "loss": 0.3051,
12415
+ "step": 1762
12416
+ },
12417
+ {
12418
+ "epoch": 0.056716826045344504,
12419
+ "grad_norm": 1.4808207750320435,
12420
+ "learning_rate": 0.0002,
12421
+ "loss": 0.2844,
12422
+ "step": 1763
12423
+ },
12424
+ {
12425
+ "epoch": 0.05674899667838214,
12426
+ "grad_norm": 1.471560001373291,
12427
+ "learning_rate": 0.0002,
12428
+ "loss": 0.2853,
12429
+ "step": 1764
12430
+ },
12431
+ {
12432
+ "epoch": 0.05678116731141977,
12433
+ "grad_norm": 1.3863550424575806,
12434
+ "learning_rate": 0.0002,
12435
+ "loss": 0.3715,
12436
+ "step": 1765
12437
+ },
12438
+ {
12439
+ "epoch": 0.0568133379444574,
12440
+ "grad_norm": 1.444294810295105,
12441
+ "learning_rate": 0.0002,
12442
+ "loss": 0.3452,
12443
+ "step": 1766
12444
+ },
12445
+ {
12446
+ "epoch": 0.056845508577495034,
12447
+ "grad_norm": 1.2170288562774658,
12448
+ "learning_rate": 0.0002,
12449
+ "loss": 0.3307,
12450
+ "step": 1767
12451
+ },
12452
+ {
12453
+ "epoch": 0.05687767921053267,
12454
+ "grad_norm": 1.3601940870285034,
12455
+ "learning_rate": 0.0002,
12456
+ "loss": 0.3935,
12457
+ "step": 1768
12458
+ },
12459
+ {
12460
+ "epoch": 0.056909849843570295,
12461
+ "grad_norm": 1.5399080514907837,
12462
+ "learning_rate": 0.0002,
12463
+ "loss": 0.4176,
12464
+ "step": 1769
12465
+ },
12466
+ {
12467
+ "epoch": 0.05694202047660793,
12468
+ "grad_norm": 1.3395329713821411,
12469
+ "learning_rate": 0.0002,
12470
+ "loss": 0.3628,
12471
+ "step": 1770
12472
+ },
12473
+ {
12474
+ "epoch": 0.05697419110964556,
12475
+ "grad_norm": 1.9464349746704102,
12476
+ "learning_rate": 0.0002,
12477
+ "loss": 0.3275,
12478
+ "step": 1771
12479
+ },
12480
+ {
12481
+ "epoch": 0.05700636174268319,
12482
+ "grad_norm": 1.6518911123275757,
12483
+ "learning_rate": 0.0002,
12484
+ "loss": 0.3581,
12485
+ "step": 1772
12486
+ },
12487
+ {
12488
+ "epoch": 0.057038532375720825,
12489
+ "grad_norm": 1.468802809715271,
12490
+ "learning_rate": 0.0002,
12491
+ "loss": 0.4129,
12492
+ "step": 1773
12493
+ },
12494
+ {
12495
+ "epoch": 0.05707070300875845,
12496
+ "grad_norm": 1.3149415254592896,
12497
+ "learning_rate": 0.0002,
12498
+ "loss": 0.3162,
12499
+ "step": 1774
12500
+ },
12501
+ {
12502
+ "epoch": 0.05710287364179609,
12503
+ "grad_norm": 1.7053868770599365,
12504
+ "learning_rate": 0.0002,
12505
+ "loss": 0.3398,
12506
+ "step": 1775
12507
+ },
12508
+ {
12509
+ "epoch": 0.05713504427483372,
12510
+ "grad_norm": 1.2897893190383911,
12511
+ "learning_rate": 0.0002,
12512
+ "loss": 0.2758,
12513
+ "step": 1776
12514
+ },
12515
+ {
12516
+ "epoch": 0.05716721490787135,
12517
+ "grad_norm": 1.4252231121063232,
12518
+ "learning_rate": 0.0002,
12519
+ "loss": 0.2262,
12520
+ "step": 1777
12521
+ },
12522
+ {
12523
+ "epoch": 0.05719938554090898,
12524
+ "grad_norm": 1.3744853734970093,
12525
+ "learning_rate": 0.0002,
12526
+ "loss": 0.2802,
12527
+ "step": 1778
12528
+ },
12529
+ {
12530
+ "epoch": 0.05723155617394661,
12531
+ "grad_norm": 1.2926393747329712,
12532
+ "learning_rate": 0.0002,
12533
+ "loss": 0.3477,
12534
+ "step": 1779
12535
+ },
12536
+ {
12537
+ "epoch": 0.057263726806984244,
12538
+ "grad_norm": 1.5595306158065796,
12539
+ "learning_rate": 0.0002,
12540
+ "loss": 0.3823,
12541
+ "step": 1780
12542
+ },
12543
+ {
12544
+ "epoch": 0.05729589744002188,
12545
+ "grad_norm": 1.5525274276733398,
12546
+ "learning_rate": 0.0002,
12547
+ "loss": 0.3788,
12548
+ "step": 1781
12549
+ },
12550
+ {
12551
+ "epoch": 0.057328068073059506,
12552
+ "grad_norm": 1.4625494480133057,
12553
+ "learning_rate": 0.0002,
12554
+ "loss": 0.338,
12555
+ "step": 1782
12556
+ },
12557
+ {
12558
+ "epoch": 0.05736023870609714,
12559
+ "grad_norm": 1.4190728664398193,
12560
+ "learning_rate": 0.0002,
12561
+ "loss": 0.3539,
12562
+ "step": 1783
12563
+ },
12564
+ {
12565
+ "epoch": 0.057392409339134774,
12566
+ "grad_norm": 1.702358365058899,
12567
+ "learning_rate": 0.0002,
12568
+ "loss": 0.2488,
12569
+ "step": 1784
12570
+ },
12571
+ {
12572
+ "epoch": 0.0574245799721724,
12573
+ "grad_norm": 1.401620626449585,
12574
+ "learning_rate": 0.0002,
12575
+ "loss": 0.3911,
12576
+ "step": 1785
12577
+ },
12578
+ {
12579
+ "epoch": 0.057456750605210036,
12580
+ "grad_norm": 1.429564118385315,
12581
+ "learning_rate": 0.0002,
12582
+ "loss": 0.3282,
12583
+ "step": 1786
12584
+ },
12585
+ {
12586
+ "epoch": 0.05748892123824766,
12587
+ "grad_norm": 1.3767783641815186,
12588
+ "learning_rate": 0.0002,
12589
+ "loss": 0.3155,
12590
+ "step": 1787
12591
+ },
12592
+ {
12593
+ "epoch": 0.0575210918712853,
12594
+ "grad_norm": 1.6560885906219482,
12595
+ "learning_rate": 0.0002,
12596
+ "loss": 0.4185,
12597
+ "step": 1788
12598
+ },
12599
+ {
12600
+ "epoch": 0.05755326250432293,
12601
+ "grad_norm": 1.4894121885299683,
12602
+ "learning_rate": 0.0002,
12603
+ "loss": 0.3895,
12604
+ "step": 1789
12605
+ },
12606
+ {
12607
+ "epoch": 0.05758543313736056,
12608
+ "grad_norm": 1.457728624343872,
12609
+ "learning_rate": 0.0002,
12610
+ "loss": 0.3405,
12611
+ "step": 1790
12612
+ },
12613
+ {
12614
+ "epoch": 0.05761760377039819,
12615
+ "grad_norm": 1.3831778764724731,
12616
+ "learning_rate": 0.0002,
12617
+ "loss": 0.2808,
12618
+ "step": 1791
12619
+ },
12620
+ {
12621
+ "epoch": 0.05764977440343582,
12622
+ "grad_norm": 1.5047637224197388,
12623
+ "learning_rate": 0.0002,
12624
+ "loss": 0.3211,
12625
+ "step": 1792
12626
+ },
12627
+ {
12628
+ "epoch": 0.057681945036473455,
12629
+ "grad_norm": 1.3648213148117065,
12630
+ "learning_rate": 0.0002,
12631
+ "loss": 0.3884,
12632
+ "step": 1793
12633
+ },
12634
+ {
12635
+ "epoch": 0.05771411566951109,
12636
+ "grad_norm": 1.5376144647598267,
12637
+ "learning_rate": 0.0002,
12638
+ "loss": 0.3959,
12639
+ "step": 1794
12640
+ },
12641
+ {
12642
+ "epoch": 0.057746286302548716,
12643
+ "grad_norm": 1.6056605577468872,
12644
+ "learning_rate": 0.0002,
12645
+ "loss": 0.4887,
12646
+ "step": 1795
12647
+ },
12648
+ {
12649
+ "epoch": 0.05777845693558635,
12650
+ "grad_norm": 1.2603166103363037,
12651
+ "learning_rate": 0.0002,
12652
+ "loss": 0.2566,
12653
+ "step": 1796
12654
+ },
12655
+ {
12656
+ "epoch": 0.057810627568623985,
12657
+ "grad_norm": 1.444352626800537,
12658
+ "learning_rate": 0.0002,
12659
+ "loss": 0.3696,
12660
+ "step": 1797
12661
+ },
12662
+ {
12663
+ "epoch": 0.05784279820166161,
12664
+ "grad_norm": 1.2577990293502808,
12665
+ "learning_rate": 0.0002,
12666
+ "loss": 0.3349,
12667
+ "step": 1798
12668
+ },
12669
+ {
12670
+ "epoch": 0.057874968834699246,
12671
+ "grad_norm": 1.9209790229797363,
12672
+ "learning_rate": 0.0002,
12673
+ "loss": 0.4819,
12674
+ "step": 1799
12675
+ },
12676
+ {
12677
+ "epoch": 0.05790713946773687,
12678
+ "grad_norm": 1.4944988489151,
12679
+ "learning_rate": 0.0002,
12680
+ "loss": 0.2463,
12681
+ "step": 1800
12682
+ },
12683
+ {
12684
+ "epoch": 0.05790713946773687,
12685
+ "eval_loss": 0.32331234216690063,
12686
+ "eval_runtime": 28.8437,
12687
+ "eval_samples_per_second": 8.633,
12688
+ "eval_steps_per_second": 4.334,
12689
+ "step": 1800
12690
  }
12691
  ],
12692
  "logging_steps": 1,
 
12701
  "early_stopping_threshold": 0.0
12702
  },
12703
  "attributes": {
12704
+ "early_stopping_patience_counter": 1
12705
  }
12706
  },
12707
  "TrainerControl": {
 
12715
  "attributes": {}
12716
  }
12717
  },
12718
+ "total_flos": 1.1852880273211392e+17,
12719
  "train_batch_size": 2,
12720
  "trial_name": null,
12721
  "trial_params": null