ErrorAI commited on
Commit
967aaa9
·
verified ·
1 Parent(s): ac94793

Training in progress, step 1447, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8c4cb2519bb5e421f00aefa35305302ee9d33e64b4d1c451829eedc2c93ce75e
3
  size 80792096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f093a323af6c6b18fe218fd37e6aa2a686c71bf0b4bafe5d0a0512e02e64279f
3
  size 80792096
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:45cef60b06852918772826c0ef5293d973d621c499820692c266a8a4c845379e
3
  size 41460084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e1f9819ca68bfd335d881d0cee9cb5a88ada0e81a934bc426c0d57343c620827
3
  size 41460084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f1e692fe2d82cd43de091e57f1bd2e8be1aebc300e746b75ee20fcb0a149129
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8a16950e15a2023892910e4f74ea1f9c06da8a3ddb1e92bf5c3ec6ff9e8f0f81
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:af4b20b264d6ef2832e5f568f87809d7ab468259ae10569e962ef1f3e194fa3b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e830029559dd1ac49acac9c5cac1f6ae0262ca4b3799ec74355143a95eb7d6cf
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.051418019980114575,
5
  "eval_steps": 500,
6
- "global_step": 1086,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7609,6 +7609,2533 @@
7609
  "learning_rate": 1.4683195111226378e-05,
7610
  "loss": 1.3353,
7611
  "step": 1086
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7612
  }
7613
  ],
7614
  "logging_steps": 1,
@@ -7623,12 +10150,12 @@
7623
  "should_evaluate": false,
7624
  "should_log": false,
7625
  "should_save": true,
7626
- "should_training_stop": false
7627
  },
7628
  "attributes": {}
7629
  }
7630
  },
7631
- "total_flos": 7.570010984216003e+17,
7632
  "train_batch_size": 4,
7633
  "trial_name": null,
7634
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.06851001373041049,
5
  "eval_steps": 500,
6
+ "global_step": 1447,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7609
  "learning_rate": 1.4683195111226378e-05,
7610
  "loss": 1.3353,
7611
  "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.05146536622319019,
7615
+ "grad_norm": 1.421676754951477,
7616
+ "learning_rate": 1.460616872323236e-05,
7617
+ "loss": 1.559,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.0515127124662658,
7622
+ "grad_norm": 1.1935399770736694,
7623
+ "learning_rate": 1.4529310330343965e-05,
7624
+ "loss": 1.3224,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.05156005870934141,
7629
+ "grad_norm": 1.486861228942871,
7630
+ "learning_rate": 1.4452620297365804e-05,
7631
+ "loss": 1.4509,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.05160740495241702,
7636
+ "grad_norm": 1.250034213066101,
7637
+ "learning_rate": 1.4376098988303405e-05,
7638
+ "loss": 1.3847,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.051654751195492635,
7643
+ "grad_norm": 1.556272268295288,
7644
+ "learning_rate": 1.4299746766361477e-05,
7645
+ "loss": 1.5389,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.05170209743856825,
7650
+ "grad_norm": 1.4225186109542847,
7651
+ "learning_rate": 1.4223563993942124e-05,
7652
+ "loss": 1.5265,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.05174944368164386,
7657
+ "grad_norm": 1.3785078525543213,
7658
+ "learning_rate": 1.4147551032643192e-05,
7659
+ "loss": 1.2017,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.05179678992471947,
7664
+ "grad_norm": 1.3730214834213257,
7665
+ "learning_rate": 1.4071708243256498e-05,
7666
+ "loss": 1.1137,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.05184413616779508,
7671
+ "grad_norm": 1.321266531944275,
7672
+ "learning_rate": 1.3996035985766204e-05,
7673
+ "loss": 1.1409,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.051891482410870694,
7678
+ "grad_norm": 1.318037748336792,
7679
+ "learning_rate": 1.3920534619346997e-05,
7680
+ "loss": 1.1489,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.051938828653946306,
7685
+ "grad_norm": 1.3448675870895386,
7686
+ "learning_rate": 1.384520450236244e-05,
7687
+ "loss": 1.2181,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.05198617489702192,
7692
+ "grad_norm": 1.6022285223007202,
7693
+ "learning_rate": 1.3770045992363311e-05,
7694
+ "loss": 1.3204,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.05203352114009753,
7699
+ "grad_norm": 1.4788554906845093,
7700
+ "learning_rate": 1.3695059446085829e-05,
7701
+ "loss": 1.2685,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.05208086738317314,
7706
+ "grad_norm": 1.3918118476867676,
7707
+ "learning_rate": 1.3620245219449984e-05,
7708
+ "loss": 1.1012,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.052128213626248754,
7713
+ "grad_norm": 1.1865662336349487,
7714
+ "learning_rate": 1.354560366755791e-05,
7715
+ "loss": 1.5779,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.052175559869324366,
7720
+ "grad_norm": 1.157436490058899,
7721
+ "learning_rate": 1.3471135144692099e-05,
7722
+ "loss": 1.6593,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.05222290611239998,
7727
+ "grad_norm": 1.1785343885421753,
7728
+ "learning_rate": 1.3396840004313788e-05,
7729
+ "loss": 1.5321,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.05227025235547559,
7734
+ "grad_norm": 1.1837494373321533,
7735
+ "learning_rate": 1.3322718599061251e-05,
7736
+ "loss": 1.5987,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.0523175985985512,
7741
+ "grad_norm": 1.204405665397644,
7742
+ "learning_rate": 1.3248771280748174e-05,
7743
+ "loss": 1.5906,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.05236494484162681,
7748
+ "grad_norm": 1.2548047304153442,
7749
+ "learning_rate": 1.317499840036191e-05,
7750
+ "loss": 1.4687,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.05241229108470243,
7755
+ "grad_norm": 1.2715576887130737,
7756
+ "learning_rate": 1.310140030806184e-05,
7757
+ "loss": 1.6087,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.052459637327778044,
7762
+ "grad_norm": 1.2894080877304077,
7763
+ "learning_rate": 1.3027977353177779e-05,
7764
+ "loss": 1.5295,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.052506983570853656,
7769
+ "grad_norm": 1.4056642055511475,
7770
+ "learning_rate": 1.2954729884208211e-05,
7771
+ "loss": 1.4287,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.05255432981392927,
7776
+ "grad_norm": 1.352663516998291,
7777
+ "learning_rate": 1.2881658248818679e-05,
7778
+ "loss": 1.7946,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.05260167605700488,
7783
+ "grad_norm": 1.274722695350647,
7784
+ "learning_rate": 1.2808762793840201e-05,
7785
+ "loss": 1.3373,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.05264902230008049,
7790
+ "grad_norm": 1.205983281135559,
7791
+ "learning_rate": 1.2736043865267494e-05,
7792
+ "loss": 1.4965,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.052696368543156104,
7797
+ "grad_norm": 1.3179651498794556,
7798
+ "learning_rate": 1.2663501808257444e-05,
7799
+ "loss": 1.8323,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.052743714786231716,
7804
+ "grad_norm": 1.2150477170944214,
7805
+ "learning_rate": 1.2591136967127381e-05,
7806
+ "loss": 1.5991,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.05279106102930733,
7811
+ "grad_norm": 1.125106930732727,
7812
+ "learning_rate": 1.2518949685353559e-05,
7813
+ "loss": 1.3217,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.05283840727238294,
7818
+ "grad_norm": 1.0757575035095215,
7819
+ "learning_rate": 1.24469403055694e-05,
7820
+ "loss": 1.2343,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.05288575351545855,
7825
+ "grad_norm": 1.200031042098999,
7826
+ "learning_rate": 1.2375109169563915e-05,
7827
+ "loss": 1.5762,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.05293309975853416,
7832
+ "grad_norm": 1.3849049806594849,
7833
+ "learning_rate": 1.2303456618280141e-05,
7834
+ "loss": 1.5292,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.052980446001609775,
7839
+ "grad_norm": 1.3612500429153442,
7840
+ "learning_rate": 1.223198299181343e-05,
7841
+ "loss": 1.5294,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.05302779224468539,
7846
+ "grad_norm": 1.2534222602844238,
7847
+ "learning_rate": 1.2160688629409872e-05,
7848
+ "loss": 1.5581,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.053075138487761,
7853
+ "grad_norm": 1.2404296398162842,
7854
+ "learning_rate": 1.2089573869464738e-05,
7855
+ "loss": 1.5379,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.05312248473083661,
7860
+ "grad_norm": 1.2074594497680664,
7861
+ "learning_rate": 1.2018639049520769e-05,
7862
+ "loss": 1.2621,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.05316983097391222,
7867
+ "grad_norm": 1.2589749097824097,
7868
+ "learning_rate": 1.1947884506266655e-05,
7869
+ "loss": 1.6411,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.053217177216987835,
7874
+ "grad_norm": 1.301170825958252,
7875
+ "learning_rate": 1.1877310575535394e-05,
7876
+ "loss": 1.6083,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.05326452346006345,
7881
+ "grad_norm": 1.3040543794631958,
7882
+ "learning_rate": 1.1806917592302762e-05,
7883
+ "loss": 1.487,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.05331186970313906,
7888
+ "grad_norm": 1.2013649940490723,
7889
+ "learning_rate": 1.1736705890685623e-05,
7890
+ "loss": 1.5764,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.05335921594621467,
7895
+ "grad_norm": 1.2394853830337524,
7896
+ "learning_rate": 1.1666675803940408e-05,
7897
+ "loss": 1.5924,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.05340656218929028,
7902
+ "grad_norm": 1.3157364130020142,
7903
+ "learning_rate": 1.1596827664461558e-05,
7904
+ "loss": 1.2065,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.053453908432365894,
7909
+ "grad_norm": 1.2881298065185547,
7910
+ "learning_rate": 1.1527161803779867e-05,
7911
+ "loss": 1.3759,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.053501254675441506,
7916
+ "grad_norm": 1.3440982103347778,
7917
+ "learning_rate": 1.145767855256097e-05,
7918
+ "loss": 1.6574,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.05354860091851712,
7923
+ "grad_norm": 1.266324520111084,
7924
+ "learning_rate": 1.1388378240603741e-05,
7925
+ "loss": 1.4652,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.05359594716159273,
7930
+ "grad_norm": 1.4165794849395752,
7931
+ "learning_rate": 1.1319261196838782e-05,
7932
+ "loss": 1.611,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.05364329340466834,
7937
+ "grad_norm": 1.284224271774292,
7938
+ "learning_rate": 1.1250327749326772e-05,
7939
+ "loss": 1.5052,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.053690639647743954,
7944
+ "grad_norm": 1.1414461135864258,
7945
+ "learning_rate": 1.1181578225256972e-05,
7946
+ "loss": 1.1535,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.053737985890819566,
7951
+ "grad_norm": 1.4431864023208618,
7952
+ "learning_rate": 1.1113012950945695e-05,
7953
+ "loss": 1.2547,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.05378533213389518,
7958
+ "grad_norm": 1.2507365942001343,
7959
+ "learning_rate": 1.1044632251834686e-05,
7960
+ "loss": 1.3121,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.05383267837697079,
7965
+ "grad_norm": 1.1714433431625366,
7966
+ "learning_rate": 1.0976436452489592e-05,
7967
+ "loss": 1.1239,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.0538800246200464,
7972
+ "grad_norm": 1.3286577463150024,
7973
+ "learning_rate": 1.090842587659851e-05,
7974
+ "loss": 1.3356,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.053927370863122014,
7979
+ "grad_norm": 1.4974550008773804,
7980
+ "learning_rate": 1.0840600846970334e-05,
7981
+ "loss": 1.5551,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.053974717106197626,
7986
+ "grad_norm": 1.1929486989974976,
7987
+ "learning_rate": 1.0772961685533266e-05,
7988
+ "loss": 1.2629,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.05402206334927324,
7993
+ "grad_norm": 1.4195520877838135,
7994
+ "learning_rate": 1.0705508713333313e-05,
7995
+ "loss": 1.2655,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.05406940959234885,
8000
+ "grad_norm": 1.5098705291748047,
8001
+ "learning_rate": 1.0638242250532755e-05,
8002
+ "loss": 1.42,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.05411675583542446,
8007
+ "grad_norm": 1.3926045894622803,
8008
+ "learning_rate": 1.0571162616408587e-05,
8009
+ "loss": 1.4434,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.05416410207850007,
8014
+ "grad_norm": 1.1991745233535767,
8015
+ "learning_rate": 1.0504270129351035e-05,
8016
+ "loss": 1.1939,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.054211448321575685,
8021
+ "grad_norm": 1.3831684589385986,
8022
+ "learning_rate": 1.0437565106862074e-05,
8023
+ "loss": 1.492,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.0542587945646513,
8028
+ "grad_norm": 1.5574158430099487,
8029
+ "learning_rate": 1.0371047865553846e-05,
8030
+ "loss": 1.4823,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.05430614080772691,
8035
+ "grad_norm": 1.4688689708709717,
8036
+ "learning_rate": 1.03047187211472e-05,
8037
+ "loss": 1.3908,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.05435348705080252,
8042
+ "grad_norm": 1.5596418380737305,
8043
+ "learning_rate": 1.0238577988470232e-05,
8044
+ "loss": 1.247,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.05440083329387813,
8049
+ "grad_norm": 1.3878637552261353,
8050
+ "learning_rate": 1.0172625981456723e-05,
8051
+ "loss": 1.3574,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.054448179536953745,
8056
+ "grad_norm": 1.5790703296661377,
8057
+ "learning_rate": 1.0106863013144669e-05,
8058
+ "loss": 1.2905,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.05449552578002936,
8063
+ "grad_norm": 1.2336885929107666,
8064
+ "learning_rate": 1.0041289395674802e-05,
8065
+ "loss": 1.5459,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.05454287202310497,
8070
+ "grad_norm": 1.2021138668060303,
8071
+ "learning_rate": 9.975905440289152e-06,
8072
+ "loss": 1.6154,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.05459021826618058,
8077
+ "grad_norm": 1.0933634042739868,
8078
+ "learning_rate": 9.91071145732948e-06,
8079
+ "loss": 1.4471,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.05463756450925619,
8084
+ "grad_norm": 1.1646209955215454,
8085
+ "learning_rate": 9.84570775623585e-06,
8086
+ "loss": 1.4389,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.054684910752331804,
8091
+ "grad_norm": 1.2779886722564697,
8092
+ "learning_rate": 9.780894645545214e-06,
8093
+ "loss": 1.6144,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.054732256995407416,
8098
+ "grad_norm": 1.1957786083221436,
8099
+ "learning_rate": 9.716272432889844e-06,
8100
+ "loss": 1.6371,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.05477960323848303,
8105
+ "grad_norm": 1.1475330591201782,
8106
+ "learning_rate": 9.651841424995934e-06,
8107
+ "loss": 1.5913,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.05482694948155864,
8112
+ "grad_norm": 1.0740982294082642,
8113
+ "learning_rate": 9.58760192768216e-06,
8114
+ "loss": 1.223,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.05487429572463425,
8119
+ "grad_norm": 1.166710615158081,
8120
+ "learning_rate": 9.52355424585818e-06,
8121
+ "loss": 1.4922,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.054921641967709864,
8126
+ "grad_norm": 1.3334842920303345,
8127
+ "learning_rate": 9.459698683523204e-06,
8128
+ "loss": 1.5167,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.054968988210785476,
8133
+ "grad_norm": 1.399493932723999,
8134
+ "learning_rate": 9.39603554376456e-06,
8135
+ "loss": 1.6392,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.05501633445386109,
8140
+ "grad_norm": 1.229955792427063,
8141
+ "learning_rate": 9.332565128756283e-06,
8142
+ "loss": 1.5309,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.0550636806969367,
8147
+ "grad_norm": 1.2729157209396362,
8148
+ "learning_rate": 9.269287739757604e-06,
8149
+ "loss": 1.3175,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.05511102694001231,
8154
+ "grad_norm": 1.3252742290496826,
8155
+ "learning_rate": 9.206203677111575e-06,
8156
+ "loss": 1.3721,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.05515837318308792,
8161
+ "grad_norm": 1.1812686920166016,
8162
+ "learning_rate": 9.143313240243667e-06,
8163
+ "loss": 1.3929,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.055205719426163535,
8168
+ "grad_norm": 1.192521572113037,
8169
+ "learning_rate": 9.080616727660285e-06,
8170
+ "loss": 1.3355,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.05525306566923915,
8175
+ "grad_norm": 0.9685383439064026,
8176
+ "learning_rate": 9.018114436947373e-06,
8177
+ "loss": 1.1218,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.05530041191231476,
8182
+ "grad_norm": 1.3759257793426514,
8183
+ "learning_rate": 8.955806664769051e-06,
8184
+ "loss": 1.6344,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.05534775815539037,
8189
+ "grad_norm": 1.1711422204971313,
8190
+ "learning_rate": 8.893693706866125e-06,
8191
+ "loss": 1.4263,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.05539510439846598,
8196
+ "grad_norm": 1.3107439279556274,
8197
+ "learning_rate": 8.831775858054747e-06,
8198
+ "loss": 1.5476,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.055442450641541595,
8203
+ "grad_norm": 1.1891083717346191,
8204
+ "learning_rate": 8.770053412224971e-06,
8205
+ "loss": 1.3977,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.05548979688461721,
8210
+ "grad_norm": 1.472711443901062,
8211
+ "learning_rate": 8.708526662339428e-06,
8212
+ "loss": 1.7162,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.05553714312769282,
8217
+ "grad_norm": 1.3298579454421997,
8218
+ "learning_rate": 8.647195900431831e-06,
8219
+ "loss": 1.4595,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.05558448937076843,
8224
+ "grad_norm": 1.3442754745483398,
8225
+ "learning_rate": 8.586061417605668e-06,
8226
+ "loss": 1.2764,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.05563183561384404,
8231
+ "grad_norm": 1.2704945802688599,
8232
+ "learning_rate": 8.525123504032817e-06,
8233
+ "loss": 1.2696,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.055679181856919654,
8238
+ "grad_norm": 1.1754649877548218,
8239
+ "learning_rate": 8.46438244895213e-06,
8240
+ "loss": 1.3784,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.055726528099995266,
8245
+ "grad_norm": 1.1760340929031372,
8246
+ "learning_rate": 8.403838540668057e-06,
8247
+ "loss": 1.3792,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.05577387434307088,
8252
+ "grad_norm": 1.318698763847351,
8253
+ "learning_rate": 8.343492066549368e-06,
8254
+ "loss": 1.3285,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.05582122058614649,
8259
+ "grad_norm": 1.0595449209213257,
8260
+ "learning_rate": 8.283343313027653e-06,
8261
+ "loss": 1.2448,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.0558685668292221,
8266
+ "grad_norm": 1.2634952068328857,
8267
+ "learning_rate": 8.22339256559606e-06,
8268
+ "loss": 1.3498,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.055915913072297714,
8273
+ "grad_norm": 1.0653668642044067,
8274
+ "learning_rate": 8.163640108807896e-06,
8275
+ "loss": 1.2436,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.055963259315373326,
8280
+ "grad_norm": 1.3706316947937012,
8281
+ "learning_rate": 8.104086226275332e-06,
8282
+ "loss": 1.3773,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.05601060555844894,
8287
+ "grad_norm": 1.3542323112487793,
8288
+ "learning_rate": 8.044731200667966e-06,
8289
+ "loss": 1.5692,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.05605795180152455,
8294
+ "grad_norm": 1.4079458713531494,
8295
+ "learning_rate": 7.985575313711546e-06,
8296
+ "loss": 1.5482,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.05610529804460016,
8301
+ "grad_norm": 1.3803889751434326,
8302
+ "learning_rate": 7.926618846186645e-06,
8303
+ "loss": 1.4889,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.056152644287675774,
8308
+ "grad_norm": 1.2433762550354004,
8309
+ "learning_rate": 7.867862077927269e-06,
8310
+ "loss": 1.2356,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.056199990530751386,
8315
+ "grad_norm": 1.273190975189209,
8316
+ "learning_rate": 7.809305287819558e-06,
8317
+ "loss": 1.3955,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.056247336773827,
8322
+ "grad_norm": 1.3209604024887085,
8323
+ "learning_rate": 7.750948753800507e-06,
8324
+ "loss": 1.5155,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.05629468301690261,
8329
+ "grad_norm": 1.3223750591278076,
8330
+ "learning_rate": 7.692792752856565e-06,
8331
+ "loss": 1.459,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.05634202925997822,
8336
+ "grad_norm": 1.6244319677352905,
8337
+ "learning_rate": 7.634837561022374e-06,
8338
+ "loss": 1.5188,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.05638937550305383,
8343
+ "grad_norm": 1.22336745262146,
8344
+ "learning_rate": 7.577083453379424e-06,
8345
+ "loss": 1.3745,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.056436721746129445,
8350
+ "grad_norm": 1.2422270774841309,
8351
+ "learning_rate": 7.519530704054828e-06,
8352
+ "loss": 1.3194,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.05648406798920506,
8357
+ "grad_norm": 1.2926522493362427,
8358
+ "learning_rate": 7.462179586219897e-06,
8359
+ "loss": 1.274,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.05653141423228067,
8364
+ "grad_norm": 1.3746919631958008,
8365
+ "learning_rate": 7.405030372088933e-06,
8366
+ "loss": 1.2977,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.05657876047535628,
8371
+ "grad_norm": 1.4829906225204468,
8372
+ "learning_rate": 7.348083332917926e-06,
8373
+ "loss": 1.2944,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.05662610671843189,
8378
+ "grad_norm": 1.2516322135925293,
8379
+ "learning_rate": 7.291338739003234e-06,
8380
+ "loss": 1.1295,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.056673452961507505,
8385
+ "grad_norm": 1.5649276971817017,
8386
+ "learning_rate": 7.234796859680309e-06,
8387
+ "loss": 1.3443,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.05672079920458312,
8392
+ "grad_norm": 1.3753424882888794,
8393
+ "learning_rate": 7.178457963322471e-06,
8394
+ "loss": 1.2108,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.05676814544765873,
8399
+ "grad_norm": 1.6467722654342651,
8400
+ "learning_rate": 7.1223223173395416e-06,
8401
+ "loss": 1.5478,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.05681549169073434,
8406
+ "grad_norm": 1.6803184747695923,
8407
+ "learning_rate": 7.066390188176647e-06,
8408
+ "loss": 1.4304,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.05686283793380995,
8413
+ "grad_norm": 1.2419159412384033,
8414
+ "learning_rate": 7.010661841312921e-06,
8415
+ "loss": 1.5378,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.056910184176885564,
8420
+ "grad_norm": 1.4295827150344849,
8421
+ "learning_rate": 6.955137541260287e-06,
8422
+ "loss": 1.4816,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.056957530419961176,
8427
+ "grad_norm": 1.4575597047805786,
8428
+ "learning_rate": 6.899817551562127e-06,
8429
+ "loss": 1.778,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.05700487666303679,
8434
+ "grad_norm": 1.3488417863845825,
8435
+ "learning_rate": 6.844702134792086e-06,
8436
+ "loss": 1.7534,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.0570522229061124,
8441
+ "grad_norm": 1.2744368314743042,
8442
+ "learning_rate": 6.789791552552838e-06,
8443
+ "loss": 1.5629,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.05709956914918801,
8448
+ "grad_norm": 1.2052980661392212,
8449
+ "learning_rate": 6.735086065474799e-06,
8450
+ "loss": 1.4061,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.057146915392263624,
8455
+ "grad_norm": 1.2301853895187378,
8456
+ "learning_rate": 6.6805859332148945e-06,
8457
+ "loss": 1.5704,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.057194261635339236,
8462
+ "grad_norm": 1.1014851331710815,
8463
+ "learning_rate": 6.626291414455388e-06,
8464
+ "loss": 1.2843,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.05724160787841485,
8469
+ "grad_norm": 1.1493160724639893,
8470
+ "learning_rate": 6.572202766902569e-06,
8471
+ "loss": 1.3725,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.05728895412149046,
8476
+ "grad_norm": 1.1507078409194946,
8477
+ "learning_rate": 6.518320247285581e-06,
8478
+ "loss": 1.2313,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.05733630036456607,
8483
+ "grad_norm": 1.3263248205184937,
8484
+ "learning_rate": 6.464644111355189e-06,
8485
+ "loss": 1.5823,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.05738364660764168,
8490
+ "grad_norm": 1.253355622291565,
8491
+ "learning_rate": 6.411174613882592e-06,
8492
+ "loss": 1.5534,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.057430992850717295,
8497
+ "grad_norm": 1.2244974374771118,
8498
+ "learning_rate": 6.3579120086581515e-06,
8499
+ "loss": 1.5079,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.05747833909379291,
8504
+ "grad_norm": 1.1507781744003296,
8505
+ "learning_rate": 6.30485654849024e-06,
8506
+ "loss": 1.4029,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.05752568533686852,
8511
+ "grad_norm": 1.1730035543441772,
8512
+ "learning_rate": 6.2520084852040526e-06,
8513
+ "loss": 1.2631,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.05757303157994413,
8518
+ "grad_norm": 1.3316566944122314,
8519
+ "learning_rate": 6.199368069640343e-06,
8520
+ "loss": 1.6483,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.05762037782301974,
8525
+ "grad_norm": 1.1844844818115234,
8526
+ "learning_rate": 6.1469355516542985e-06,
8527
+ "loss": 1.44,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.057667724066095355,
8532
+ "grad_norm": 1.2655210494995117,
8533
+ "learning_rate": 6.094711180114309e-06,
8534
+ "loss": 1.5127,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.05771507030917097,
8539
+ "grad_norm": 1.2262639999389648,
8540
+ "learning_rate": 6.042695202900855e-06,
8541
+ "loss": 1.5044,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.05776241655224658,
8546
+ "grad_norm": 1.340762972831726,
8547
+ "learning_rate": 5.990887866905237e-06,
8548
+ "loss": 1.4632,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.05780976279532219,
8553
+ "grad_norm": 2.6526997089385986,
8554
+ "learning_rate": 5.939289418028454e-06,
8555
+ "loss": 1.4763,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.0578571090383978,
8560
+ "grad_norm": 1.28556227684021,
8561
+ "learning_rate": 5.887900101180066e-06,
8562
+ "loss": 1.4482,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.057904455281473415,
8567
+ "grad_norm": 1.3036595582962036,
8568
+ "learning_rate": 5.83672016027697e-06,
8569
+ "loss": 1.6322,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.057951801524549026,
8574
+ "grad_norm": 1.4159454107284546,
8575
+ "learning_rate": 5.78574983824226e-06,
8576
+ "loss": 1.4237,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.05799914776762464,
8581
+ "grad_norm": 1.2348464727401733,
8582
+ "learning_rate": 5.734989377004118e-06,
8583
+ "loss": 1.372,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.05804649401070025,
8588
+ "grad_norm": 1.4472335577011108,
8589
+ "learning_rate": 5.684439017494614e-06,
8590
+ "loss": 1.6784,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.05809384025377586,
8595
+ "grad_norm": 1.2965421676635742,
8596
+ "learning_rate": 5.634098999648579e-06,
8597
+ "loss": 1.5013,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.058141186496851474,
8602
+ "grad_norm": 1.2801685333251953,
8603
+ "learning_rate": 5.583969562402447e-06,
8604
+ "loss": 1.5362,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.058188532739927086,
8609
+ "grad_norm": 1.151532530784607,
8610
+ "learning_rate": 5.534050943693198e-06,
8611
+ "loss": 1.1707,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.0582358789830027,
8616
+ "grad_norm": 1.2291841506958008,
8617
+ "learning_rate": 5.484343380457125e-06,
8618
+ "loss": 1.3508,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.05828322522607831,
8623
+ "grad_norm": 1.1725528240203857,
8624
+ "learning_rate": 5.4348471086287486e-06,
8625
+ "loss": 1.3057,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.05833057146915392,
8630
+ "grad_norm": 1.1347895860671997,
8631
+ "learning_rate": 5.385562363139757e-06,
8632
+ "loss": 1.4831,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.058377917712229534,
8637
+ "grad_norm": 1.2504128217697144,
8638
+ "learning_rate": 5.336489377917786e-06,
8639
+ "loss": 1.3756,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.058425263955305146,
8644
+ "grad_norm": 1.4475090503692627,
8645
+ "learning_rate": 5.287628385885385e-06,
8646
+ "loss": 1.5545,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.05847261019838076,
8651
+ "grad_norm": 1.3991408348083496,
8652
+ "learning_rate": 5.2389796189589e-06,
8653
+ "loss": 1.6003,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.05851995644145637,
8658
+ "grad_norm": 1.089169979095459,
8659
+ "learning_rate": 5.190543308047335e-06,
8660
+ "loss": 1.2467,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.05856730268453198,
8665
+ "grad_norm": 1.4275898933410645,
8666
+ "learning_rate": 5.1423196830513e-06,
8667
+ "loss": 1.5092,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.05861464892760759,
8672
+ "grad_norm": 1.4928823709487915,
8673
+ "learning_rate": 5.094308972861878e-06,
8674
+ "loss": 1.5897,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.058661995170683205,
8679
+ "grad_norm": 1.2940183877944946,
8680
+ "learning_rate": 5.0465114053596e-06,
8681
+ "loss": 1.2045,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.05870934141375882,
8686
+ "grad_norm": 1.778552532196045,
8687
+ "learning_rate": 4.998927207413295e-06,
8688
+ "loss": 1.8119,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.05875668765683443,
8693
+ "grad_norm": 1.470236897468567,
8694
+ "learning_rate": 4.951556604879048e-06,
8695
+ "loss": 1.3587,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.05880403389991004,
8700
+ "grad_norm": 1.4887255430221558,
8701
+ "learning_rate": 4.904399822599142e-06,
8702
+ "loss": 1.3095,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.05885138014298565,
8707
+ "grad_norm": 1.263823390007019,
8708
+ "learning_rate": 4.857457084400957e-06,
8709
+ "loss": 1.2518,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.058898726386061265,
8714
+ "grad_norm": 1.330069661140442,
8715
+ "learning_rate": 4.81072861309591e-06,
8716
+ "loss": 1.1333,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.05894607262913688,
8721
+ "grad_norm": 1.332933783531189,
8722
+ "learning_rate": 4.764214630478447e-06,
8723
+ "loss": 1.3739,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.05899341887221249,
8728
+ "grad_norm": 1.5848991870880127,
8729
+ "learning_rate": 4.717915357324926e-06,
8730
+ "loss": 1.7896,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.0590407651152881,
8735
+ "grad_norm": 1.492069125175476,
8736
+ "learning_rate": 4.671831013392608e-06,
8737
+ "loss": 1.3187,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.05908811135836371,
8742
+ "grad_norm": 1.2575969696044922,
8743
+ "learning_rate": 4.625961817418578e-06,
8744
+ "loss": 1.2123,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.059135457601439324,
8749
+ "grad_norm": 1.4132999181747437,
8750
+ "learning_rate": 4.580307987118781e-06,
8751
+ "loss": 1.3083,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.059182803844514936,
8756
+ "grad_norm": 1.3583660125732422,
8757
+ "learning_rate": 4.534869739186903e-06,
8758
+ "loss": 1.2488,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.05923015008759055,
8763
+ "grad_norm": 1.1643834114074707,
8764
+ "learning_rate": 4.489647289293369e-06,
8765
+ "loss": 1.3848,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.05927749633066616,
8770
+ "grad_norm": 1.2520825862884521,
8771
+ "learning_rate": 4.44464085208437e-06,
8772
+ "loss": 1.6913,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.05932484257374177,
8777
+ "grad_norm": 1.4900792837142944,
8778
+ "learning_rate": 4.3998506411807695e-06,
8779
+ "loss": 1.5912,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.059372188816817384,
8784
+ "grad_norm": 1.1609636545181274,
8785
+ "learning_rate": 4.355276869177128e-06,
8786
+ "loss": 1.572,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.059419535059892996,
8791
+ "grad_norm": 1.1604900360107422,
8792
+ "learning_rate": 4.310919747640707e-06,
8793
+ "loss": 1.5144,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.05946688130296861,
8798
+ "grad_norm": 1.0765118598937988,
8799
+ "learning_rate": 4.266779487110434e-06,
8800
+ "loss": 1.1977,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.05951422754604422,
8805
+ "grad_norm": 1.2380905151367188,
8806
+ "learning_rate": 4.222856297095912e-06,
8807
+ "loss": 1.6044,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.05956157378911983,
8812
+ "grad_norm": 1.16346275806427,
8813
+ "learning_rate": 4.179150386076424e-06,
8814
+ "loss": 1.5277,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.059608920032195443,
8819
+ "grad_norm": 1.077487826347351,
8820
+ "learning_rate": 4.135661961499987e-06,
8821
+ "loss": 1.4139,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.059656266275271055,
8826
+ "grad_norm": 1.3056800365447998,
8827
+ "learning_rate": 4.0923912297822775e-06,
8828
+ "loss": 1.5478,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.05970361251834667,
8833
+ "grad_norm": 1.5615487098693848,
8834
+ "learning_rate": 4.049338396305735e-06,
8835
+ "loss": 1.4689,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.05975095876142228,
8840
+ "grad_norm": 1.1437926292419434,
8841
+ "learning_rate": 4.006503665418554e-06,
8842
+ "loss": 1.4132,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.05979830500449789,
8847
+ "grad_norm": 1.14958918094635,
8848
+ "learning_rate": 3.963887240433706e-06,
8849
+ "loss": 1.4433,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.0598456512475735,
8854
+ "grad_norm": 1.3017897605895996,
8855
+ "learning_rate": 3.921489323627975e-06,
8856
+ "loss": 1.5105,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.059892997490649115,
8861
+ "grad_norm": 1.1352862119674683,
8862
+ "learning_rate": 3.879310116241042e-06,
8863
+ "loss": 1.4971,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.05994034373372473,
8868
+ "grad_norm": 1.2571970224380493,
8869
+ "learning_rate": 3.837349818474456e-06,
8870
+ "loss": 1.543,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.05998768997680034,
8875
+ "grad_norm": 1.245848298072815,
8876
+ "learning_rate": 3.795608629490738e-06,
8877
+ "loss": 1.4303,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.06003503621987595,
8882
+ "grad_norm": 1.1832315921783447,
8883
+ "learning_rate": 3.754086747412422e-06,
8884
+ "loss": 1.4129,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.06008238246295156,
8889
+ "grad_norm": 1.2564343214035034,
8890
+ "learning_rate": 3.7127843693211206e-06,
8891
+ "loss": 1.367,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.060129728706027175,
8896
+ "grad_norm": 1.4539203643798828,
8897
+ "learning_rate": 3.671701691256557e-06,
8898
+ "loss": 1.6603,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.060177074949102786,
8903
+ "grad_norm": 1.374998688697815,
8904
+ "learning_rate": 3.6308389082156835e-06,
8905
+ "loss": 1.5778,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.0602244211921784,
8910
+ "grad_norm": 1.2109373807907104,
8911
+ "learning_rate": 3.5901962141516977e-06,
8912
+ "loss": 1.4751,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.06027176743525401,
8917
+ "grad_norm": 1.3299740552902222,
8918
+ "learning_rate": 3.549773801973211e-06,
8919
+ "loss": 1.4164,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.06031911367832962,
8924
+ "grad_norm": 1.5119253396987915,
8925
+ "learning_rate": 3.509571863543221e-06,
8926
+ "loss": 1.4562,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.060366459921405234,
8931
+ "grad_norm": 1.5190602540969849,
8932
+ "learning_rate": 3.4695905896782843e-06,
8933
+ "loss": 1.4357,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.060413806164480846,
8938
+ "grad_norm": 1.4870779514312744,
8939
+ "learning_rate": 3.4298301701475855e-06,
8940
+ "loss": 1.5516,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.06046115240755646,
8945
+ "grad_norm": 1.4861438274383545,
8946
+ "learning_rate": 3.390290793672035e-06,
8947
+ "loss": 1.4489,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.06050849865063207,
8952
+ "grad_norm": 1.3863167762756348,
8953
+ "learning_rate": 3.3509726479233504e-06,
8954
+ "loss": 1.3034,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.06055584489370768,
8959
+ "grad_norm": 1.258088231086731,
8960
+ "learning_rate": 3.3118759195232275e-06,
8961
+ "loss": 1.4765,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.060603191136783294,
8966
+ "grad_norm": 1.3993644714355469,
8967
+ "learning_rate": 3.27300079404238e-06,
8968
+ "loss": 1.5346,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.060650537379858906,
8973
+ "grad_norm": 1.2492510080337524,
8974
+ "learning_rate": 3.234347455999709e-06,
8975
+ "loss": 1.3976,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.06069788362293452,
8980
+ "grad_norm": 1.2434810400009155,
8981
+ "learning_rate": 3.195916088861406e-06,
8982
+ "loss": 1.3539,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.06074522986601013,
8987
+ "grad_norm": 1.376212477684021,
8988
+ "learning_rate": 3.1577068750401116e-06,
8989
+ "loss": 1.5787,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.06079257610908574,
8994
+ "grad_norm": 1.2925554513931274,
8995
+ "learning_rate": 3.119719995893994e-06,
8996
+ "loss": 1.3657,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.06083992235216135,
9001
+ "grad_norm": 1.2235181331634521,
9002
+ "learning_rate": 3.08195563172593e-06,
9003
+ "loss": 1.3284,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.060887268595236965,
9008
+ "grad_norm": 1.3936784267425537,
9009
+ "learning_rate": 3.0444139617826607e-06,
9010
+ "loss": 1.6215,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.06093461483831258,
9015
+ "grad_norm": 1.3355106115341187,
9016
+ "learning_rate": 3.0070951642538924e-06,
9017
+ "loss": 1.3555,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.06098196108138819,
9022
+ "grad_norm": 1.4832301139831543,
9023
+ "learning_rate": 2.969999416271496e-06,
9024
+ "loss": 1.5066,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.0610293073244638,
9029
+ "grad_norm": 1.284655213356018,
9030
+ "learning_rate": 2.933126893908633e-06,
9031
+ "loss": 1.3608,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.06107665356753941,
9036
+ "grad_norm": 1.4563186168670654,
9037
+ "learning_rate": 2.8964777721789573e-06,
9038
+ "loss": 1.3335,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.061123999810615025,
9043
+ "grad_norm": 1.2349377870559692,
9044
+ "learning_rate": 2.860052225035742e-06,
9045
+ "loss": 1.2591,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.06117134605369064,
9050
+ "grad_norm": 1.5449947118759155,
9051
+ "learning_rate": 2.823850425371083e-06,
9052
+ "loss": 1.6179,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.06121869229676625,
9057
+ "grad_norm": 1.526613473892212,
9058
+ "learning_rate": 2.787872545015069e-06,
9059
+ "loss": 1.4801,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.06126603853984186,
9064
+ "grad_norm": 1.374595046043396,
9065
+ "learning_rate": 2.752118754734967e-06,
9066
+ "loss": 1.4021,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.06131338478291747,
9071
+ "grad_norm": 1.4395325183868408,
9072
+ "learning_rate": 2.716589224234406e-06,
9073
+ "loss": 1.3826,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.061360731025993084,
9078
+ "grad_norm": 1.3016366958618164,
9079
+ "learning_rate": 2.681284122152594e-06,
9080
+ "loss": 1.0532,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.061408077269068696,
9085
+ "grad_norm": 1.3789076805114746,
9086
+ "learning_rate": 2.646203616063475e-06,
9087
+ "loss": 1.2517,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.06145542351214431,
9092
+ "grad_norm": 1.6451598405838013,
9093
+ "learning_rate": 2.6113478724749783e-06,
9094
+ "loss": 1.3242,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.06150276975521992,
9099
+ "grad_norm": 1.382812261581421,
9100
+ "learning_rate": 2.5767170568281927e-06,
9101
+ "loss": 1.3016,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.06155011599829553,
9106
+ "grad_norm": 1.5659140348434448,
9107
+ "learning_rate": 2.542311333496622e-06,
9108
+ "loss": 1.3122,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.061597462241371144,
9113
+ "grad_norm": 1.1755375862121582,
9114
+ "learning_rate": 2.5081308657853573e-06,
9115
+ "loss": 1.2939,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.061644808484446756,
9120
+ "grad_norm": 1.0510395765304565,
9121
+ "learning_rate": 2.4741758159303242e-06,
9122
+ "loss": 1.4157,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.06169215472752237,
9127
+ "grad_norm": 1.2231727838516235,
9128
+ "learning_rate": 2.440446345097541e-06,
9129
+ "loss": 1.454,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.06173950097059798,
9134
+ "grad_norm": 1.2164487838745117,
9135
+ "learning_rate": 2.4069426133822957e-06,
9136
+ "loss": 1.5866,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.06178684721367359,
9141
+ "grad_norm": 1.2815780639648438,
9142
+ "learning_rate": 2.3736647798084265e-06,
9143
+ "loss": 1.5007,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.061834193456749204,
9148
+ "grad_norm": 1.309321641921997,
9149
+ "learning_rate": 2.340613002327563e-06,
9150
+ "loss": 1.5988,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.061881539699824815,
9155
+ "grad_norm": 1.3088290691375732,
9156
+ "learning_rate": 2.307787437818365e-06,
9157
+ "loss": 1.5639,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.061928885942900434,
9162
+ "grad_norm": 1.0919935703277588,
9163
+ "learning_rate": 2.275188242085785e-06,
9164
+ "loss": 1.3272,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.061976232185976046,
9169
+ "grad_norm": 1.40773606300354,
9170
+ "learning_rate": 2.2428155698603182e-06,
9171
+ "loss": 1.5226,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.06202357842905166,
9176
+ "grad_norm": 1.0675700902938843,
9177
+ "learning_rate": 2.2106695747973026e-06,
9178
+ "loss": 1.3541,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.06207092467212727,
9183
+ "grad_norm": 1.1566540002822876,
9184
+ "learning_rate": 2.1787504094761267e-06,
9185
+ "loss": 1.4108,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.06211827091520288,
9190
+ "grad_norm": 1.3144512176513672,
9191
+ "learning_rate": 2.147058225399573e-06,
9192
+ "loss": 1.5544,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.062165617158278494,
9197
+ "grad_norm": 1.1639258861541748,
9198
+ "learning_rate": 2.115593172993058e-06,
9199
+ "loss": 1.4059,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.062212963401354106,
9204
+ "grad_norm": 1.3233219385147095,
9205
+ "learning_rate": 2.0843554016039326e-06,
9206
+ "loss": 1.5817,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.06226030964442972,
9211
+ "grad_norm": 1.2567836046218872,
9212
+ "learning_rate": 2.0533450595007498e-06,
9213
+ "loss": 1.5539,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.06230765588750533,
9218
+ "grad_norm": 1.1879708766937256,
9219
+ "learning_rate": 2.0225622938726098e-06,
9220
+ "loss": 1.4033,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.06235500213058094,
9225
+ "grad_norm": 1.15211021900177,
9226
+ "learning_rate": 1.9920072508284202e-06,
9227
+ "loss": 1.6171,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.06240234837365655,
9232
+ "grad_norm": 1.1985636949539185,
9233
+ "learning_rate": 1.961680075396205e-06,
9234
+ "loss": 1.6475,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.062449694616732165,
9239
+ "grad_norm": 1.2133159637451172,
9240
+ "learning_rate": 1.931580911522435e-06,
9241
+ "loss": 1.3112,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.06249704085980778,
9246
+ "grad_norm": 1.2147009372711182,
9247
+ "learning_rate": 1.901709902071336e-06,
9248
+ "loss": 1.563,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.06254438710288339,
9253
+ "grad_norm": 1.1709462404251099,
9254
+ "learning_rate": 1.8720671888242059e-06,
9255
+ "loss": 1.3305,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.062591733345959,
9260
+ "grad_norm": 1.312578797340393,
9261
+ "learning_rate": 1.8426529124787373e-06,
9262
+ "loss": 1.4542,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.06263907958903461,
9267
+ "grad_norm": 1.2657169103622437,
9268
+ "learning_rate": 1.81346721264839e-06,
9269
+ "loss": 1.4211,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.06268642583211022,
9274
+ "grad_norm": 1.2395094633102417,
9275
+ "learning_rate": 1.7845102278616576e-06,
9276
+ "loss": 1.3067,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.06273377207518584,
9281
+ "grad_norm": 1.4858688116073608,
9282
+ "learning_rate": 1.7557820955614701e-06,
9283
+ "loss": 1.5523,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.06278111831826144,
9288
+ "grad_norm": 1.1889420747756958,
9289
+ "learning_rate": 1.727282952104514e-06,
9290
+ "loss": 1.5204,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.06282846456133706,
9295
+ "grad_norm": 1.2964903116226196,
9296
+ "learning_rate": 1.699012932760602e-06,
9297
+ "loss": 1.3605,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.06287581080441267,
9302
+ "grad_norm": 1.305997371673584,
9303
+ "learning_rate": 1.6709721717120042e-06,
9304
+ "loss": 1.5661,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.06292315704748828,
9309
+ "grad_norm": 1.6361205577850342,
9310
+ "learning_rate": 1.6431608020528232e-06,
9311
+ "loss": 1.3802,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.06297050329056389,
9316
+ "grad_norm": 1.2052884101867676,
9317
+ "learning_rate": 1.6155789557883992e-06,
9318
+ "loss": 1.3603,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.06301784953363951,
9323
+ "grad_norm": 1.2012227773666382,
9324
+ "learning_rate": 1.5882267638346215e-06,
9325
+ "loss": 1.4148,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.06306519577671511,
9330
+ "grad_norm": 1.5315930843353271,
9331
+ "learning_rate": 1.5611043560173344e-06,
9332
+ "loss": 1.5159,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.06311254201979073,
9337
+ "grad_norm": 1.3208889961242676,
9338
+ "learning_rate": 1.5342118610717437e-06,
9339
+ "loss": 1.3613,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.06315988826286634,
9344
+ "grad_norm": 1.3040242195129395,
9345
+ "learning_rate": 1.5075494066417728e-06,
9346
+ "loss": 1.2185,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.06320723450594196,
9351
+ "grad_norm": 1.3122460842132568,
9352
+ "learning_rate": 1.4811171192794627e-06,
9353
+ "loss": 1.3611,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.06325458074901756,
9358
+ "grad_norm": 1.2624602317810059,
9359
+ "learning_rate": 1.4549151244444003e-06,
9360
+ "loss": 1.3265,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.06330192699209318,
9365
+ "grad_norm": 1.3999385833740234,
9366
+ "learning_rate": 1.4289435465030698e-06,
9367
+ "loss": 1.4897,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.06334927323516878,
9372
+ "grad_norm": 1.3911713361740112,
9373
+ "learning_rate": 1.403202508728313e-06,
9374
+ "loss": 1.3059,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.0633966194782444,
9379
+ "grad_norm": 1.3101698160171509,
9380
+ "learning_rate": 1.3776921332987192e-06,
9381
+ "loss": 1.2585,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.06344396572132001,
9386
+ "grad_norm": 1.3890515565872192,
9387
+ "learning_rate": 1.3524125412980483e-06,
9388
+ "loss": 1.4638,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.06349131196439563,
9393
+ "grad_norm": 1.5259530544281006,
9394
+ "learning_rate": 1.3273638527146637e-06,
9395
+ "loss": 1.3657,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.06353865820747123,
9400
+ "grad_norm": 1.3829599618911743,
9401
+ "learning_rate": 1.3025461864409394e-06,
9402
+ "loss": 1.4408,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.06358600445054685,
9407
+ "grad_norm": 1.3275704383850098,
9408
+ "learning_rate": 1.2779596602727428e-06,
9409
+ "loss": 1.5234,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.06363335069362246,
9414
+ "grad_norm": 1.581809401512146,
9415
+ "learning_rate": 1.2536043909088191e-06,
9416
+ "loss": 1.443,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.06368069693669808,
9421
+ "grad_norm": 1.5524332523345947,
9422
+ "learning_rate": 1.2294804939502747e-06,
9423
+ "loss": 1.585,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.06372804317977368,
9428
+ "grad_norm": 1.5161685943603516,
9429
+ "learning_rate": 1.2055880839000278e-06,
9430
+ "loss": 1.4337,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.0637753894228493,
9435
+ "grad_norm": 1.3019859790802002,
9436
+ "learning_rate": 1.1819272741622368e-06,
9437
+ "loss": 1.2617,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.0638227356659249,
9442
+ "grad_norm": 1.8352184295654297,
9443
+ "learning_rate": 1.158498177041789e-06,
9444
+ "loss": 1.2899,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 0.06387008190900052,
9449
+ "grad_norm": 1.4662976264953613,
9450
+ "learning_rate": 1.1353009037437523e-06,
9451
+ "loss": 1.2421,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 0.06391742815207613,
9456
+ "grad_norm": 1.6190884113311768,
9457
+ "learning_rate": 1.1123355643728795e-06,
9458
+ "loss": 1.2181,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 0.06396477439515175,
9463
+ "grad_norm": 1.2453593015670776,
9464
+ "learning_rate": 1.0896022679330265e-06,
9465
+ "loss": 1.8871,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 0.06401212063822735,
9470
+ "grad_norm": 1.1308292150497437,
9471
+ "learning_rate": 1.0671011223266802e-06,
9472
+ "loss": 1.7013,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 0.06405946688130297,
9477
+ "grad_norm": 1.060587763786316,
9478
+ "learning_rate": 1.0448322343544536e-06,
9479
+ "loss": 1.6145,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 0.06410681312437858,
9484
+ "grad_norm": 1.179922103881836,
9485
+ "learning_rate": 1.0227957097145413e-06,
9486
+ "loss": 1.4764,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 0.0641541593674542,
9491
+ "grad_norm": 1.139797568321228,
9492
+ "learning_rate": 1.0009916530022257e-06,
9493
+ "loss": 1.3325,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 0.0642015056105298,
9498
+ "grad_norm": 1.1278554201126099,
9499
+ "learning_rate": 9.794201677094162e-07,
9500
+ "loss": 1.4488,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 0.06424885185360542,
9505
+ "grad_norm": 1.1881204843521118,
9506
+ "learning_rate": 9.580813562241276e-07,
9507
+ "loss": 1.4232,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 0.06429619809668102,
9512
+ "grad_norm": 1.368537425994873,
9513
+ "learning_rate": 9.369753198299858e-07,
9514
+ "loss": 1.7749,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 0.06434354433975664,
9519
+ "grad_norm": 1.2621606588363647,
9520
+ "learning_rate": 9.161021587057727e-07,
9521
+ "loss": 1.5111,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 0.06439089058283225,
9526
+ "grad_norm": 1.2346223592758179,
9527
+ "learning_rate": 8.95461971924938e-07,
9528
+ "loss": 1.5364,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 0.06443823682590787,
9533
+ "grad_norm": 1.2565935850143433,
9534
+ "learning_rate": 8.75054857455132e-07,
9535
+ "loss": 1.4551,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 0.06448558306898347,
9540
+ "grad_norm": 1.35322904586792,
9541
+ "learning_rate": 8.54880912157724e-07,
9542
+ "loss": 1.7903,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 0.06453292931205909,
9547
+ "grad_norm": 1.1911216974258423,
9548
+ "learning_rate": 8.349402317873789e-07,
9549
+ "loss": 1.3712,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 0.0645802755551347,
9554
+ "grad_norm": 1.4313905239105225,
9555
+ "learning_rate": 8.152329109915646e-07,
9556
+ "loss": 1.5232,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 0.06462762179821031,
9561
+ "grad_norm": 1.163534164428711,
9562
+ "learning_rate": 7.957590433101292e-07,
9563
+ "loss": 1.4556,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 0.06467496804128592,
9568
+ "grad_norm": 1.2503600120544434,
9569
+ "learning_rate": 7.765187211748348e-07,
9570
+ "loss": 1.4645,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 0.06472231428436154,
9575
+ "grad_norm": 1.2252036333084106,
9576
+ "learning_rate": 7.575120359089416e-07,
9577
+ "loss": 1.5589,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 0.06476966052743714,
9582
+ "grad_norm": 1.3027896881103516,
9583
+ "learning_rate": 7.387390777267689e-07,
9584
+ "loss": 1.4416,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 0.06481700677051276,
9589
+ "grad_norm": 1.274207592010498,
9590
+ "learning_rate": 7.201999357332345e-07,
9591
+ "loss": 1.4932,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 0.06486435301358837,
9596
+ "grad_norm": 1.2771484851837158,
9597
+ "learning_rate": 7.018946979234997e-07,
9598
+ "loss": 1.4079,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 0.06491169925666398,
9603
+ "grad_norm": 1.2282248735427856,
9604
+ "learning_rate": 6.838234511824748e-07,
9605
+ "loss": 1.4848,
9606
+ "step": 1371
9607
+ },
9608
+ {
9609
+ "epoch": 0.06495904549973959,
9610
+ "grad_norm": 1.2904937267303467,
9611
+ "learning_rate": 6.659862812844586e-07,
9612
+ "loss": 1.5547,
9613
+ "step": 1372
9614
+ },
9615
+ {
9616
+ "epoch": 0.06500639174281521,
9617
+ "grad_norm": 1.379770040512085,
9618
+ "learning_rate": 6.483832728927219e-07,
9619
+ "loss": 1.3129,
9620
+ "step": 1373
9621
+ },
9622
+ {
9623
+ "epoch": 0.06505373798589081,
9624
+ "grad_norm": 1.0465701818466187,
9625
+ "learning_rate": 6.310145095590803e-07,
9626
+ "loss": 1.0869,
9627
+ "step": 1374
9628
+ },
9629
+ {
9630
+ "epoch": 0.06510108422896643,
9631
+ "grad_norm": 1.2646894454956055,
9632
+ "learning_rate": 6.138800737235384e-07,
9633
+ "loss": 1.3675,
9634
+ "step": 1375
9635
+ },
9636
+ {
9637
+ "epoch": 0.06514843047204204,
9638
+ "grad_norm": 1.0842680931091309,
9639
+ "learning_rate": 5.969800467138519e-07,
9640
+ "loss": 1.2566,
9641
+ "step": 1376
9642
+ },
9643
+ {
9644
+ "epoch": 0.06519577671511766,
9645
+ "grad_norm": 1.2365455627441406,
9646
+ "learning_rate": 5.803145087451945e-07,
9647
+ "loss": 1.2261,
9648
+ "step": 1377
9649
+ },
9650
+ {
9651
+ "epoch": 0.06524312295819326,
9652
+ "grad_norm": 1.4027780294418335,
9653
+ "learning_rate": 5.638835389197295e-07,
9654
+ "loss": 1.5185,
9655
+ "step": 1378
9656
+ },
9657
+ {
9658
+ "epoch": 0.06529046920126888,
9659
+ "grad_norm": 1.227062702178955,
9660
+ "learning_rate": 5.476872152262558e-07,
9661
+ "loss": 1.2785,
9662
+ "step": 1379
9663
+ },
9664
+ {
9665
+ "epoch": 0.06533781544434449,
9666
+ "grad_norm": 1.2006760835647583,
9667
+ "learning_rate": 5.317256145398409e-07,
9668
+ "loss": 1.3152,
9669
+ "step": 1380
9670
+ },
9671
+ {
9672
+ "epoch": 0.0653851616874201,
9673
+ "grad_norm": 1.1898391246795654,
9674
+ "learning_rate": 5.159988126214544e-07,
9675
+ "loss": 1.3319,
9676
+ "step": 1381
9677
+ },
9678
+ {
9679
+ "epoch": 0.06543250793049571,
9680
+ "grad_norm": 1.377869725227356,
9681
+ "learning_rate": 5.005068841175963e-07,
9682
+ "loss": 1.5211,
9683
+ "step": 1382
9684
+ },
9685
+ {
9686
+ "epoch": 0.06547985417357133,
9687
+ "grad_norm": 1.4869921207427979,
9688
+ "learning_rate": 4.852499025599533e-07,
9689
+ "loss": 1.6305,
9690
+ "step": 1383
9691
+ },
9692
+ {
9693
+ "epoch": 0.06552720041664693,
9694
+ "grad_norm": 1.3564372062683105,
9695
+ "learning_rate": 4.7022794036505335e-07,
9696
+ "loss": 1.5702,
9697
+ "step": 1384
9698
+ },
9699
+ {
9700
+ "epoch": 0.06557454665972255,
9701
+ "grad_norm": 1.1574383974075317,
9702
+ "learning_rate": 4.554410688339061e-07,
9703
+ "loss": 1.2995,
9704
+ "step": 1385
9705
+ },
9706
+ {
9707
+ "epoch": 0.06562189290279816,
9708
+ "grad_norm": 1.3720345497131348,
9709
+ "learning_rate": 4.4088935815168044e-07,
9710
+ "loss": 1.4227,
9711
+ "step": 1386
9712
+ },
9713
+ {
9714
+ "epoch": 0.06566923914587378,
9715
+ "grad_norm": 1.3558074235916138,
9716
+ "learning_rate": 4.2657287738737675e-07,
9717
+ "loss": 1.4995,
9718
+ "step": 1387
9719
+ },
9720
+ {
9721
+ "epoch": 0.06571658538894938,
9722
+ "grad_norm": 1.412009835243225,
9723
+ "learning_rate": 4.124916944934665e-07,
9724
+ "loss": 1.3792,
9725
+ "step": 1388
9726
+ },
9727
+ {
9728
+ "epoch": 0.065763931632025,
9729
+ "grad_norm": 1.3199092149734497,
9730
+ "learning_rate": 3.986458763056089e-07,
9731
+ "loss": 1.3669,
9732
+ "step": 1389
9733
+ },
9734
+ {
9735
+ "epoch": 0.0658112778751006,
9736
+ "grad_norm": 1.1794309616088867,
9737
+ "learning_rate": 3.8503548854230687e-07,
9738
+ "loss": 1.0283,
9739
+ "step": 1390
9740
+ },
9741
+ {
9742
+ "epoch": 0.06585862411817622,
9743
+ "grad_norm": 1.5401195287704468,
9744
+ "learning_rate": 3.716605958046071e-07,
9745
+ "loss": 1.474,
9746
+ "step": 1391
9747
+ },
9748
+ {
9749
+ "epoch": 0.06590597036125183,
9750
+ "grad_norm": 1.258670687675476,
9751
+ "learning_rate": 3.585212615757838e-07,
9752
+ "loss": 1.4567,
9753
+ "step": 1392
9754
+ },
9755
+ {
9756
+ "epoch": 0.06595331660432745,
9757
+ "grad_norm": 1.4355465173721313,
9758
+ "learning_rate": 3.456175482210611e-07,
9759
+ "loss": 1.4306,
9760
+ "step": 1393
9761
+ },
9762
+ {
9763
+ "epoch": 0.06600066284740305,
9764
+ "grad_norm": 1.3334470987319946,
9765
+ "learning_rate": 3.3294951698728537e-07,
9766
+ "loss": 1.2449,
9767
+ "step": 1394
9768
+ },
9769
+ {
9770
+ "epoch": 0.06604800909047867,
9771
+ "grad_norm": 1.1793415546417236,
9772
+ "learning_rate": 3.205172280026536e-07,
9773
+ "loss": 0.9879,
9774
+ "step": 1395
9775
+ },
9776
+ {
9777
+ "epoch": 0.06609535533355428,
9778
+ "grad_norm": 1.465490460395813,
9779
+ "learning_rate": 3.083207402764132e-07,
9780
+ "loss": 1.4966,
9781
+ "step": 1396
9782
+ },
9783
+ {
9784
+ "epoch": 0.0661427015766299,
9785
+ "grad_norm": 1.748968243598938,
9786
+ "learning_rate": 2.963601116986181e-07,
9787
+ "loss": 1.4836,
9788
+ "step": 1397
9789
+ },
9790
+ {
9791
+ "epoch": 0.0661900478197055,
9792
+ "grad_norm": 1.5985764265060425,
9793
+ "learning_rate": 2.846353990398065e-07,
9794
+ "loss": 1.5044,
9795
+ "step": 1398
9796
+ },
9797
+ {
9798
+ "epoch": 0.06623739406278112,
9799
+ "grad_norm": 1.5981168746948242,
9800
+ "learning_rate": 2.731466579507513e-07,
9801
+ "loss": 1.4942,
9802
+ "step": 1399
9803
+ },
9804
+ {
9805
+ "epoch": 0.06628474030585672,
9806
+ "grad_norm": 1.3606255054473877,
9807
+ "learning_rate": 2.618939429622158e-07,
9808
+ "loss": 1.2628,
9809
+ "step": 1400
9810
+ },
9811
+ {
9812
+ "epoch": 0.06633208654893234,
9813
+ "grad_norm": 1.2152913808822632,
9814
+ "learning_rate": 2.5087730748466485e-07,
9815
+ "loss": 1.67,
9816
+ "step": 1401
9817
+ },
9818
+ {
9819
+ "epoch": 0.06637943279200795,
9820
+ "grad_norm": 1.1747958660125732,
9821
+ "learning_rate": 2.400968038080209e-07,
9822
+ "loss": 1.6487,
9823
+ "step": 1402
9824
+ },
9825
+ {
9826
+ "epoch": 0.06642677903508357,
9827
+ "grad_norm": 1.3034745454788208,
9828
+ "learning_rate": 2.2955248310142507e-07,
9829
+ "loss": 1.7776,
9830
+ "step": 1403
9831
+ },
9832
+ {
9833
+ "epoch": 0.06647412527815917,
9834
+ "grad_norm": 1.1659724712371826,
9835
+ "learning_rate": 2.1924439541298193e-07,
9836
+ "loss": 1.6656,
9837
+ "step": 1404
9838
+ },
9839
+ {
9840
+ "epoch": 0.06652147152123479,
9841
+ "grad_norm": 1.4440197944641113,
9842
+ "learning_rate": 2.0917258966953733e-07,
9843
+ "loss": 1.6118,
9844
+ "step": 1405
9845
+ },
9846
+ {
9847
+ "epoch": 0.0665688177643104,
9848
+ "grad_norm": 1.1191264390945435,
9849
+ "learning_rate": 1.9933711367641771e-07,
9850
+ "loss": 1.391,
9851
+ "step": 1406
9852
+ },
9853
+ {
9854
+ "epoch": 0.06661616400738601,
9855
+ "grad_norm": 1.176639437675476,
9856
+ "learning_rate": 1.8973801411724667e-07,
9857
+ "loss": 1.4539,
9858
+ "step": 1407
9859
+ },
9860
+ {
9861
+ "epoch": 0.06666351025046162,
9862
+ "grad_norm": 1.211703896522522,
9863
+ "learning_rate": 1.8037533655367868e-07,
9864
+ "loss": 1.3097,
9865
+ "step": 1408
9866
+ },
9867
+ {
9868
+ "epoch": 0.06671085649353724,
9869
+ "grad_norm": 1.2370667457580566,
9870
+ "learning_rate": 1.7124912542520467e-07,
9871
+ "loss": 1.6055,
9872
+ "step": 1409
9873
+ },
9874
+ {
9875
+ "epoch": 0.06675820273661286,
9876
+ "grad_norm": 1.227429747581482,
9877
+ "learning_rate": 1.6235942404895788e-07,
9878
+ "loss": 1.6139,
9879
+ "step": 1410
9880
+ },
9881
+ {
9882
+ "epoch": 0.06680554897968846,
9883
+ "grad_norm": 1.2459824085235596,
9884
+ "learning_rate": 1.537062746194584e-07,
9885
+ "loss": 1.5071,
9886
+ "step": 1411
9887
+ },
9888
+ {
9889
+ "epoch": 0.06685289522276408,
9890
+ "grad_norm": 1.1891640424728394,
9891
+ "learning_rate": 1.4528971820846893e-07,
9892
+ "loss": 1.4231,
9893
+ "step": 1412
9894
+ },
9895
+ {
9896
+ "epoch": 0.06690024146583969,
9897
+ "grad_norm": 1.2420520782470703,
9898
+ "learning_rate": 1.3710979476476705e-07,
9899
+ "loss": 1.5916,
9900
+ "step": 1413
9901
+ },
9902
+ {
9903
+ "epoch": 0.0669475877089153,
9904
+ "grad_norm": 1.4088830947875977,
9905
+ "learning_rate": 1.2916654311396213e-07,
9906
+ "loss": 1.4991,
9907
+ "step": 1414
9908
+ },
9909
+ {
9910
+ "epoch": 0.06699493395199091,
9911
+ "grad_norm": 1.3840956687927246,
9912
+ "learning_rate": 1.2146000095831778e-07,
9913
+ "loss": 1.7127,
9914
+ "step": 1415
9915
+ },
9916
+ {
9917
+ "epoch": 0.06704228019506653,
9918
+ "grad_norm": 1.2678717374801636,
9919
+ "learning_rate": 1.1399020487655177e-07,
9920
+ "loss": 1.4063,
9921
+ "step": 1416
9922
+ },
9923
+ {
9924
+ "epoch": 0.06708962643814213,
9925
+ "grad_norm": 1.0719335079193115,
9926
+ "learning_rate": 1.0675719032370302e-07,
9927
+ "loss": 1.3102,
9928
+ "step": 1417
9929
+ },
9930
+ {
9931
+ "epoch": 0.06713697268121775,
9932
+ "grad_norm": 1.2429107427597046,
9933
+ "learning_rate": 9.976099163091501e-08,
9934
+ "loss": 1.3659,
9935
+ "step": 1418
9936
+ },
9937
+ {
9938
+ "epoch": 0.06718431892429336,
9939
+ "grad_norm": 1.2890995740890503,
9940
+ "learning_rate": 9.300164200530814e-08,
9941
+ "loss": 1.4734,
9942
+ "step": 1419
9943
+ },
9944
+ {
9945
+ "epoch": 0.06723166516736898,
9946
+ "grad_norm": 1.2928924560546875,
9947
+ "learning_rate": 8.647917352980762e-08,
9948
+ "loss": 1.4282,
9949
+ "step": 1420
9950
+ },
9951
+ {
9952
+ "epoch": 0.06727901141044458,
9953
+ "grad_norm": 1.3546903133392334,
9954
+ "learning_rate": 8.019361716299911e-08,
9955
+ "loss": 1.5191,
9956
+ "step": 1421
9957
+ },
9958
+ {
9959
+ "epoch": 0.0673263576535202,
9960
+ "grad_norm": 1.1908518075942993,
9961
+ "learning_rate": 7.414500273896785e-08,
9962
+ "loss": 1.3663,
9963
+ "step": 1422
9964
+ },
9965
+ {
9966
+ "epoch": 0.0673737038965958,
9967
+ "grad_norm": 1.2994002103805542,
9968
+ "learning_rate": 6.833335896716531e-08,
9969
+ "loss": 1.4845,
9970
+ "step": 1423
9971
+ },
9972
+ {
9973
+ "epoch": 0.06742105013967142,
9974
+ "grad_norm": 1.130214810371399,
9975
+ "learning_rate": 6.275871343228157e-08,
9976
+ "loss": 1.3068,
9977
+ "step": 1424
9978
+ },
9979
+ {
9980
+ "epoch": 0.06746839638274703,
9981
+ "grad_norm": 1.4080276489257812,
9982
+ "learning_rate": 5.7421092594101e-08,
9983
+ "loss": 1.3539,
9984
+ "step": 1425
9985
+ },
9986
+ {
9987
+ "epoch": 0.06751574262582265,
9988
+ "grad_norm": 1.3741194009780884,
9989
+ "learning_rate": 5.2320521787385667e-08,
9990
+ "loss": 1.6177,
9991
+ "step": 1426
9992
+ },
9993
+ {
9994
+ "epoch": 0.06756308886889825,
9995
+ "grad_norm": 1.3106088638305664,
9996
+ "learning_rate": 4.745702522174211e-08,
9997
+ "loss": 1.4852,
9998
+ "step": 1427
9999
+ },
10000
+ {
10001
+ "epoch": 0.06761043511197387,
10002
+ "grad_norm": 1.279340147972107,
10003
+ "learning_rate": 4.2830625981521435e-08,
10004
+ "loss": 1.4519,
10005
+ "step": 1428
10006
+ },
10007
+ {
10008
+ "epoch": 0.06765778135504948,
10009
+ "grad_norm": 1.298641562461853,
10010
+ "learning_rate": 3.8441346025708255e-08,
10011
+ "loss": 1.3406,
10012
+ "step": 1429
10013
+ },
10014
+ {
10015
+ "epoch": 0.0677051275981251,
10016
+ "grad_norm": 1.3770064115524292,
10017
+ "learning_rate": 3.428920618780418e-08,
10018
+ "loss": 1.6185,
10019
+ "step": 1430
10020
+ },
10021
+ {
10022
+ "epoch": 0.0677524738412007,
10023
+ "grad_norm": 1.2126370668411255,
10024
+ "learning_rate": 3.037422617573893e-08,
10025
+ "loss": 1.2262,
10026
+ "step": 1431
10027
+ },
10028
+ {
10029
+ "epoch": 0.06779982008427632,
10030
+ "grad_norm": 1.0952389240264893,
10031
+ "learning_rate": 2.6696424571776014e-08,
10032
+ "loss": 1.3015,
10033
+ "step": 1432
10034
+ },
10035
+ {
10036
+ "epoch": 0.06784716632735192,
10037
+ "grad_norm": 1.183917760848999,
10038
+ "learning_rate": 2.3255818832423894e-08,
10039
+ "loss": 1.265,
10040
+ "step": 1433
10041
+ },
10042
+ {
10043
+ "epoch": 0.06789451257042754,
10044
+ "grad_norm": 1.2368615865707397,
10045
+ "learning_rate": 2.0052425288347164e-08,
10046
+ "loss": 1.2985,
10047
+ "step": 1434
10048
+ },
10049
+ {
10050
+ "epoch": 0.06794185881350315,
10051
+ "grad_norm": 1.2383983135223389,
10052
+ "learning_rate": 1.7086259144305504e-08,
10053
+ "loss": 1.3451,
10054
+ "step": 1435
10055
+ },
10056
+ {
10057
+ "epoch": 0.06798920505657877,
10058
+ "grad_norm": 1.2299693822860718,
10059
+ "learning_rate": 1.4357334479059292e-08,
10060
+ "loss": 1.1355,
10061
+ "step": 1436
10062
+ },
10063
+ {
10064
+ "epoch": 0.06803655129965437,
10065
+ "grad_norm": 1.2785406112670898,
10066
+ "learning_rate": 1.1865664245314101e-08,
10067
+ "loss": 1.2929,
10068
+ "step": 1437
10069
+ },
10070
+ {
10071
+ "epoch": 0.06808389754272999,
10072
+ "grad_norm": 1.1830840110778809,
10073
+ "learning_rate": 9.61126026966519e-09,
10074
+ "loss": 1.2871,
10075
+ "step": 1438
10076
+ },
10077
+ {
10078
+ "epoch": 0.0681312437858056,
10079
+ "grad_norm": 1.2833662033081055,
10080
+ "learning_rate": 7.594133252530888e-09,
10081
+ "loss": 1.3836,
10082
+ "step": 1439
10083
+ },
10084
+ {
10085
+ "epoch": 0.06817859002888121,
10086
+ "grad_norm": 1.6154637336730957,
10087
+ "learning_rate": 5.814292768108187e-09,
10088
+ "loss": 1.6961,
10089
+ "step": 1440
10090
+ },
10091
+ {
10092
+ "epoch": 0.06822593627195682,
10093
+ "grad_norm": 1.3915746212005615,
10094
+ "learning_rate": 4.2717472643227785e-09,
10095
+ "loss": 1.2641,
10096
+ "step": 1441
10097
+ },
10098
+ {
10099
+ "epoch": 0.06827328251503244,
10100
+ "grad_norm": 1.2784771919250488,
10101
+ "learning_rate": 2.9665040627901984e-09,
10102
+ "loss": 1.3296,
10103
+ "step": 1442
10104
+ },
10105
+ {
10106
+ "epoch": 0.06832062875810804,
10107
+ "grad_norm": 1.3521119356155396,
10108
+ "learning_rate": 1.8985693587880717e-09,
10109
+ "loss": 1.2266,
10110
+ "step": 1443
10111
+ },
10112
+ {
10113
+ "epoch": 0.06836797500118366,
10114
+ "grad_norm": 1.245299220085144,
10115
+ "learning_rate": 1.067948221217252e-09,
10116
+ "loss": 1.201,
10117
+ "step": 1444
10118
+ },
10119
+ {
10120
+ "epoch": 0.06841532124425927,
10121
+ "grad_norm": 1.4662199020385742,
10122
+ "learning_rate": 4.746445925740694e-10,
10123
+ "loss": 1.371,
10124
+ "step": 1445
10125
+ },
10126
+ {
10127
+ "epoch": 0.06846266748733489,
10128
+ "grad_norm": 1.248600721359253,
10129
+ "learning_rate": 1.1866128895032803e-10,
10130
+ "loss": 1.0466,
10131
+ "step": 1446
10132
+ },
10133
+ {
10134
+ "epoch": 0.06851001373041049,
10135
+ "grad_norm": 1.496204137802124,
10136
+ "learning_rate": 0.0,
10137
+ "loss": 1.392,
10138
+ "step": 1447
10139
  }
10140
  ],
10141
  "logging_steps": 1,
 
10150
  "should_evaluate": false,
10151
  "should_log": false,
10152
  "should_save": true,
10153
+ "should_training_stop": true
10154
  },
10155
  "attributes": {}
10156
  }
10157
  },
10158
+ "total_flos": 1.0086377434770309e+18,
10159
  "train_batch_size": 4,
10160
  "trial_name": null,
10161
  "trial_params": null