Ihor commited on
Commit
61726e0
·
verified ·
1 Parent(s): d51c1d9

Upload folder using huggingface_hub

Browse files
gliner_config.json CHANGED
@@ -114,7 +114,7 @@
114
  "lr_others": "3e-5",
115
  "masking": "none",
116
  "max_grad_norm": 10.0,
117
- "max_len": 1024,
118
  "max_neg_type_ratio": 1,
119
  "max_types": 100,
120
  "max_width": 12,
 
114
  "lr_others": "3e-5",
115
  "masking": "none",
116
  "max_grad_norm": 10.0,
117
+ "max_len": 2048,
118
  "max_neg_type_ratio": 1,
119
  "max_types": 100,
120
  "max_width": 12,
onnx/model.onnx CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d0223a4970f473b63dbcecbf73b55fa8cffd186442a5ed390b63ff0a19b41009
3
  size 664764803
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c6ccec44625d46bfe3191152e41d6564b69bc9d4313b7f3e419e8372679e9fed
3
  size 664764803
onnx/model_fp16.onnx CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f0e55bbff623b401110414adc536a24bec11586cfd28716ccf5a267da738ba2d
3
  size 332958160
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:774b8c5d909266c9ebdc43afd819ef0354d636ed4f401a1eef1491b578e2e256
3
  size 332958160
onnx/model_quint8.onnx CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8049f41e9582a2bf0ca1286fd306347b578757e9383c454200f806ba4b600037
3
- size 196757173
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0514c8fd86d0513ce5351a3267f132b57d5bcd8f99a90d43cde1228092881d19
3
+ size 196757174
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:076a31c08d40be6fb3b28a4ba7bd876ec04d52df6d7b015605b35740d4b98b9b
3
  size 664140735
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da21d12e61e3da22cb93d2663b8593e752c440479a68a647b061447bcd8f9e42
3
  size 664140735
trainer_state.json ADDED
@@ -0,0 +1,3534 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 0.22569287713279768,
6
+ "eval_steps": 500,
7
+ "global_step": 5000,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.00045138575426559535,
14
+ "grad_norm": 529.3088989257812,
15
+ "learning_rate": 1.8e-07,
16
+ "loss": 14.7349,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.0009027715085311907,
21
+ "grad_norm": 1296.1348876953125,
22
+ "learning_rate": 3.8e-07,
23
+ "loss": 25.2921,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.0013541572627967862,
28
+ "grad_norm": 1027.86572265625,
29
+ "learning_rate": 5.800000000000001e-07,
30
+ "loss": 15.8515,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.0018055430170623814,
35
+ "grad_norm": 434.0729064941406,
36
+ "learning_rate": 7.8e-07,
37
+ "loss": 11.4327,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.002256928771327977,
42
+ "grad_norm": 225.99069213867188,
43
+ "learning_rate": 9.800000000000001e-07,
44
+ "loss": 10.4931,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.0027083145255935724,
49
+ "grad_norm": 172.526123046875,
50
+ "learning_rate": 1.1800000000000001e-06,
51
+ "loss": 8.4178,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.0031597002798591676,
56
+ "grad_norm": 242.7367401123047,
57
+ "learning_rate": 1.3800000000000001e-06,
58
+ "loss": 12.3523,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.003611086034124763,
63
+ "grad_norm": 91.68489074707031,
64
+ "learning_rate": 1.5800000000000001e-06,
65
+ "loss": 4.1224,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.004062471788390358,
70
+ "grad_norm": 443.11883544921875,
71
+ "learning_rate": 1.7800000000000001e-06,
72
+ "loss": 15.2317,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.004513857542655954,
77
+ "grad_norm": 565.3430786132812,
78
+ "learning_rate": 1.98e-06,
79
+ "loss": 10.5734,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.004965243296921549,
84
+ "grad_norm": 287.0893249511719,
85
+ "learning_rate": 2.1800000000000003e-06,
86
+ "loss": 13.3627,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.005416629051187145,
91
+ "grad_norm": 261.1404724121094,
92
+ "learning_rate": 2.38e-06,
93
+ "loss": 12.583,
94
+ "step": 120
95
+ },
96
+ {
97
+ "epoch": 0.00586801480545274,
98
+ "grad_norm": 126.69161987304688,
99
+ "learning_rate": 2.5800000000000003e-06,
100
+ "loss": 3.3247,
101
+ "step": 130
102
+ },
103
+ {
104
+ "epoch": 0.006319400559718335,
105
+ "grad_norm": 218.59933471679688,
106
+ "learning_rate": 2.7800000000000005e-06,
107
+ "loss": 9.3358,
108
+ "step": 140
109
+ },
110
+ {
111
+ "epoch": 0.006770786313983931,
112
+ "grad_norm": 0.0,
113
+ "learning_rate": 2.9800000000000003e-06,
114
+ "loss": 3.8171,
115
+ "step": 150
116
+ },
117
+ {
118
+ "epoch": 0.007222172068249526,
119
+ "grad_norm": 274.3262939453125,
120
+ "learning_rate": 3.1800000000000005e-06,
121
+ "loss": 7.8489,
122
+ "step": 160
123
+ },
124
+ {
125
+ "epoch": 0.007673557822515121,
126
+ "grad_norm": 156.15704345703125,
127
+ "learning_rate": 3.3800000000000007e-06,
128
+ "loss": 2.8211,
129
+ "step": 170
130
+ },
131
+ {
132
+ "epoch": 0.008124943576780716,
133
+ "grad_norm": 247.19708251953125,
134
+ "learning_rate": 3.58e-06,
135
+ "loss": 3.3821,
136
+ "step": 180
137
+ },
138
+ {
139
+ "epoch": 0.008576329331046312,
140
+ "grad_norm": 132.3325958251953,
141
+ "learning_rate": 3.7800000000000002e-06,
142
+ "loss": 5.7647,
143
+ "step": 190
144
+ },
145
+ {
146
+ "epoch": 0.009027715085311907,
147
+ "grad_norm": 120.66661071777344,
148
+ "learning_rate": 3.980000000000001e-06,
149
+ "loss": 6.2929,
150
+ "step": 200
151
+ },
152
+ {
153
+ "epoch": 0.009479100839577504,
154
+ "grad_norm": 103.07721710205078,
155
+ "learning_rate": 4.18e-06,
156
+ "loss": 7.0933,
157
+ "step": 210
158
+ },
159
+ {
160
+ "epoch": 0.009930486593843098,
161
+ "grad_norm": 0.0,
162
+ "learning_rate": 4.38e-06,
163
+ "loss": 6.1516,
164
+ "step": 220
165
+ },
166
+ {
167
+ "epoch": 0.010381872348108693,
168
+ "grad_norm": 0.0,
169
+ "learning_rate": 4.58e-06,
170
+ "loss": 5.2596,
171
+ "step": 230
172
+ },
173
+ {
174
+ "epoch": 0.01083325810237429,
175
+ "grad_norm": 67.40269470214844,
176
+ "learning_rate": 4.78e-06,
177
+ "loss": 25.6413,
178
+ "step": 240
179
+ },
180
+ {
181
+ "epoch": 0.011284643856639884,
182
+ "grad_norm": 0.0,
183
+ "learning_rate": 4.980000000000001e-06,
184
+ "loss": 2.1413,
185
+ "step": 250
186
+ },
187
+ {
188
+ "epoch": 0.01173602961090548,
189
+ "grad_norm": 71.84618377685547,
190
+ "learning_rate": 4.99995570993928e-06,
191
+ "loss": 13.4408,
192
+ "step": 260
193
+ },
194
+ {
195
+ "epoch": 0.012187415365171076,
196
+ "grad_norm": 303.07373046875,
197
+ "learning_rate": 4.999802610509541e-06,
198
+ "loss": 6.3885,
199
+ "step": 270
200
+ },
201
+ {
202
+ "epoch": 0.01263880111943667,
203
+ "grad_norm": 62.149261474609375,
204
+ "learning_rate": 4.99954016161538e-06,
205
+ "loss": 9.1532,
206
+ "step": 280
207
+ },
208
+ {
209
+ "epoch": 0.013090186873702265,
210
+ "grad_norm": 41.126121520996094,
211
+ "learning_rate": 4.9991683747371645e-06,
212
+ "loss": 8.869,
213
+ "step": 290
214
+ },
215
+ {
216
+ "epoch": 0.013541572627967862,
217
+ "grad_norm": 80.19505310058594,
218
+ "learning_rate": 4.998687266138054e-06,
219
+ "loss": 9.4676,
220
+ "step": 300
221
+ },
222
+ {
223
+ "epoch": 0.013992958382233456,
224
+ "grad_norm": 364.4660949707031,
225
+ "learning_rate": 4.998096856863298e-06,
226
+ "loss": 11.8367,
227
+ "step": 310
228
+ },
229
+ {
230
+ "epoch": 0.014444344136499051,
231
+ "grad_norm": 72.156005859375,
232
+ "learning_rate": 4.9973971727393125e-06,
233
+ "loss": 4.8972,
234
+ "step": 320
235
+ },
236
+ {
237
+ "epoch": 0.014895729890764648,
238
+ "grad_norm": 423.4336853027344,
239
+ "learning_rate": 4.996588244372545e-06,
240
+ "loss": 13.9857,
241
+ "step": 330
242
+ },
243
+ {
244
+ "epoch": 0.015347115645030242,
245
+ "grad_norm": 57.93241500854492,
246
+ "learning_rate": 4.9956701071481464e-06,
247
+ "loss": 5.6783,
248
+ "step": 340
249
+ },
250
+ {
251
+ "epoch": 0.01579850139929584,
252
+ "grad_norm": 81.07381439208984,
253
+ "learning_rate": 4.99464280122841e-06,
254
+ "loss": 7.0973,
255
+ "step": 350
256
+ },
257
+ {
258
+ "epoch": 0.016249887153561432,
259
+ "grad_norm": 195.14125061035156,
260
+ "learning_rate": 4.9935063715510255e-06,
261
+ "loss": 9.8749,
262
+ "step": 360
263
+ },
264
+ {
265
+ "epoch": 0.01670127290782703,
266
+ "grad_norm": 0.0,
267
+ "learning_rate": 4.992260867827109e-06,
268
+ "loss": 60.1497,
269
+ "step": 370
270
+ },
271
+ {
272
+ "epoch": 0.017152658662092625,
273
+ "grad_norm": 0.0,
274
+ "learning_rate": 4.990906344539029e-06,
275
+ "loss": 4.0613,
276
+ "step": 380
277
+ },
278
+ {
279
+ "epoch": 0.01760404441635822,
280
+ "grad_norm": 180.55010986328125,
281
+ "learning_rate": 4.9894428609380205e-06,
282
+ "loss": 36.0217,
283
+ "step": 390
284
+ },
285
+ {
286
+ "epoch": 0.018055430170623814,
287
+ "grad_norm": 101.5256576538086,
288
+ "learning_rate": 4.987870481041599e-06,
289
+ "loss": 4.1112,
290
+ "step": 400
291
+ },
292
+ {
293
+ "epoch": 0.01850681592488941,
294
+ "grad_norm": 78.70343780517578,
295
+ "learning_rate": 4.9861892736307526e-06,
296
+ "loss": 8.1376,
297
+ "step": 410
298
+ },
299
+ {
300
+ "epoch": 0.018958201679155007,
301
+ "grad_norm": 28.466402053833008,
302
+ "learning_rate": 4.984399312246942e-06,
303
+ "loss": 5.8657,
304
+ "step": 420
305
+ },
306
+ {
307
+ "epoch": 0.0194095874334206,
308
+ "grad_norm": 138.02166748046875,
309
+ "learning_rate": 4.9825006751888775e-06,
310
+ "loss": 4.571,
311
+ "step": 430
312
+ },
313
+ {
314
+ "epoch": 0.019860973187686197,
315
+ "grad_norm": 54.59955596923828,
316
+ "learning_rate": 4.980493445509091e-06,
317
+ "loss": 19.8806,
318
+ "step": 440
319
+ },
320
+ {
321
+ "epoch": 0.020312358941951793,
322
+ "grad_norm": 0.0,
323
+ "learning_rate": 4.978377711010315e-06,
324
+ "loss": 7.7517,
325
+ "step": 450
326
+ },
327
+ {
328
+ "epoch": 0.020763744696217386,
329
+ "grad_norm": 207.7347869873047,
330
+ "learning_rate": 4.9761535642416284e-06,
331
+ "loss": 6.8984,
332
+ "step": 460
333
+ },
334
+ {
335
+ "epoch": 0.021215130450482983,
336
+ "grad_norm": 75.25233459472656,
337
+ "learning_rate": 4.973821102494418e-06,
338
+ "loss": 4.5005,
339
+ "step": 470
340
+ },
341
+ {
342
+ "epoch": 0.02166651620474858,
343
+ "grad_norm": 0.0,
344
+ "learning_rate": 4.971380427798114e-06,
345
+ "loss": 3.0203,
346
+ "step": 480
347
+ },
348
+ {
349
+ "epoch": 0.022117901959014172,
350
+ "grad_norm": 64.13170623779297,
351
+ "learning_rate": 4.968831646915735e-06,
352
+ "loss": 3.9957,
353
+ "step": 490
354
+ },
355
+ {
356
+ "epoch": 0.02256928771327977,
357
+ "grad_norm": 77.91236114501953,
358
+ "learning_rate": 4.966174871339216e-06,
359
+ "loss": 40.4236,
360
+ "step": 500
361
+ },
362
+ {
363
+ "epoch": 0.023020673467545365,
364
+ "grad_norm": 89.34391784667969,
365
+ "learning_rate": 4.963410217284526e-06,
366
+ "loss": 24.301,
367
+ "step": 510
368
+ },
369
+ {
370
+ "epoch": 0.02347205922181096,
371
+ "grad_norm": 67.05719757080078,
372
+ "learning_rate": 4.96053780568659e-06,
373
+ "loss": 6.6605,
374
+ "step": 520
375
+ },
376
+ {
377
+ "epoch": 0.023923444976076555,
378
+ "grad_norm": 68.92564392089844,
379
+ "learning_rate": 4.957557762193994e-06,
380
+ "loss": 3.9771,
381
+ "step": 530
382
+ },
383
+ {
384
+ "epoch": 0.02437483073034215,
385
+ "grad_norm": 203.70675659179688,
386
+ "learning_rate": 4.954470217163498e-06,
387
+ "loss": 23.9622,
388
+ "step": 540
389
+ },
390
+ {
391
+ "epoch": 0.024826216484607744,
392
+ "grad_norm": 0.0,
393
+ "learning_rate": 4.951275305654323e-06,
394
+ "loss": 5.4188,
395
+ "step": 550
396
+ },
397
+ {
398
+ "epoch": 0.02527760223887334,
399
+ "grad_norm": 96.60330200195312,
400
+ "learning_rate": 4.947973167422247e-06,
401
+ "loss": 7.8666,
402
+ "step": 560
403
+ },
404
+ {
405
+ "epoch": 0.025728987993138937,
406
+ "grad_norm": 56.9238166809082,
407
+ "learning_rate": 4.944563946913495e-06,
408
+ "loss": 6.2618,
409
+ "step": 570
410
+ },
411
+ {
412
+ "epoch": 0.02618037374740453,
413
+ "grad_norm": 202.95736694335938,
414
+ "learning_rate": 4.941047793258415e-06,
415
+ "loss": 13.0183,
416
+ "step": 580
417
+ },
418
+ {
419
+ "epoch": 0.026631759501670127,
420
+ "grad_norm": 85.75564575195312,
421
+ "learning_rate": 4.937424860264961e-06,
422
+ "loss": 9.9991,
423
+ "step": 590
424
+ },
425
+ {
426
+ "epoch": 0.027083145255935723,
427
+ "grad_norm": 53.70000457763672,
428
+ "learning_rate": 4.9336953064119574e-06,
429
+ "loss": 4.3437,
430
+ "step": 600
431
+ },
432
+ {
433
+ "epoch": 0.027534531010201316,
434
+ "grad_norm": 247.50283813476562,
435
+ "learning_rate": 4.929859294842172e-06,
436
+ "loss": 7.5836,
437
+ "step": 610
438
+ },
439
+ {
440
+ "epoch": 0.027985916764466913,
441
+ "grad_norm": 495.01861572265625,
442
+ "learning_rate": 4.925916993355177e-06,
443
+ "loss": 23.0506,
444
+ "step": 620
445
+ },
446
+ {
447
+ "epoch": 0.02843730251873251,
448
+ "grad_norm": 88.66902923583984,
449
+ "learning_rate": 4.921868574400011e-06,
450
+ "loss": 4.9098,
451
+ "step": 630
452
+ },
453
+ {
454
+ "epoch": 0.028888688272998102,
455
+ "grad_norm": 0.0,
456
+ "learning_rate": 4.917714215067636e-06,
457
+ "loss": 4.2919,
458
+ "step": 640
459
+ },
460
+ {
461
+ "epoch": 0.0293400740272637,
462
+ "grad_norm": 44.464176177978516,
463
+ "learning_rate": 4.913454097083185e-06,
464
+ "loss": 3.0664,
465
+ "step": 650
466
+ },
467
+ {
468
+ "epoch": 0.029791459781529295,
469
+ "grad_norm": 70.9917221069336,
470
+ "learning_rate": 4.909088406798021e-06,
471
+ "loss": 8.6088,
472
+ "step": 660
473
+ },
474
+ {
475
+ "epoch": 0.030242845535794892,
476
+ "grad_norm": 46.343048095703125,
477
+ "learning_rate": 4.90461733518158e-06,
478
+ "loss": 1.5863,
479
+ "step": 670
480
+ },
481
+ {
482
+ "epoch": 0.030694231290060485,
483
+ "grad_norm": 37.6195182800293,
484
+ "learning_rate": 4.900041077813017e-06,
485
+ "loss": 8.9148,
486
+ "step": 680
487
+ },
488
+ {
489
+ "epoch": 0.03114561704432608,
490
+ "grad_norm": 87.77223205566406,
491
+ "learning_rate": 4.895359834872656e-06,
492
+ "loss": 3.6354,
493
+ "step": 690
494
+ },
495
+ {
496
+ "epoch": 0.03159700279859168,
497
+ "grad_norm": 166.7072296142578,
498
+ "learning_rate": 4.890573811133228e-06,
499
+ "loss": 4.615,
500
+ "step": 700
501
+ },
502
+ {
503
+ "epoch": 0.03204838855285727,
504
+ "grad_norm": 73.47735595703125,
505
+ "learning_rate": 4.885683215950916e-06,
506
+ "loss": 7.9692,
507
+ "step": 710
508
+ },
509
+ {
510
+ "epoch": 0.032499774307122864,
511
+ "grad_norm": 73.96627807617188,
512
+ "learning_rate": 4.880688263256197e-06,
513
+ "loss": 48.947,
514
+ "step": 720
515
+ },
516
+ {
517
+ "epoch": 0.032951160061388464,
518
+ "grad_norm": 155.81527709960938,
519
+ "learning_rate": 4.875589171544481e-06,
520
+ "loss": 11.8253,
521
+ "step": 730
522
+ },
523
+ {
524
+ "epoch": 0.03340254581565406,
525
+ "grad_norm": 388.5230407714844,
526
+ "learning_rate": 4.870386163866562e-06,
527
+ "loss": 4.9362,
528
+ "step": 740
529
+ },
530
+ {
531
+ "epoch": 0.03385393156991965,
532
+ "grad_norm": 408.3206481933594,
533
+ "learning_rate": 4.865079467818848e-06,
534
+ "loss": 9.5185,
535
+ "step": 750
536
+ },
537
+ {
538
+ "epoch": 0.03430531732418525,
539
+ "grad_norm": 123.60210418701172,
540
+ "learning_rate": 4.859669315533417e-06,
541
+ "loss": 23.6895,
542
+ "step": 760
543
+ },
544
+ {
545
+ "epoch": 0.03475670307845084,
546
+ "grad_norm": 28.2242488861084,
547
+ "learning_rate": 4.854155943667857e-06,
548
+ "loss": 5.5674,
549
+ "step": 770
550
+ },
551
+ {
552
+ "epoch": 0.03520808883271644,
553
+ "grad_norm": 0.0,
554
+ "learning_rate": 4.8485395933949115e-06,
555
+ "loss": 6.0081,
556
+ "step": 780
557
+ },
558
+ {
559
+ "epoch": 0.035659474586982036,
560
+ "grad_norm": 193.3325958251953,
561
+ "learning_rate": 4.842820510391939e-06,
562
+ "loss": 21.2225,
563
+ "step": 790
564
+ },
565
+ {
566
+ "epoch": 0.03611086034124763,
567
+ "grad_norm": 35.121490478515625,
568
+ "learning_rate": 4.836998944830155e-06,
569
+ "loss": 4.8896,
570
+ "step": 800
571
+ },
572
+ {
573
+ "epoch": 0.03656224609551323,
574
+ "grad_norm": 92.5079345703125,
575
+ "learning_rate": 4.831075151363698e-06,
576
+ "loss": 12.214,
577
+ "step": 810
578
+ },
579
+ {
580
+ "epoch": 0.03701363184977882,
581
+ "grad_norm": 99.10546112060547,
582
+ "learning_rate": 4.825049389118484e-06,
583
+ "loss": 3.54,
584
+ "step": 820
585
+ },
586
+ {
587
+ "epoch": 0.037465017604044415,
588
+ "grad_norm": 38.81696319580078,
589
+ "learning_rate": 4.818921921680875e-06,
590
+ "loss": 4.0706,
591
+ "step": 830
592
+ },
593
+ {
594
+ "epoch": 0.037916403358310015,
595
+ "grad_norm": 58.86240005493164,
596
+ "learning_rate": 4.812693017086145e-06,
597
+ "loss": 6.188,
598
+ "step": 840
599
+ },
600
+ {
601
+ "epoch": 0.03836778911257561,
602
+ "grad_norm": 175.60556030273438,
603
+ "learning_rate": 4.806362947806763e-06,
604
+ "loss": 5.8933,
605
+ "step": 850
606
+ },
607
+ {
608
+ "epoch": 0.0388191748668412,
609
+ "grad_norm": 183.5174560546875,
610
+ "learning_rate": 4.799931990740463e-06,
611
+ "loss": 8.539,
612
+ "step": 860
613
+ },
614
+ {
615
+ "epoch": 0.0392705606211068,
616
+ "grad_norm": 116.81751251220703,
617
+ "learning_rate": 4.793400427198142e-06,
618
+ "loss": 2.1388,
619
+ "step": 870
620
+ },
621
+ {
622
+ "epoch": 0.039721946375372394,
623
+ "grad_norm": 17.62134552001953,
624
+ "learning_rate": 4.786768542891548e-06,
625
+ "loss": 3.0488,
626
+ "step": 880
627
+ },
628
+ {
629
+ "epoch": 0.04017333212963799,
630
+ "grad_norm": 22.198841094970703,
631
+ "learning_rate": 4.780036627920786e-06,
632
+ "loss": 2.5819,
633
+ "step": 890
634
+ },
635
+ {
636
+ "epoch": 0.04062471788390359,
637
+ "grad_norm": 4030.4140625,
638
+ "learning_rate": 4.773204976761624e-06,
639
+ "loss": 16.0647,
640
+ "step": 900
641
+ },
642
+ {
643
+ "epoch": 0.04107610363816918,
644
+ "grad_norm": 135.5377960205078,
645
+ "learning_rate": 4.766273888252615e-06,
646
+ "loss": 10.9862,
647
+ "step": 910
648
+ },
649
+ {
650
+ "epoch": 0.04152748939243477,
651
+ "grad_norm": 3599.838134765625,
652
+ "learning_rate": 4.759243665582024e-06,
653
+ "loss": 40.2895,
654
+ "step": 920
655
+ },
656
+ {
657
+ "epoch": 0.04197887514670037,
658
+ "grad_norm": 103.5750503540039,
659
+ "learning_rate": 4.752114616274568e-06,
660
+ "loss": 16.4239,
661
+ "step": 930
662
+ },
663
+ {
664
+ "epoch": 0.042430260900965966,
665
+ "grad_norm": 79.45293426513672,
666
+ "learning_rate": 4.744887052177954e-06,
667
+ "loss": 3.9708,
668
+ "step": 940
669
+ },
670
+ {
671
+ "epoch": 0.04288164665523156,
672
+ "grad_norm": 45.912322998046875,
673
+ "learning_rate": 4.737561289449254e-06,
674
+ "loss": 2.8215,
675
+ "step": 950
676
+ },
677
+ {
678
+ "epoch": 0.04333303240949716,
679
+ "grad_norm": 152.20948791503906,
680
+ "learning_rate": 4.73013764854106e-06,
681
+ "loss": 11.6374,
682
+ "step": 960
683
+ },
684
+ {
685
+ "epoch": 0.04378441816376275,
686
+ "grad_norm": 178.65423583984375,
687
+ "learning_rate": 4.722616454187474e-06,
688
+ "loss": 22.8774,
689
+ "step": 970
690
+ },
691
+ {
692
+ "epoch": 0.044235803918028345,
693
+ "grad_norm": 207.16470336914062,
694
+ "learning_rate": 4.714998035389904e-06,
695
+ "loss": 5.3465,
696
+ "step": 980
697
+ },
698
+ {
699
+ "epoch": 0.044687189672293945,
700
+ "grad_norm": 321.34814453125,
701
+ "learning_rate": 4.7072827254026665e-06,
702
+ "loss": 4.3902,
703
+ "step": 990
704
+ },
705
+ {
706
+ "epoch": 0.04513857542655954,
707
+ "grad_norm": 30.638134002685547,
708
+ "learning_rate": 4.699470861718416e-06,
709
+ "loss": 11.7788,
710
+ "step": 1000
711
+ },
712
+ {
713
+ "epoch": 0.04558996118082513,
714
+ "grad_norm": 68.02635955810547,
715
+ "learning_rate": 4.691562786053376e-06,
716
+ "loss": 5.1953,
717
+ "step": 1010
718
+ },
719
+ {
720
+ "epoch": 0.04604134693509073,
721
+ "grad_norm": 47.959510803222656,
722
+ "learning_rate": 4.683558844332396e-06,
723
+ "loss": 4.7306,
724
+ "step": 1020
725
+ },
726
+ {
727
+ "epoch": 0.046492732689356324,
728
+ "grad_norm": 177.837646484375,
729
+ "learning_rate": 4.675459386673815e-06,
730
+ "loss": 8.3995,
731
+ "step": 1030
732
+ },
733
+ {
734
+ "epoch": 0.04694411844362192,
735
+ "grad_norm": 30.063905715942383,
736
+ "learning_rate": 4.667264767374149e-06,
737
+ "loss": 14.5254,
738
+ "step": 1040
739
+ },
740
+ {
741
+ "epoch": 0.04739550419788752,
742
+ "grad_norm": 77.62065887451172,
743
+ "learning_rate": 4.658975344892594e-06,
744
+ "loss": 7.7444,
745
+ "step": 1050
746
+ },
747
+ {
748
+ "epoch": 0.04784688995215311,
749
+ "grad_norm": 145.4931182861328,
750
+ "learning_rate": 4.650591481835344e-06,
751
+ "loss": 5.5269,
752
+ "step": 1060
753
+ },
754
+ {
755
+ "epoch": 0.0482982757064187,
756
+ "grad_norm": 109.18097686767578,
757
+ "learning_rate": 4.642113544939728e-06,
758
+ "loss": 9.9729,
759
+ "step": 1070
760
+ },
761
+ {
762
+ "epoch": 0.0487496614606843,
763
+ "grad_norm": 52.834171295166016,
764
+ "learning_rate": 4.6335419050581705e-06,
765
+ "loss": 5.2549,
766
+ "step": 1080
767
+ },
768
+ {
769
+ "epoch": 0.049201047214949896,
770
+ "grad_norm": 10.693345069885254,
771
+ "learning_rate": 4.624876937141969e-06,
772
+ "loss": 3.436,
773
+ "step": 1090
774
+ },
775
+ {
776
+ "epoch": 0.04965243296921549,
777
+ "grad_norm": 204.95852661132812,
778
+ "learning_rate": 4.6161190202248895e-06,
779
+ "loss": 6.4411,
780
+ "step": 1100
781
+ },
782
+ {
783
+ "epoch": 0.05010381872348109,
784
+ "grad_norm": 220.5102081298828,
785
+ "learning_rate": 4.607268537406591e-06,
786
+ "loss": 6.4321,
787
+ "step": 1110
788
+ },
789
+ {
790
+ "epoch": 0.05055520447774668,
791
+ "grad_norm": 223.9202880859375,
792
+ "learning_rate": 4.598325875835863e-06,
793
+ "loss": 3.969,
794
+ "step": 1120
795
+ },
796
+ {
797
+ "epoch": 0.051006590232012275,
798
+ "grad_norm": 208.42514038085938,
799
+ "learning_rate": 4.5892914266936915e-06,
800
+ "loss": 8.453,
801
+ "step": 1130
802
+ },
803
+ {
804
+ "epoch": 0.051457975986277875,
805
+ "grad_norm": 245.34690856933594,
806
+ "learning_rate": 4.580165585176152e-06,
807
+ "loss": 7.5785,
808
+ "step": 1140
809
+ },
810
+ {
811
+ "epoch": 0.05190936174054347,
812
+ "grad_norm": 275.5638122558594,
813
+ "learning_rate": 4.570948750477115e-06,
814
+ "loss": 8.2963,
815
+ "step": 1150
816
+ },
817
+ {
818
+ "epoch": 0.05236074749480906,
819
+ "grad_norm": 323.5898132324219,
820
+ "learning_rate": 4.5616413257707885e-06,
821
+ "loss": 3.6923,
822
+ "step": 1160
823
+ },
824
+ {
825
+ "epoch": 0.05281213324907466,
826
+ "grad_norm": 7.555311679840088,
827
+ "learning_rate": 4.5522437181940804e-06,
828
+ "loss": 3.0164,
829
+ "step": 1170
830
+ },
831
+ {
832
+ "epoch": 0.053263519003340254,
833
+ "grad_norm": 392.56463623046875,
834
+ "learning_rate": 4.542756338828791e-06,
835
+ "loss": 5.5269,
836
+ "step": 1180
837
+ },
838
+ {
839
+ "epoch": 0.05371490475760585,
840
+ "grad_norm": 0.0,
841
+ "learning_rate": 4.533179602683629e-06,
842
+ "loss": 4.8709,
843
+ "step": 1190
844
+ },
845
+ {
846
+ "epoch": 0.05416629051187145,
847
+ "grad_norm": 72.57172393798828,
848
+ "learning_rate": 4.5235139286760565e-06,
849
+ "loss": 5.1519,
850
+ "step": 1200
851
+ },
852
+ {
853
+ "epoch": 0.05461767626613704,
854
+ "grad_norm": 47.77715301513672,
855
+ "learning_rate": 4.513759739613967e-06,
856
+ "loss": 2.8722,
857
+ "step": 1210
858
+ },
859
+ {
860
+ "epoch": 0.05506906202040263,
861
+ "grad_norm": 253.2172393798828,
862
+ "learning_rate": 4.503917462177192e-06,
863
+ "loss": 8.9357,
864
+ "step": 1220
865
+ },
866
+ {
867
+ "epoch": 0.05552044777466823,
868
+ "grad_norm": 25.463279724121094,
869
+ "learning_rate": 4.493987526898828e-06,
870
+ "loss": 17.5491,
871
+ "step": 1230
872
+ },
873
+ {
874
+ "epoch": 0.055971833528933826,
875
+ "grad_norm": 91.78911590576172,
876
+ "learning_rate": 4.483970368146413e-06,
877
+ "loss": 6.1245,
878
+ "step": 1240
879
+ },
880
+ {
881
+ "epoch": 0.05642321928319942,
882
+ "grad_norm": 109.2662582397461,
883
+ "learning_rate": 4.473866424102923e-06,
884
+ "loss": 2.5132,
885
+ "step": 1250
886
+ },
887
+ {
888
+ "epoch": 0.05687460503746502,
889
+ "grad_norm": 32.083805084228516,
890
+ "learning_rate": 4.463676136747602e-06,
891
+ "loss": 4.4606,
892
+ "step": 1260
893
+ },
894
+ {
895
+ "epoch": 0.05732599079173061,
896
+ "grad_norm": 82.83356475830078,
897
+ "learning_rate": 4.453399951836632e-06,
898
+ "loss": 6.9396,
899
+ "step": 1270
900
+ },
901
+ {
902
+ "epoch": 0.057777376545996205,
903
+ "grad_norm": 64.09231567382812,
904
+ "learning_rate": 4.44303831888363e-06,
905
+ "loss": 4.0004,
906
+ "step": 1280
907
+ },
908
+ {
909
+ "epoch": 0.058228762300261805,
910
+ "grad_norm": 20.197046279907227,
911
+ "learning_rate": 4.432591691139989e-06,
912
+ "loss": 4.8386,
913
+ "step": 1290
914
+ },
915
+ {
916
+ "epoch": 0.0586801480545274,
917
+ "grad_norm": 94.25736999511719,
918
+ "learning_rate": 4.422060525575048e-06,
919
+ "loss": 3.0731,
920
+ "step": 1300
921
+ },
922
+ {
923
+ "epoch": 0.059131533808793,
924
+ "grad_norm": 0.0,
925
+ "learning_rate": 4.411445282856106e-06,
926
+ "loss": 6.0413,
927
+ "step": 1310
928
+ },
929
+ {
930
+ "epoch": 0.05958291956305859,
931
+ "grad_norm": 85.74871063232422,
932
+ "learning_rate": 4.4007464273282685e-06,
933
+ "loss": 6.9294,
934
+ "step": 1320
935
+ },
936
+ {
937
+ "epoch": 0.060034305317324184,
938
+ "grad_norm": 101.3687744140625,
939
+ "learning_rate": 4.3899644269941344e-06,
940
+ "loss": 4.1772,
941
+ "step": 1330
942
+ },
943
+ {
944
+ "epoch": 0.060485691071589784,
945
+ "grad_norm": 67.5953598022461,
946
+ "learning_rate": 4.379099753493328e-06,
947
+ "loss": 9.0666,
948
+ "step": 1340
949
+ },
950
+ {
951
+ "epoch": 0.06093707682585538,
952
+ "grad_norm": 69.44485473632812,
953
+ "learning_rate": 4.368152882081865e-06,
954
+ "loss": 6.2141,
955
+ "step": 1350
956
+ },
957
+ {
958
+ "epoch": 0.06138846258012097,
959
+ "grad_norm": 95.91399383544922,
960
+ "learning_rate": 4.357124291611363e-06,
961
+ "loss": 3.4158,
962
+ "step": 1360
963
+ },
964
+ {
965
+ "epoch": 0.06183984833438657,
966
+ "grad_norm": 120.07294464111328,
967
+ "learning_rate": 4.346014464508098e-06,
968
+ "loss": 3.4365,
969
+ "step": 1370
970
+ },
971
+ {
972
+ "epoch": 0.06229123408865216,
973
+ "grad_norm": 0.0,
974
+ "learning_rate": 4.3348238867518985e-06,
975
+ "loss": 3.5274,
976
+ "step": 1380
977
+ },
978
+ {
979
+ "epoch": 0.06274261984291776,
980
+ "grad_norm": 52.81742858886719,
981
+ "learning_rate": 4.323553047854887e-06,
982
+ "loss": 4.0184,
983
+ "step": 1390
984
+ },
985
+ {
986
+ "epoch": 0.06319400559718336,
987
+ "grad_norm": 89.56463623046875,
988
+ "learning_rate": 4.312202440840069e-06,
989
+ "loss": 5.1168,
990
+ "step": 1400
991
+ },
992
+ {
993
+ "epoch": 0.06364539135144895,
994
+ "grad_norm": 222.80474853515625,
995
+ "learning_rate": 4.3007725622197675e-06,
996
+ "loss": 8.9882,
997
+ "step": 1410
998
+ },
999
+ {
1000
+ "epoch": 0.06409677710571454,
1001
+ "grad_norm": 93.3848648071289,
1002
+ "learning_rate": 4.2892639119739005e-06,
1003
+ "loss": 3.9498,
1004
+ "step": 1420
1005
+ },
1006
+ {
1007
+ "epoch": 0.06454816285998013,
1008
+ "grad_norm": 48.86682891845703,
1009
+ "learning_rate": 4.277676993528112e-06,
1010
+ "loss": 5.319,
1011
+ "step": 1430
1012
+ },
1013
+ {
1014
+ "epoch": 0.06499954861424573,
1015
+ "grad_norm": 71.68345642089844,
1016
+ "learning_rate": 4.266012313731752e-06,
1017
+ "loss": 2.0076,
1018
+ "step": 1440
1019
+ },
1020
+ {
1021
+ "epoch": 0.06545093436851133,
1022
+ "grad_norm": 18.994592666625977,
1023
+ "learning_rate": 4.2542703828357035e-06,
1024
+ "loss": 3.7666,
1025
+ "step": 1450
1026
+ },
1027
+ {
1028
+ "epoch": 0.06590232012277693,
1029
+ "grad_norm": 40.77909469604492,
1030
+ "learning_rate": 4.2424517144700605e-06,
1031
+ "loss": 3.4998,
1032
+ "step": 1460
1033
+ },
1034
+ {
1035
+ "epoch": 0.06635370587704252,
1036
+ "grad_norm": 43.38405990600586,
1037
+ "learning_rate": 4.2305568256216665e-06,
1038
+ "loss": 2.7628,
1039
+ "step": 1470
1040
+ },
1041
+ {
1042
+ "epoch": 0.06680509163130811,
1043
+ "grad_norm": 306.3780822753906,
1044
+ "learning_rate": 4.218586236611494e-06,
1045
+ "loss": 7.4835,
1046
+ "step": 1480
1047
+ },
1048
+ {
1049
+ "epoch": 0.0672564773855737,
1050
+ "grad_norm": 51.114681243896484,
1051
+ "learning_rate": 4.206540471071884e-06,
1052
+ "loss": 29.6795,
1053
+ "step": 1490
1054
+ },
1055
+ {
1056
+ "epoch": 0.0677078631398393,
1057
+ "grad_norm": 58.40654754638672,
1058
+ "learning_rate": 4.194420055923644e-06,
1059
+ "loss": 3.9177,
1060
+ "step": 1500
1061
+ },
1062
+ {
1063
+ "epoch": 0.0681592488941049,
1064
+ "grad_norm": 53.89031982421875,
1065
+ "learning_rate": 4.182225521352999e-06,
1066
+ "loss": 5.2831,
1067
+ "step": 1510
1068
+ },
1069
+ {
1070
+ "epoch": 0.0686106346483705,
1071
+ "grad_norm": 18.415706634521484,
1072
+ "learning_rate": 4.169957400788395e-06,
1073
+ "loss": 16.1245,
1074
+ "step": 1520
1075
+ },
1076
+ {
1077
+ "epoch": 0.06906202040263609,
1078
+ "grad_norm": 186.59288024902344,
1079
+ "learning_rate": 4.157616230877169e-06,
1080
+ "loss": 7.5942,
1081
+ "step": 1530
1082
+ },
1083
+ {
1084
+ "epoch": 0.06951340615690169,
1085
+ "grad_norm": 76.07890319824219,
1086
+ "learning_rate": 4.145202551462072e-06,
1087
+ "loss": 18.2003,
1088
+ "step": 1540
1089
+ },
1090
+ {
1091
+ "epoch": 0.06996479191116728,
1092
+ "grad_norm": 54.49570083618164,
1093
+ "learning_rate": 4.132716905557658e-06,
1094
+ "loss": 9.4446,
1095
+ "step": 1550
1096
+ },
1097
+ {
1098
+ "epoch": 0.07041617766543289,
1099
+ "grad_norm": 102.6861801147461,
1100
+ "learning_rate": 4.120159839326525e-06,
1101
+ "loss": 5.926,
1102
+ "step": 1560
1103
+ },
1104
+ {
1105
+ "epoch": 0.07086756341969848,
1106
+ "grad_norm": 375.9411315917969,
1107
+ "learning_rate": 4.107531902055429e-06,
1108
+ "loss": 6.2969,
1109
+ "step": 1570
1110
+ },
1111
+ {
1112
+ "epoch": 0.07131894917396407,
1113
+ "grad_norm": 0.0,
1114
+ "learning_rate": 4.094833646131257e-06,
1115
+ "loss": 2.6412,
1116
+ "step": 1580
1117
+ },
1118
+ {
1119
+ "epoch": 0.07177033492822966,
1120
+ "grad_norm": 174.88584899902344,
1121
+ "learning_rate": 4.082065627016858e-06,
1122
+ "loss": 5.8809,
1123
+ "step": 1590
1124
+ },
1125
+ {
1126
+ "epoch": 0.07222172068249526,
1127
+ "grad_norm": 170.5493927001953,
1128
+ "learning_rate": 4.069228403226751e-06,
1129
+ "loss": 4.6801,
1130
+ "step": 1600
1131
+ },
1132
+ {
1133
+ "epoch": 0.07267310643676085,
1134
+ "grad_norm": 0.0,
1135
+ "learning_rate": 4.056322536302693e-06,
1136
+ "loss": 5.3509,
1137
+ "step": 1610
1138
+ },
1139
+ {
1140
+ "epoch": 0.07312449219102646,
1141
+ "grad_norm": 86.64141845703125,
1142
+ "learning_rate": 4.043348590789111e-06,
1143
+ "loss": 33.3926,
1144
+ "step": 1620
1145
+ },
1146
+ {
1147
+ "epoch": 0.07357587794529205,
1148
+ "grad_norm": 137.76876831054688,
1149
+ "learning_rate": 4.030307134208412e-06,
1150
+ "loss": 3.9068,
1151
+ "step": 1630
1152
+ },
1153
+ {
1154
+ "epoch": 0.07402726369955764,
1155
+ "grad_norm": 27.28714370727539,
1156
+ "learning_rate": 4.017198737036154e-06,
1157
+ "loss": 5.8096,
1158
+ "step": 1640
1159
+ },
1160
+ {
1161
+ "epoch": 0.07447864945382324,
1162
+ "grad_norm": 33.85837173461914,
1163
+ "learning_rate": 4.004023972676097e-06,
1164
+ "loss": 6.4879,
1165
+ "step": 1650
1166
+ },
1167
+ {
1168
+ "epoch": 0.07493003520808883,
1169
+ "grad_norm": 93.1478500366211,
1170
+ "learning_rate": 3.990783417435113e-06,
1171
+ "loss": 3.9678,
1172
+ "step": 1660
1173
+ },
1174
+ {
1175
+ "epoch": 0.07538142096235442,
1176
+ "grad_norm": 247.34642028808594,
1177
+ "learning_rate": 3.9774776504979805e-06,
1178
+ "loss": 8.0476,
1179
+ "step": 1670
1180
+ },
1181
+ {
1182
+ "epoch": 0.07583280671662003,
1183
+ "grad_norm": 378.8777770996094,
1184
+ "learning_rate": 3.964107253902052e-06,
1185
+ "loss": 6.3287,
1186
+ "step": 1680
1187
+ },
1188
+ {
1189
+ "epoch": 0.07628419247088562,
1190
+ "grad_norm": 188.11549377441406,
1191
+ "learning_rate": 3.9506728125117885e-06,
1192
+ "loss": 3.9324,
1193
+ "step": 1690
1194
+ },
1195
+ {
1196
+ "epoch": 0.07673557822515122,
1197
+ "grad_norm": 312.2879333496094,
1198
+ "learning_rate": 3.937174913993177e-06,
1199
+ "loss": 14.539,
1200
+ "step": 1700
1201
+ },
1202
+ {
1203
+ "epoch": 0.07718696397941681,
1204
+ "grad_norm": 89.85531616210938,
1205
+ "learning_rate": 3.923614148788026e-06,
1206
+ "loss": 5.5829,
1207
+ "step": 1710
1208
+ },
1209
+ {
1210
+ "epoch": 0.0776383497336824,
1211
+ "grad_norm": 74.73843383789062,
1212
+ "learning_rate": 3.909991110088138e-06,
1213
+ "loss": 17.3013,
1214
+ "step": 1720
1215
+ },
1216
+ {
1217
+ "epoch": 0.078089735487948,
1218
+ "grad_norm": 62.023475646972656,
1219
+ "learning_rate": 3.896306393809357e-06,
1220
+ "loss": 6.91,
1221
+ "step": 1730
1222
+ },
1223
+ {
1224
+ "epoch": 0.0785411212422136,
1225
+ "grad_norm": 117.61355590820312,
1226
+ "learning_rate": 3.882560598565505e-06,
1227
+ "loss": 4.8875,
1228
+ "step": 1740
1229
+ },
1230
+ {
1231
+ "epoch": 0.0789925069964792,
1232
+ "grad_norm": 94.51251220703125,
1233
+ "learning_rate": 3.868754325642195e-06,
1234
+ "loss": 4.3089,
1235
+ "step": 1750
1236
+ },
1237
+ {
1238
+ "epoch": 0.07944389275074479,
1239
+ "grad_norm": 23.685529708862305,
1240
+ "learning_rate": 3.854888178970535e-06,
1241
+ "loss": 7.8688,
1242
+ "step": 1760
1243
+ },
1244
+ {
1245
+ "epoch": 0.07989527850501038,
1246
+ "grad_norm": 0.0,
1247
+ "learning_rate": 3.840962765100696e-06,
1248
+ "loss": 2.3913,
1249
+ "step": 1770
1250
+ },
1251
+ {
1252
+ "epoch": 0.08034666425927597,
1253
+ "grad_norm": 286.6324157714844,
1254
+ "learning_rate": 3.826978693175395e-06,
1255
+ "loss": 8.3008,
1256
+ "step": 1780
1257
+ },
1258
+ {
1259
+ "epoch": 0.08079805001354157,
1260
+ "grad_norm": 472.80950927734375,
1261
+ "learning_rate": 3.8129365749032398e-06,
1262
+ "loss": 9.0045,
1263
+ "step": 1790
1264
+ },
1265
+ {
1266
+ "epoch": 0.08124943576780717,
1267
+ "grad_norm": 89.96983337402344,
1268
+ "learning_rate": 3.798837024531974e-06,
1269
+ "loss": 8.2812,
1270
+ "step": 1800
1271
+ },
1272
+ {
1273
+ "epoch": 0.08170082152207277,
1274
+ "grad_norm": 88.99589538574219,
1275
+ "learning_rate": 3.7846806588216057e-06,
1276
+ "loss": 3.8469,
1277
+ "step": 1810
1278
+ },
1279
+ {
1280
+ "epoch": 0.08215220727633836,
1281
+ "grad_norm": 0.0,
1282
+ "learning_rate": 3.7704680970174323e-06,
1283
+ "loss": 10.6429,
1284
+ "step": 1820
1285
+ },
1286
+ {
1287
+ "epoch": 0.08260359303060395,
1288
+ "grad_norm": 243.0938262939453,
1289
+ "learning_rate": 3.7561999608229505e-06,
1290
+ "loss": 4.5705,
1291
+ "step": 1830
1292
+ },
1293
+ {
1294
+ "epoch": 0.08305497878486955,
1295
+ "grad_norm": 36.497467041015625,
1296
+ "learning_rate": 3.7418768743726584e-06,
1297
+ "loss": 4.9529,
1298
+ "step": 1840
1299
+ },
1300
+ {
1301
+ "epoch": 0.08350636453913514,
1302
+ "grad_norm": 0.0,
1303
+ "learning_rate": 3.727499464204758e-06,
1304
+ "loss": 7.4132,
1305
+ "step": 1850
1306
+ },
1307
+ {
1308
+ "epoch": 0.08395775029340075,
1309
+ "grad_norm": 149.59490966796875,
1310
+ "learning_rate": 3.713068359233747e-06,
1311
+ "loss": 7.8466,
1312
+ "step": 1860
1313
+ },
1314
+ {
1315
+ "epoch": 0.08440913604766634,
1316
+ "grad_norm": 144.62132263183594,
1317
+ "learning_rate": 3.698584190722906e-06,
1318
+ "loss": 5.1526,
1319
+ "step": 1870
1320
+ },
1321
+ {
1322
+ "epoch": 0.08486052180193193,
1323
+ "grad_norm": 443.4679260253906,
1324
+ "learning_rate": 3.6840475922566887e-06,
1325
+ "loss": 8.7172,
1326
+ "step": 1880
1327
+ },
1328
+ {
1329
+ "epoch": 0.08531190755619752,
1330
+ "grad_norm": 102.9674072265625,
1331
+ "learning_rate": 3.669459199713003e-06,
1332
+ "loss": 18.4939,
1333
+ "step": 1890
1334
+ },
1335
+ {
1336
+ "epoch": 0.08576329331046312,
1337
+ "grad_norm": 98.39186096191406,
1338
+ "learning_rate": 3.6548196512354006e-06,
1339
+ "loss": 4.0165,
1340
+ "step": 1900
1341
+ },
1342
+ {
1343
+ "epoch": 0.08621467906472871,
1344
+ "grad_norm": 62.55954360961914,
1345
+ "learning_rate": 3.640129587205156e-06,
1346
+ "loss": 4.82,
1347
+ "step": 1910
1348
+ },
1349
+ {
1350
+ "epoch": 0.08666606481899432,
1351
+ "grad_norm": 941.1783447265625,
1352
+ "learning_rate": 3.625389650213259e-06,
1353
+ "loss": 9.8752,
1354
+ "step": 1920
1355
+ },
1356
+ {
1357
+ "epoch": 0.08711745057325991,
1358
+ "grad_norm": 111.93022918701172,
1359
+ "learning_rate": 3.610600485032305e-06,
1360
+ "loss": 3.99,
1361
+ "step": 1930
1362
+ },
1363
+ {
1364
+ "epoch": 0.0875688363275255,
1365
+ "grad_norm": 148.49803161621094,
1366
+ "learning_rate": 3.5957627385882886e-06,
1367
+ "loss": 10.539,
1368
+ "step": 1940
1369
+ },
1370
+ {
1371
+ "epoch": 0.0880202220817911,
1372
+ "grad_norm": 52.460323333740234,
1373
+ "learning_rate": 3.580877059932308e-06,
1374
+ "loss": 7.3938,
1375
+ "step": 1950
1376
+ },
1377
+ {
1378
+ "epoch": 0.08847160783605669,
1379
+ "grad_norm": 160.66285705566406,
1380
+ "learning_rate": 3.56594410021217e-06,
1381
+ "loss": 9.6959,
1382
+ "step": 1960
1383
+ },
1384
+ {
1385
+ "epoch": 0.08892299359032228,
1386
+ "grad_norm": 67.17304992675781,
1387
+ "learning_rate": 3.5509645126439085e-06,
1388
+ "loss": 1.9665,
1389
+ "step": 1970
1390
+ },
1391
+ {
1392
+ "epoch": 0.08937437934458789,
1393
+ "grad_norm": 37.25723648071289,
1394
+ "learning_rate": 3.535938952483211e-06,
1395
+ "loss": 4.3769,
1396
+ "step": 1980
1397
+ },
1398
+ {
1399
+ "epoch": 0.08982576509885348,
1400
+ "grad_norm": 39.62812042236328,
1401
+ "learning_rate": 3.520868076996755e-06,
1402
+ "loss": 5.5312,
1403
+ "step": 1990
1404
+ },
1405
+ {
1406
+ "epoch": 0.09027715085311908,
1407
+ "grad_norm": 59.58990478515625,
1408
+ "learning_rate": 3.505752545433457e-06,
1409
+ "loss": 4.244,
1410
+ "step": 2000
1411
+ },
1412
+ {
1413
+ "epoch": 0.09072853660738467,
1414
+ "grad_norm": 85.38356018066406,
1415
+ "learning_rate": 3.4905930189956355e-06,
1416
+ "loss": 8.0975,
1417
+ "step": 2010
1418
+ },
1419
+ {
1420
+ "epoch": 0.09117992236165026,
1421
+ "grad_norm": 27.77620506286621,
1422
+ "learning_rate": 3.475390160810087e-06,
1423
+ "loss": 6.8219,
1424
+ "step": 2020
1425
+ },
1426
+ {
1427
+ "epoch": 0.09163130811591585,
1428
+ "grad_norm": 60.649085998535156,
1429
+ "learning_rate": 3.460144635899079e-06,
1430
+ "loss": 2.9634,
1431
+ "step": 2030
1432
+ },
1433
+ {
1434
+ "epoch": 0.09208269387018146,
1435
+ "grad_norm": 461.742919921875,
1436
+ "learning_rate": 3.4448571111512587e-06,
1437
+ "loss": 9.7018,
1438
+ "step": 2040
1439
+ },
1440
+ {
1441
+ "epoch": 0.09253407962444705,
1442
+ "grad_norm": 73.42872619628906,
1443
+ "learning_rate": 3.4295282552924848e-06,
1444
+ "loss": 4.0753,
1445
+ "step": 2050
1446
+ },
1447
+ {
1448
+ "epoch": 0.09298546537871265,
1449
+ "grad_norm": 236.148193359375,
1450
+ "learning_rate": 3.41415873885657e-06,
1451
+ "loss": 3.7564,
1452
+ "step": 2060
1453
+ },
1454
+ {
1455
+ "epoch": 0.09343685113297824,
1456
+ "grad_norm": 105.58004760742188,
1457
+ "learning_rate": 3.3987492341559534e-06,
1458
+ "loss": 6.1123,
1459
+ "step": 2070
1460
+ },
1461
+ {
1462
+ "epoch": 0.09388823688724383,
1463
+ "grad_norm": 88.0189208984375,
1464
+ "learning_rate": 3.3833004152522924e-06,
1465
+ "loss": 5.0358,
1466
+ "step": 2080
1467
+ },
1468
+ {
1469
+ "epoch": 0.09433962264150944,
1470
+ "grad_norm": 198.0548858642578,
1471
+ "learning_rate": 3.3678129579269713e-06,
1472
+ "loss": 5.6449,
1473
+ "step": 2090
1474
+ },
1475
+ {
1476
+ "epoch": 0.09479100839577503,
1477
+ "grad_norm": 171.5550537109375,
1478
+ "learning_rate": 3.3522875396515452e-06,
1479
+ "loss": 3.9419,
1480
+ "step": 2100
1481
+ },
1482
+ {
1483
+ "epoch": 0.09524239415004063,
1484
+ "grad_norm": 36.1810302734375,
1485
+ "learning_rate": 3.3367248395581076e-06,
1486
+ "loss": 5.0048,
1487
+ "step": 2110
1488
+ },
1489
+ {
1490
+ "epoch": 0.09569377990430622,
1491
+ "grad_norm": 60.11894226074219,
1492
+ "learning_rate": 3.3211255384095743e-06,
1493
+ "loss": 3.3971,
1494
+ "step": 2120
1495
+ },
1496
+ {
1497
+ "epoch": 0.09614516565857181,
1498
+ "grad_norm": 12.819441795349121,
1499
+ "learning_rate": 3.305490318569913e-06,
1500
+ "loss": 12.481,
1501
+ "step": 2130
1502
+ },
1503
+ {
1504
+ "epoch": 0.0965965514128374,
1505
+ "grad_norm": 81.1584243774414,
1506
+ "learning_rate": 3.2898198639742916e-06,
1507
+ "loss": 8.3456,
1508
+ "step": 2140
1509
+ },
1510
+ {
1511
+ "epoch": 0.09704793716710301,
1512
+ "grad_norm": 324.1405334472656,
1513
+ "learning_rate": 3.2741148600991577e-06,
1514
+ "loss": 7.1477,
1515
+ "step": 2150
1516
+ },
1517
+ {
1518
+ "epoch": 0.0974993229213686,
1519
+ "grad_norm": 95.66163635253906,
1520
+ "learning_rate": 3.258375993932259e-06,
1521
+ "loss": 6.124,
1522
+ "step": 2160
1523
+ },
1524
+ {
1525
+ "epoch": 0.0979507086756342,
1526
+ "grad_norm": 89.80288696289062,
1527
+ "learning_rate": 3.2426039539425875e-06,
1528
+ "loss": 4.4485,
1529
+ "step": 2170
1530
+ },
1531
+ {
1532
+ "epoch": 0.09840209442989979,
1533
+ "grad_norm": 39.42192459106445,
1534
+ "learning_rate": 3.226799430050268e-06,
1535
+ "loss": 6.2746,
1536
+ "step": 2180
1537
+ },
1538
+ {
1539
+ "epoch": 0.09885348018416538,
1540
+ "grad_norm": 37.73063278198242,
1541
+ "learning_rate": 3.210963113596374e-06,
1542
+ "loss": 7.6427,
1543
+ "step": 2190
1544
+ },
1545
+ {
1546
+ "epoch": 0.09930486593843098,
1547
+ "grad_norm": 399.967529296875,
1548
+ "learning_rate": 3.1950956973126908e-06,
1549
+ "loss": 7.2859,
1550
+ "step": 2200
1551
+ },
1552
+ {
1553
+ "epoch": 0.09975625169269658,
1554
+ "grad_norm": 138.82713317871094,
1555
+ "learning_rate": 3.1791978752914086e-06,
1556
+ "loss": 3.3807,
1557
+ "step": 2210
1558
+ },
1559
+ {
1560
+ "epoch": 0.10020763744696218,
1561
+ "grad_norm": 0.0,
1562
+ "learning_rate": 3.1632703429547663e-06,
1563
+ "loss": 2.0487,
1564
+ "step": 2220
1565
+ },
1566
+ {
1567
+ "epoch": 0.10065902320122777,
1568
+ "grad_norm": 38.90811538696289,
1569
+ "learning_rate": 3.147313797024625e-06,
1570
+ "loss": 8.6122,
1571
+ "step": 2230
1572
+ },
1573
+ {
1574
+ "epoch": 0.10111040895549336,
1575
+ "grad_norm": 23.30443000793457,
1576
+ "learning_rate": 3.1313289354919945e-06,
1577
+ "loss": 2.4139,
1578
+ "step": 2240
1579
+ },
1580
+ {
1581
+ "epoch": 0.10156179470975896,
1582
+ "grad_norm": 54.70543670654297,
1583
+ "learning_rate": 3.1153164575865046e-06,
1584
+ "loss": 3.9375,
1585
+ "step": 2250
1586
+ },
1587
+ {
1588
+ "epoch": 0.10201318046402455,
1589
+ "grad_norm": 0.0,
1590
+ "learning_rate": 3.099277063745811e-06,
1591
+ "loss": 5.7334,
1592
+ "step": 2260
1593
+ },
1594
+ {
1595
+ "epoch": 0.10246456621829016,
1596
+ "grad_norm": 283.3301696777344,
1597
+ "learning_rate": 3.083211455584961e-06,
1598
+ "loss": 9.1381,
1599
+ "step": 2270
1600
+ },
1601
+ {
1602
+ "epoch": 0.10291595197255575,
1603
+ "grad_norm": 0.0,
1604
+ "learning_rate": 3.0671203358657e-06,
1605
+ "loss": 3.3406,
1606
+ "step": 2280
1607
+ },
1608
+ {
1609
+ "epoch": 0.10336733772682134,
1610
+ "grad_norm": 138.71786499023438,
1611
+ "learning_rate": 3.051004408465733e-06,
1612
+ "loss": 7.0903,
1613
+ "step": 2290
1614
+ },
1615
+ {
1616
+ "epoch": 0.10381872348108694,
1617
+ "grad_norm": 49.72150802612305,
1618
+ "learning_rate": 3.0348643783479333e-06,
1619
+ "loss": 4.8046,
1620
+ "step": 2300
1621
+ },
1622
+ {
1623
+ "epoch": 0.10427010923535253,
1624
+ "grad_norm": 197.39727783203125,
1625
+ "learning_rate": 3.018700951529504e-06,
1626
+ "loss": 9.5306,
1627
+ "step": 2310
1628
+ },
1629
+ {
1630
+ "epoch": 0.10472149498961812,
1631
+ "grad_norm": 76.66228485107422,
1632
+ "learning_rate": 3.0025148350510974e-06,
1633
+ "loss": 2.9666,
1634
+ "step": 2320
1635
+ },
1636
+ {
1637
+ "epoch": 0.10517288074388373,
1638
+ "grad_norm": 45.67572021484375,
1639
+ "learning_rate": 2.986306736945883e-06,
1640
+ "loss": 9.7604,
1641
+ "step": 2330
1642
+ },
1643
+ {
1644
+ "epoch": 0.10562426649814932,
1645
+ "grad_norm": 371.74053955078125,
1646
+ "learning_rate": 2.9700773662085793e-06,
1647
+ "loss": 5.8488,
1648
+ "step": 2340
1649
+ },
1650
+ {
1651
+ "epoch": 0.10607565225241491,
1652
+ "grad_norm": 269.8133239746094,
1653
+ "learning_rate": 2.953827432764438e-06,
1654
+ "loss": 8.476,
1655
+ "step": 2350
1656
+ },
1657
+ {
1658
+ "epoch": 0.10652703800668051,
1659
+ "grad_norm": 60.78889465332031,
1660
+ "learning_rate": 2.9375576474381907e-06,
1661
+ "loss": 7.4346,
1662
+ "step": 2360
1663
+ },
1664
+ {
1665
+ "epoch": 0.1069784237609461,
1666
+ "grad_norm": 82.43087768554688,
1667
+ "learning_rate": 2.921268721922954e-06,
1668
+ "loss": 2.1102,
1669
+ "step": 2370
1670
+ },
1671
+ {
1672
+ "epoch": 0.1074298095152117,
1673
+ "grad_norm": 113.22830963134766,
1674
+ "learning_rate": 2.904961368749099e-06,
1675
+ "loss": 12.7358,
1676
+ "step": 2380
1677
+ },
1678
+ {
1679
+ "epoch": 0.1078811952694773,
1680
+ "grad_norm": 85.68476867675781,
1681
+ "learning_rate": 2.888636301253083e-06,
1682
+ "loss": 5.981,
1683
+ "step": 2390
1684
+ },
1685
+ {
1686
+ "epoch": 0.1083325810237429,
1687
+ "grad_norm": 23.613283157348633,
1688
+ "learning_rate": 2.8722942335462415e-06,
1689
+ "loss": 12.8643,
1690
+ "step": 2400
1691
+ },
1692
+ {
1693
+ "epoch": 0.10878396677800849,
1694
+ "grad_norm": 134.97442626953125,
1695
+ "learning_rate": 2.8559358804835594e-06,
1696
+ "loss": 6.3498,
1697
+ "step": 2410
1698
+ },
1699
+ {
1700
+ "epoch": 0.10923535253227408,
1701
+ "grad_norm": 154.70309448242188,
1702
+ "learning_rate": 2.839561957632393e-06,
1703
+ "loss": 5.5359,
1704
+ "step": 2420
1705
+ },
1706
+ {
1707
+ "epoch": 0.10968673828653967,
1708
+ "grad_norm": 79.71590423583984,
1709
+ "learning_rate": 2.823173181241171e-06,
1710
+ "loss": 3.2341,
1711
+ "step": 2430
1712
+ },
1713
+ {
1714
+ "epoch": 0.11013812404080527,
1715
+ "grad_norm": 9.765729904174805,
1716
+ "learning_rate": 2.806770268208066e-06,
1717
+ "loss": 4.5331,
1718
+ "step": 2440
1719
+ },
1720
+ {
1721
+ "epoch": 0.11058950979507087,
1722
+ "grad_norm": 23.30421257019043,
1723
+ "learning_rate": 2.7903539360496325e-06,
1724
+ "loss": 3.1841,
1725
+ "step": 2450
1726
+ },
1727
+ {
1728
+ "epoch": 0.11104089554933647,
1729
+ "grad_norm": 226.00921630859375,
1730
+ "learning_rate": 2.773924902869418e-06,
1731
+ "loss": 3.4418,
1732
+ "step": 2460
1733
+ },
1734
+ {
1735
+ "epoch": 0.11149228130360206,
1736
+ "grad_norm": 99.20367431640625,
1737
+ "learning_rate": 2.757483887326559e-06,
1738
+ "loss": 7.7301,
1739
+ "step": 2470
1740
+ },
1741
+ {
1742
+ "epoch": 0.11194366705786765,
1743
+ "grad_norm": 0.0,
1744
+ "learning_rate": 2.7410316086043372e-06,
1745
+ "loss": 3.7089,
1746
+ "step": 2480
1747
+ },
1748
+ {
1749
+ "epoch": 0.11239505281213324,
1750
+ "grad_norm": 80.49800109863281,
1751
+ "learning_rate": 2.7245687863787196e-06,
1752
+ "loss": 5.8859,
1753
+ "step": 2490
1754
+ },
1755
+ {
1756
+ "epoch": 0.11284643856639884,
1757
+ "grad_norm": 82.96465301513672,
1758
+ "learning_rate": 2.708096140786885e-06,
1759
+ "loss": 3.2078,
1760
+ "step": 2500
1761
+ },
1762
+ {
1763
+ "epoch": 0.11329782432066444,
1764
+ "grad_norm": 31.292253494262695,
1765
+ "learning_rate": 2.6916143923957138e-06,
1766
+ "loss": 3.595,
1767
+ "step": 2510
1768
+ },
1769
+ {
1770
+ "epoch": 0.11374921007493004,
1771
+ "grad_norm": 378.73028564453125,
1772
+ "learning_rate": 2.675124262170275e-06,
1773
+ "loss": 5.1041,
1774
+ "step": 2520
1775
+ },
1776
+ {
1777
+ "epoch": 0.11420059582919563,
1778
+ "grad_norm": 46.04631423950195,
1779
+ "learning_rate": 2.658626471442284e-06,
1780
+ "loss": 6.927,
1781
+ "step": 2530
1782
+ },
1783
+ {
1784
+ "epoch": 0.11465198158346122,
1785
+ "grad_norm": 205.86325073242188,
1786
+ "learning_rate": 2.6421217418785545e-06,
1787
+ "loss": 6.002,
1788
+ "step": 2540
1789
+ },
1790
+ {
1791
+ "epoch": 0.11510336733772682,
1792
+ "grad_norm": 65.37152862548828,
1793
+ "learning_rate": 2.625610795449424e-06,
1794
+ "loss": 17.2548,
1795
+ "step": 2550
1796
+ },
1797
+ {
1798
+ "epoch": 0.11555475309199241,
1799
+ "grad_norm": 64.917236328125,
1800
+ "learning_rate": 2.6090943543971786e-06,
1801
+ "loss": 3.8315,
1802
+ "step": 2560
1803
+ },
1804
+ {
1805
+ "epoch": 0.11600613884625802,
1806
+ "grad_norm": 81.12959289550781,
1807
+ "learning_rate": 2.5925731412044554e-06,
1808
+ "loss": 7.7636,
1809
+ "step": 2570
1810
+ },
1811
+ {
1812
+ "epoch": 0.11645752460052361,
1813
+ "grad_norm": 0.0,
1814
+ "learning_rate": 2.5760478785626397e-06,
1815
+ "loss": 1.0456,
1816
+ "step": 2580
1817
+ },
1818
+ {
1819
+ "epoch": 0.1169089103547892,
1820
+ "grad_norm": 127.564697265625,
1821
+ "learning_rate": 2.5595192893402555e-06,
1822
+ "loss": 6.1668,
1823
+ "step": 2590
1824
+ },
1825
+ {
1826
+ "epoch": 0.1173602961090548,
1827
+ "grad_norm": 97.06810760498047,
1828
+ "learning_rate": 2.542988096551339e-06,
1829
+ "loss": 6.5632,
1830
+ "step": 2600
1831
+ },
1832
+ {
1833
+ "epoch": 0.11781168186332039,
1834
+ "grad_norm": 40.36281204223633,
1835
+ "learning_rate": 2.526455023323817e-06,
1836
+ "loss": 6.3797,
1837
+ "step": 2610
1838
+ },
1839
+ {
1840
+ "epoch": 0.118263067617586,
1841
+ "grad_norm": 22.73623275756836,
1842
+ "learning_rate": 2.5099207928678733e-06,
1843
+ "loss": 20.5116,
1844
+ "step": 2620
1845
+ },
1846
+ {
1847
+ "epoch": 0.11871445337185159,
1848
+ "grad_norm": 44.09693145751953,
1849
+ "learning_rate": 2.4933861284443113e-06,
1850
+ "loss": 8.5295,
1851
+ "step": 2630
1852
+ },
1853
+ {
1854
+ "epoch": 0.11916583912611718,
1855
+ "grad_norm": 82.6047592163086,
1856
+ "learning_rate": 2.476851753332916e-06,
1857
+ "loss": 31.5564,
1858
+ "step": 2640
1859
+ },
1860
+ {
1861
+ "epoch": 0.11961722488038277,
1862
+ "grad_norm": 20.018386840820312,
1863
+ "learning_rate": 2.4603183908008192e-06,
1864
+ "loss": 13.6117,
1865
+ "step": 2650
1866
+ },
1867
+ {
1868
+ "epoch": 0.12006861063464837,
1869
+ "grad_norm": 96.54879760742188,
1870
+ "learning_rate": 2.4437867640708603e-06,
1871
+ "loss": 7.8394,
1872
+ "step": 2660
1873
+ },
1874
+ {
1875
+ "epoch": 0.12051999638891396,
1876
+ "grad_norm": 54.465328216552734,
1877
+ "learning_rate": 2.427257596289946e-06,
1878
+ "loss": 12.5088,
1879
+ "step": 2670
1880
+ },
1881
+ {
1882
+ "epoch": 0.12097138214317957,
1883
+ "grad_norm": 225.87857055664062,
1884
+ "learning_rate": 2.410731610497424e-06,
1885
+ "loss": 6.6688,
1886
+ "step": 2680
1887
+ },
1888
+ {
1889
+ "epoch": 0.12142276789744516,
1890
+ "grad_norm": 201.08021545410156,
1891
+ "learning_rate": 2.3942095295934474e-06,
1892
+ "loss": 7.4932,
1893
+ "step": 2690
1894
+ },
1895
+ {
1896
+ "epoch": 0.12187415365171075,
1897
+ "grad_norm": 48.34132766723633,
1898
+ "learning_rate": 2.37769207630736e-06,
1899
+ "loss": 4.3297,
1900
+ "step": 2700
1901
+ },
1902
+ {
1903
+ "epoch": 0.12232553940597635,
1904
+ "grad_norm": 107.49049377441406,
1905
+ "learning_rate": 2.361179973166078e-06,
1906
+ "loss": 7.5794,
1907
+ "step": 2710
1908
+ },
1909
+ {
1910
+ "epoch": 0.12277692516024194,
1911
+ "grad_norm": 80.9962158203125,
1912
+ "learning_rate": 2.344673942462483e-06,
1913
+ "loss": 5.7439,
1914
+ "step": 2720
1915
+ },
1916
+ {
1917
+ "epoch": 0.12322831091450753,
1918
+ "grad_norm": 131.9025421142578,
1919
+ "learning_rate": 2.328174706223832e-06,
1920
+ "loss": 3.4023,
1921
+ "step": 2730
1922
+ },
1923
+ {
1924
+ "epoch": 0.12367969666877314,
1925
+ "grad_norm": 0.0,
1926
+ "learning_rate": 2.3116829861801687e-06,
1927
+ "loss": 10.0426,
1928
+ "step": 2740
1929
+ },
1930
+ {
1931
+ "epoch": 0.12413108242303873,
1932
+ "grad_norm": 107.2336654663086,
1933
+ "learning_rate": 2.2951995037327513e-06,
1934
+ "loss": 6.6139,
1935
+ "step": 2750
1936
+ },
1937
+ {
1938
+ "epoch": 0.12458246817730433,
1939
+ "grad_norm": 120.808349609375,
1940
+ "learning_rate": 2.2787249799225027e-06,
1941
+ "loss": 3.68,
1942
+ "step": 2760
1943
+ },
1944
+ {
1945
+ "epoch": 0.12503385393156993,
1946
+ "grad_norm": 125.53633880615234,
1947
+ "learning_rate": 2.2622601353984636e-06,
1948
+ "loss": 10.9911,
1949
+ "step": 2770
1950
+ },
1951
+ {
1952
+ "epoch": 0.12548523968583553,
1953
+ "grad_norm": 54.558387756347656,
1954
+ "learning_rate": 2.2458056903862727e-06,
1955
+ "loss": 4.0184,
1956
+ "step": 2780
1957
+ },
1958
+ {
1959
+ "epoch": 0.12593662544010112,
1960
+ "grad_norm": 98.06806945800781,
1961
+ "learning_rate": 2.2293623646566594e-06,
1962
+ "loss": 4.2359,
1963
+ "step": 2790
1964
+ },
1965
+ {
1966
+ "epoch": 0.1263880111943667,
1967
+ "grad_norm": 27.46769905090332,
1968
+ "learning_rate": 2.2129308774939605e-06,
1969
+ "loss": 6.6078,
1970
+ "step": 2800
1971
+ },
1972
+ {
1973
+ "epoch": 0.1268393969486323,
1974
+ "grad_norm": 39.83963394165039,
1975
+ "learning_rate": 2.1965119476646548e-06,
1976
+ "loss": 5.0896,
1977
+ "step": 2810
1978
+ },
1979
+ {
1980
+ "epoch": 0.1272907827028979,
1981
+ "grad_norm": 43.883235931396484,
1982
+ "learning_rate": 2.1801062933859234e-06,
1983
+ "loss": 3.8383,
1984
+ "step": 2820
1985
+ },
1986
+ {
1987
+ "epoch": 0.1277421684571635,
1988
+ "grad_norm": 69.38707733154297,
1989
+ "learning_rate": 2.1637146322942316e-06,
1990
+ "loss": 6.1392,
1991
+ "step": 2830
1992
+ },
1993
+ {
1994
+ "epoch": 0.12819355421142908,
1995
+ "grad_norm": 126.89340209960938,
1996
+ "learning_rate": 2.147337681413936e-06,
1997
+ "loss": 11.4713,
1998
+ "step": 2840
1999
+ },
2000
+ {
2001
+ "epoch": 0.12864493996569468,
2002
+ "grad_norm": 0.0,
2003
+ "learning_rate": 2.130976157125924e-06,
2004
+ "loss": 4.8606,
2005
+ "step": 2850
2006
+ },
2007
+ {
2008
+ "epoch": 0.12909632571996027,
2009
+ "grad_norm": 56.0635871887207,
2010
+ "learning_rate": 2.1146307751362694e-06,
2011
+ "loss": 9.5807,
2012
+ "step": 2860
2013
+ },
2014
+ {
2015
+ "epoch": 0.12954771147422586,
2016
+ "grad_norm": 485.9917907714844,
2017
+ "learning_rate": 2.098302250444934e-06,
2018
+ "loss": 5.7784,
2019
+ "step": 2870
2020
+ },
2021
+ {
2022
+ "epoch": 0.12999909722849146,
2023
+ "grad_norm": 133.5840606689453,
2024
+ "learning_rate": 2.0819912973144845e-06,
2025
+ "loss": 7.0816,
2026
+ "step": 2880
2027
+ },
2028
+ {
2029
+ "epoch": 0.13045048298275708,
2030
+ "grad_norm": 112.8104476928711,
2031
+ "learning_rate": 2.065698629238851e-06,
2032
+ "loss": 2.7221,
2033
+ "step": 2890
2034
+ },
2035
+ {
2036
+ "epoch": 0.13090186873702267,
2037
+ "grad_norm": 35.63706588745117,
2038
+ "learning_rate": 2.049424958912116e-06,
2039
+ "loss": 3.9513,
2040
+ "step": 2900
2041
+ },
2042
+ {
2043
+ "epoch": 0.13135325449128826,
2044
+ "grad_norm": 220.66893005371094,
2045
+ "learning_rate": 2.0331709981973387e-06,
2046
+ "loss": 9.5673,
2047
+ "step": 2910
2048
+ },
2049
+ {
2050
+ "epoch": 0.13180464024555386,
2051
+ "grad_norm": 91.87313079833984,
2052
+ "learning_rate": 2.0169374580954164e-06,
2053
+ "loss": 4.2899,
2054
+ "step": 2920
2055
+ },
2056
+ {
2057
+ "epoch": 0.13225602599981945,
2058
+ "grad_norm": 173.05484008789062,
2059
+ "learning_rate": 2.0007250487139827e-06,
2060
+ "loss": 16.8183,
2061
+ "step": 2930
2062
+ },
2063
+ {
2064
+ "epoch": 0.13270741175408504,
2065
+ "grad_norm": 61.3288459777832,
2066
+ "learning_rate": 1.9845344792363447e-06,
2067
+ "loss": 4.0516,
2068
+ "step": 2940
2069
+ },
2070
+ {
2071
+ "epoch": 0.13315879750835063,
2072
+ "grad_norm": 54.24481201171875,
2073
+ "learning_rate": 1.9683664578904614e-06,
2074
+ "loss": 5.5385,
2075
+ "step": 2950
2076
+ },
2077
+ {
2078
+ "epoch": 0.13361018326261623,
2079
+ "grad_norm": 180.78916931152344,
2080
+ "learning_rate": 1.9522216919179645e-06,
2081
+ "loss": 2.5827,
2082
+ "step": 2960
2083
+ },
2084
+ {
2085
+ "epoch": 0.13406156901688182,
2086
+ "grad_norm": 41.723121643066406,
2087
+ "learning_rate": 1.9361008875432187e-06,
2088
+ "loss": 3.8309,
2089
+ "step": 2970
2090
+ },
2091
+ {
2092
+ "epoch": 0.1345129547711474,
2093
+ "grad_norm": 0.0,
2094
+ "learning_rate": 1.920004749942431e-06,
2095
+ "loss": 2.3193,
2096
+ "step": 2980
2097
+ },
2098
+ {
2099
+ "epoch": 0.134964340525413,
2100
+ "grad_norm": 43.0107536315918,
2101
+ "learning_rate": 1.9039339832128056e-06,
2102
+ "loss": 6.5357,
2103
+ "step": 2990
2104
+ },
2105
+ {
2106
+ "epoch": 0.1354157262796786,
2107
+ "grad_norm": 17.21394157409668,
2108
+ "learning_rate": 1.8878892903417404e-06,
2109
+ "loss": 3.4778,
2110
+ "step": 3000
2111
+ },
2112
+ {
2113
+ "epoch": 0.13586711203394422,
2114
+ "grad_norm": 177.2813262939453,
2115
+ "learning_rate": 1.8718713731760779e-06,
2116
+ "loss": 8.3854,
2117
+ "step": 3010
2118
+ },
2119
+ {
2120
+ "epoch": 0.1363184977882098,
2121
+ "grad_norm": 68.85161590576172,
2122
+ "learning_rate": 1.8558809323914084e-06,
2123
+ "loss": 4.3321,
2124
+ "step": 3020
2125
+ },
2126
+ {
2127
+ "epoch": 0.1367698835424754,
2128
+ "grad_norm": 184.06675720214844,
2129
+ "learning_rate": 1.8399186674614127e-06,
2130
+ "loss": 3.4896,
2131
+ "step": 3030
2132
+ },
2133
+ {
2134
+ "epoch": 0.137221269296741,
2135
+ "grad_norm": 97.52899932861328,
2136
+ "learning_rate": 1.823985276627269e-06,
2137
+ "loss": 16.9319,
2138
+ "step": 3040
2139
+ },
2140
+ {
2141
+ "epoch": 0.1376726550510066,
2142
+ "grad_norm": 0.0,
2143
+ "learning_rate": 1.8080814568671101e-06,
2144
+ "loss": 8.1436,
2145
+ "step": 3050
2146
+ },
2147
+ {
2148
+ "epoch": 0.13812404080527219,
2149
+ "grad_norm": 0.0,
2150
+ "learning_rate": 1.7922079038655327e-06,
2151
+ "loss": 2.8767,
2152
+ "step": 3060
2153
+ },
2154
+ {
2155
+ "epoch": 0.13857542655953778,
2156
+ "grad_norm": 207.49215698242188,
2157
+ "learning_rate": 1.7763653119831686e-06,
2158
+ "loss": 3.9105,
2159
+ "step": 3070
2160
+ },
2161
+ {
2162
+ "epoch": 0.13902681231380337,
2163
+ "grad_norm": 200.30039978027344,
2164
+ "learning_rate": 1.7605543742263088e-06,
2165
+ "loss": 8.836,
2166
+ "step": 3080
2167
+ },
2168
+ {
2169
+ "epoch": 0.13947819806806896,
2170
+ "grad_norm": 49.479129791259766,
2171
+ "learning_rate": 1.744775782216593e-06,
2172
+ "loss": 5.3833,
2173
+ "step": 3090
2174
+ },
2175
+ {
2176
+ "epoch": 0.13992958382233456,
2177
+ "grad_norm": 149.09498596191406,
2178
+ "learning_rate": 1.7290302261607504e-06,
2179
+ "loss": 6.0856,
2180
+ "step": 3100
2181
+ },
2182
+ {
2183
+ "epoch": 0.14038096957660015,
2184
+ "grad_norm": 67.90151977539062,
2185
+ "learning_rate": 1.7133183948204107e-06,
2186
+ "loss": 6.5738,
2187
+ "step": 3110
2188
+ },
2189
+ {
2190
+ "epoch": 0.14083235533086577,
2191
+ "grad_norm": 11.257970809936523,
2192
+ "learning_rate": 1.6976409754819767e-06,
2193
+ "loss": 8.5483,
2194
+ "step": 3120
2195
+ },
2196
+ {
2197
+ "epoch": 0.14128374108513136,
2198
+ "grad_norm": 137.80484008789062,
2199
+ "learning_rate": 1.6819986539265582e-06,
2200
+ "loss": 44.6335,
2201
+ "step": 3130
2202
+ },
2203
+ {
2204
+ "epoch": 0.14173512683939696,
2205
+ "grad_norm": 74.40413665771484,
2206
+ "learning_rate": 1.6663921143999734e-06,
2207
+ "loss": 3.19,
2208
+ "step": 3140
2209
+ },
2210
+ {
2211
+ "epoch": 0.14218651259366255,
2212
+ "grad_norm": 44.351158142089844,
2213
+ "learning_rate": 1.650822039582819e-06,
2214
+ "loss": 9.1497,
2215
+ "step": 3150
2216
+ },
2217
+ {
2218
+ "epoch": 0.14263789834792814,
2219
+ "grad_norm": 71.4690170288086,
2220
+ "learning_rate": 1.63528911056061e-06,
2221
+ "loss": 3.8792,
2222
+ "step": 3160
2223
+ },
2224
+ {
2225
+ "epoch": 0.14308928410219374,
2226
+ "grad_norm": 46.07571029663086,
2227
+ "learning_rate": 1.619794006793979e-06,
2228
+ "loss": 3.0925,
2229
+ "step": 3170
2230
+ },
2231
+ {
2232
+ "epoch": 0.14354066985645933,
2233
+ "grad_norm": 56.47237777709961,
2234
+ "learning_rate": 1.604337406088963e-06,
2235
+ "loss": 4.66,
2236
+ "step": 3180
2237
+ },
2238
+ {
2239
+ "epoch": 0.14399205561072492,
2240
+ "grad_norm": 20.432268142700195,
2241
+ "learning_rate": 1.5889199845673492e-06,
2242
+ "loss": 7.9393,
2243
+ "step": 3190
2244
+ },
2245
+ {
2246
+ "epoch": 0.14444344136499052,
2247
+ "grad_norm": 0.0,
2248
+ "learning_rate": 1.5735424166371002e-06,
2249
+ "loss": 7.1866,
2250
+ "step": 3200
2251
+ },
2252
+ {
2253
+ "epoch": 0.1448948271192561,
2254
+ "grad_norm": 0.0,
2255
+ "learning_rate": 1.5582053749628539e-06,
2256
+ "loss": 5.6462,
2257
+ "step": 3210
2258
+ },
2259
+ {
2260
+ "epoch": 0.1453462128735217,
2261
+ "grad_norm": 191.315673828125,
2262
+ "learning_rate": 1.5429095304364978e-06,
2263
+ "loss": 4.2256,
2264
+ "step": 3220
2265
+ },
2266
+ {
2267
+ "epoch": 0.1457975986277873,
2268
+ "grad_norm": 0.0,
2269
+ "learning_rate": 1.5276555521478239e-06,
2270
+ "loss": 5.0362,
2271
+ "step": 3230
2272
+ },
2273
+ {
2274
+ "epoch": 0.14624898438205292,
2275
+ "grad_norm": 91.7531967163086,
2276
+ "learning_rate": 1.5124441073552585e-06,
2277
+ "loss": 4.7812,
2278
+ "step": 3240
2279
+ },
2280
+ {
2281
+ "epoch": 0.1467003701363185,
2282
+ "grad_norm": 87.05529022216797,
2283
+ "learning_rate": 1.4972758614566747e-06,
2284
+ "loss": 5.8062,
2285
+ "step": 3250
2286
+ },
2287
+ {
2288
+ "epoch": 0.1471517558905841,
2289
+ "grad_norm": 64.82646942138672,
2290
+ "learning_rate": 1.4821514779602864e-06,
2291
+ "loss": 6.4,
2292
+ "step": 3260
2293
+ },
2294
+ {
2295
+ "epoch": 0.1476031416448497,
2296
+ "grad_norm": 72.8370132446289,
2297
+ "learning_rate": 1.4670716184556242e-06,
2298
+ "loss": 6.5804,
2299
+ "step": 3270
2300
+ },
2301
+ {
2302
+ "epoch": 0.1480545273991153,
2303
+ "grad_norm": 147.5072784423828,
2304
+ "learning_rate": 1.452036942584595e-06,
2305
+ "loss": 9.1076,
2306
+ "step": 3280
2307
+ },
2308
+ {
2309
+ "epoch": 0.14850591315338088,
2310
+ "grad_norm": 208.22467041015625,
2311
+ "learning_rate": 1.4370481080126248e-06,
2312
+ "loss": 3.4132,
2313
+ "step": 3290
2314
+ },
2315
+ {
2316
+ "epoch": 0.14895729890764647,
2317
+ "grad_norm": 107.88484191894531,
2318
+ "learning_rate": 1.4221057703998985e-06,
2319
+ "loss": 2.5325,
2320
+ "step": 3300
2321
+ },
2322
+ {
2323
+ "epoch": 0.14940868466191207,
2324
+ "grad_norm": 138.45703125,
2325
+ "learning_rate": 1.4072105833726685e-06,
2326
+ "loss": 5.6502,
2327
+ "step": 3310
2328
+ },
2329
+ {
2330
+ "epoch": 0.14986007041617766,
2331
+ "grad_norm": 33.46127700805664,
2332
+ "learning_rate": 1.3923631984946674e-06,
2333
+ "loss": 3.8928,
2334
+ "step": 3320
2335
+ },
2336
+ {
2337
+ "epoch": 0.15031145617044325,
2338
+ "grad_norm": 91.38884735107422,
2339
+ "learning_rate": 1.3775642652386103e-06,
2340
+ "loss": 10.7249,
2341
+ "step": 3330
2342
+ },
2343
+ {
2344
+ "epoch": 0.15076284192470885,
2345
+ "grad_norm": 0.0,
2346
+ "learning_rate": 1.3628144309577784e-06,
2347
+ "loss": 5.5299,
2348
+ "step": 3340
2349
+ },
2350
+ {
2351
+ "epoch": 0.15121422767897444,
2352
+ "grad_norm": 108.69474029541016,
2353
+ "learning_rate": 1.3481143408577079e-06,
2354
+ "loss": 2.1163,
2355
+ "step": 3350
2356
+ },
2357
+ {
2358
+ "epoch": 0.15166561343324006,
2359
+ "grad_norm": 79.57711791992188,
2360
+ "learning_rate": 1.3334646379679583e-06,
2361
+ "loss": 6.461,
2362
+ "step": 3360
2363
+ },
2364
+ {
2365
+ "epoch": 0.15211699918750565,
2366
+ "grad_norm": 747.5900268554688,
2367
+ "learning_rate": 1.3188659631139965e-06,
2368
+ "loss": 8.2739,
2369
+ "step": 3370
2370
+ },
2371
+ {
2372
+ "epoch": 0.15256838494177125,
2373
+ "grad_norm": 57.760292053222656,
2374
+ "learning_rate": 1.3043189548891515e-06,
2375
+ "loss": 18.0508,
2376
+ "step": 3380
2377
+ },
2378
+ {
2379
+ "epoch": 0.15301977069603684,
2380
+ "grad_norm": 0.0,
2381
+ "learning_rate": 1.2898242496266887e-06,
2382
+ "loss": 11.1935,
2383
+ "step": 3390
2384
+ },
2385
+ {
2386
+ "epoch": 0.15347115645030243,
2387
+ "grad_norm": 154.9474639892578,
2388
+ "learning_rate": 1.2753824813719734e-06,
2389
+ "loss": 10.4979,
2390
+ "step": 3400
2391
+ },
2392
+ {
2393
+ "epoch": 0.15392254220456802,
2394
+ "grad_norm": 17.311920166015625,
2395
+ "learning_rate": 1.2609942818547327e-06,
2396
+ "loss": 9.7993,
2397
+ "step": 3410
2398
+ },
2399
+ {
2400
+ "epoch": 0.15437392795883362,
2401
+ "grad_norm": 189.83677673339844,
2402
+ "learning_rate": 1.2466602804614267e-06,
2403
+ "loss": 11.3731,
2404
+ "step": 3420
2405
+ },
2406
+ {
2407
+ "epoch": 0.1548253137130992,
2408
+ "grad_norm": 76.38516998291016,
2409
+ "learning_rate": 1.2323811042077097e-06,
2410
+ "loss": 3.4774,
2411
+ "step": 3430
2412
+ },
2413
+ {
2414
+ "epoch": 0.1552766994673648,
2415
+ "grad_norm": 35.23618698120117,
2416
+ "learning_rate": 1.2181573777110106e-06,
2417
+ "loss": 10.3752,
2418
+ "step": 3440
2419
+ },
2420
+ {
2421
+ "epoch": 0.1557280852216304,
2422
+ "grad_norm": 40.16745376586914,
2423
+ "learning_rate": 1.2039897231632056e-06,
2424
+ "loss": 7.2511,
2425
+ "step": 3450
2426
+ },
2427
+ {
2428
+ "epoch": 0.156179470975896,
2429
+ "grad_norm": 85.61070251464844,
2430
+ "learning_rate": 1.1898787603033996e-06,
2431
+ "loss": 2.2373,
2432
+ "step": 3460
2433
+ },
2434
+ {
2435
+ "epoch": 0.15663085673016158,
2436
+ "grad_norm": 35.23897933959961,
2437
+ "learning_rate": 1.1758251063908227e-06,
2438
+ "loss": 18.0263,
2439
+ "step": 3470
2440
+ },
2441
+ {
2442
+ "epoch": 0.1570822424844272,
2443
+ "grad_norm": 0.0,
2444
+ "learning_rate": 1.1618293761778234e-06,
2445
+ "loss": 6.1749,
2446
+ "step": 3480
2447
+ },
2448
+ {
2449
+ "epoch": 0.1575336282386928,
2450
+ "grad_norm": 69.47026824951172,
2451
+ "learning_rate": 1.1478921818829827e-06,
2452
+ "loss": 1.9571,
2453
+ "step": 3490
2454
+ },
2455
+ {
2456
+ "epoch": 0.1579850139929584,
2457
+ "grad_norm": 70.35157775878906,
2458
+ "learning_rate": 1.1340141331643276e-06,
2459
+ "loss": 4.525,
2460
+ "step": 3500
2461
+ },
2462
+ {
2463
+ "epoch": 0.15843639974722398,
2464
+ "grad_norm": 66.04342651367188,
2465
+ "learning_rate": 1.1201958370926683e-06,
2466
+ "loss": 9.9103,
2467
+ "step": 3510
2468
+ },
2469
+ {
2470
+ "epoch": 0.15888778550148958,
2471
+ "grad_norm": 71.78153991699219,
2472
+ "learning_rate": 1.1064378981250409e-06,
2473
+ "loss": 7.2126,
2474
+ "step": 3520
2475
+ },
2476
+ {
2477
+ "epoch": 0.15933917125575517,
2478
+ "grad_norm": 149.6798858642578,
2479
+ "learning_rate": 1.0927409180782639e-06,
2480
+ "loss": 4.3251,
2481
+ "step": 3530
2482
+ },
2483
+ {
2484
+ "epoch": 0.15979055701002076,
2485
+ "grad_norm": 49.053802490234375,
2486
+ "learning_rate": 1.0791054961026183e-06,
2487
+ "loss": 9.391,
2488
+ "step": 3540
2489
+ },
2490
+ {
2491
+ "epoch": 0.16024194276428635,
2492
+ "grad_norm": 165.3932342529297,
2493
+ "learning_rate": 1.065532228655632e-06,
2494
+ "loss": 3.8833,
2495
+ "step": 3550
2496
+ },
2497
+ {
2498
+ "epoch": 0.16069332851855195,
2499
+ "grad_norm": 44.30104446411133,
2500
+ "learning_rate": 1.0520217094759962e-06,
2501
+ "loss": 1.3964,
2502
+ "step": 3560
2503
+ },
2504
+ {
2505
+ "epoch": 0.16114471427281754,
2506
+ "grad_norm": 129.62091064453125,
2507
+ "learning_rate": 1.0385745295575867e-06,
2508
+ "loss": 12.3363,
2509
+ "step": 3570
2510
+ },
2511
+ {
2512
+ "epoch": 0.16159610002708313,
2513
+ "grad_norm": 91.65924072265625,
2514
+ "learning_rate": 1.0251912771236157e-06,
2515
+ "loss": 10.7636,
2516
+ "step": 3580
2517
+ },
2518
+ {
2519
+ "epoch": 0.16204748578134873,
2520
+ "grad_norm": 125.72308349609375,
2521
+ "learning_rate": 1.0118725376009025e-06,
2522
+ "loss": 5.3916,
2523
+ "step": 3590
2524
+ },
2525
+ {
2526
+ "epoch": 0.16249887153561435,
2527
+ "grad_norm": 464.05230712890625,
2528
+ "learning_rate": 9.986188935942579e-07,
2529
+ "loss": 11.4753,
2530
+ "step": 3600
2531
+ },
2532
+ {
2533
+ "epoch": 0.16295025728987994,
2534
+ "grad_norm": 74.7903823852539,
2535
+ "learning_rate": 9.854309248610086e-07,
2536
+ "loss": 2.2035,
2537
+ "step": 3610
2538
+ },
2539
+ {
2540
+ "epoch": 0.16340164304414553,
2541
+ "grad_norm": 167.556640625,
2542
+ "learning_rate": 9.723092082856294e-07,
2543
+ "loss": 13.3864,
2544
+ "step": 3620
2545
+ },
2546
+ {
2547
+ "epoch": 0.16385302879841113,
2548
+ "grad_norm": 170.08494567871094,
2549
+ "learning_rate": 9.592543178545108e-07,
2550
+ "loss": 8.8006,
2551
+ "step": 3630
2552
+ },
2553
+ {
2554
+ "epoch": 0.16430441455267672,
2555
+ "grad_norm": 44.861854553222656,
2556
+ "learning_rate": 9.462668246308529e-07,
2557
+ "loss": 12.2637,
2558
+ "step": 3640
2559
+ },
2560
+ {
2561
+ "epoch": 0.1647558003069423,
2562
+ "grad_norm": 55.525936126708984,
2563
+ "learning_rate": 9.333472967296834e-07,
2564
+ "loss": 6.7208,
2565
+ "step": 3650
2566
+ },
2567
+ {
2568
+ "epoch": 0.1652071860612079,
2569
+ "grad_norm": 62.38036346435547,
2570
+ "learning_rate": 9.204962992930064e-07,
2571
+ "loss": 7.1848,
2572
+ "step": 3660
2573
+ },
2574
+ {
2575
+ "epoch": 0.1656585718154735,
2576
+ "grad_norm": 256.979248046875,
2577
+ "learning_rate": 9.077143944650802e-07,
2578
+ "loss": 5.2249,
2579
+ "step": 3670
2580
+ },
2581
+ {
2582
+ "epoch": 0.1661099575697391,
2583
+ "grad_norm": 306.7060852050781,
2584
+ "learning_rate": 8.950021413678306e-07,
2585
+ "loss": 14.4828,
2586
+ "step": 3680
2587
+ },
2588
+ {
2589
+ "epoch": 0.16656134332400468,
2590
+ "grad_norm": 102.071533203125,
2591
+ "learning_rate": 8.823600960763901e-07,
2592
+ "loss": 4.4636,
2593
+ "step": 3690
2594
+ },
2595
+ {
2596
+ "epoch": 0.16701272907827028,
2597
+ "grad_norm": 67.31098175048828,
2598
+ "learning_rate": 8.697888115947725e-07,
2599
+ "loss": 7.6158,
2600
+ "step": 3700
2601
+ },
2602
+ {
2603
+ "epoch": 0.1674641148325359,
2604
+ "grad_norm": 220.68601989746094,
2605
+ "learning_rate": 8.572888378316885e-07,
2606
+ "loss": 4.466,
2607
+ "step": 3710
2608
+ },
2609
+ {
2610
+ "epoch": 0.1679155005868015,
2611
+ "grad_norm": 100.91810607910156,
2612
+ "learning_rate": 8.448607215764823e-07,
2613
+ "loss": 18.0782,
2614
+ "step": 3720
2615
+ },
2616
+ {
2617
+ "epoch": 0.16836688634106708,
2618
+ "grad_norm": 122.8347396850586,
2619
+ "learning_rate": 8.325050064752238e-07,
2620
+ "loss": 3.9704,
2621
+ "step": 3730
2622
+ },
2623
+ {
2624
+ "epoch": 0.16881827209533268,
2625
+ "grad_norm": 340.8742980957031,
2626
+ "learning_rate": 8.202222330069167e-07,
2627
+ "loss": 9.0957,
2628
+ "step": 3740
2629
+ },
2630
+ {
2631
+ "epoch": 0.16926965784959827,
2632
+ "grad_norm": 844.3057250976562,
2633
+ "learning_rate": 8.080129384598625e-07,
2634
+ "loss": 7.8987,
2635
+ "step": 3750
2636
+ },
2637
+ {
2638
+ "epoch": 0.16972104360386386,
2639
+ "grad_norm": 52.888675689697266,
2640
+ "learning_rate": 7.958776569081586e-07,
2641
+ "loss": 5.1732,
2642
+ "step": 3760
2643
+ },
2644
+ {
2645
+ "epoch": 0.17017242935812946,
2646
+ "grad_norm": 18.713451385498047,
2647
+ "learning_rate": 7.838169191883316e-07,
2648
+ "loss": 18.0407,
2649
+ "step": 3770
2650
+ },
2651
+ {
2652
+ "epoch": 0.17062381511239505,
2653
+ "grad_norm": 99.52142333984375,
2654
+ "learning_rate": 7.718312528761223e-07,
2655
+ "loss": 6.5374,
2656
+ "step": 3780
2657
+ },
2658
+ {
2659
+ "epoch": 0.17107520086666064,
2660
+ "grad_norm": 0.0,
2661
+ "learning_rate": 7.59921182263402e-07,
2662
+ "loss": 3.1175,
2663
+ "step": 3790
2664
+ },
2665
+ {
2666
+ "epoch": 0.17152658662092624,
2667
+ "grad_norm": 167.33865356445312,
2668
+ "learning_rate": 7.480872283352428e-07,
2669
+ "loss": 5.2062,
2670
+ "step": 3800
2671
+ },
2672
+ {
2673
+ "epoch": 0.17197797237519183,
2674
+ "grad_norm": 243.3013916015625,
2675
+ "learning_rate": 7.363299087471276e-07,
2676
+ "loss": 17.2166,
2677
+ "step": 3810
2678
+ },
2679
+ {
2680
+ "epoch": 0.17242935812945742,
2681
+ "grad_norm": 41.232913970947266,
2682
+ "learning_rate": 7.246497378023018e-07,
2683
+ "loss": 8.4037,
2684
+ "step": 3820
2685
+ },
2686
+ {
2687
+ "epoch": 0.17288074388372304,
2688
+ "grad_norm": 75.55536651611328,
2689
+ "learning_rate": 7.130472264292823e-07,
2690
+ "loss": 4.3064,
2691
+ "step": 3830
2692
+ },
2693
+ {
2694
+ "epoch": 0.17333212963798864,
2695
+ "grad_norm": 87.98434448242188,
2696
+ "learning_rate": 7.015228821595024e-07,
2697
+ "loss": 15.6156,
2698
+ "step": 3840
2699
+ },
2700
+ {
2701
+ "epoch": 0.17378351539225423,
2702
+ "grad_norm": 43.14255142211914,
2703
+ "learning_rate": 6.900772091051155e-07,
2704
+ "loss": 4.3545,
2705
+ "step": 3850
2706
+ },
2707
+ {
2708
+ "epoch": 0.17423490114651982,
2709
+ "grad_norm": 286.0829162597656,
2710
+ "learning_rate": 6.787107079369381e-07,
2711
+ "loss": 8.427,
2712
+ "step": 3860
2713
+ },
2714
+ {
2715
+ "epoch": 0.17468628690078541,
2716
+ "grad_norm": 72.80610656738281,
2717
+ "learning_rate": 6.674238758625551e-07,
2718
+ "loss": 6.5748,
2719
+ "step": 3870
2720
+ },
2721
+ {
2722
+ "epoch": 0.175137672655051,
2723
+ "grad_norm": 4.607085227966309,
2724
+ "learning_rate": 6.562172066045655e-07,
2725
+ "loss": 2.072,
2726
+ "step": 3880
2727
+ },
2728
+ {
2729
+ "epoch": 0.1755890584093166,
2730
+ "grad_norm": 68.86713409423828,
2731
+ "learning_rate": 6.450911903789864e-07,
2732
+ "loss": 9.8181,
2733
+ "step": 3890
2734
+ },
2735
+ {
2736
+ "epoch": 0.1760404441635822,
2737
+ "grad_norm": 61.16685104370117,
2738
+ "learning_rate": 6.340463138738123e-07,
2739
+ "loss": 9.6566,
2740
+ "step": 3900
2741
+ },
2742
+ {
2743
+ "epoch": 0.1764918299178478,
2744
+ "grad_norm": 52.66458511352539,
2745
+ "learning_rate": 6.230830602277199e-07,
2746
+ "loss": 5.7408,
2747
+ "step": 3910
2748
+ },
2749
+ {
2750
+ "epoch": 0.17694321567211338,
2751
+ "grad_norm": 207.5504913330078,
2752
+ "learning_rate": 6.122019090089418e-07,
2753
+ "loss": 5.9305,
2754
+ "step": 3920
2755
+ },
2756
+ {
2757
+ "epoch": 0.17739460142637897,
2758
+ "grad_norm": 107.85064697265625,
2759
+ "learning_rate": 6.014033361942806e-07,
2760
+ "loss": 2.3612,
2761
+ "step": 3930
2762
+ },
2763
+ {
2764
+ "epoch": 0.17784598718064457,
2765
+ "grad_norm": 39.93983840942383,
2766
+ "learning_rate": 5.906878141482944e-07,
2767
+ "loss": 6.6696,
2768
+ "step": 3940
2769
+ },
2770
+ {
2771
+ "epoch": 0.1782973729349102,
2772
+ "grad_norm": 41.656620025634766,
2773
+ "learning_rate": 5.800558116026319e-07,
2774
+ "loss": 5.0908,
2775
+ "step": 3950
2776
+ },
2777
+ {
2778
+ "epoch": 0.17874875868917578,
2779
+ "grad_norm": 149.21926879882812,
2780
+ "learning_rate": 5.695077936355259e-07,
2781
+ "loss": 13.7301,
2782
+ "step": 3960
2783
+ },
2784
+ {
2785
+ "epoch": 0.17920014444344137,
2786
+ "grad_norm": 47.048744201660156,
2787
+ "learning_rate": 5.590442216514544e-07,
2788
+ "loss": 4.7152,
2789
+ "step": 3970
2790
+ },
2791
+ {
2792
+ "epoch": 0.17965153019770697,
2793
+ "grad_norm": 139.2744598388672,
2794
+ "learning_rate": 5.48665553360952e-07,
2795
+ "loss": 5.5136,
2796
+ "step": 3980
2797
+ },
2798
+ {
2799
+ "epoch": 0.18010291595197256,
2800
+ "grad_norm": 129.4766845703125,
2801
+ "learning_rate": 5.38372242760593e-07,
2802
+ "loss": 4.6403,
2803
+ "step": 3990
2804
+ },
2805
+ {
2806
+ "epoch": 0.18055430170623815,
2807
+ "grad_norm": 98.97769927978516,
2808
+ "learning_rate": 5.281647401131279e-07,
2809
+ "loss": 4.8314,
2810
+ "step": 4000
2811
+ },
2812
+ {
2813
+ "epoch": 0.18100568746050374,
2814
+ "grad_norm": 89.12077331542969,
2815
+ "learning_rate": 5.180434919277905e-07,
2816
+ "loss": 6.9441,
2817
+ "step": 4010
2818
+ },
2819
+ {
2820
+ "epoch": 0.18145707321476934,
2821
+ "grad_norm": 22.228443145751953,
2822
+ "learning_rate": 5.080089409407657e-07,
2823
+ "loss": 15.4559,
2824
+ "step": 4020
2825
+ },
2826
+ {
2827
+ "epoch": 0.18190845896903493,
2828
+ "grad_norm": 37.18940734863281,
2829
+ "learning_rate": 4.980615260958194e-07,
2830
+ "loss": 3.1319,
2831
+ "step": 4030
2832
+ },
2833
+ {
2834
+ "epoch": 0.18235984472330052,
2835
+ "grad_norm": 78.76665496826172,
2836
+ "learning_rate": 4.882016825251038e-07,
2837
+ "loss": 7.562,
2838
+ "step": 4040
2839
+ },
2840
+ {
2841
+ "epoch": 0.18281123047756612,
2842
+ "grad_norm": 154.3869171142578,
2843
+ "learning_rate": 4.784298415301172e-07,
2844
+ "loss": 4.7709,
2845
+ "step": 4050
2846
+ },
2847
+ {
2848
+ "epoch": 0.1832626162318317,
2849
+ "grad_norm": 29.492176055908203,
2850
+ "learning_rate": 4.6874643056284056e-07,
2851
+ "loss": 8.3479,
2852
+ "step": 4060
2853
+ },
2854
+ {
2855
+ "epoch": 0.18371400198609733,
2856
+ "grad_norm": 139.6198272705078,
2857
+ "learning_rate": 4.591518732070402e-07,
2858
+ "loss": 6.3713,
2859
+ "step": 4070
2860
+ },
2861
+ {
2862
+ "epoch": 0.18416538774036292,
2863
+ "grad_norm": 0.0,
2864
+ "learning_rate": 4.496465891597368e-07,
2865
+ "loss": 5.8261,
2866
+ "step": 4080
2867
+ },
2868
+ {
2869
+ "epoch": 0.18461677349462852,
2870
+ "grad_norm": 29.087331771850586,
2871
+ "learning_rate": 4.4023099421284797e-07,
2872
+ "loss": 8.3838,
2873
+ "step": 4090
2874
+ },
2875
+ {
2876
+ "epoch": 0.1850681592488941,
2877
+ "grad_norm": 102.63190460205078,
2878
+ "learning_rate": 4.309055002349988e-07,
2879
+ "loss": 2.0962,
2880
+ "step": 4100
2881
+ },
2882
+ {
2883
+ "epoch": 0.1855195450031597,
2884
+ "grad_norm": 85.19605255126953,
2885
+ "learning_rate": 4.21670515153505e-07,
2886
+ "loss": 3.8748,
2887
+ "step": 4110
2888
+ },
2889
+ {
2890
+ "epoch": 0.1859709307574253,
2891
+ "grad_norm": 160.58285522460938,
2892
+ "learning_rate": 4.1252644293653306e-07,
2893
+ "loss": 12.8108,
2894
+ "step": 4120
2895
+ },
2896
+ {
2897
+ "epoch": 0.1864223165116909,
2898
+ "grad_norm": 180.49346923828125,
2899
+ "learning_rate": 4.03473683575423e-07,
2900
+ "loss": 3.7981,
2901
+ "step": 4130
2902
+ },
2903
+ {
2904
+ "epoch": 0.18687370226595648,
2905
+ "grad_norm": 84.54959106445312,
2906
+ "learning_rate": 3.9451263306719695e-07,
2907
+ "loss": 5.6684,
2908
+ "step": 4140
2909
+ },
2910
+ {
2911
+ "epoch": 0.18732508802022207,
2912
+ "grad_norm": 38.727237701416016,
2913
+ "learning_rate": 3.8564368339723407e-07,
2914
+ "loss": 3.274,
2915
+ "step": 4150
2916
+ },
2917
+ {
2918
+ "epoch": 0.18777647377448767,
2919
+ "grad_norm": 94.7398452758789,
2920
+ "learning_rate": 3.7686722252212344e-07,
2921
+ "loss": 5.4499,
2922
+ "step": 4160
2923
+ },
2924
+ {
2925
+ "epoch": 0.18822785952875326,
2926
+ "grad_norm": 9.096123695373535,
2927
+ "learning_rate": 3.681836343526965e-07,
2928
+ "loss": 5.8477,
2929
+ "step": 4170
2930
+ },
2931
+ {
2932
+ "epoch": 0.18867924528301888,
2933
+ "grad_norm": 41.2618408203125,
2934
+ "learning_rate": 3.5959329873722995e-07,
2935
+ "loss": 8.1239,
2936
+ "step": 4180
2937
+ },
2938
+ {
2939
+ "epoch": 0.18913063103728447,
2940
+ "grad_norm": 71.65709686279297,
2941
+ "learning_rate": 3.510965914448333e-07,
2942
+ "loss": 5.2648,
2943
+ "step": 4190
2944
+ },
2945
+ {
2946
+ "epoch": 0.18958201679155007,
2947
+ "grad_norm": 23.694549560546875,
2948
+ "learning_rate": 3.4269388414900793e-07,
2949
+ "loss": 4.0558,
2950
+ "step": 4200
2951
+ },
2952
+ {
2953
+ "epoch": 0.19003340254581566,
2954
+ "grad_norm": 40.88732147216797,
2955
+ "learning_rate": 3.3438554441139247e-07,
2956
+ "loss": 2.4211,
2957
+ "step": 4210
2958
+ },
2959
+ {
2960
+ "epoch": 0.19048478830008125,
2961
+ "grad_norm": 93.14836120605469,
2962
+ "learning_rate": 3.261719356656828e-07,
2963
+ "loss": 46.6728,
2964
+ "step": 4220
2965
+ },
2966
+ {
2967
+ "epoch": 0.19093617405434685,
2968
+ "grad_norm": 102.90797424316406,
2969
+ "learning_rate": 3.1805341720173326e-07,
2970
+ "loss": 3.9388,
2971
+ "step": 4230
2972
+ },
2973
+ {
2974
+ "epoch": 0.19138755980861244,
2975
+ "grad_norm": 34.19810485839844,
2976
+ "learning_rate": 3.100303441498423e-07,
2977
+ "loss": 3.9403,
2978
+ "step": 4240
2979
+ },
2980
+ {
2981
+ "epoch": 0.19183894556287803,
2982
+ "grad_norm": 56.56155014038086,
2983
+ "learning_rate": 3.0210306746521563e-07,
2984
+ "loss": 5.5246,
2985
+ "step": 4250
2986
+ },
2987
+ {
2988
+ "epoch": 0.19229033131714363,
2989
+ "grad_norm": 54.783538818359375,
2990
+ "learning_rate": 2.942719339126171e-07,
2991
+ "loss": 4.3659,
2992
+ "step": 4260
2993
+ },
2994
+ {
2995
+ "epoch": 0.19274171707140922,
2996
+ "grad_norm": 139.10134887695312,
2997
+ "learning_rate": 2.8653728605119697e-07,
2998
+ "loss": 3.7576,
2999
+ "step": 4270
3000
+ },
3001
+ {
3002
+ "epoch": 0.1931931028256748,
3003
+ "grad_norm": 34.989871978759766,
3004
+ "learning_rate": 2.788994622195096e-07,
3005
+ "loss": 4.7475,
3006
+ "step": 4280
3007
+ },
3008
+ {
3009
+ "epoch": 0.1936444885799404,
3010
+ "grad_norm": 61.84177780151367,
3011
+ "learning_rate": 2.713587965207132e-07,
3012
+ "loss": 4.9777,
3013
+ "step": 4290
3014
+ },
3015
+ {
3016
+ "epoch": 0.19409587433420603,
3017
+ "grad_norm": 147.91552734375,
3018
+ "learning_rate": 2.639156188079525e-07,
3019
+ "loss": 2.99,
3020
+ "step": 4300
3021
+ },
3022
+ {
3023
+ "epoch": 0.19454726008847162,
3024
+ "grad_norm": 119.65040588378906,
3025
+ "learning_rate": 2.565702546699347e-07,
3026
+ "loss": 56.1743,
3027
+ "step": 4310
3028
+ },
3029
+ {
3030
+ "epoch": 0.1949986458427372,
3031
+ "grad_norm": 0.0,
3032
+ "learning_rate": 2.4932302541668174e-07,
3033
+ "loss": 6.5956,
3034
+ "step": 4320
3035
+ },
3036
+ {
3037
+ "epoch": 0.1954500315970028,
3038
+ "grad_norm": 71.4285659790039,
3039
+ "learning_rate": 2.4217424806547984e-07,
3040
+ "loss": 21.7876,
3041
+ "step": 4330
3042
+ },
3043
+ {
3044
+ "epoch": 0.1959014173512684,
3045
+ "grad_norm": 152.66796875,
3046
+ "learning_rate": 2.3512423532700807e-07,
3047
+ "loss": 11.0773,
3048
+ "step": 4340
3049
+ },
3050
+ {
3051
+ "epoch": 0.196352803105534,
3052
+ "grad_norm": 122.09387969970703,
3053
+ "learning_rate": 2.2817329559166297e-07,
3054
+ "loss": 3.1055,
3055
+ "step": 4350
3056
+ },
3057
+ {
3058
+ "epoch": 0.19680418885979958,
3059
+ "grad_norm": 48.034759521484375,
3060
+ "learning_rate": 2.2132173291606717e-07,
3061
+ "loss": 8.7824,
3062
+ "step": 4360
3063
+ },
3064
+ {
3065
+ "epoch": 0.19725557461406518,
3066
+ "grad_norm": 495.5748596191406,
3067
+ "learning_rate": 2.1456984700976734e-07,
3068
+ "loss": 18.5194,
3069
+ "step": 4370
3070
+ },
3071
+ {
3072
+ "epoch": 0.19770696036833077,
3073
+ "grad_norm": 0.0,
3074
+ "learning_rate": 2.079179332221265e-07,
3075
+ "loss": 3.8953,
3076
+ "step": 4380
3077
+ },
3078
+ {
3079
+ "epoch": 0.19815834612259636,
3080
+ "grad_norm": 43.955848693847656,
3081
+ "learning_rate": 2.0136628252940215e-07,
3082
+ "loss": 5.6724,
3083
+ "step": 4390
3084
+ },
3085
+ {
3086
+ "epoch": 0.19860973187686196,
3087
+ "grad_norm": 49.7697639465332,
3088
+ "learning_rate": 1.94915181522021e-07,
3089
+ "loss": 29.307,
3090
+ "step": 4400
3091
+ },
3092
+ {
3093
+ "epoch": 0.19906111763112755,
3094
+ "grad_norm": 0.0,
3095
+ "learning_rate": 1.885649123920394e-07,
3096
+ "loss": 10.5336,
3097
+ "step": 4410
3098
+ },
3099
+ {
3100
+ "epoch": 0.19951250338539317,
3101
+ "grad_norm": 45.90987777709961,
3102
+ "learning_rate": 1.8231575292080028e-07,
3103
+ "loss": 9.0415,
3104
+ "step": 4420
3105
+ },
3106
+ {
3107
+ "epoch": 0.19996388913965876,
3108
+ "grad_norm": 136.11541748046875,
3109
+ "learning_rate": 1.761679764667848e-07,
3110
+ "loss": 7.6726,
3111
+ "step": 4430
3112
+ },
3113
+ {
3114
+ "epoch": 0.20041527489392436,
3115
+ "grad_norm": 530.2286987304688,
3116
+ "learning_rate": 1.7012185195365016e-07,
3117
+ "loss": 7.9898,
3118
+ "step": 4440
3119
+ },
3120
+ {
3121
+ "epoch": 0.20086666064818995,
3122
+ "grad_norm": 202.937255859375,
3123
+ "learning_rate": 1.6417764385846996e-07,
3124
+ "loss": 6.6062,
3125
+ "step": 4450
3126
+ },
3127
+ {
3128
+ "epoch": 0.20131804640245554,
3129
+ "grad_norm": 62.624454498291016,
3130
+ "learning_rate": 1.5833561220016253e-07,
3131
+ "loss": 3.8033,
3132
+ "step": 4460
3133
+ },
3134
+ {
3135
+ "epoch": 0.20176943215672113,
3136
+ "grad_norm": 25.003049850463867,
3137
+ "learning_rate": 1.5259601252811757e-07,
3138
+ "loss": 3.9965,
3139
+ "step": 4470
3140
+ },
3141
+ {
3142
+ "epoch": 0.20222081791098673,
3143
+ "grad_norm": 26.152605056762695,
3144
+ "learning_rate": 1.4695909591101926e-07,
3145
+ "loss": 7.126,
3146
+ "step": 4480
3147
+ },
3148
+ {
3149
+ "epoch": 0.20267220366525232,
3150
+ "grad_norm": 11.342703819274902,
3151
+ "learning_rate": 1.4142510892586115e-07,
3152
+ "loss": 5.0694,
3153
+ "step": 4490
3154
+ },
3155
+ {
3156
+ "epoch": 0.2031235894195179,
3157
+ "grad_norm": 155.68240356445312,
3158
+ "learning_rate": 1.3599429364716144e-07,
3159
+ "loss": 3.3236,
3160
+ "step": 4500
3161
+ },
3162
+ {
3163
+ "epoch": 0.2035749751737835,
3164
+ "grad_norm": 51.22175598144531,
3165
+ "learning_rate": 1.3066688763637453e-07,
3166
+ "loss": 10.6676,
3167
+ "step": 4510
3168
+ },
3169
+ {
3170
+ "epoch": 0.2040263609280491,
3171
+ "grad_norm": 0.0,
3172
+ "learning_rate": 1.254431239314968e-07,
3173
+ "loss": 4.0254,
3174
+ "step": 4520
3175
+ },
3176
+ {
3177
+ "epoch": 0.2044777466823147,
3178
+ "grad_norm": 196.66436767578125,
3179
+ "learning_rate": 1.2032323103687653e-07,
3180
+ "loss": 3.4008,
3181
+ "step": 4530
3182
+ },
3183
+ {
3184
+ "epoch": 0.2049291324365803,
3185
+ "grad_norm": 40.119720458984375,
3186
+ "learning_rate": 1.1530743291321366e-07,
3187
+ "loss": 4.2571,
3188
+ "step": 4540
3189
+ },
3190
+ {
3191
+ "epoch": 0.2053805181908459,
3192
+ "grad_norm": 148.3105010986328,
3193
+ "learning_rate": 1.1039594896776834e-07,
3194
+ "loss": 9.2198,
3195
+ "step": 4550
3196
+ },
3197
+ {
3198
+ "epoch": 0.2058319039451115,
3199
+ "grad_norm": 172.4375457763672,
3200
+ "learning_rate": 1.0558899404475825e-07,
3201
+ "loss": 6.7608,
3202
+ "step": 4560
3203
+ },
3204
+ {
3205
+ "epoch": 0.2062832896993771,
3206
+ "grad_norm": 0.0,
3207
+ "learning_rate": 1.008867784159645e-07,
3208
+ "loss": 7.9996,
3209
+ "step": 4570
3210
+ },
3211
+ {
3212
+ "epoch": 0.20673467545364269,
3213
+ "grad_norm": 66.23301696777344,
3214
+ "learning_rate": 9.628950777153257e-08,
3215
+ "loss": 3.6164,
3216
+ "step": 4580
3217
+ },
3218
+ {
3219
+ "epoch": 0.20718606120790828,
3220
+ "grad_norm": 34.0323371887207,
3221
+ "learning_rate": 9.179738321097225e-08,
3222
+ "loss": 5.8013,
3223
+ "step": 4590
3224
+ },
3225
+ {
3226
+ "epoch": 0.20763744696217387,
3227
+ "grad_norm": 118.21097564697266,
3228
+ "learning_rate": 8.741060123436534e-08,
3229
+ "loss": 5.9892,
3230
+ "step": 4600
3231
+ },
3232
+ {
3233
+ "epoch": 0.20808883271643946,
3234
+ "grad_norm": 38.66231918334961,
3235
+ "learning_rate": 8.312935373376574e-08,
3236
+ "loss": 3.2092,
3237
+ "step": 4610
3238
+ },
3239
+ {
3240
+ "epoch": 0.20854021847070506,
3241
+ "grad_norm": 27.398616790771484,
3242
+ "learning_rate": 7.895382798480928e-08,
3243
+ "loss": 34.7807,
3244
+ "step": 4620
3245
+ },
3246
+ {
3247
+ "epoch": 0.20899160422497065,
3248
+ "grad_norm": 143.73065185546875,
3249
+ "learning_rate": 7.488420663851859e-08,
3250
+ "loss": 3.5579,
3251
+ "step": 4630
3252
+ },
3253
+ {
3254
+ "epoch": 0.20944298997923624,
3255
+ "grad_norm": 442.9917907714844,
3256
+ "learning_rate": 7.092066771331507e-08,
3257
+ "loss": 13.0785,
3258
+ "step": 4640
3259
+ },
3260
+ {
3261
+ "epoch": 0.20989437573350186,
3262
+ "grad_norm": 8.41353988647461,
3263
+ "learning_rate": 6.706338458723205e-08,
3264
+ "loss": 2.3867,
3265
+ "step": 4650
3266
+ },
3267
+ {
3268
+ "epoch": 0.21034576148776746,
3269
+ "grad_norm": 73.00050354003906,
3270
+ "learning_rate": 6.331252599032833e-08,
3271
+ "loss": 6.0346,
3272
+ "step": 4660
3273
+ },
3274
+ {
3275
+ "epoch": 0.21079714724203305,
3276
+ "grad_norm": 54.1865119934082,
3277
+ "learning_rate": 5.96682559973108e-08,
3278
+ "loss": 1.3434,
3279
+ "step": 4670
3280
+ },
3281
+ {
3282
+ "epoch": 0.21124853299629864,
3283
+ "grad_norm": 159.2796630859375,
3284
+ "learning_rate": 5.61307340203543e-08,
3285
+ "loss": 46.1048,
3286
+ "step": 4680
3287
+ },
3288
+ {
3289
+ "epoch": 0.21169991875056424,
3290
+ "grad_norm": 0.0,
3291
+ "learning_rate": 5.270011480213055e-08,
3292
+ "loss": 4.7355,
3293
+ "step": 4690
3294
+ },
3295
+ {
3296
+ "epoch": 0.21215130450482983,
3297
+ "grad_norm": 51.1243782043457,
3298
+ "learning_rate": 4.9376548409037214e-08,
3299
+ "loss": 7.6459,
3300
+ "step": 4700
3301
+ },
3302
+ {
3303
+ "epoch": 0.21260269025909542,
3304
+ "grad_norm": 433.4693908691406,
3305
+ "learning_rate": 4.616018022463531e-08,
3306
+ "loss": 5.068,
3307
+ "step": 4710
3308
+ },
3309
+ {
3310
+ "epoch": 0.21305407601336102,
3311
+ "grad_norm": 34.6866569519043,
3312
+ "learning_rate": 4.30511509432896e-08,
3313
+ "loss": 4.4105,
3314
+ "step": 4720
3315
+ },
3316
+ {
3317
+ "epoch": 0.2135054617676266,
3318
+ "grad_norm": 287.0308532714844,
3319
+ "learning_rate": 4.004959656401186e-08,
3320
+ "loss": 5.2348,
3321
+ "step": 4730
3322
+ },
3323
+ {
3324
+ "epoch": 0.2139568475218922,
3325
+ "grad_norm": 204.1201629638672,
3326
+ "learning_rate": 3.715564838451452e-08,
3327
+ "loss": 9.22,
3328
+ "step": 4740
3329
+ },
3330
+ {
3331
+ "epoch": 0.2144082332761578,
3332
+ "grad_norm": 55.22491455078125,
3333
+ "learning_rate": 3.436943299546608e-08,
3334
+ "loss": 9.1023,
3335
+ "step": 4750
3336
+ },
3337
+ {
3338
+ "epoch": 0.2148596190304234,
3339
+ "grad_norm": 106.54266357421875,
3340
+ "learning_rate": 3.169107227495388e-08,
3341
+ "loss": 4.5543,
3342
+ "step": 4760
3343
+ },
3344
+ {
3345
+ "epoch": 0.215311004784689,
3346
+ "grad_norm": 72.29888916015625,
3347
+ "learning_rate": 2.912068338315255e-08,
3348
+ "loss": 10.7024,
3349
+ "step": 4770
3350
+ },
3351
+ {
3352
+ "epoch": 0.2157623905389546,
3353
+ "grad_norm": 58.80775451660156,
3354
+ "learning_rate": 2.6658378757198622e-08,
3355
+ "loss": 4.1527,
3356
+ "step": 4780
3357
+ },
3358
+ {
3359
+ "epoch": 0.2162137762932202,
3360
+ "grad_norm": 77.38825225830078,
3361
+ "learning_rate": 2.4304266106273954e-08,
3362
+ "loss": 8.0953,
3363
+ "step": 4790
3364
+ },
3365
+ {
3366
+ "epoch": 0.2166651620474858,
3367
+ "grad_norm": 136.88836669921875,
3368
+ "learning_rate": 2.205844840689142e-08,
3369
+ "loss": 12.2035,
3370
+ "step": 4800
3371
+ },
3372
+ {
3373
+ "epoch": 0.21711654780175138,
3374
+ "grad_norm": 47.173404693603516,
3375
+ "learning_rate": 1.992102389839323e-08,
3376
+ "loss": 22.2276,
3377
+ "step": 4810
3378
+ },
3379
+ {
3380
+ "epoch": 0.21756793355601697,
3381
+ "grad_norm": 42.001014709472656,
3382
+ "learning_rate": 1.7892086078651615e-08,
3383
+ "loss": 6.4486,
3384
+ "step": 4820
3385
+ },
3386
+ {
3387
+ "epoch": 0.21801931931028257,
3388
+ "grad_norm": 57.791107177734375,
3389
+ "learning_rate": 1.5971723699979015e-08,
3390
+ "loss": 5.8706,
3391
+ "step": 4830
3392
+ },
3393
+ {
3394
+ "epoch": 0.21847070506454816,
3395
+ "grad_norm": 76.51703643798828,
3396
+ "learning_rate": 1.4160020765247862e-08,
3397
+ "loss": 2.9852,
3398
+ "step": 4840
3399
+ },
3400
+ {
3401
+ "epoch": 0.21892209081881375,
3402
+ "grad_norm": 37.27306365966797,
3403
+ "learning_rate": 1.2457056524212697e-08,
3404
+ "loss": 3.1626,
3405
+ "step": 4850
3406
+ },
3407
+ {
3408
+ "epoch": 0.21937347657307935,
3409
+ "grad_norm": 123.15496826171875,
3410
+ "learning_rate": 1.0862905470047091e-08,
3411
+ "loss": 17.5474,
3412
+ "step": 4860
3413
+ },
3414
+ {
3415
+ "epoch": 0.21982486232734494,
3416
+ "grad_norm": 48.88706970214844,
3417
+ "learning_rate": 9.377637336082101e-09,
3418
+ "loss": 1.8276,
3419
+ "step": 4870
3420
+ },
3421
+ {
3422
+ "epoch": 0.22027624808161053,
3423
+ "grad_norm": 14.176680564880371,
3424
+ "learning_rate": 8.001317092757865e-09,
3425
+ "loss": 4.9889,
3426
+ "step": 4880
3427
+ },
3428
+ {
3429
+ "epoch": 0.22072763383587615,
3430
+ "grad_norm": 143.2247314453125,
3431
+ "learning_rate": 6.734004944779771e-09,
3432
+ "loss": 4.3707,
3433
+ "step": 4890
3434
+ },
3435
+ {
3436
+ "epoch": 0.22117901959014175,
3437
+ "grad_norm": 30.611309051513672,
3438
+ "learning_rate": 5.575756328487503e-09,
3439
+ "loss": 7.3242,
3440
+ "step": 4900
3441
+ },
3442
+ {
3443
+ "epoch": 0.22163040534440734,
3444
+ "grad_norm": 124.87796020507812,
3445
+ "learning_rate": 4.526621909426987e-09,
3446
+ "loss": 8.9945,
3447
+ "step": 4910
3448
+ },
3449
+ {
3450
+ "epoch": 0.22208179109867293,
3451
+ "grad_norm": 268.85406494140625,
3452
+ "learning_rate": 3.5866475801368816e-09,
3453
+ "loss": 4.5735,
3454
+ "step": 4920
3455
+ },
3456
+ {
3457
+ "epoch": 0.22253317685293852,
3458
+ "grad_norm": 109.20343017578125,
3459
+ "learning_rate": 2.755874458139629e-09,
3460
+ "loss": 4.6406,
3461
+ "step": 4930
3462
+ },
3463
+ {
3464
+ "epoch": 0.22298456260720412,
3465
+ "grad_norm": 54.818729400634766,
3466
+ "learning_rate": 2.034338884142617e-09,
3467
+ "loss": 3.9595,
3468
+ "step": 4940
3469
+ },
3470
+ {
3471
+ "epoch": 0.2234359483614697,
3472
+ "grad_norm": 184.0067138671875,
3473
+ "learning_rate": 1.422072420449172e-09,
3474
+ "loss": 4.7768,
3475
+ "step": 4950
3476
+ },
3477
+ {
3478
+ "epoch": 0.2238873341157353,
3479
+ "grad_norm": 66.37393188476562,
3480
+ "learning_rate": 9.191018495779969e-10,
3481
+ "loss": 3.0521,
3482
+ "step": 4960
3483
+ },
3484
+ {
3485
+ "epoch": 0.2243387198700009,
3486
+ "grad_norm": 128.7248992919922,
3487
+ "learning_rate": 5.254491730916078e-10,
3488
+ "loss": 3.4457,
3489
+ "step": 4970
3490
+ },
3491
+ {
3492
+ "epoch": 0.2247901056242665,
3493
+ "grad_norm": 63.97090148925781,
3494
+ "learning_rate": 2.411316106326611e-10,
3495
+ "loss": 2.6504,
3496
+ "step": 4980
3497
+ },
3498
+ {
3499
+ "epoch": 0.22524149137853208,
3500
+ "grad_norm": 45.71939468383789,
3501
+ "learning_rate": 6.616159917316455e-11,
3502
+ "loss": 1.776,
3503
+ "step": 4990
3504
+ },
3505
+ {
3506
+ "epoch": 0.22569287713279768,
3507
+ "grad_norm": 21.66623878479004,
3508
+ "learning_rate": 5.467924676927361e-13,
3509
+ "loss": 1.6261,
3510
+ "step": 5000
3511
+ }
3512
+ ],
3513
+ "logging_steps": 10,
3514
+ "max_steps": 5000,
3515
+ "num_input_tokens_seen": 0,
3516
+ "num_train_epochs": 1,
3517
+ "save_steps": 1000,
3518
+ "stateful_callbacks": {
3519
+ "TrainerControl": {
3520
+ "args": {
3521
+ "should_epoch_stop": false,
3522
+ "should_evaluate": false,
3523
+ "should_log": false,
3524
+ "should_save": true,
3525
+ "should_training_stop": true
3526
+ },
3527
+ "attributes": {}
3528
+ }
3529
+ },
3530
+ "total_flos": 0.0,
3531
+ "train_batch_size": 4,
3532
+ "trial_name": null,
3533
+ "trial_params": null
3534
+ }