slightlycodic commited on
Commit
350b354
·
verified ·
1 Parent(s): 55a4d34

Upload 13 files

Browse files
checkpoint-5478/config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "RobertaForTokenClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "id2label": {
13
+ "0": "LABEL_0",
14
+ "1": "LABEL_1",
15
+ "2": "LABEL_2",
16
+ "3": "LABEL_3"
17
+ },
18
+ "initializer_range": 0.02,
19
+ "intermediate_size": 3072,
20
+ "label2id": {
21
+ "LABEL_0": 0,
22
+ "LABEL_1": 1,
23
+ "LABEL_2": 2,
24
+ "LABEL_3": 3
25
+ },
26
+ "layer_norm_eps": 1e-05,
27
+ "max_position_embeddings": 514,
28
+ "model_type": "roberta",
29
+ "num_attention_heads": 12,
30
+ "num_hidden_layers": 12,
31
+ "pad_token_id": 1,
32
+ "position_embedding_type": "absolute",
33
+ "torch_dtype": "float32",
34
+ "transformers_version": "4.51.3",
35
+ "type_vocab_size": 1,
36
+ "use_cache": true,
37
+ "vocab_size": 50265
38
+ }
checkpoint-5478/merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-5478/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:db4fc0c2a8eb5d22f0b0d0e2c742ecb9e4aae847017adb738e826eef789fe7b4
3
+ size 1499066
checkpoint-5478/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:186dafd7ad8deab872e478ba0658637305a8a1ed7b80aeecc5dc506899343263
3
+ size 14244
checkpoint-5478/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:42782bdf0622a10a3611e417c2b89656116bb103df5149f17ca17db38f3b26ae
3
+ size 1064
checkpoint-5478/special_tokens_map.json ADDED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": {
6
+ "content": "<mask>",
7
+ "lstrip": true,
8
+ "normalized": false,
9
+ "rstrip": false,
10
+ "single_word": false
11
+ },
12
+ "pad_token": "<pad>",
13
+ "sep_token": "</s>",
14
+ "unk_token": "<unk>"
15
+ }
checkpoint-5478/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-5478/tokenizer_config.json ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": true,
3
+ "added_tokens_decoder": {
4
+ "0": {
5
+ "content": "<s>",
6
+ "lstrip": false,
7
+ "normalized": true,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "1": {
13
+ "content": "<pad>",
14
+ "lstrip": false,
15
+ "normalized": true,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "2": {
21
+ "content": "</s>",
22
+ "lstrip": false,
23
+ "normalized": true,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "3": {
29
+ "content": "<unk>",
30
+ "lstrip": false,
31
+ "normalized": true,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "50264": {
37
+ "content": "<mask>",
38
+ "lstrip": true,
39
+ "normalized": false,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ }
44
+ },
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": false,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "errors": "replace",
50
+ "extra_special_tokens": {},
51
+ "mask_token": "<mask>",
52
+ "model_max_length": 512,
53
+ "pad_token": "<pad>",
54
+ "sep_token": "</s>",
55
+ "tokenizer_class": "RobertaTokenizer",
56
+ "trim_offsets": true,
57
+ "unk_token": "<unk>"
58
+ }
checkpoint-5478/trainer_state.json ADDED
@@ -0,0 +1,3887 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 3.0,
6
+ "eval_steps": 500,
7
+ "global_step": 5478,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.00547645125958379,
14
+ "grad_norm": 5.172877788543701,
15
+ "learning_rate": 2e-05,
16
+ "loss": 0.9408,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.01095290251916758,
21
+ "grad_norm": 3.29821515083313,
22
+ "learning_rate": 2e-05,
23
+ "loss": 0.4667,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.01642935377875137,
28
+ "grad_norm": 8.682180404663086,
29
+ "learning_rate": 2e-05,
30
+ "loss": 0.4354,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.02190580503833516,
35
+ "grad_norm": 2.988210439682007,
36
+ "learning_rate": 2e-05,
37
+ "loss": 0.3187,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.027382256297918947,
42
+ "grad_norm": 2.8658511638641357,
43
+ "learning_rate": 2e-05,
44
+ "loss": 0.2634,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.03285870755750274,
49
+ "grad_norm": 4.159895896911621,
50
+ "learning_rate": 2e-05,
51
+ "loss": 0.2714,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.038335158817086525,
56
+ "grad_norm": 4.234712600708008,
57
+ "learning_rate": 2e-05,
58
+ "loss": 0.2401,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.04381161007667032,
63
+ "grad_norm": 4.615501403808594,
64
+ "learning_rate": 2e-05,
65
+ "loss": 0.2764,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.04928806133625411,
70
+ "grad_norm": 2.7115259170532227,
71
+ "learning_rate": 2e-05,
72
+ "loss": 0.2515,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.054764512595837894,
77
+ "grad_norm": 4.8792500495910645,
78
+ "learning_rate": 2e-05,
79
+ "loss": 0.248,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.060240963855421686,
84
+ "grad_norm": 3.3276002407073975,
85
+ "learning_rate": 2e-05,
86
+ "loss": 0.2377,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.06571741511500548,
91
+ "grad_norm": 3.494762897491455,
92
+ "learning_rate": 2e-05,
93
+ "loss": 0.2317,
94
+ "step": 120
95
+ },
96
+ {
97
+ "epoch": 0.07119386637458927,
98
+ "grad_norm": 3.085296392440796,
99
+ "learning_rate": 2e-05,
100
+ "loss": 0.2164,
101
+ "step": 130
102
+ },
103
+ {
104
+ "epoch": 0.07667031763417305,
105
+ "grad_norm": 2.1236257553100586,
106
+ "learning_rate": 2e-05,
107
+ "loss": 0.2612,
108
+ "step": 140
109
+ },
110
+ {
111
+ "epoch": 0.08214676889375684,
112
+ "grad_norm": 2.76648211479187,
113
+ "learning_rate": 2e-05,
114
+ "loss": 0.2113,
115
+ "step": 150
116
+ },
117
+ {
118
+ "epoch": 0.08762322015334063,
119
+ "grad_norm": 5.641284942626953,
120
+ "learning_rate": 2e-05,
121
+ "loss": 0.2361,
122
+ "step": 160
123
+ },
124
+ {
125
+ "epoch": 0.09309967141292443,
126
+ "grad_norm": 2.8492302894592285,
127
+ "learning_rate": 2e-05,
128
+ "loss": 0.2273,
129
+ "step": 170
130
+ },
131
+ {
132
+ "epoch": 0.09857612267250822,
133
+ "grad_norm": 4.214968204498291,
134
+ "learning_rate": 2e-05,
135
+ "loss": 0.2411,
136
+ "step": 180
137
+ },
138
+ {
139
+ "epoch": 0.10405257393209201,
140
+ "grad_norm": 4.820573329925537,
141
+ "learning_rate": 2e-05,
142
+ "loss": 0.182,
143
+ "step": 190
144
+ },
145
+ {
146
+ "epoch": 0.10952902519167579,
147
+ "grad_norm": 2.3844950199127197,
148
+ "learning_rate": 2e-05,
149
+ "loss": 0.2221,
150
+ "step": 200
151
+ },
152
+ {
153
+ "epoch": 0.11500547645125958,
154
+ "grad_norm": 3.7508792877197266,
155
+ "learning_rate": 2e-05,
156
+ "loss": 0.2787,
157
+ "step": 210
158
+ },
159
+ {
160
+ "epoch": 0.12048192771084337,
161
+ "grad_norm": 3.6480345726013184,
162
+ "learning_rate": 2e-05,
163
+ "loss": 0.2308,
164
+ "step": 220
165
+ },
166
+ {
167
+ "epoch": 0.12595837897042717,
168
+ "grad_norm": 3.0960395336151123,
169
+ "learning_rate": 2e-05,
170
+ "loss": 0.2141,
171
+ "step": 230
172
+ },
173
+ {
174
+ "epoch": 0.13143483023001096,
175
+ "grad_norm": 2.7262496948242188,
176
+ "learning_rate": 2e-05,
177
+ "loss": 0.2295,
178
+ "step": 240
179
+ },
180
+ {
181
+ "epoch": 0.13691128148959475,
182
+ "grad_norm": 3.7271182537078857,
183
+ "learning_rate": 2e-05,
184
+ "loss": 0.1957,
185
+ "step": 250
186
+ },
187
+ {
188
+ "epoch": 0.14238773274917854,
189
+ "grad_norm": 3.30234432220459,
190
+ "learning_rate": 2e-05,
191
+ "loss": 0.233,
192
+ "step": 260
193
+ },
194
+ {
195
+ "epoch": 0.14786418400876233,
196
+ "grad_norm": 2.1024515628814697,
197
+ "learning_rate": 2e-05,
198
+ "loss": 0.205,
199
+ "step": 270
200
+ },
201
+ {
202
+ "epoch": 0.1533406352683461,
203
+ "grad_norm": 3.121746063232422,
204
+ "learning_rate": 2e-05,
205
+ "loss": 0.1806,
206
+ "step": 280
207
+ },
208
+ {
209
+ "epoch": 0.1588170865279299,
210
+ "grad_norm": 5.09675407409668,
211
+ "learning_rate": 2e-05,
212
+ "loss": 0.2143,
213
+ "step": 290
214
+ },
215
+ {
216
+ "epoch": 0.16429353778751368,
217
+ "grad_norm": 2.1228365898132324,
218
+ "learning_rate": 2e-05,
219
+ "loss": 0.1972,
220
+ "step": 300
221
+ },
222
+ {
223
+ "epoch": 0.16976998904709747,
224
+ "grad_norm": 5.942009925842285,
225
+ "learning_rate": 2e-05,
226
+ "loss": 0.2367,
227
+ "step": 310
228
+ },
229
+ {
230
+ "epoch": 0.17524644030668127,
231
+ "grad_norm": 3.828641653060913,
232
+ "learning_rate": 2e-05,
233
+ "loss": 0.2219,
234
+ "step": 320
235
+ },
236
+ {
237
+ "epoch": 0.18072289156626506,
238
+ "grad_norm": 3.5164341926574707,
239
+ "learning_rate": 2e-05,
240
+ "loss": 0.2209,
241
+ "step": 330
242
+ },
243
+ {
244
+ "epoch": 0.18619934282584885,
245
+ "grad_norm": 3.276562452316284,
246
+ "learning_rate": 2e-05,
247
+ "loss": 0.2066,
248
+ "step": 340
249
+ },
250
+ {
251
+ "epoch": 0.19167579408543264,
252
+ "grad_norm": 2.173800468444824,
253
+ "learning_rate": 2e-05,
254
+ "loss": 0.1824,
255
+ "step": 350
256
+ },
257
+ {
258
+ "epoch": 0.19715224534501644,
259
+ "grad_norm": 4.548515319824219,
260
+ "learning_rate": 2e-05,
261
+ "loss": 0.2085,
262
+ "step": 360
263
+ },
264
+ {
265
+ "epoch": 0.20262869660460023,
266
+ "grad_norm": 5.658101558685303,
267
+ "learning_rate": 2e-05,
268
+ "loss": 0.2021,
269
+ "step": 370
270
+ },
271
+ {
272
+ "epoch": 0.20810514786418402,
273
+ "grad_norm": 2.9604289531707764,
274
+ "learning_rate": 2e-05,
275
+ "loss": 0.2139,
276
+ "step": 380
277
+ },
278
+ {
279
+ "epoch": 0.21358159912376778,
280
+ "grad_norm": 1.595267653465271,
281
+ "learning_rate": 2e-05,
282
+ "loss": 0.2441,
283
+ "step": 390
284
+ },
285
+ {
286
+ "epoch": 0.21905805038335158,
287
+ "grad_norm": 2.9476821422576904,
288
+ "learning_rate": 2e-05,
289
+ "loss": 0.2221,
290
+ "step": 400
291
+ },
292
+ {
293
+ "epoch": 0.22453450164293537,
294
+ "grad_norm": 6.530129909515381,
295
+ "learning_rate": 2e-05,
296
+ "loss": 0.2275,
297
+ "step": 410
298
+ },
299
+ {
300
+ "epoch": 0.23001095290251916,
301
+ "grad_norm": 2.306079626083374,
302
+ "learning_rate": 2e-05,
303
+ "loss": 0.1799,
304
+ "step": 420
305
+ },
306
+ {
307
+ "epoch": 0.23548740416210295,
308
+ "grad_norm": 3.0433263778686523,
309
+ "learning_rate": 2e-05,
310
+ "loss": 0.185,
311
+ "step": 430
312
+ },
313
+ {
314
+ "epoch": 0.24096385542168675,
315
+ "grad_norm": 3.235048770904541,
316
+ "learning_rate": 2e-05,
317
+ "loss": 0.2363,
318
+ "step": 440
319
+ },
320
+ {
321
+ "epoch": 0.24644030668127054,
322
+ "grad_norm": 2.9125173091888428,
323
+ "learning_rate": 2e-05,
324
+ "loss": 0.2158,
325
+ "step": 450
326
+ },
327
+ {
328
+ "epoch": 0.25191675794085433,
329
+ "grad_norm": 1.9198905229568481,
330
+ "learning_rate": 2e-05,
331
+ "loss": 0.2514,
332
+ "step": 460
333
+ },
334
+ {
335
+ "epoch": 0.2573932092004381,
336
+ "grad_norm": 4.257998943328857,
337
+ "learning_rate": 2e-05,
338
+ "loss": 0.2283,
339
+ "step": 470
340
+ },
341
+ {
342
+ "epoch": 0.2628696604600219,
343
+ "grad_norm": 1.3411542177200317,
344
+ "learning_rate": 2e-05,
345
+ "loss": 0.1712,
346
+ "step": 480
347
+ },
348
+ {
349
+ "epoch": 0.2683461117196057,
350
+ "grad_norm": 2.114000082015991,
351
+ "learning_rate": 2e-05,
352
+ "loss": 0.2022,
353
+ "step": 490
354
+ },
355
+ {
356
+ "epoch": 0.2738225629791895,
357
+ "grad_norm": 2.4874045848846436,
358
+ "learning_rate": 2e-05,
359
+ "loss": 0.1744,
360
+ "step": 500
361
+ },
362
+ {
363
+ "epoch": 0.2792990142387733,
364
+ "grad_norm": 3.700068950653076,
365
+ "learning_rate": 2e-05,
366
+ "loss": 0.2078,
367
+ "step": 510
368
+ },
369
+ {
370
+ "epoch": 0.2847754654983571,
371
+ "grad_norm": 3.8135080337524414,
372
+ "learning_rate": 2e-05,
373
+ "loss": 0.1884,
374
+ "step": 520
375
+ },
376
+ {
377
+ "epoch": 0.2902519167579409,
378
+ "grad_norm": 2.2092432975769043,
379
+ "learning_rate": 2e-05,
380
+ "loss": 0.1652,
381
+ "step": 530
382
+ },
383
+ {
384
+ "epoch": 0.29572836801752467,
385
+ "grad_norm": 2.4670491218566895,
386
+ "learning_rate": 2e-05,
387
+ "loss": 0.2201,
388
+ "step": 540
389
+ },
390
+ {
391
+ "epoch": 0.30120481927710846,
392
+ "grad_norm": 2.9962000846862793,
393
+ "learning_rate": 2e-05,
394
+ "loss": 0.1776,
395
+ "step": 550
396
+ },
397
+ {
398
+ "epoch": 0.3066812705366922,
399
+ "grad_norm": 2.7531886100769043,
400
+ "learning_rate": 2e-05,
401
+ "loss": 0.1997,
402
+ "step": 560
403
+ },
404
+ {
405
+ "epoch": 0.312157721796276,
406
+ "grad_norm": 3.9697697162628174,
407
+ "learning_rate": 2e-05,
408
+ "loss": 0.1689,
409
+ "step": 570
410
+ },
411
+ {
412
+ "epoch": 0.3176341730558598,
413
+ "grad_norm": 2.352689743041992,
414
+ "learning_rate": 2e-05,
415
+ "loss": 0.2196,
416
+ "step": 580
417
+ },
418
+ {
419
+ "epoch": 0.3231106243154436,
420
+ "grad_norm": 2.1512277126312256,
421
+ "learning_rate": 2e-05,
422
+ "loss": 0.2266,
423
+ "step": 590
424
+ },
425
+ {
426
+ "epoch": 0.32858707557502737,
427
+ "grad_norm": 3.3206424713134766,
428
+ "learning_rate": 2e-05,
429
+ "loss": 0.1837,
430
+ "step": 600
431
+ },
432
+ {
433
+ "epoch": 0.33406352683461116,
434
+ "grad_norm": 2.5991427898406982,
435
+ "learning_rate": 2e-05,
436
+ "loss": 0.1642,
437
+ "step": 610
438
+ },
439
+ {
440
+ "epoch": 0.33953997809419495,
441
+ "grad_norm": 4.06941032409668,
442
+ "learning_rate": 2e-05,
443
+ "loss": 0.1954,
444
+ "step": 620
445
+ },
446
+ {
447
+ "epoch": 0.34501642935377874,
448
+ "grad_norm": 2.006395101547241,
449
+ "learning_rate": 2e-05,
450
+ "loss": 0.1644,
451
+ "step": 630
452
+ },
453
+ {
454
+ "epoch": 0.35049288061336253,
455
+ "grad_norm": 2.333529233932495,
456
+ "learning_rate": 2e-05,
457
+ "loss": 0.1766,
458
+ "step": 640
459
+ },
460
+ {
461
+ "epoch": 0.3559693318729463,
462
+ "grad_norm": 1.8663638830184937,
463
+ "learning_rate": 2e-05,
464
+ "loss": 0.1427,
465
+ "step": 650
466
+ },
467
+ {
468
+ "epoch": 0.3614457831325301,
469
+ "grad_norm": 1.4063774347305298,
470
+ "learning_rate": 2e-05,
471
+ "loss": 0.1886,
472
+ "step": 660
473
+ },
474
+ {
475
+ "epoch": 0.3669222343921139,
476
+ "grad_norm": 2.3204855918884277,
477
+ "learning_rate": 2e-05,
478
+ "loss": 0.1794,
479
+ "step": 670
480
+ },
481
+ {
482
+ "epoch": 0.3723986856516977,
483
+ "grad_norm": 2.0688014030456543,
484
+ "learning_rate": 2e-05,
485
+ "loss": 0.1788,
486
+ "step": 680
487
+ },
488
+ {
489
+ "epoch": 0.3778751369112815,
490
+ "grad_norm": 2.9626317024230957,
491
+ "learning_rate": 2e-05,
492
+ "loss": 0.1931,
493
+ "step": 690
494
+ },
495
+ {
496
+ "epoch": 0.3833515881708653,
497
+ "grad_norm": 2.1686134338378906,
498
+ "learning_rate": 2e-05,
499
+ "loss": 0.1797,
500
+ "step": 700
501
+ },
502
+ {
503
+ "epoch": 0.3888280394304491,
504
+ "grad_norm": 3.220993995666504,
505
+ "learning_rate": 2e-05,
506
+ "loss": 0.2001,
507
+ "step": 710
508
+ },
509
+ {
510
+ "epoch": 0.39430449069003287,
511
+ "grad_norm": 4.387556076049805,
512
+ "learning_rate": 2e-05,
513
+ "loss": 0.1679,
514
+ "step": 720
515
+ },
516
+ {
517
+ "epoch": 0.39978094194961666,
518
+ "grad_norm": 6.711359024047852,
519
+ "learning_rate": 2e-05,
520
+ "loss": 0.1906,
521
+ "step": 730
522
+ },
523
+ {
524
+ "epoch": 0.40525739320920046,
525
+ "grad_norm": 2.8974344730377197,
526
+ "learning_rate": 2e-05,
527
+ "loss": 0.1842,
528
+ "step": 740
529
+ },
530
+ {
531
+ "epoch": 0.41073384446878425,
532
+ "grad_norm": 2.0242817401885986,
533
+ "learning_rate": 2e-05,
534
+ "loss": 0.1874,
535
+ "step": 750
536
+ },
537
+ {
538
+ "epoch": 0.41621029572836804,
539
+ "grad_norm": 2.71280574798584,
540
+ "learning_rate": 2e-05,
541
+ "loss": 0.1226,
542
+ "step": 760
543
+ },
544
+ {
545
+ "epoch": 0.42168674698795183,
546
+ "grad_norm": 2.318493604660034,
547
+ "learning_rate": 2e-05,
548
+ "loss": 0.2111,
549
+ "step": 770
550
+ },
551
+ {
552
+ "epoch": 0.42716319824753557,
553
+ "grad_norm": 4.267580509185791,
554
+ "learning_rate": 2e-05,
555
+ "loss": 0.2008,
556
+ "step": 780
557
+ },
558
+ {
559
+ "epoch": 0.43263964950711936,
560
+ "grad_norm": 2.4939076900482178,
561
+ "learning_rate": 2e-05,
562
+ "loss": 0.2053,
563
+ "step": 790
564
+ },
565
+ {
566
+ "epoch": 0.43811610076670315,
567
+ "grad_norm": 1.9013803005218506,
568
+ "learning_rate": 2e-05,
569
+ "loss": 0.1724,
570
+ "step": 800
571
+ },
572
+ {
573
+ "epoch": 0.44359255202628695,
574
+ "grad_norm": 3.4086337089538574,
575
+ "learning_rate": 2e-05,
576
+ "loss": 0.1688,
577
+ "step": 810
578
+ },
579
+ {
580
+ "epoch": 0.44906900328587074,
581
+ "grad_norm": 4.253098011016846,
582
+ "learning_rate": 2e-05,
583
+ "loss": 0.2092,
584
+ "step": 820
585
+ },
586
+ {
587
+ "epoch": 0.45454545454545453,
588
+ "grad_norm": 1.7755553722381592,
589
+ "learning_rate": 2e-05,
590
+ "loss": 0.1812,
591
+ "step": 830
592
+ },
593
+ {
594
+ "epoch": 0.4600219058050383,
595
+ "grad_norm": 1.562054991722107,
596
+ "learning_rate": 2e-05,
597
+ "loss": 0.2296,
598
+ "step": 840
599
+ },
600
+ {
601
+ "epoch": 0.4654983570646221,
602
+ "grad_norm": 1.4678446054458618,
603
+ "learning_rate": 2e-05,
604
+ "loss": 0.2006,
605
+ "step": 850
606
+ },
607
+ {
608
+ "epoch": 0.4709748083242059,
609
+ "grad_norm": 2.852142810821533,
610
+ "learning_rate": 2e-05,
611
+ "loss": 0.1763,
612
+ "step": 860
613
+ },
614
+ {
615
+ "epoch": 0.4764512595837897,
616
+ "grad_norm": 3.451470136642456,
617
+ "learning_rate": 2e-05,
618
+ "loss": 0.198,
619
+ "step": 870
620
+ },
621
+ {
622
+ "epoch": 0.4819277108433735,
623
+ "grad_norm": 4.738248348236084,
624
+ "learning_rate": 2e-05,
625
+ "loss": 0.1803,
626
+ "step": 880
627
+ },
628
+ {
629
+ "epoch": 0.4874041621029573,
630
+ "grad_norm": 2.169006824493408,
631
+ "learning_rate": 2e-05,
632
+ "loss": 0.1711,
633
+ "step": 890
634
+ },
635
+ {
636
+ "epoch": 0.4928806133625411,
637
+ "grad_norm": 6.985939979553223,
638
+ "learning_rate": 2e-05,
639
+ "loss": 0.1828,
640
+ "step": 900
641
+ },
642
+ {
643
+ "epoch": 0.49835706462212487,
644
+ "grad_norm": 3.6901047229766846,
645
+ "learning_rate": 2e-05,
646
+ "loss": 0.227,
647
+ "step": 910
648
+ },
649
+ {
650
+ "epoch": 0.5038335158817087,
651
+ "grad_norm": 4.057900428771973,
652
+ "learning_rate": 2e-05,
653
+ "loss": 0.181,
654
+ "step": 920
655
+ },
656
+ {
657
+ "epoch": 0.5093099671412924,
658
+ "grad_norm": 2.3261914253234863,
659
+ "learning_rate": 2e-05,
660
+ "loss": 0.2152,
661
+ "step": 930
662
+ },
663
+ {
664
+ "epoch": 0.5147864184008762,
665
+ "grad_norm": 2.459638833999634,
666
+ "learning_rate": 2e-05,
667
+ "loss": 0.2261,
668
+ "step": 940
669
+ },
670
+ {
671
+ "epoch": 0.52026286966046,
672
+ "grad_norm": 1.9431893825531006,
673
+ "learning_rate": 2e-05,
674
+ "loss": 0.1555,
675
+ "step": 950
676
+ },
677
+ {
678
+ "epoch": 0.5257393209200438,
679
+ "grad_norm": 2.213655710220337,
680
+ "learning_rate": 2e-05,
681
+ "loss": 0.1966,
682
+ "step": 960
683
+ },
684
+ {
685
+ "epoch": 0.5312157721796276,
686
+ "grad_norm": 3.0963807106018066,
687
+ "learning_rate": 2e-05,
688
+ "loss": 0.1672,
689
+ "step": 970
690
+ },
691
+ {
692
+ "epoch": 0.5366922234392114,
693
+ "grad_norm": 1.3352348804473877,
694
+ "learning_rate": 2e-05,
695
+ "loss": 0.1688,
696
+ "step": 980
697
+ },
698
+ {
699
+ "epoch": 0.5421686746987951,
700
+ "grad_norm": 4.130510330200195,
701
+ "learning_rate": 2e-05,
702
+ "loss": 0.2033,
703
+ "step": 990
704
+ },
705
+ {
706
+ "epoch": 0.547645125958379,
707
+ "grad_norm": 1.72730553150177,
708
+ "learning_rate": 2e-05,
709
+ "loss": 0.1883,
710
+ "step": 1000
711
+ },
712
+ {
713
+ "epoch": 0.5531215772179627,
714
+ "grad_norm": 2.0997588634490967,
715
+ "learning_rate": 2e-05,
716
+ "loss": 0.2085,
717
+ "step": 1010
718
+ },
719
+ {
720
+ "epoch": 0.5585980284775466,
721
+ "grad_norm": 1.9637783765792847,
722
+ "learning_rate": 2e-05,
723
+ "loss": 0.1787,
724
+ "step": 1020
725
+ },
726
+ {
727
+ "epoch": 0.5640744797371303,
728
+ "grad_norm": 5.923566818237305,
729
+ "learning_rate": 2e-05,
730
+ "loss": 0.179,
731
+ "step": 1030
732
+ },
733
+ {
734
+ "epoch": 0.5695509309967142,
735
+ "grad_norm": 2.0748746395111084,
736
+ "learning_rate": 2e-05,
737
+ "loss": 0.1937,
738
+ "step": 1040
739
+ },
740
+ {
741
+ "epoch": 0.5750273822562979,
742
+ "grad_norm": 3.298703193664551,
743
+ "learning_rate": 2e-05,
744
+ "loss": 0.1661,
745
+ "step": 1050
746
+ },
747
+ {
748
+ "epoch": 0.5805038335158818,
749
+ "grad_norm": 2.482518196105957,
750
+ "learning_rate": 2e-05,
751
+ "loss": 0.1767,
752
+ "step": 1060
753
+ },
754
+ {
755
+ "epoch": 0.5859802847754655,
756
+ "grad_norm": 1.430920124053955,
757
+ "learning_rate": 2e-05,
758
+ "loss": 0.1592,
759
+ "step": 1070
760
+ },
761
+ {
762
+ "epoch": 0.5914567360350493,
763
+ "grad_norm": 2.223555326461792,
764
+ "learning_rate": 2e-05,
765
+ "loss": 0.1623,
766
+ "step": 1080
767
+ },
768
+ {
769
+ "epoch": 0.5969331872946331,
770
+ "grad_norm": 3.7139480113983154,
771
+ "learning_rate": 2e-05,
772
+ "loss": 0.2036,
773
+ "step": 1090
774
+ },
775
+ {
776
+ "epoch": 0.6024096385542169,
777
+ "grad_norm": 2.7747836112976074,
778
+ "learning_rate": 2e-05,
779
+ "loss": 0.159,
780
+ "step": 1100
781
+ },
782
+ {
783
+ "epoch": 0.6078860898138007,
784
+ "grad_norm": 1.7586026191711426,
785
+ "learning_rate": 2e-05,
786
+ "loss": 0.1994,
787
+ "step": 1110
788
+ },
789
+ {
790
+ "epoch": 0.6133625410733844,
791
+ "grad_norm": 1.7416315078735352,
792
+ "learning_rate": 2e-05,
793
+ "loss": 0.1974,
794
+ "step": 1120
795
+ },
796
+ {
797
+ "epoch": 0.6188389923329682,
798
+ "grad_norm": 2.214825391769409,
799
+ "learning_rate": 2e-05,
800
+ "loss": 0.1584,
801
+ "step": 1130
802
+ },
803
+ {
804
+ "epoch": 0.624315443592552,
805
+ "grad_norm": 4.937350273132324,
806
+ "learning_rate": 2e-05,
807
+ "loss": 0.1751,
808
+ "step": 1140
809
+ },
810
+ {
811
+ "epoch": 0.6297918948521358,
812
+ "grad_norm": 2.918086290359497,
813
+ "learning_rate": 2e-05,
814
+ "loss": 0.1872,
815
+ "step": 1150
816
+ },
817
+ {
818
+ "epoch": 0.6352683461117196,
819
+ "grad_norm": 2.486037254333496,
820
+ "learning_rate": 2e-05,
821
+ "loss": 0.1769,
822
+ "step": 1160
823
+ },
824
+ {
825
+ "epoch": 0.6407447973713034,
826
+ "grad_norm": 1.8280752897262573,
827
+ "learning_rate": 2e-05,
828
+ "loss": 0.1948,
829
+ "step": 1170
830
+ },
831
+ {
832
+ "epoch": 0.6462212486308871,
833
+ "grad_norm": 2.8489694595336914,
834
+ "learning_rate": 2e-05,
835
+ "loss": 0.1598,
836
+ "step": 1180
837
+ },
838
+ {
839
+ "epoch": 0.651697699890471,
840
+ "grad_norm": 5.198742389678955,
841
+ "learning_rate": 2e-05,
842
+ "loss": 0.1503,
843
+ "step": 1190
844
+ },
845
+ {
846
+ "epoch": 0.6571741511500547,
847
+ "grad_norm": 4.022942066192627,
848
+ "learning_rate": 2e-05,
849
+ "loss": 0.1242,
850
+ "step": 1200
851
+ },
852
+ {
853
+ "epoch": 0.6626506024096386,
854
+ "grad_norm": 1.6303025484085083,
855
+ "learning_rate": 2e-05,
856
+ "loss": 0.1753,
857
+ "step": 1210
858
+ },
859
+ {
860
+ "epoch": 0.6681270536692223,
861
+ "grad_norm": 2.142221450805664,
862
+ "learning_rate": 2e-05,
863
+ "loss": 0.1933,
864
+ "step": 1220
865
+ },
866
+ {
867
+ "epoch": 0.6736035049288062,
868
+ "grad_norm": 1.7236963510513306,
869
+ "learning_rate": 2e-05,
870
+ "loss": 0.1632,
871
+ "step": 1230
872
+ },
873
+ {
874
+ "epoch": 0.6790799561883899,
875
+ "grad_norm": 6.54170560836792,
876
+ "learning_rate": 2e-05,
877
+ "loss": 0.1745,
878
+ "step": 1240
879
+ },
880
+ {
881
+ "epoch": 0.6845564074479737,
882
+ "grad_norm": 3.051344394683838,
883
+ "learning_rate": 2e-05,
884
+ "loss": 0.161,
885
+ "step": 1250
886
+ },
887
+ {
888
+ "epoch": 0.6900328587075575,
889
+ "grad_norm": 4.368143558502197,
890
+ "learning_rate": 2e-05,
891
+ "loss": 0.1686,
892
+ "step": 1260
893
+ },
894
+ {
895
+ "epoch": 0.6955093099671413,
896
+ "grad_norm": 2.810403347015381,
897
+ "learning_rate": 2e-05,
898
+ "loss": 0.1341,
899
+ "step": 1270
900
+ },
901
+ {
902
+ "epoch": 0.7009857612267251,
903
+ "grad_norm": 3.573010206222534,
904
+ "learning_rate": 2e-05,
905
+ "loss": 0.1888,
906
+ "step": 1280
907
+ },
908
+ {
909
+ "epoch": 0.7064622124863089,
910
+ "grad_norm": 3.028301954269409,
911
+ "learning_rate": 2e-05,
912
+ "loss": 0.1753,
913
+ "step": 1290
914
+ },
915
+ {
916
+ "epoch": 0.7119386637458927,
917
+ "grad_norm": 3.8532004356384277,
918
+ "learning_rate": 2e-05,
919
+ "loss": 0.1733,
920
+ "step": 1300
921
+ },
922
+ {
923
+ "epoch": 0.7174151150054765,
924
+ "grad_norm": 2.062229633331299,
925
+ "learning_rate": 2e-05,
926
+ "loss": 0.1533,
927
+ "step": 1310
928
+ },
929
+ {
930
+ "epoch": 0.7228915662650602,
931
+ "grad_norm": 3.278475284576416,
932
+ "learning_rate": 2e-05,
933
+ "loss": 0.157,
934
+ "step": 1320
935
+ },
936
+ {
937
+ "epoch": 0.7283680175246441,
938
+ "grad_norm": 2.650078058242798,
939
+ "learning_rate": 2e-05,
940
+ "loss": 0.168,
941
+ "step": 1330
942
+ },
943
+ {
944
+ "epoch": 0.7338444687842278,
945
+ "grad_norm": 3.017892360687256,
946
+ "learning_rate": 2e-05,
947
+ "loss": 0.2381,
948
+ "step": 1340
949
+ },
950
+ {
951
+ "epoch": 0.7393209200438116,
952
+ "grad_norm": 1.8926328420639038,
953
+ "learning_rate": 2e-05,
954
+ "loss": 0.1815,
955
+ "step": 1350
956
+ },
957
+ {
958
+ "epoch": 0.7447973713033954,
959
+ "grad_norm": 1.819949746131897,
960
+ "learning_rate": 2e-05,
961
+ "loss": 0.1387,
962
+ "step": 1360
963
+ },
964
+ {
965
+ "epoch": 0.7502738225629791,
966
+ "grad_norm": 1.5167309045791626,
967
+ "learning_rate": 2e-05,
968
+ "loss": 0.138,
969
+ "step": 1370
970
+ },
971
+ {
972
+ "epoch": 0.755750273822563,
973
+ "grad_norm": 2.128439426422119,
974
+ "learning_rate": 2e-05,
975
+ "loss": 0.1566,
976
+ "step": 1380
977
+ },
978
+ {
979
+ "epoch": 0.7612267250821467,
980
+ "grad_norm": 1.9905339479446411,
981
+ "learning_rate": 2e-05,
982
+ "loss": 0.1711,
983
+ "step": 1390
984
+ },
985
+ {
986
+ "epoch": 0.7667031763417306,
987
+ "grad_norm": 1.624918818473816,
988
+ "learning_rate": 2e-05,
989
+ "loss": 0.1614,
990
+ "step": 1400
991
+ },
992
+ {
993
+ "epoch": 0.7721796276013143,
994
+ "grad_norm": 2.2797772884368896,
995
+ "learning_rate": 2e-05,
996
+ "loss": 0.1839,
997
+ "step": 1410
998
+ },
999
+ {
1000
+ "epoch": 0.7776560788608982,
1001
+ "grad_norm": 1.8958566188812256,
1002
+ "learning_rate": 2e-05,
1003
+ "loss": 0.1609,
1004
+ "step": 1420
1005
+ },
1006
+ {
1007
+ "epoch": 0.7831325301204819,
1008
+ "grad_norm": 4.018071174621582,
1009
+ "learning_rate": 2e-05,
1010
+ "loss": 0.2153,
1011
+ "step": 1430
1012
+ },
1013
+ {
1014
+ "epoch": 0.7886089813800657,
1015
+ "grad_norm": 2.038041353225708,
1016
+ "learning_rate": 2e-05,
1017
+ "loss": 0.1576,
1018
+ "step": 1440
1019
+ },
1020
+ {
1021
+ "epoch": 0.7940854326396495,
1022
+ "grad_norm": 3.009593963623047,
1023
+ "learning_rate": 2e-05,
1024
+ "loss": 0.1448,
1025
+ "step": 1450
1026
+ },
1027
+ {
1028
+ "epoch": 0.7995618838992333,
1029
+ "grad_norm": 2.0207109451293945,
1030
+ "learning_rate": 2e-05,
1031
+ "loss": 0.1642,
1032
+ "step": 1460
1033
+ },
1034
+ {
1035
+ "epoch": 0.8050383351588171,
1036
+ "grad_norm": 1.9745655059814453,
1037
+ "learning_rate": 2e-05,
1038
+ "loss": 0.1499,
1039
+ "step": 1470
1040
+ },
1041
+ {
1042
+ "epoch": 0.8105147864184009,
1043
+ "grad_norm": 2.5017263889312744,
1044
+ "learning_rate": 2e-05,
1045
+ "loss": 0.1865,
1046
+ "step": 1480
1047
+ },
1048
+ {
1049
+ "epoch": 0.8159912376779846,
1050
+ "grad_norm": 3.3768310546875,
1051
+ "learning_rate": 2e-05,
1052
+ "loss": 0.1439,
1053
+ "step": 1490
1054
+ },
1055
+ {
1056
+ "epoch": 0.8214676889375685,
1057
+ "grad_norm": 1.90123450756073,
1058
+ "learning_rate": 2e-05,
1059
+ "loss": 0.1712,
1060
+ "step": 1500
1061
+ },
1062
+ {
1063
+ "epoch": 0.8269441401971522,
1064
+ "grad_norm": 1.7746949195861816,
1065
+ "learning_rate": 2e-05,
1066
+ "loss": 0.1712,
1067
+ "step": 1510
1068
+ },
1069
+ {
1070
+ "epoch": 0.8324205914567361,
1071
+ "grad_norm": 2.588888645172119,
1072
+ "learning_rate": 2e-05,
1073
+ "loss": 0.189,
1074
+ "step": 1520
1075
+ },
1076
+ {
1077
+ "epoch": 0.8378970427163198,
1078
+ "grad_norm": 3.115365743637085,
1079
+ "learning_rate": 2e-05,
1080
+ "loss": 0.1595,
1081
+ "step": 1530
1082
+ },
1083
+ {
1084
+ "epoch": 0.8433734939759037,
1085
+ "grad_norm": 1.9716410636901855,
1086
+ "learning_rate": 2e-05,
1087
+ "loss": 0.1639,
1088
+ "step": 1540
1089
+ },
1090
+ {
1091
+ "epoch": 0.8488499452354874,
1092
+ "grad_norm": 1.8997513055801392,
1093
+ "learning_rate": 2e-05,
1094
+ "loss": 0.1843,
1095
+ "step": 1550
1096
+ },
1097
+ {
1098
+ "epoch": 0.8543263964950711,
1099
+ "grad_norm": 1.860077142715454,
1100
+ "learning_rate": 2e-05,
1101
+ "loss": 0.1748,
1102
+ "step": 1560
1103
+ },
1104
+ {
1105
+ "epoch": 0.859802847754655,
1106
+ "grad_norm": 2.047376871109009,
1107
+ "learning_rate": 2e-05,
1108
+ "loss": 0.1548,
1109
+ "step": 1570
1110
+ },
1111
+ {
1112
+ "epoch": 0.8652792990142387,
1113
+ "grad_norm": 2.242220401763916,
1114
+ "learning_rate": 2e-05,
1115
+ "loss": 0.1897,
1116
+ "step": 1580
1117
+ },
1118
+ {
1119
+ "epoch": 0.8707557502738226,
1120
+ "grad_norm": 1.3936264514923096,
1121
+ "learning_rate": 2e-05,
1122
+ "loss": 0.1529,
1123
+ "step": 1590
1124
+ },
1125
+ {
1126
+ "epoch": 0.8762322015334063,
1127
+ "grad_norm": 1.3506709337234497,
1128
+ "learning_rate": 2e-05,
1129
+ "loss": 0.1635,
1130
+ "step": 1600
1131
+ },
1132
+ {
1133
+ "epoch": 0.8817086527929902,
1134
+ "grad_norm": 2.024489641189575,
1135
+ "learning_rate": 2e-05,
1136
+ "loss": 0.1751,
1137
+ "step": 1610
1138
+ },
1139
+ {
1140
+ "epoch": 0.8871851040525739,
1141
+ "grad_norm": 3.0132129192352295,
1142
+ "learning_rate": 2e-05,
1143
+ "loss": 0.1447,
1144
+ "step": 1620
1145
+ },
1146
+ {
1147
+ "epoch": 0.8926615553121577,
1148
+ "grad_norm": 1.4840929508209229,
1149
+ "learning_rate": 2e-05,
1150
+ "loss": 0.1668,
1151
+ "step": 1630
1152
+ },
1153
+ {
1154
+ "epoch": 0.8981380065717415,
1155
+ "grad_norm": 5.782477378845215,
1156
+ "learning_rate": 2e-05,
1157
+ "loss": 0.186,
1158
+ "step": 1640
1159
+ },
1160
+ {
1161
+ "epoch": 0.9036144578313253,
1162
+ "grad_norm": 3.7930588722229004,
1163
+ "learning_rate": 2e-05,
1164
+ "loss": 0.1477,
1165
+ "step": 1650
1166
+ },
1167
+ {
1168
+ "epoch": 0.9090909090909091,
1169
+ "grad_norm": 1.4280755519866943,
1170
+ "learning_rate": 2e-05,
1171
+ "loss": 0.1733,
1172
+ "step": 1660
1173
+ },
1174
+ {
1175
+ "epoch": 0.9145673603504929,
1176
+ "grad_norm": 3.5071022510528564,
1177
+ "learning_rate": 2e-05,
1178
+ "loss": 0.1771,
1179
+ "step": 1670
1180
+ },
1181
+ {
1182
+ "epoch": 0.9200438116100766,
1183
+ "grad_norm": 1.890026330947876,
1184
+ "learning_rate": 2e-05,
1185
+ "loss": 0.1807,
1186
+ "step": 1680
1187
+ },
1188
+ {
1189
+ "epoch": 0.9255202628696605,
1190
+ "grad_norm": 4.8093647956848145,
1191
+ "learning_rate": 2e-05,
1192
+ "loss": 0.1783,
1193
+ "step": 1690
1194
+ },
1195
+ {
1196
+ "epoch": 0.9309967141292442,
1197
+ "grad_norm": 3.141622304916382,
1198
+ "learning_rate": 2e-05,
1199
+ "loss": 0.1425,
1200
+ "step": 1700
1201
+ },
1202
+ {
1203
+ "epoch": 0.9364731653888281,
1204
+ "grad_norm": 1.4867947101593018,
1205
+ "learning_rate": 2e-05,
1206
+ "loss": 0.1549,
1207
+ "step": 1710
1208
+ },
1209
+ {
1210
+ "epoch": 0.9419496166484118,
1211
+ "grad_norm": 2.396588087081909,
1212
+ "learning_rate": 2e-05,
1213
+ "loss": 0.1459,
1214
+ "step": 1720
1215
+ },
1216
+ {
1217
+ "epoch": 0.9474260679079957,
1218
+ "grad_norm": 2.241640329360962,
1219
+ "learning_rate": 2e-05,
1220
+ "loss": 0.2159,
1221
+ "step": 1730
1222
+ },
1223
+ {
1224
+ "epoch": 0.9529025191675794,
1225
+ "grad_norm": 2.0894391536712646,
1226
+ "learning_rate": 2e-05,
1227
+ "loss": 0.1824,
1228
+ "step": 1740
1229
+ },
1230
+ {
1231
+ "epoch": 0.9583789704271632,
1232
+ "grad_norm": 2.195657253265381,
1233
+ "learning_rate": 2e-05,
1234
+ "loss": 0.1773,
1235
+ "step": 1750
1236
+ },
1237
+ {
1238
+ "epoch": 0.963855421686747,
1239
+ "grad_norm": 1.9088704586029053,
1240
+ "learning_rate": 2e-05,
1241
+ "loss": 0.1671,
1242
+ "step": 1760
1243
+ },
1244
+ {
1245
+ "epoch": 0.9693318729463308,
1246
+ "grad_norm": 2.40929913520813,
1247
+ "learning_rate": 2e-05,
1248
+ "loss": 0.1483,
1249
+ "step": 1770
1250
+ },
1251
+ {
1252
+ "epoch": 0.9748083242059146,
1253
+ "grad_norm": 2.1379597187042236,
1254
+ "learning_rate": 2e-05,
1255
+ "loss": 0.1651,
1256
+ "step": 1780
1257
+ },
1258
+ {
1259
+ "epoch": 0.9802847754654983,
1260
+ "grad_norm": 1.5753893852233887,
1261
+ "learning_rate": 2e-05,
1262
+ "loss": 0.1521,
1263
+ "step": 1790
1264
+ },
1265
+ {
1266
+ "epoch": 0.9857612267250822,
1267
+ "grad_norm": 1.7690379619598389,
1268
+ "learning_rate": 2e-05,
1269
+ "loss": 0.1685,
1270
+ "step": 1800
1271
+ },
1272
+ {
1273
+ "epoch": 0.9912376779846659,
1274
+ "grad_norm": 3.3368117809295654,
1275
+ "learning_rate": 2e-05,
1276
+ "loss": 0.1808,
1277
+ "step": 1810
1278
+ },
1279
+ {
1280
+ "epoch": 0.9967141292442497,
1281
+ "grad_norm": 2.3334920406341553,
1282
+ "learning_rate": 2e-05,
1283
+ "loss": 0.1687,
1284
+ "step": 1820
1285
+ },
1286
+ {
1287
+ "epoch": 1.0,
1288
+ "eval_accuracy": 0.9350717996050485,
1289
+ "eval_f1": 0.8531654843973757,
1290
+ "eval_loss": 0.16189317405223846,
1291
+ "eval_precision": 0.7893026050251876,
1292
+ "eval_recall": 0.9282724884500407,
1293
+ "eval_runtime": 19.8282,
1294
+ "eval_samples_per_second": 311.929,
1295
+ "eval_steps_per_second": 19.518,
1296
+ "step": 1826
1297
+ },
1298
+ {
1299
+ "epoch": 1.0021905805038336,
1300
+ "grad_norm": 3.1540722846984863,
1301
+ "learning_rate": 2e-05,
1302
+ "loss": 0.1989,
1303
+ "step": 1830
1304
+ },
1305
+ {
1306
+ "epoch": 1.0076670317634173,
1307
+ "grad_norm": 2.7038586139678955,
1308
+ "learning_rate": 2e-05,
1309
+ "loss": 0.1663,
1310
+ "step": 1840
1311
+ },
1312
+ {
1313
+ "epoch": 1.013143483023001,
1314
+ "grad_norm": 2.185299873352051,
1315
+ "learning_rate": 2e-05,
1316
+ "loss": 0.1469,
1317
+ "step": 1850
1318
+ },
1319
+ {
1320
+ "epoch": 1.0186199342825848,
1321
+ "grad_norm": 4.436729431152344,
1322
+ "learning_rate": 2e-05,
1323
+ "loss": 0.1658,
1324
+ "step": 1860
1325
+ },
1326
+ {
1327
+ "epoch": 1.0240963855421688,
1328
+ "grad_norm": 2.3837592601776123,
1329
+ "learning_rate": 2e-05,
1330
+ "loss": 0.1563,
1331
+ "step": 1870
1332
+ },
1333
+ {
1334
+ "epoch": 1.0295728368017525,
1335
+ "grad_norm": 1.6888504028320312,
1336
+ "learning_rate": 2e-05,
1337
+ "loss": 0.1705,
1338
+ "step": 1880
1339
+ },
1340
+ {
1341
+ "epoch": 1.0350492880613362,
1342
+ "grad_norm": 1.7870920896530151,
1343
+ "learning_rate": 2e-05,
1344
+ "loss": 0.1754,
1345
+ "step": 1890
1346
+ },
1347
+ {
1348
+ "epoch": 1.04052573932092,
1349
+ "grad_norm": 2.037872314453125,
1350
+ "learning_rate": 2e-05,
1351
+ "loss": 0.134,
1352
+ "step": 1900
1353
+ },
1354
+ {
1355
+ "epoch": 1.046002190580504,
1356
+ "grad_norm": 1.956781029701233,
1357
+ "learning_rate": 2e-05,
1358
+ "loss": 0.1525,
1359
+ "step": 1910
1360
+ },
1361
+ {
1362
+ "epoch": 1.0514786418400877,
1363
+ "grad_norm": 3.9054486751556396,
1364
+ "learning_rate": 2e-05,
1365
+ "loss": 0.1405,
1366
+ "step": 1920
1367
+ },
1368
+ {
1369
+ "epoch": 1.0569550930996714,
1370
+ "grad_norm": 3.2423737049102783,
1371
+ "learning_rate": 2e-05,
1372
+ "loss": 0.1304,
1373
+ "step": 1930
1374
+ },
1375
+ {
1376
+ "epoch": 1.0624315443592551,
1377
+ "grad_norm": 1.7311038970947266,
1378
+ "learning_rate": 2e-05,
1379
+ "loss": 0.1288,
1380
+ "step": 1940
1381
+ },
1382
+ {
1383
+ "epoch": 1.067907995618839,
1384
+ "grad_norm": 3.4807159900665283,
1385
+ "learning_rate": 2e-05,
1386
+ "loss": 0.1723,
1387
+ "step": 1950
1388
+ },
1389
+ {
1390
+ "epoch": 1.0733844468784228,
1391
+ "grad_norm": 1.2659446001052856,
1392
+ "learning_rate": 2e-05,
1393
+ "loss": 0.1674,
1394
+ "step": 1960
1395
+ },
1396
+ {
1397
+ "epoch": 1.0788608981380066,
1398
+ "grad_norm": 2.4274561405181885,
1399
+ "learning_rate": 2e-05,
1400
+ "loss": 0.1634,
1401
+ "step": 1970
1402
+ },
1403
+ {
1404
+ "epoch": 1.0843373493975903,
1405
+ "grad_norm": 1.1292122602462769,
1406
+ "learning_rate": 2e-05,
1407
+ "loss": 0.1579,
1408
+ "step": 1980
1409
+ },
1410
+ {
1411
+ "epoch": 1.0898138006571743,
1412
+ "grad_norm": 4.752586364746094,
1413
+ "learning_rate": 2e-05,
1414
+ "loss": 0.1267,
1415
+ "step": 1990
1416
+ },
1417
+ {
1418
+ "epoch": 1.095290251916758,
1419
+ "grad_norm": 4.907914161682129,
1420
+ "learning_rate": 2e-05,
1421
+ "loss": 0.1444,
1422
+ "step": 2000
1423
+ },
1424
+ {
1425
+ "epoch": 1.1007667031763417,
1426
+ "grad_norm": 1.4939802885055542,
1427
+ "learning_rate": 2e-05,
1428
+ "loss": 0.1763,
1429
+ "step": 2010
1430
+ },
1431
+ {
1432
+ "epoch": 1.1062431544359255,
1433
+ "grad_norm": 4.959670066833496,
1434
+ "learning_rate": 2e-05,
1435
+ "loss": 0.1581,
1436
+ "step": 2020
1437
+ },
1438
+ {
1439
+ "epoch": 1.1117196056955092,
1440
+ "grad_norm": 1.6166772842407227,
1441
+ "learning_rate": 2e-05,
1442
+ "loss": 0.1379,
1443
+ "step": 2030
1444
+ },
1445
+ {
1446
+ "epoch": 1.1171960569550932,
1447
+ "grad_norm": 1.21837317943573,
1448
+ "learning_rate": 2e-05,
1449
+ "loss": 0.1259,
1450
+ "step": 2040
1451
+ },
1452
+ {
1453
+ "epoch": 1.122672508214677,
1454
+ "grad_norm": 2.209987163543701,
1455
+ "learning_rate": 2e-05,
1456
+ "loss": 0.134,
1457
+ "step": 2050
1458
+ },
1459
+ {
1460
+ "epoch": 1.1281489594742606,
1461
+ "grad_norm": 2.8201191425323486,
1462
+ "learning_rate": 2e-05,
1463
+ "loss": 0.1391,
1464
+ "step": 2060
1465
+ },
1466
+ {
1467
+ "epoch": 1.1336254107338444,
1468
+ "grad_norm": 2.6724655628204346,
1469
+ "learning_rate": 2e-05,
1470
+ "loss": 0.1731,
1471
+ "step": 2070
1472
+ },
1473
+ {
1474
+ "epoch": 1.1391018619934283,
1475
+ "grad_norm": 3.112408399581909,
1476
+ "learning_rate": 2e-05,
1477
+ "loss": 0.1419,
1478
+ "step": 2080
1479
+ },
1480
+ {
1481
+ "epoch": 1.144578313253012,
1482
+ "grad_norm": 6.945749759674072,
1483
+ "learning_rate": 2e-05,
1484
+ "loss": 0.1673,
1485
+ "step": 2090
1486
+ },
1487
+ {
1488
+ "epoch": 1.1500547645125958,
1489
+ "grad_norm": 4.609986782073975,
1490
+ "learning_rate": 2e-05,
1491
+ "loss": 0.1118,
1492
+ "step": 2100
1493
+ },
1494
+ {
1495
+ "epoch": 1.1555312157721795,
1496
+ "grad_norm": 1.9280059337615967,
1497
+ "learning_rate": 2e-05,
1498
+ "loss": 0.1697,
1499
+ "step": 2110
1500
+ },
1501
+ {
1502
+ "epoch": 1.1610076670317635,
1503
+ "grad_norm": 2.8931400775909424,
1504
+ "learning_rate": 2e-05,
1505
+ "loss": 0.1794,
1506
+ "step": 2120
1507
+ },
1508
+ {
1509
+ "epoch": 1.1664841182913472,
1510
+ "grad_norm": 1.505615234375,
1511
+ "learning_rate": 2e-05,
1512
+ "loss": 0.1438,
1513
+ "step": 2130
1514
+ },
1515
+ {
1516
+ "epoch": 1.171960569550931,
1517
+ "grad_norm": 1.2091026306152344,
1518
+ "learning_rate": 2e-05,
1519
+ "loss": 0.1409,
1520
+ "step": 2140
1521
+ },
1522
+ {
1523
+ "epoch": 1.1774370208105147,
1524
+ "grad_norm": 5.640398025512695,
1525
+ "learning_rate": 2e-05,
1526
+ "loss": 0.1374,
1527
+ "step": 2150
1528
+ },
1529
+ {
1530
+ "epoch": 1.1829134720700987,
1531
+ "grad_norm": 1.9069983959197998,
1532
+ "learning_rate": 2e-05,
1533
+ "loss": 0.1333,
1534
+ "step": 2160
1535
+ },
1536
+ {
1537
+ "epoch": 1.1883899233296824,
1538
+ "grad_norm": 2.034888982772827,
1539
+ "learning_rate": 2e-05,
1540
+ "loss": 0.185,
1541
+ "step": 2170
1542
+ },
1543
+ {
1544
+ "epoch": 1.1938663745892661,
1545
+ "grad_norm": 1.780856728553772,
1546
+ "learning_rate": 2e-05,
1547
+ "loss": 0.1463,
1548
+ "step": 2180
1549
+ },
1550
+ {
1551
+ "epoch": 1.1993428258488499,
1552
+ "grad_norm": 3.035339593887329,
1553
+ "learning_rate": 2e-05,
1554
+ "loss": 0.1662,
1555
+ "step": 2190
1556
+ },
1557
+ {
1558
+ "epoch": 1.2048192771084336,
1559
+ "grad_norm": 2.7439584732055664,
1560
+ "learning_rate": 2e-05,
1561
+ "loss": 0.1481,
1562
+ "step": 2200
1563
+ },
1564
+ {
1565
+ "epoch": 1.2102957283680176,
1566
+ "grad_norm": 4.901017189025879,
1567
+ "learning_rate": 2e-05,
1568
+ "loss": 0.1641,
1569
+ "step": 2210
1570
+ },
1571
+ {
1572
+ "epoch": 1.2157721796276013,
1573
+ "grad_norm": 2.227445125579834,
1574
+ "learning_rate": 2e-05,
1575
+ "loss": 0.1582,
1576
+ "step": 2220
1577
+ },
1578
+ {
1579
+ "epoch": 1.221248630887185,
1580
+ "grad_norm": 2.1216564178466797,
1581
+ "learning_rate": 2e-05,
1582
+ "loss": 0.1554,
1583
+ "step": 2230
1584
+ },
1585
+ {
1586
+ "epoch": 1.226725082146769,
1587
+ "grad_norm": 1.2567392587661743,
1588
+ "learning_rate": 2e-05,
1589
+ "loss": 0.1683,
1590
+ "step": 2240
1591
+ },
1592
+ {
1593
+ "epoch": 1.2322015334063527,
1594
+ "grad_norm": 1.426159381866455,
1595
+ "learning_rate": 2e-05,
1596
+ "loss": 0.17,
1597
+ "step": 2250
1598
+ },
1599
+ {
1600
+ "epoch": 1.2376779846659365,
1601
+ "grad_norm": 1.435729742050171,
1602
+ "learning_rate": 2e-05,
1603
+ "loss": 0.1404,
1604
+ "step": 2260
1605
+ },
1606
+ {
1607
+ "epoch": 1.2431544359255202,
1608
+ "grad_norm": 5.743936538696289,
1609
+ "learning_rate": 2e-05,
1610
+ "loss": 0.1665,
1611
+ "step": 2270
1612
+ },
1613
+ {
1614
+ "epoch": 1.248630887185104,
1615
+ "grad_norm": 1.7799255847930908,
1616
+ "learning_rate": 2e-05,
1617
+ "loss": 0.1538,
1618
+ "step": 2280
1619
+ },
1620
+ {
1621
+ "epoch": 1.254107338444688,
1622
+ "grad_norm": 2.466597318649292,
1623
+ "learning_rate": 2e-05,
1624
+ "loss": 0.1038,
1625
+ "step": 2290
1626
+ },
1627
+ {
1628
+ "epoch": 1.2595837897042717,
1629
+ "grad_norm": 2.635021686553955,
1630
+ "learning_rate": 2e-05,
1631
+ "loss": 0.1613,
1632
+ "step": 2300
1633
+ },
1634
+ {
1635
+ "epoch": 1.2650602409638554,
1636
+ "grad_norm": 2.1053247451782227,
1637
+ "learning_rate": 2e-05,
1638
+ "loss": 0.1169,
1639
+ "step": 2310
1640
+ },
1641
+ {
1642
+ "epoch": 1.2705366922234393,
1643
+ "grad_norm": 2.312171459197998,
1644
+ "learning_rate": 2e-05,
1645
+ "loss": 0.1574,
1646
+ "step": 2320
1647
+ },
1648
+ {
1649
+ "epoch": 1.276013143483023,
1650
+ "grad_norm": 4.142621994018555,
1651
+ "learning_rate": 2e-05,
1652
+ "loss": 0.1568,
1653
+ "step": 2330
1654
+ },
1655
+ {
1656
+ "epoch": 1.2814895947426068,
1657
+ "grad_norm": 3.278440237045288,
1658
+ "learning_rate": 2e-05,
1659
+ "loss": 0.1758,
1660
+ "step": 2340
1661
+ },
1662
+ {
1663
+ "epoch": 1.2869660460021906,
1664
+ "grad_norm": 2.5266401767730713,
1665
+ "learning_rate": 2e-05,
1666
+ "loss": 0.177,
1667
+ "step": 2350
1668
+ },
1669
+ {
1670
+ "epoch": 1.2924424972617743,
1671
+ "grad_norm": 2.4267191886901855,
1672
+ "learning_rate": 2e-05,
1673
+ "loss": 0.1485,
1674
+ "step": 2360
1675
+ },
1676
+ {
1677
+ "epoch": 1.297918948521358,
1678
+ "grad_norm": 1.5584640502929688,
1679
+ "learning_rate": 2e-05,
1680
+ "loss": 0.1583,
1681
+ "step": 2370
1682
+ },
1683
+ {
1684
+ "epoch": 1.303395399780942,
1685
+ "grad_norm": 2.881457805633545,
1686
+ "learning_rate": 2e-05,
1687
+ "loss": 0.1515,
1688
+ "step": 2380
1689
+ },
1690
+ {
1691
+ "epoch": 1.3088718510405257,
1692
+ "grad_norm": 4.441954612731934,
1693
+ "learning_rate": 2e-05,
1694
+ "loss": 0.1414,
1695
+ "step": 2390
1696
+ },
1697
+ {
1698
+ "epoch": 1.3143483023001095,
1699
+ "grad_norm": 5.456357479095459,
1700
+ "learning_rate": 2e-05,
1701
+ "loss": 0.1685,
1702
+ "step": 2400
1703
+ },
1704
+ {
1705
+ "epoch": 1.3198247535596934,
1706
+ "grad_norm": 2.449070930480957,
1707
+ "learning_rate": 2e-05,
1708
+ "loss": 0.1445,
1709
+ "step": 2410
1710
+ },
1711
+ {
1712
+ "epoch": 1.3253012048192772,
1713
+ "grad_norm": 2.4937679767608643,
1714
+ "learning_rate": 2e-05,
1715
+ "loss": 0.1528,
1716
+ "step": 2420
1717
+ },
1718
+ {
1719
+ "epoch": 1.330777656078861,
1720
+ "grad_norm": 1.7794448137283325,
1721
+ "learning_rate": 2e-05,
1722
+ "loss": 0.1601,
1723
+ "step": 2430
1724
+ },
1725
+ {
1726
+ "epoch": 1.3362541073384446,
1727
+ "grad_norm": 1.795912265777588,
1728
+ "learning_rate": 2e-05,
1729
+ "loss": 0.1542,
1730
+ "step": 2440
1731
+ },
1732
+ {
1733
+ "epoch": 1.3417305585980284,
1734
+ "grad_norm": 1.772538661956787,
1735
+ "learning_rate": 2e-05,
1736
+ "loss": 0.1297,
1737
+ "step": 2450
1738
+ },
1739
+ {
1740
+ "epoch": 1.3472070098576123,
1741
+ "grad_norm": 1.0752304792404175,
1742
+ "learning_rate": 2e-05,
1743
+ "loss": 0.13,
1744
+ "step": 2460
1745
+ },
1746
+ {
1747
+ "epoch": 1.352683461117196,
1748
+ "grad_norm": 2.1968908309936523,
1749
+ "learning_rate": 2e-05,
1750
+ "loss": 0.1373,
1751
+ "step": 2470
1752
+ },
1753
+ {
1754
+ "epoch": 1.3581599123767798,
1755
+ "grad_norm": 0.7487109303474426,
1756
+ "learning_rate": 2e-05,
1757
+ "loss": 0.1646,
1758
+ "step": 2480
1759
+ },
1760
+ {
1761
+ "epoch": 1.3636363636363638,
1762
+ "grad_norm": 2.1781516075134277,
1763
+ "learning_rate": 2e-05,
1764
+ "loss": 0.1852,
1765
+ "step": 2490
1766
+ },
1767
+ {
1768
+ "epoch": 1.3691128148959475,
1769
+ "grad_norm": 1.8818821907043457,
1770
+ "learning_rate": 2e-05,
1771
+ "loss": 0.1481,
1772
+ "step": 2500
1773
+ },
1774
+ {
1775
+ "epoch": 1.3745892661555312,
1776
+ "grad_norm": 2.2098746299743652,
1777
+ "learning_rate": 2e-05,
1778
+ "loss": 0.1823,
1779
+ "step": 2510
1780
+ },
1781
+ {
1782
+ "epoch": 1.380065717415115,
1783
+ "grad_norm": 1.5912271738052368,
1784
+ "learning_rate": 2e-05,
1785
+ "loss": 0.1968,
1786
+ "step": 2520
1787
+ },
1788
+ {
1789
+ "epoch": 1.3855421686746987,
1790
+ "grad_norm": 1.1806056499481201,
1791
+ "learning_rate": 2e-05,
1792
+ "loss": 0.1677,
1793
+ "step": 2530
1794
+ },
1795
+ {
1796
+ "epoch": 1.3910186199342827,
1797
+ "grad_norm": 1.9674164056777954,
1798
+ "learning_rate": 2e-05,
1799
+ "loss": 0.1273,
1800
+ "step": 2540
1801
+ },
1802
+ {
1803
+ "epoch": 1.3964950711938664,
1804
+ "grad_norm": 4.151760578155518,
1805
+ "learning_rate": 2e-05,
1806
+ "loss": 0.1658,
1807
+ "step": 2550
1808
+ },
1809
+ {
1810
+ "epoch": 1.4019715224534501,
1811
+ "grad_norm": 1.8803857564926147,
1812
+ "learning_rate": 2e-05,
1813
+ "loss": 0.1466,
1814
+ "step": 2560
1815
+ },
1816
+ {
1817
+ "epoch": 1.4074479737130339,
1818
+ "grad_norm": 2.625727891921997,
1819
+ "learning_rate": 2e-05,
1820
+ "loss": 0.1298,
1821
+ "step": 2570
1822
+ },
1823
+ {
1824
+ "epoch": 1.4129244249726178,
1825
+ "grad_norm": 2.6431047916412354,
1826
+ "learning_rate": 2e-05,
1827
+ "loss": 0.1503,
1828
+ "step": 2580
1829
+ },
1830
+ {
1831
+ "epoch": 1.4184008762322016,
1832
+ "grad_norm": 4.68942928314209,
1833
+ "learning_rate": 2e-05,
1834
+ "loss": 0.1375,
1835
+ "step": 2590
1836
+ },
1837
+ {
1838
+ "epoch": 1.4238773274917853,
1839
+ "grad_norm": 2.73363995552063,
1840
+ "learning_rate": 2e-05,
1841
+ "loss": 0.1712,
1842
+ "step": 2600
1843
+ },
1844
+ {
1845
+ "epoch": 1.429353778751369,
1846
+ "grad_norm": 3.2278857231140137,
1847
+ "learning_rate": 2e-05,
1848
+ "loss": 0.1425,
1849
+ "step": 2610
1850
+ },
1851
+ {
1852
+ "epoch": 1.4348302300109528,
1853
+ "grad_norm": 3.2857725620269775,
1854
+ "learning_rate": 2e-05,
1855
+ "loss": 0.1111,
1856
+ "step": 2620
1857
+ },
1858
+ {
1859
+ "epoch": 1.4403066812705367,
1860
+ "grad_norm": 1.6636910438537598,
1861
+ "learning_rate": 2e-05,
1862
+ "loss": 0.1231,
1863
+ "step": 2630
1864
+ },
1865
+ {
1866
+ "epoch": 1.4457831325301205,
1867
+ "grad_norm": 1.7655991315841675,
1868
+ "learning_rate": 2e-05,
1869
+ "loss": 0.1526,
1870
+ "step": 2640
1871
+ },
1872
+ {
1873
+ "epoch": 1.4512595837897042,
1874
+ "grad_norm": 2.4831273555755615,
1875
+ "learning_rate": 2e-05,
1876
+ "loss": 0.1626,
1877
+ "step": 2650
1878
+ },
1879
+ {
1880
+ "epoch": 1.4567360350492882,
1881
+ "grad_norm": 1.5845210552215576,
1882
+ "learning_rate": 2e-05,
1883
+ "loss": 0.1471,
1884
+ "step": 2660
1885
+ },
1886
+ {
1887
+ "epoch": 1.462212486308872,
1888
+ "grad_norm": 2.035768985748291,
1889
+ "learning_rate": 2e-05,
1890
+ "loss": 0.1353,
1891
+ "step": 2670
1892
+ },
1893
+ {
1894
+ "epoch": 1.4676889375684556,
1895
+ "grad_norm": 3.0364644527435303,
1896
+ "learning_rate": 2e-05,
1897
+ "loss": 0.1534,
1898
+ "step": 2680
1899
+ },
1900
+ {
1901
+ "epoch": 1.4731653888280394,
1902
+ "grad_norm": 1.0436877012252808,
1903
+ "learning_rate": 2e-05,
1904
+ "loss": 0.1384,
1905
+ "step": 2690
1906
+ },
1907
+ {
1908
+ "epoch": 1.4786418400876231,
1909
+ "grad_norm": 3.814385175704956,
1910
+ "learning_rate": 2e-05,
1911
+ "loss": 0.1571,
1912
+ "step": 2700
1913
+ },
1914
+ {
1915
+ "epoch": 1.484118291347207,
1916
+ "grad_norm": 4.043318748474121,
1917
+ "learning_rate": 2e-05,
1918
+ "loss": 0.1408,
1919
+ "step": 2710
1920
+ },
1921
+ {
1922
+ "epoch": 1.4895947426067908,
1923
+ "grad_norm": 2.101560354232788,
1924
+ "learning_rate": 2e-05,
1925
+ "loss": 0.1506,
1926
+ "step": 2720
1927
+ },
1928
+ {
1929
+ "epoch": 1.4950711938663745,
1930
+ "grad_norm": 3.871284008026123,
1931
+ "learning_rate": 2e-05,
1932
+ "loss": 0.1598,
1933
+ "step": 2730
1934
+ },
1935
+ {
1936
+ "epoch": 1.5005476451259585,
1937
+ "grad_norm": 1.0195356607437134,
1938
+ "learning_rate": 2e-05,
1939
+ "loss": 0.1625,
1940
+ "step": 2740
1941
+ },
1942
+ {
1943
+ "epoch": 1.5060240963855422,
1944
+ "grad_norm": 2.7019972801208496,
1945
+ "learning_rate": 2e-05,
1946
+ "loss": 0.1396,
1947
+ "step": 2750
1948
+ },
1949
+ {
1950
+ "epoch": 1.511500547645126,
1951
+ "grad_norm": 3.040086269378662,
1952
+ "learning_rate": 2e-05,
1953
+ "loss": 0.1503,
1954
+ "step": 2760
1955
+ },
1956
+ {
1957
+ "epoch": 1.5169769989047097,
1958
+ "grad_norm": 1.6536140441894531,
1959
+ "learning_rate": 2e-05,
1960
+ "loss": 0.1424,
1961
+ "step": 2770
1962
+ },
1963
+ {
1964
+ "epoch": 1.5224534501642935,
1965
+ "grad_norm": 2.9479269981384277,
1966
+ "learning_rate": 2e-05,
1967
+ "loss": 0.1537,
1968
+ "step": 2780
1969
+ },
1970
+ {
1971
+ "epoch": 1.5279299014238772,
1972
+ "grad_norm": 2.638228416442871,
1973
+ "learning_rate": 2e-05,
1974
+ "loss": 0.1517,
1975
+ "step": 2790
1976
+ },
1977
+ {
1978
+ "epoch": 1.5334063526834611,
1979
+ "grad_norm": 1.5154801607131958,
1980
+ "learning_rate": 2e-05,
1981
+ "loss": 0.1627,
1982
+ "step": 2800
1983
+ },
1984
+ {
1985
+ "epoch": 1.5388828039430449,
1986
+ "grad_norm": 4.037379264831543,
1987
+ "learning_rate": 2e-05,
1988
+ "loss": 0.1788,
1989
+ "step": 2810
1990
+ },
1991
+ {
1992
+ "epoch": 1.5443592552026288,
1993
+ "grad_norm": 3.5345592498779297,
1994
+ "learning_rate": 2e-05,
1995
+ "loss": 0.1768,
1996
+ "step": 2820
1997
+ },
1998
+ {
1999
+ "epoch": 1.5498357064622126,
2000
+ "grad_norm": 3.8549864292144775,
2001
+ "learning_rate": 2e-05,
2002
+ "loss": 0.1721,
2003
+ "step": 2830
2004
+ },
2005
+ {
2006
+ "epoch": 1.5553121577217963,
2007
+ "grad_norm": 3.5247507095336914,
2008
+ "learning_rate": 2e-05,
2009
+ "loss": 0.1305,
2010
+ "step": 2840
2011
+ },
2012
+ {
2013
+ "epoch": 1.56078860898138,
2014
+ "grad_norm": 2.387272834777832,
2015
+ "learning_rate": 2e-05,
2016
+ "loss": 0.1234,
2017
+ "step": 2850
2018
+ },
2019
+ {
2020
+ "epoch": 1.5662650602409638,
2021
+ "grad_norm": 3.007579803466797,
2022
+ "learning_rate": 2e-05,
2023
+ "loss": 0.152,
2024
+ "step": 2860
2025
+ },
2026
+ {
2027
+ "epoch": 1.5717415115005475,
2028
+ "grad_norm": 1.0041784048080444,
2029
+ "learning_rate": 2e-05,
2030
+ "loss": 0.1489,
2031
+ "step": 2870
2032
+ },
2033
+ {
2034
+ "epoch": 1.5772179627601315,
2035
+ "grad_norm": 3.3091013431549072,
2036
+ "learning_rate": 2e-05,
2037
+ "loss": 0.14,
2038
+ "step": 2880
2039
+ },
2040
+ {
2041
+ "epoch": 1.5826944140197152,
2042
+ "grad_norm": 1.844616174697876,
2043
+ "learning_rate": 2e-05,
2044
+ "loss": 0.1721,
2045
+ "step": 2890
2046
+ },
2047
+ {
2048
+ "epoch": 1.588170865279299,
2049
+ "grad_norm": 3.9923973083496094,
2050
+ "learning_rate": 2e-05,
2051
+ "loss": 0.1546,
2052
+ "step": 2900
2053
+ },
2054
+ {
2055
+ "epoch": 1.593647316538883,
2056
+ "grad_norm": 2.3511135578155518,
2057
+ "learning_rate": 2e-05,
2058
+ "loss": 0.1477,
2059
+ "step": 2910
2060
+ },
2061
+ {
2062
+ "epoch": 1.5991237677984667,
2063
+ "grad_norm": 2.524749994277954,
2064
+ "learning_rate": 2e-05,
2065
+ "loss": 0.1613,
2066
+ "step": 2920
2067
+ },
2068
+ {
2069
+ "epoch": 1.6046002190580504,
2070
+ "grad_norm": 1.5530831813812256,
2071
+ "learning_rate": 2e-05,
2072
+ "loss": 0.1445,
2073
+ "step": 2930
2074
+ },
2075
+ {
2076
+ "epoch": 1.6100766703176341,
2077
+ "grad_norm": 1.8088948726654053,
2078
+ "learning_rate": 2e-05,
2079
+ "loss": 0.1446,
2080
+ "step": 2940
2081
+ },
2082
+ {
2083
+ "epoch": 1.6155531215772179,
2084
+ "grad_norm": 1.5274639129638672,
2085
+ "learning_rate": 2e-05,
2086
+ "loss": 0.1453,
2087
+ "step": 2950
2088
+ },
2089
+ {
2090
+ "epoch": 1.6210295728368016,
2091
+ "grad_norm": 2.369565963745117,
2092
+ "learning_rate": 2e-05,
2093
+ "loss": 0.1487,
2094
+ "step": 2960
2095
+ },
2096
+ {
2097
+ "epoch": 1.6265060240963856,
2098
+ "grad_norm": 2.4283454418182373,
2099
+ "learning_rate": 2e-05,
2100
+ "loss": 0.1522,
2101
+ "step": 2970
2102
+ },
2103
+ {
2104
+ "epoch": 1.6319824753559693,
2105
+ "grad_norm": 4.117255687713623,
2106
+ "learning_rate": 2e-05,
2107
+ "loss": 0.1523,
2108
+ "step": 2980
2109
+ },
2110
+ {
2111
+ "epoch": 1.6374589266155533,
2112
+ "grad_norm": 2.1403403282165527,
2113
+ "learning_rate": 2e-05,
2114
+ "loss": 0.1558,
2115
+ "step": 2990
2116
+ },
2117
+ {
2118
+ "epoch": 1.642935377875137,
2119
+ "grad_norm": 3.7226603031158447,
2120
+ "learning_rate": 2e-05,
2121
+ "loss": 0.1635,
2122
+ "step": 3000
2123
+ },
2124
+ {
2125
+ "epoch": 1.6484118291347207,
2126
+ "grad_norm": 3.3474371433258057,
2127
+ "learning_rate": 2e-05,
2128
+ "loss": 0.1543,
2129
+ "step": 3010
2130
+ },
2131
+ {
2132
+ "epoch": 1.6538882803943045,
2133
+ "grad_norm": 2.174217700958252,
2134
+ "learning_rate": 2e-05,
2135
+ "loss": 0.1474,
2136
+ "step": 3020
2137
+ },
2138
+ {
2139
+ "epoch": 1.6593647316538882,
2140
+ "grad_norm": 1.7523736953735352,
2141
+ "learning_rate": 2e-05,
2142
+ "loss": 0.1487,
2143
+ "step": 3030
2144
+ },
2145
+ {
2146
+ "epoch": 1.664841182913472,
2147
+ "grad_norm": 2.573213577270508,
2148
+ "learning_rate": 2e-05,
2149
+ "loss": 0.1566,
2150
+ "step": 3040
2151
+ },
2152
+ {
2153
+ "epoch": 1.670317634173056,
2154
+ "grad_norm": 1.8312263488769531,
2155
+ "learning_rate": 2e-05,
2156
+ "loss": 0.1524,
2157
+ "step": 3050
2158
+ },
2159
+ {
2160
+ "epoch": 1.6757940854326396,
2161
+ "grad_norm": 1.8972638845443726,
2162
+ "learning_rate": 2e-05,
2163
+ "loss": 0.1129,
2164
+ "step": 3060
2165
+ },
2166
+ {
2167
+ "epoch": 1.6812705366922236,
2168
+ "grad_norm": 2.2399697303771973,
2169
+ "learning_rate": 2e-05,
2170
+ "loss": 0.1569,
2171
+ "step": 3070
2172
+ },
2173
+ {
2174
+ "epoch": 1.6867469879518073,
2175
+ "grad_norm": 2.9116086959838867,
2176
+ "learning_rate": 2e-05,
2177
+ "loss": 0.1531,
2178
+ "step": 3080
2179
+ },
2180
+ {
2181
+ "epoch": 1.692223439211391,
2182
+ "grad_norm": 2.098607063293457,
2183
+ "learning_rate": 2e-05,
2184
+ "loss": 0.1378,
2185
+ "step": 3090
2186
+ },
2187
+ {
2188
+ "epoch": 1.6976998904709748,
2189
+ "grad_norm": 1.720107913017273,
2190
+ "learning_rate": 2e-05,
2191
+ "loss": 0.1554,
2192
+ "step": 3100
2193
+ },
2194
+ {
2195
+ "epoch": 1.7031763417305585,
2196
+ "grad_norm": 2.0600640773773193,
2197
+ "learning_rate": 2e-05,
2198
+ "loss": 0.1541,
2199
+ "step": 3110
2200
+ },
2201
+ {
2202
+ "epoch": 1.7086527929901423,
2203
+ "grad_norm": 2.0780065059661865,
2204
+ "learning_rate": 2e-05,
2205
+ "loss": 0.1551,
2206
+ "step": 3120
2207
+ },
2208
+ {
2209
+ "epoch": 1.714129244249726,
2210
+ "grad_norm": 1.9723634719848633,
2211
+ "learning_rate": 2e-05,
2212
+ "loss": 0.1168,
2213
+ "step": 3130
2214
+ },
2215
+ {
2216
+ "epoch": 1.71960569550931,
2217
+ "grad_norm": 6.4908552169799805,
2218
+ "learning_rate": 2e-05,
2219
+ "loss": 0.1157,
2220
+ "step": 3140
2221
+ },
2222
+ {
2223
+ "epoch": 1.7250821467688937,
2224
+ "grad_norm": 2.1401596069335938,
2225
+ "learning_rate": 2e-05,
2226
+ "loss": 0.1419,
2227
+ "step": 3150
2228
+ },
2229
+ {
2230
+ "epoch": 1.7305585980284777,
2231
+ "grad_norm": 1.883585810661316,
2232
+ "learning_rate": 2e-05,
2233
+ "loss": 0.1428,
2234
+ "step": 3160
2235
+ },
2236
+ {
2237
+ "epoch": 1.7360350492880614,
2238
+ "grad_norm": 2.2904489040374756,
2239
+ "learning_rate": 2e-05,
2240
+ "loss": 0.1382,
2241
+ "step": 3170
2242
+ },
2243
+ {
2244
+ "epoch": 1.7415115005476451,
2245
+ "grad_norm": 2.3025336265563965,
2246
+ "learning_rate": 2e-05,
2247
+ "loss": 0.2024,
2248
+ "step": 3180
2249
+ },
2250
+ {
2251
+ "epoch": 1.7469879518072289,
2252
+ "grad_norm": 1.5613994598388672,
2253
+ "learning_rate": 2e-05,
2254
+ "loss": 0.1696,
2255
+ "step": 3190
2256
+ },
2257
+ {
2258
+ "epoch": 1.7524644030668126,
2259
+ "grad_norm": 1.7806004285812378,
2260
+ "learning_rate": 2e-05,
2261
+ "loss": 0.1474,
2262
+ "step": 3200
2263
+ },
2264
+ {
2265
+ "epoch": 1.7579408543263964,
2266
+ "grad_norm": 2.04266095161438,
2267
+ "learning_rate": 2e-05,
2268
+ "loss": 0.1537,
2269
+ "step": 3210
2270
+ },
2271
+ {
2272
+ "epoch": 1.7634173055859803,
2273
+ "grad_norm": 3.345473527908325,
2274
+ "learning_rate": 2e-05,
2275
+ "loss": 0.1411,
2276
+ "step": 3220
2277
+ },
2278
+ {
2279
+ "epoch": 1.768893756845564,
2280
+ "grad_norm": 2.1662192344665527,
2281
+ "learning_rate": 2e-05,
2282
+ "loss": 0.1536,
2283
+ "step": 3230
2284
+ },
2285
+ {
2286
+ "epoch": 1.774370208105148,
2287
+ "grad_norm": 1.1458584070205688,
2288
+ "learning_rate": 2e-05,
2289
+ "loss": 0.1642,
2290
+ "step": 3240
2291
+ },
2292
+ {
2293
+ "epoch": 1.7798466593647317,
2294
+ "grad_norm": 4.288283824920654,
2295
+ "learning_rate": 2e-05,
2296
+ "loss": 0.1419,
2297
+ "step": 3250
2298
+ },
2299
+ {
2300
+ "epoch": 1.7853231106243155,
2301
+ "grad_norm": 3.2075963020324707,
2302
+ "learning_rate": 2e-05,
2303
+ "loss": 0.1667,
2304
+ "step": 3260
2305
+ },
2306
+ {
2307
+ "epoch": 1.7907995618838992,
2308
+ "grad_norm": 2.8897817134857178,
2309
+ "learning_rate": 2e-05,
2310
+ "loss": 0.1646,
2311
+ "step": 3270
2312
+ },
2313
+ {
2314
+ "epoch": 1.796276013143483,
2315
+ "grad_norm": 2.2969679832458496,
2316
+ "learning_rate": 2e-05,
2317
+ "loss": 0.1573,
2318
+ "step": 3280
2319
+ },
2320
+ {
2321
+ "epoch": 1.8017524644030667,
2322
+ "grad_norm": 3.1827869415283203,
2323
+ "learning_rate": 2e-05,
2324
+ "loss": 0.1366,
2325
+ "step": 3290
2326
+ },
2327
+ {
2328
+ "epoch": 1.8072289156626506,
2329
+ "grad_norm": 3.3078675270080566,
2330
+ "learning_rate": 2e-05,
2331
+ "loss": 0.1342,
2332
+ "step": 3300
2333
+ },
2334
+ {
2335
+ "epoch": 1.8127053669222344,
2336
+ "grad_norm": 0.969814658164978,
2337
+ "learning_rate": 2e-05,
2338
+ "loss": 0.1314,
2339
+ "step": 3310
2340
+ },
2341
+ {
2342
+ "epoch": 1.8181818181818183,
2343
+ "grad_norm": 1.9750161170959473,
2344
+ "learning_rate": 2e-05,
2345
+ "loss": 0.1398,
2346
+ "step": 3320
2347
+ },
2348
+ {
2349
+ "epoch": 1.823658269441402,
2350
+ "grad_norm": 2.6312105655670166,
2351
+ "learning_rate": 2e-05,
2352
+ "loss": 0.1271,
2353
+ "step": 3330
2354
+ },
2355
+ {
2356
+ "epoch": 1.8291347207009858,
2357
+ "grad_norm": 5.169326305389404,
2358
+ "learning_rate": 2e-05,
2359
+ "loss": 0.136,
2360
+ "step": 3340
2361
+ },
2362
+ {
2363
+ "epoch": 1.8346111719605696,
2364
+ "grad_norm": 4.923961639404297,
2365
+ "learning_rate": 2e-05,
2366
+ "loss": 0.1516,
2367
+ "step": 3350
2368
+ },
2369
+ {
2370
+ "epoch": 1.8400876232201533,
2371
+ "grad_norm": 1.6556754112243652,
2372
+ "learning_rate": 2e-05,
2373
+ "loss": 0.1577,
2374
+ "step": 3360
2375
+ },
2376
+ {
2377
+ "epoch": 1.845564074479737,
2378
+ "grad_norm": 3.2922916412353516,
2379
+ "learning_rate": 2e-05,
2380
+ "loss": 0.1508,
2381
+ "step": 3370
2382
+ },
2383
+ {
2384
+ "epoch": 1.8510405257393208,
2385
+ "grad_norm": 1.2395728826522827,
2386
+ "learning_rate": 2e-05,
2387
+ "loss": 0.149,
2388
+ "step": 3380
2389
+ },
2390
+ {
2391
+ "epoch": 1.8565169769989047,
2392
+ "grad_norm": 1.776043176651001,
2393
+ "learning_rate": 2e-05,
2394
+ "loss": 0.1762,
2395
+ "step": 3390
2396
+ },
2397
+ {
2398
+ "epoch": 1.8619934282584885,
2399
+ "grad_norm": 3.395716667175293,
2400
+ "learning_rate": 2e-05,
2401
+ "loss": 0.1709,
2402
+ "step": 3400
2403
+ },
2404
+ {
2405
+ "epoch": 1.8674698795180724,
2406
+ "grad_norm": 3.3589627742767334,
2407
+ "learning_rate": 2e-05,
2408
+ "loss": 0.1943,
2409
+ "step": 3410
2410
+ },
2411
+ {
2412
+ "epoch": 1.8729463307776562,
2413
+ "grad_norm": 1.2186440229415894,
2414
+ "learning_rate": 2e-05,
2415
+ "loss": 0.1607,
2416
+ "step": 3420
2417
+ },
2418
+ {
2419
+ "epoch": 1.87842278203724,
2420
+ "grad_norm": 1.260779857635498,
2421
+ "learning_rate": 2e-05,
2422
+ "loss": 0.1522,
2423
+ "step": 3430
2424
+ },
2425
+ {
2426
+ "epoch": 1.8838992332968236,
2427
+ "grad_norm": 2.699249267578125,
2428
+ "learning_rate": 2e-05,
2429
+ "loss": 0.1493,
2430
+ "step": 3440
2431
+ },
2432
+ {
2433
+ "epoch": 1.8893756845564074,
2434
+ "grad_norm": 1.9771623611450195,
2435
+ "learning_rate": 2e-05,
2436
+ "loss": 0.1485,
2437
+ "step": 3450
2438
+ },
2439
+ {
2440
+ "epoch": 1.894852135815991,
2441
+ "grad_norm": 2.270580768585205,
2442
+ "learning_rate": 2e-05,
2443
+ "loss": 0.1534,
2444
+ "step": 3460
2445
+ },
2446
+ {
2447
+ "epoch": 1.900328587075575,
2448
+ "grad_norm": 1.3207887411117554,
2449
+ "learning_rate": 2e-05,
2450
+ "loss": 0.1383,
2451
+ "step": 3470
2452
+ },
2453
+ {
2454
+ "epoch": 1.9058050383351588,
2455
+ "grad_norm": 26.00341796875,
2456
+ "learning_rate": 2e-05,
2457
+ "loss": 0.1685,
2458
+ "step": 3480
2459
+ },
2460
+ {
2461
+ "epoch": 1.9112814895947428,
2462
+ "grad_norm": 2.4248104095458984,
2463
+ "learning_rate": 2e-05,
2464
+ "loss": 0.1252,
2465
+ "step": 3490
2466
+ },
2467
+ {
2468
+ "epoch": 1.9167579408543265,
2469
+ "grad_norm": 3.160520315170288,
2470
+ "learning_rate": 2e-05,
2471
+ "loss": 0.1452,
2472
+ "step": 3500
2473
+ },
2474
+ {
2475
+ "epoch": 1.9222343921139102,
2476
+ "grad_norm": 2.528468608856201,
2477
+ "learning_rate": 2e-05,
2478
+ "loss": 0.1168,
2479
+ "step": 3510
2480
+ },
2481
+ {
2482
+ "epoch": 1.927710843373494,
2483
+ "grad_norm": 1.9054774045944214,
2484
+ "learning_rate": 2e-05,
2485
+ "loss": 0.1375,
2486
+ "step": 3520
2487
+ },
2488
+ {
2489
+ "epoch": 1.9331872946330777,
2490
+ "grad_norm": 3.4692299365997314,
2491
+ "learning_rate": 2e-05,
2492
+ "loss": 0.1652,
2493
+ "step": 3530
2494
+ },
2495
+ {
2496
+ "epoch": 1.9386637458926614,
2497
+ "grad_norm": 1.626815915107727,
2498
+ "learning_rate": 2e-05,
2499
+ "loss": 0.1231,
2500
+ "step": 3540
2501
+ },
2502
+ {
2503
+ "epoch": 1.9441401971522454,
2504
+ "grad_norm": 3.7855207920074463,
2505
+ "learning_rate": 2e-05,
2506
+ "loss": 0.1492,
2507
+ "step": 3550
2508
+ },
2509
+ {
2510
+ "epoch": 1.9496166484118291,
2511
+ "grad_norm": 1.1849123239517212,
2512
+ "learning_rate": 2e-05,
2513
+ "loss": 0.1594,
2514
+ "step": 3560
2515
+ },
2516
+ {
2517
+ "epoch": 1.9550930996714129,
2518
+ "grad_norm": 2.7899911403656006,
2519
+ "learning_rate": 2e-05,
2520
+ "loss": 0.1601,
2521
+ "step": 3570
2522
+ },
2523
+ {
2524
+ "epoch": 1.9605695509309968,
2525
+ "grad_norm": 1.963122010231018,
2526
+ "learning_rate": 2e-05,
2527
+ "loss": 0.1301,
2528
+ "step": 3580
2529
+ },
2530
+ {
2531
+ "epoch": 1.9660460021905806,
2532
+ "grad_norm": 1.8025850057601929,
2533
+ "learning_rate": 2e-05,
2534
+ "loss": 0.156,
2535
+ "step": 3590
2536
+ },
2537
+ {
2538
+ "epoch": 1.9715224534501643,
2539
+ "grad_norm": 1.5995118618011475,
2540
+ "learning_rate": 2e-05,
2541
+ "loss": 0.1348,
2542
+ "step": 3600
2543
+ },
2544
+ {
2545
+ "epoch": 1.976998904709748,
2546
+ "grad_norm": 1.159638524055481,
2547
+ "learning_rate": 2e-05,
2548
+ "loss": 0.1288,
2549
+ "step": 3610
2550
+ },
2551
+ {
2552
+ "epoch": 1.9824753559693318,
2553
+ "grad_norm": 1.3912004232406616,
2554
+ "learning_rate": 2e-05,
2555
+ "loss": 0.1161,
2556
+ "step": 3620
2557
+ },
2558
+ {
2559
+ "epoch": 1.9879518072289155,
2560
+ "grad_norm": 1.0395070314407349,
2561
+ "learning_rate": 2e-05,
2562
+ "loss": 0.1386,
2563
+ "step": 3630
2564
+ },
2565
+ {
2566
+ "epoch": 1.9934282584884995,
2567
+ "grad_norm": 1.532216191291809,
2568
+ "learning_rate": 2e-05,
2569
+ "loss": 0.1213,
2570
+ "step": 3640
2571
+ },
2572
+ {
2573
+ "epoch": 1.9989047097480832,
2574
+ "grad_norm": 1.4489120244979858,
2575
+ "learning_rate": 2e-05,
2576
+ "loss": 0.1123,
2577
+ "step": 3650
2578
+ },
2579
+ {
2580
+ "epoch": 2.0,
2581
+ "eval_accuracy": 0.941111445007298,
2582
+ "eval_f1": 0.8677761381181066,
2583
+ "eval_loss": 0.15645764768123627,
2584
+ "eval_precision": 0.819916825171669,
2585
+ "eval_recall": 0.9215689826977082,
2586
+ "eval_runtime": 19.7981,
2587
+ "eval_samples_per_second": 312.404,
2588
+ "eval_steps_per_second": 19.547,
2589
+ "step": 3652
2590
+ },
2591
+ {
2592
+ "epoch": 2.004381161007667,
2593
+ "grad_norm": 1.69236159324646,
2594
+ "learning_rate": 2e-05,
2595
+ "loss": 0.1479,
2596
+ "step": 3660
2597
+ },
2598
+ {
2599
+ "epoch": 2.009857612267251,
2600
+ "grad_norm": 3.8225982189178467,
2601
+ "learning_rate": 2e-05,
2602
+ "loss": 0.1477,
2603
+ "step": 3670
2604
+ },
2605
+ {
2606
+ "epoch": 2.0153340635268346,
2607
+ "grad_norm": 4.383903980255127,
2608
+ "learning_rate": 2e-05,
2609
+ "loss": 0.1094,
2610
+ "step": 3680
2611
+ },
2612
+ {
2613
+ "epoch": 2.0208105147864184,
2614
+ "grad_norm": 3.1119155883789062,
2615
+ "learning_rate": 2e-05,
2616
+ "loss": 0.1602,
2617
+ "step": 3690
2618
+ },
2619
+ {
2620
+ "epoch": 2.026286966046002,
2621
+ "grad_norm": 3.3700242042541504,
2622
+ "learning_rate": 2e-05,
2623
+ "loss": 0.1303,
2624
+ "step": 3700
2625
+ },
2626
+ {
2627
+ "epoch": 2.031763417305586,
2628
+ "grad_norm": 1.0470126867294312,
2629
+ "learning_rate": 2e-05,
2630
+ "loss": 0.1174,
2631
+ "step": 3710
2632
+ },
2633
+ {
2634
+ "epoch": 2.0372398685651696,
2635
+ "grad_norm": 2.912874698638916,
2636
+ "learning_rate": 2e-05,
2637
+ "loss": 0.1336,
2638
+ "step": 3720
2639
+ },
2640
+ {
2641
+ "epoch": 2.0427163198247538,
2642
+ "grad_norm": 0.8620438575744629,
2643
+ "learning_rate": 2e-05,
2644
+ "loss": 0.1112,
2645
+ "step": 3730
2646
+ },
2647
+ {
2648
+ "epoch": 2.0481927710843375,
2649
+ "grad_norm": 2.3170716762542725,
2650
+ "learning_rate": 2e-05,
2651
+ "loss": 0.1208,
2652
+ "step": 3740
2653
+ },
2654
+ {
2655
+ "epoch": 2.0536692223439212,
2656
+ "grad_norm": 1.4915480613708496,
2657
+ "learning_rate": 2e-05,
2658
+ "loss": 0.136,
2659
+ "step": 3750
2660
+ },
2661
+ {
2662
+ "epoch": 2.059145673603505,
2663
+ "grad_norm": 1.7329208850860596,
2664
+ "learning_rate": 2e-05,
2665
+ "loss": 0.1437,
2666
+ "step": 3760
2667
+ },
2668
+ {
2669
+ "epoch": 2.0646221248630887,
2670
+ "grad_norm": 1.5879555940628052,
2671
+ "learning_rate": 2e-05,
2672
+ "loss": 0.1338,
2673
+ "step": 3770
2674
+ },
2675
+ {
2676
+ "epoch": 2.0700985761226725,
2677
+ "grad_norm": 0.7418123483657837,
2678
+ "learning_rate": 2e-05,
2679
+ "loss": 0.1013,
2680
+ "step": 3780
2681
+ },
2682
+ {
2683
+ "epoch": 2.075575027382256,
2684
+ "grad_norm": 1.0119812488555908,
2685
+ "learning_rate": 2e-05,
2686
+ "loss": 0.0841,
2687
+ "step": 3790
2688
+ },
2689
+ {
2690
+ "epoch": 2.08105147864184,
2691
+ "grad_norm": 1.383432149887085,
2692
+ "learning_rate": 2e-05,
2693
+ "loss": 0.1212,
2694
+ "step": 3800
2695
+ },
2696
+ {
2697
+ "epoch": 2.0865279299014237,
2698
+ "grad_norm": 2.614387273788452,
2699
+ "learning_rate": 2e-05,
2700
+ "loss": 0.1228,
2701
+ "step": 3810
2702
+ },
2703
+ {
2704
+ "epoch": 2.092004381161008,
2705
+ "grad_norm": 2.6762051582336426,
2706
+ "learning_rate": 2e-05,
2707
+ "loss": 0.1491,
2708
+ "step": 3820
2709
+ },
2710
+ {
2711
+ "epoch": 2.0974808324205916,
2712
+ "grad_norm": 3.3792619705200195,
2713
+ "learning_rate": 2e-05,
2714
+ "loss": 0.1161,
2715
+ "step": 3830
2716
+ },
2717
+ {
2718
+ "epoch": 2.1029572836801753,
2719
+ "grad_norm": 2.690113067626953,
2720
+ "learning_rate": 2e-05,
2721
+ "loss": 0.1093,
2722
+ "step": 3840
2723
+ },
2724
+ {
2725
+ "epoch": 2.108433734939759,
2726
+ "grad_norm": 1.5759937763214111,
2727
+ "learning_rate": 2e-05,
2728
+ "loss": 0.1406,
2729
+ "step": 3850
2730
+ },
2731
+ {
2732
+ "epoch": 2.113910186199343,
2733
+ "grad_norm": 1.4909275770187378,
2734
+ "learning_rate": 2e-05,
2735
+ "loss": 0.1108,
2736
+ "step": 3860
2737
+ },
2738
+ {
2739
+ "epoch": 2.1193866374589265,
2740
+ "grad_norm": 2.6127500534057617,
2741
+ "learning_rate": 2e-05,
2742
+ "loss": 0.1269,
2743
+ "step": 3870
2744
+ },
2745
+ {
2746
+ "epoch": 2.1248630887185103,
2747
+ "grad_norm": 2.5836493968963623,
2748
+ "learning_rate": 2e-05,
2749
+ "loss": 0.1396,
2750
+ "step": 3880
2751
+ },
2752
+ {
2753
+ "epoch": 2.130339539978094,
2754
+ "grad_norm": 1.385608434677124,
2755
+ "learning_rate": 2e-05,
2756
+ "loss": 0.127,
2757
+ "step": 3890
2758
+ },
2759
+ {
2760
+ "epoch": 2.135815991237678,
2761
+ "grad_norm": 3.3218297958374023,
2762
+ "learning_rate": 2e-05,
2763
+ "loss": 0.1056,
2764
+ "step": 3900
2765
+ },
2766
+ {
2767
+ "epoch": 2.141292442497262,
2768
+ "grad_norm": 1.8507598638534546,
2769
+ "learning_rate": 2e-05,
2770
+ "loss": 0.1453,
2771
+ "step": 3910
2772
+ },
2773
+ {
2774
+ "epoch": 2.1467688937568457,
2775
+ "grad_norm": 3.654327630996704,
2776
+ "learning_rate": 2e-05,
2777
+ "loss": 0.122,
2778
+ "step": 3920
2779
+ },
2780
+ {
2781
+ "epoch": 2.1522453450164294,
2782
+ "grad_norm": 3.592478036880493,
2783
+ "learning_rate": 2e-05,
2784
+ "loss": 0.1245,
2785
+ "step": 3930
2786
+ },
2787
+ {
2788
+ "epoch": 2.157721796276013,
2789
+ "grad_norm": 3.7161383628845215,
2790
+ "learning_rate": 2e-05,
2791
+ "loss": 0.1126,
2792
+ "step": 3940
2793
+ },
2794
+ {
2795
+ "epoch": 2.163198247535597,
2796
+ "grad_norm": 2.2989351749420166,
2797
+ "learning_rate": 2e-05,
2798
+ "loss": 0.0944,
2799
+ "step": 3950
2800
+ },
2801
+ {
2802
+ "epoch": 2.1686746987951806,
2803
+ "grad_norm": 2.9460718631744385,
2804
+ "learning_rate": 2e-05,
2805
+ "loss": 0.126,
2806
+ "step": 3960
2807
+ },
2808
+ {
2809
+ "epoch": 2.1741511500547643,
2810
+ "grad_norm": 3.1067349910736084,
2811
+ "learning_rate": 2e-05,
2812
+ "loss": 0.1436,
2813
+ "step": 3970
2814
+ },
2815
+ {
2816
+ "epoch": 2.1796276013143485,
2817
+ "grad_norm": 2.155015230178833,
2818
+ "learning_rate": 2e-05,
2819
+ "loss": 0.1033,
2820
+ "step": 3980
2821
+ },
2822
+ {
2823
+ "epoch": 2.1851040525739323,
2824
+ "grad_norm": 2.9963104724884033,
2825
+ "learning_rate": 2e-05,
2826
+ "loss": 0.1443,
2827
+ "step": 3990
2828
+ },
2829
+ {
2830
+ "epoch": 2.190580503833516,
2831
+ "grad_norm": 1.293370246887207,
2832
+ "learning_rate": 2e-05,
2833
+ "loss": 0.1093,
2834
+ "step": 4000
2835
+ },
2836
+ {
2837
+ "epoch": 2.1960569550930997,
2838
+ "grad_norm": 1.3873592615127563,
2839
+ "learning_rate": 2e-05,
2840
+ "loss": 0.1139,
2841
+ "step": 4010
2842
+ },
2843
+ {
2844
+ "epoch": 2.2015334063526835,
2845
+ "grad_norm": 1.8804830312728882,
2846
+ "learning_rate": 2e-05,
2847
+ "loss": 0.1554,
2848
+ "step": 4020
2849
+ },
2850
+ {
2851
+ "epoch": 2.207009857612267,
2852
+ "grad_norm": 4.313164710998535,
2853
+ "learning_rate": 2e-05,
2854
+ "loss": 0.1129,
2855
+ "step": 4030
2856
+ },
2857
+ {
2858
+ "epoch": 2.212486308871851,
2859
+ "grad_norm": 2.9426050186157227,
2860
+ "learning_rate": 2e-05,
2861
+ "loss": 0.1334,
2862
+ "step": 4040
2863
+ },
2864
+ {
2865
+ "epoch": 2.2179627601314347,
2866
+ "grad_norm": 2.560018539428711,
2867
+ "learning_rate": 2e-05,
2868
+ "loss": 0.1492,
2869
+ "step": 4050
2870
+ },
2871
+ {
2872
+ "epoch": 2.2234392113910184,
2873
+ "grad_norm": 1.6301517486572266,
2874
+ "learning_rate": 2e-05,
2875
+ "loss": 0.1308,
2876
+ "step": 4060
2877
+ },
2878
+ {
2879
+ "epoch": 2.2289156626506026,
2880
+ "grad_norm": 1.1607255935668945,
2881
+ "learning_rate": 2e-05,
2882
+ "loss": 0.1374,
2883
+ "step": 4070
2884
+ },
2885
+ {
2886
+ "epoch": 2.2343921139101863,
2887
+ "grad_norm": 4.422305107116699,
2888
+ "learning_rate": 2e-05,
2889
+ "loss": 0.1375,
2890
+ "step": 4080
2891
+ },
2892
+ {
2893
+ "epoch": 2.23986856516977,
2894
+ "grad_norm": 3.9398353099823,
2895
+ "learning_rate": 2e-05,
2896
+ "loss": 0.1526,
2897
+ "step": 4090
2898
+ },
2899
+ {
2900
+ "epoch": 2.245345016429354,
2901
+ "grad_norm": 4.186077117919922,
2902
+ "learning_rate": 2e-05,
2903
+ "loss": 0.1117,
2904
+ "step": 4100
2905
+ },
2906
+ {
2907
+ "epoch": 2.2508214676889375,
2908
+ "grad_norm": 3.083814859390259,
2909
+ "learning_rate": 2e-05,
2910
+ "loss": 0.1273,
2911
+ "step": 4110
2912
+ },
2913
+ {
2914
+ "epoch": 2.2562979189485213,
2915
+ "grad_norm": 1.9174625873565674,
2916
+ "learning_rate": 2e-05,
2917
+ "loss": 0.1036,
2918
+ "step": 4120
2919
+ },
2920
+ {
2921
+ "epoch": 2.261774370208105,
2922
+ "grad_norm": 1.3200234174728394,
2923
+ "learning_rate": 2e-05,
2924
+ "loss": 0.1246,
2925
+ "step": 4130
2926
+ },
2927
+ {
2928
+ "epoch": 2.2672508214676887,
2929
+ "grad_norm": 1.504086971282959,
2930
+ "learning_rate": 2e-05,
2931
+ "loss": 0.0944,
2932
+ "step": 4140
2933
+ },
2934
+ {
2935
+ "epoch": 2.2727272727272725,
2936
+ "grad_norm": 2.5579471588134766,
2937
+ "learning_rate": 2e-05,
2938
+ "loss": 0.1242,
2939
+ "step": 4150
2940
+ },
2941
+ {
2942
+ "epoch": 2.2782037239868567,
2943
+ "grad_norm": 2.304062843322754,
2944
+ "learning_rate": 2e-05,
2945
+ "loss": 0.1543,
2946
+ "step": 4160
2947
+ },
2948
+ {
2949
+ "epoch": 2.2836801752464404,
2950
+ "grad_norm": 1.507938265800476,
2951
+ "learning_rate": 2e-05,
2952
+ "loss": 0.1277,
2953
+ "step": 4170
2954
+ },
2955
+ {
2956
+ "epoch": 2.289156626506024,
2957
+ "grad_norm": 4.3036346435546875,
2958
+ "learning_rate": 2e-05,
2959
+ "loss": 0.1311,
2960
+ "step": 4180
2961
+ },
2962
+ {
2963
+ "epoch": 2.294633077765608,
2964
+ "grad_norm": 1.80647873878479,
2965
+ "learning_rate": 2e-05,
2966
+ "loss": 0.1403,
2967
+ "step": 4190
2968
+ },
2969
+ {
2970
+ "epoch": 2.3001095290251916,
2971
+ "grad_norm": 2.770962715148926,
2972
+ "learning_rate": 2e-05,
2973
+ "loss": 0.1521,
2974
+ "step": 4200
2975
+ },
2976
+ {
2977
+ "epoch": 2.3055859802847753,
2978
+ "grad_norm": 2.768677234649658,
2979
+ "learning_rate": 2e-05,
2980
+ "loss": 0.1314,
2981
+ "step": 4210
2982
+ },
2983
+ {
2984
+ "epoch": 2.311062431544359,
2985
+ "grad_norm": 1.7572500705718994,
2986
+ "learning_rate": 2e-05,
2987
+ "loss": 0.122,
2988
+ "step": 4220
2989
+ },
2990
+ {
2991
+ "epoch": 2.3165388828039433,
2992
+ "grad_norm": 1.1709873676300049,
2993
+ "learning_rate": 2e-05,
2994
+ "loss": 0.1236,
2995
+ "step": 4230
2996
+ },
2997
+ {
2998
+ "epoch": 2.322015334063527,
2999
+ "grad_norm": 17.13128089904785,
3000
+ "learning_rate": 2e-05,
3001
+ "loss": 0.1509,
3002
+ "step": 4240
3003
+ },
3004
+ {
3005
+ "epoch": 2.3274917853231107,
3006
+ "grad_norm": 2.660583019256592,
3007
+ "learning_rate": 2e-05,
3008
+ "loss": 0.1326,
3009
+ "step": 4250
3010
+ },
3011
+ {
3012
+ "epoch": 2.3329682365826945,
3013
+ "grad_norm": 1.643479347229004,
3014
+ "learning_rate": 2e-05,
3015
+ "loss": 0.1179,
3016
+ "step": 4260
3017
+ },
3018
+ {
3019
+ "epoch": 2.338444687842278,
3020
+ "grad_norm": 6.019737720489502,
3021
+ "learning_rate": 2e-05,
3022
+ "loss": 0.0953,
3023
+ "step": 4270
3024
+ },
3025
+ {
3026
+ "epoch": 2.343921139101862,
3027
+ "grad_norm": 1.986523985862732,
3028
+ "learning_rate": 2e-05,
3029
+ "loss": 0.1048,
3030
+ "step": 4280
3031
+ },
3032
+ {
3033
+ "epoch": 2.3493975903614457,
3034
+ "grad_norm": 1.796851634979248,
3035
+ "learning_rate": 2e-05,
3036
+ "loss": 0.115,
3037
+ "step": 4290
3038
+ },
3039
+ {
3040
+ "epoch": 2.3548740416210294,
3041
+ "grad_norm": 1.2359439134597778,
3042
+ "learning_rate": 2e-05,
3043
+ "loss": 0.1174,
3044
+ "step": 4300
3045
+ },
3046
+ {
3047
+ "epoch": 2.360350492880613,
3048
+ "grad_norm": 3.057445526123047,
3049
+ "learning_rate": 2e-05,
3050
+ "loss": 0.1458,
3051
+ "step": 4310
3052
+ },
3053
+ {
3054
+ "epoch": 2.3658269441401973,
3055
+ "grad_norm": 1.0161036252975464,
3056
+ "learning_rate": 2e-05,
3057
+ "loss": 0.1437,
3058
+ "step": 4320
3059
+ },
3060
+ {
3061
+ "epoch": 2.371303395399781,
3062
+ "grad_norm": 1.2098288536071777,
3063
+ "learning_rate": 2e-05,
3064
+ "loss": 0.1379,
3065
+ "step": 4330
3066
+ },
3067
+ {
3068
+ "epoch": 2.376779846659365,
3069
+ "grad_norm": 1.4055923223495483,
3070
+ "learning_rate": 2e-05,
3071
+ "loss": 0.1199,
3072
+ "step": 4340
3073
+ },
3074
+ {
3075
+ "epoch": 2.3822562979189486,
3076
+ "grad_norm": 2.134941816329956,
3077
+ "learning_rate": 2e-05,
3078
+ "loss": 0.1303,
3079
+ "step": 4350
3080
+ },
3081
+ {
3082
+ "epoch": 2.3877327491785323,
3083
+ "grad_norm": 2.351625680923462,
3084
+ "learning_rate": 2e-05,
3085
+ "loss": 0.1278,
3086
+ "step": 4360
3087
+ },
3088
+ {
3089
+ "epoch": 2.393209200438116,
3090
+ "grad_norm": 3.273850679397583,
3091
+ "learning_rate": 2e-05,
3092
+ "loss": 0.11,
3093
+ "step": 4370
3094
+ },
3095
+ {
3096
+ "epoch": 2.3986856516976998,
3097
+ "grad_norm": 2.0896518230438232,
3098
+ "learning_rate": 2e-05,
3099
+ "loss": 0.1193,
3100
+ "step": 4380
3101
+ },
3102
+ {
3103
+ "epoch": 2.4041621029572835,
3104
+ "grad_norm": 3.240591287612915,
3105
+ "learning_rate": 2e-05,
3106
+ "loss": 0.139,
3107
+ "step": 4390
3108
+ },
3109
+ {
3110
+ "epoch": 2.4096385542168672,
3111
+ "grad_norm": 4.579762935638428,
3112
+ "learning_rate": 2e-05,
3113
+ "loss": 0.1417,
3114
+ "step": 4400
3115
+ },
3116
+ {
3117
+ "epoch": 2.4151150054764514,
3118
+ "grad_norm": 2.048832654953003,
3119
+ "learning_rate": 2e-05,
3120
+ "loss": 0.1176,
3121
+ "step": 4410
3122
+ },
3123
+ {
3124
+ "epoch": 2.420591456736035,
3125
+ "grad_norm": 1.8488651514053345,
3126
+ "learning_rate": 2e-05,
3127
+ "loss": 0.1408,
3128
+ "step": 4420
3129
+ },
3130
+ {
3131
+ "epoch": 2.426067907995619,
3132
+ "grad_norm": 1.4034713506698608,
3133
+ "learning_rate": 2e-05,
3134
+ "loss": 0.1246,
3135
+ "step": 4430
3136
+ },
3137
+ {
3138
+ "epoch": 2.4315443592552026,
3139
+ "grad_norm": 1.0171767473220825,
3140
+ "learning_rate": 2e-05,
3141
+ "loss": 0.1118,
3142
+ "step": 4440
3143
+ },
3144
+ {
3145
+ "epoch": 2.4370208105147864,
3146
+ "grad_norm": 4.190380573272705,
3147
+ "learning_rate": 2e-05,
3148
+ "loss": 0.1527,
3149
+ "step": 4450
3150
+ },
3151
+ {
3152
+ "epoch": 2.44249726177437,
3153
+ "grad_norm": 3.9857051372528076,
3154
+ "learning_rate": 2e-05,
3155
+ "loss": 0.1153,
3156
+ "step": 4460
3157
+ },
3158
+ {
3159
+ "epoch": 2.447973713033954,
3160
+ "grad_norm": 1.4358816146850586,
3161
+ "learning_rate": 2e-05,
3162
+ "loss": 0.0983,
3163
+ "step": 4470
3164
+ },
3165
+ {
3166
+ "epoch": 2.453450164293538,
3167
+ "grad_norm": 1.8944737911224365,
3168
+ "learning_rate": 2e-05,
3169
+ "loss": 0.1382,
3170
+ "step": 4480
3171
+ },
3172
+ {
3173
+ "epoch": 2.4589266155531218,
3174
+ "grad_norm": 1.8662302494049072,
3175
+ "learning_rate": 2e-05,
3176
+ "loss": 0.1564,
3177
+ "step": 4490
3178
+ },
3179
+ {
3180
+ "epoch": 2.4644030668127055,
3181
+ "grad_norm": 1.050307035446167,
3182
+ "learning_rate": 2e-05,
3183
+ "loss": 0.1111,
3184
+ "step": 4500
3185
+ },
3186
+ {
3187
+ "epoch": 2.4698795180722892,
3188
+ "grad_norm": 1.3058151006698608,
3189
+ "learning_rate": 2e-05,
3190
+ "loss": 0.1526,
3191
+ "step": 4510
3192
+ },
3193
+ {
3194
+ "epoch": 2.475355969331873,
3195
+ "grad_norm": 2.779019355773926,
3196
+ "learning_rate": 2e-05,
3197
+ "loss": 0.1013,
3198
+ "step": 4520
3199
+ },
3200
+ {
3201
+ "epoch": 2.4808324205914567,
3202
+ "grad_norm": 3.649847984313965,
3203
+ "learning_rate": 2e-05,
3204
+ "loss": 0.1039,
3205
+ "step": 4530
3206
+ },
3207
+ {
3208
+ "epoch": 2.4863088718510404,
3209
+ "grad_norm": 1.4723719358444214,
3210
+ "learning_rate": 2e-05,
3211
+ "loss": 0.1304,
3212
+ "step": 4540
3213
+ },
3214
+ {
3215
+ "epoch": 2.491785323110624,
3216
+ "grad_norm": 2.51281476020813,
3217
+ "learning_rate": 2e-05,
3218
+ "loss": 0.1067,
3219
+ "step": 4550
3220
+ },
3221
+ {
3222
+ "epoch": 2.497261774370208,
3223
+ "grad_norm": 3.2945971488952637,
3224
+ "learning_rate": 2e-05,
3225
+ "loss": 0.1354,
3226
+ "step": 4560
3227
+ },
3228
+ {
3229
+ "epoch": 2.502738225629792,
3230
+ "grad_norm": 3.16933536529541,
3231
+ "learning_rate": 2e-05,
3232
+ "loss": 0.127,
3233
+ "step": 4570
3234
+ },
3235
+ {
3236
+ "epoch": 2.508214676889376,
3237
+ "grad_norm": 1.2082220315933228,
3238
+ "learning_rate": 2e-05,
3239
+ "loss": 0.1296,
3240
+ "step": 4580
3241
+ },
3242
+ {
3243
+ "epoch": 2.5136911281489596,
3244
+ "grad_norm": 4.029638767242432,
3245
+ "learning_rate": 2e-05,
3246
+ "loss": 0.1363,
3247
+ "step": 4590
3248
+ },
3249
+ {
3250
+ "epoch": 2.5191675794085433,
3251
+ "grad_norm": 1.5362796783447266,
3252
+ "learning_rate": 2e-05,
3253
+ "loss": 0.1275,
3254
+ "step": 4600
3255
+ },
3256
+ {
3257
+ "epoch": 2.524644030668127,
3258
+ "grad_norm": 2.8110194206237793,
3259
+ "learning_rate": 2e-05,
3260
+ "loss": 0.1401,
3261
+ "step": 4610
3262
+ },
3263
+ {
3264
+ "epoch": 2.5301204819277108,
3265
+ "grad_norm": 1.6804673671722412,
3266
+ "learning_rate": 2e-05,
3267
+ "loss": 0.1448,
3268
+ "step": 4620
3269
+ },
3270
+ {
3271
+ "epoch": 2.5355969331872945,
3272
+ "grad_norm": 7.145838260650635,
3273
+ "learning_rate": 2e-05,
3274
+ "loss": 0.1305,
3275
+ "step": 4630
3276
+ },
3277
+ {
3278
+ "epoch": 2.5410733844468787,
3279
+ "grad_norm": 2.6446447372436523,
3280
+ "learning_rate": 2e-05,
3281
+ "loss": 0.1242,
3282
+ "step": 4640
3283
+ },
3284
+ {
3285
+ "epoch": 2.546549835706462,
3286
+ "grad_norm": 1.742530107498169,
3287
+ "learning_rate": 2e-05,
3288
+ "loss": 0.1151,
3289
+ "step": 4650
3290
+ },
3291
+ {
3292
+ "epoch": 2.552026286966046,
3293
+ "grad_norm": 2.4224681854248047,
3294
+ "learning_rate": 2e-05,
3295
+ "loss": 0.1499,
3296
+ "step": 4660
3297
+ },
3298
+ {
3299
+ "epoch": 2.55750273822563,
3300
+ "grad_norm": 2.849701404571533,
3301
+ "learning_rate": 2e-05,
3302
+ "loss": 0.1365,
3303
+ "step": 4670
3304
+ },
3305
+ {
3306
+ "epoch": 2.5629791894852136,
3307
+ "grad_norm": 5.31744384765625,
3308
+ "learning_rate": 2e-05,
3309
+ "loss": 0.1308,
3310
+ "step": 4680
3311
+ },
3312
+ {
3313
+ "epoch": 2.5684556407447974,
3314
+ "grad_norm": 1.5912376642227173,
3315
+ "learning_rate": 2e-05,
3316
+ "loss": 0.1551,
3317
+ "step": 4690
3318
+ },
3319
+ {
3320
+ "epoch": 2.573932092004381,
3321
+ "grad_norm": 1.0725617408752441,
3322
+ "learning_rate": 2e-05,
3323
+ "loss": 0.1279,
3324
+ "step": 4700
3325
+ },
3326
+ {
3327
+ "epoch": 2.579408543263965,
3328
+ "grad_norm": 3.9630486965179443,
3329
+ "learning_rate": 2e-05,
3330
+ "loss": 0.1158,
3331
+ "step": 4710
3332
+ },
3333
+ {
3334
+ "epoch": 2.5848849945235486,
3335
+ "grad_norm": 1.6319750547409058,
3336
+ "learning_rate": 2e-05,
3337
+ "loss": 0.1576,
3338
+ "step": 4720
3339
+ },
3340
+ {
3341
+ "epoch": 2.5903614457831328,
3342
+ "grad_norm": 4.792392253875732,
3343
+ "learning_rate": 2e-05,
3344
+ "loss": 0.1598,
3345
+ "step": 4730
3346
+ },
3347
+ {
3348
+ "epoch": 2.595837897042716,
3349
+ "grad_norm": 2.365724563598633,
3350
+ "learning_rate": 2e-05,
3351
+ "loss": 0.1189,
3352
+ "step": 4740
3353
+ },
3354
+ {
3355
+ "epoch": 2.6013143483023002,
3356
+ "grad_norm": 4.436146259307861,
3357
+ "learning_rate": 2e-05,
3358
+ "loss": 0.1286,
3359
+ "step": 4750
3360
+ },
3361
+ {
3362
+ "epoch": 2.606790799561884,
3363
+ "grad_norm": 1.227371096611023,
3364
+ "learning_rate": 2e-05,
3365
+ "loss": 0.1465,
3366
+ "step": 4760
3367
+ },
3368
+ {
3369
+ "epoch": 2.6122672508214677,
3370
+ "grad_norm": 1.3392515182495117,
3371
+ "learning_rate": 2e-05,
3372
+ "loss": 0.1305,
3373
+ "step": 4770
3374
+ },
3375
+ {
3376
+ "epoch": 2.6177437020810514,
3377
+ "grad_norm": 2.5968856811523438,
3378
+ "learning_rate": 2e-05,
3379
+ "loss": 0.1089,
3380
+ "step": 4780
3381
+ },
3382
+ {
3383
+ "epoch": 2.623220153340635,
3384
+ "grad_norm": 2.4093873500823975,
3385
+ "learning_rate": 2e-05,
3386
+ "loss": 0.139,
3387
+ "step": 4790
3388
+ },
3389
+ {
3390
+ "epoch": 2.628696604600219,
3391
+ "grad_norm": 2.9262475967407227,
3392
+ "learning_rate": 2e-05,
3393
+ "loss": 0.1138,
3394
+ "step": 4800
3395
+ },
3396
+ {
3397
+ "epoch": 2.6341730558598027,
3398
+ "grad_norm": 1.900516152381897,
3399
+ "learning_rate": 2e-05,
3400
+ "loss": 0.0951,
3401
+ "step": 4810
3402
+ },
3403
+ {
3404
+ "epoch": 2.639649507119387,
3405
+ "grad_norm": 1.9894856214523315,
3406
+ "learning_rate": 2e-05,
3407
+ "loss": 0.184,
3408
+ "step": 4820
3409
+ },
3410
+ {
3411
+ "epoch": 2.6451259583789706,
3412
+ "grad_norm": 0.8725138306617737,
3413
+ "learning_rate": 2e-05,
3414
+ "loss": 0.1043,
3415
+ "step": 4830
3416
+ },
3417
+ {
3418
+ "epoch": 2.6506024096385543,
3419
+ "grad_norm": 2.6368794441223145,
3420
+ "learning_rate": 2e-05,
3421
+ "loss": 0.1496,
3422
+ "step": 4840
3423
+ },
3424
+ {
3425
+ "epoch": 2.656078860898138,
3426
+ "grad_norm": 2.7605247497558594,
3427
+ "learning_rate": 2e-05,
3428
+ "loss": 0.1188,
3429
+ "step": 4850
3430
+ },
3431
+ {
3432
+ "epoch": 2.661555312157722,
3433
+ "grad_norm": 1.7536276578903198,
3434
+ "learning_rate": 2e-05,
3435
+ "loss": 0.12,
3436
+ "step": 4860
3437
+ },
3438
+ {
3439
+ "epoch": 2.6670317634173055,
3440
+ "grad_norm": 2.9888434410095215,
3441
+ "learning_rate": 2e-05,
3442
+ "loss": 0.1251,
3443
+ "step": 4870
3444
+ },
3445
+ {
3446
+ "epoch": 2.6725082146768893,
3447
+ "grad_norm": 2.501553535461426,
3448
+ "learning_rate": 2e-05,
3449
+ "loss": 0.1317,
3450
+ "step": 4880
3451
+ },
3452
+ {
3453
+ "epoch": 2.6779846659364734,
3454
+ "grad_norm": 3.2755653858184814,
3455
+ "learning_rate": 2e-05,
3456
+ "loss": 0.1431,
3457
+ "step": 4890
3458
+ },
3459
+ {
3460
+ "epoch": 2.6834611171960567,
3461
+ "grad_norm": 1.1044738292694092,
3462
+ "learning_rate": 2e-05,
3463
+ "loss": 0.1177,
3464
+ "step": 4900
3465
+ },
3466
+ {
3467
+ "epoch": 2.688937568455641,
3468
+ "grad_norm": 2.04195237159729,
3469
+ "learning_rate": 2e-05,
3470
+ "loss": 0.1385,
3471
+ "step": 4910
3472
+ },
3473
+ {
3474
+ "epoch": 2.6944140197152247,
3475
+ "grad_norm": 1.8423049449920654,
3476
+ "learning_rate": 2e-05,
3477
+ "loss": 0.1524,
3478
+ "step": 4920
3479
+ },
3480
+ {
3481
+ "epoch": 2.6998904709748084,
3482
+ "grad_norm": 3.017038345336914,
3483
+ "learning_rate": 2e-05,
3484
+ "loss": 0.1309,
3485
+ "step": 4930
3486
+ },
3487
+ {
3488
+ "epoch": 2.705366922234392,
3489
+ "grad_norm": 2.5917625427246094,
3490
+ "learning_rate": 2e-05,
3491
+ "loss": 0.0968,
3492
+ "step": 4940
3493
+ },
3494
+ {
3495
+ "epoch": 2.710843373493976,
3496
+ "grad_norm": 2.059396266937256,
3497
+ "learning_rate": 2e-05,
3498
+ "loss": 0.136,
3499
+ "step": 4950
3500
+ },
3501
+ {
3502
+ "epoch": 2.7163198247535596,
3503
+ "grad_norm": 2.7622623443603516,
3504
+ "learning_rate": 2e-05,
3505
+ "loss": 0.1344,
3506
+ "step": 4960
3507
+ },
3508
+ {
3509
+ "epoch": 2.7217962760131433,
3510
+ "grad_norm": 2.050316333770752,
3511
+ "learning_rate": 2e-05,
3512
+ "loss": 0.139,
3513
+ "step": 4970
3514
+ },
3515
+ {
3516
+ "epoch": 2.7272727272727275,
3517
+ "grad_norm": 2.0974202156066895,
3518
+ "learning_rate": 2e-05,
3519
+ "loss": 0.133,
3520
+ "step": 4980
3521
+ },
3522
+ {
3523
+ "epoch": 2.732749178532311,
3524
+ "grad_norm": 4.3153533935546875,
3525
+ "learning_rate": 2e-05,
3526
+ "loss": 0.1513,
3527
+ "step": 4990
3528
+ },
3529
+ {
3530
+ "epoch": 2.738225629791895,
3531
+ "grad_norm": 1.2816858291625977,
3532
+ "learning_rate": 2e-05,
3533
+ "loss": 0.1581,
3534
+ "step": 5000
3535
+ },
3536
+ {
3537
+ "epoch": 2.7437020810514787,
3538
+ "grad_norm": 3.44547176361084,
3539
+ "learning_rate": 2e-05,
3540
+ "loss": 0.1349,
3541
+ "step": 5010
3542
+ },
3543
+ {
3544
+ "epoch": 2.7491785323110625,
3545
+ "grad_norm": 1.2258213758468628,
3546
+ "learning_rate": 2e-05,
3547
+ "loss": 0.1412,
3548
+ "step": 5020
3549
+ },
3550
+ {
3551
+ "epoch": 2.754654983570646,
3552
+ "grad_norm": 2.301241159439087,
3553
+ "learning_rate": 2e-05,
3554
+ "loss": 0.1013,
3555
+ "step": 5030
3556
+ },
3557
+ {
3558
+ "epoch": 2.76013143483023,
3559
+ "grad_norm": 2.467775821685791,
3560
+ "learning_rate": 2e-05,
3561
+ "loss": 0.1501,
3562
+ "step": 5040
3563
+ },
3564
+ {
3565
+ "epoch": 2.7656078860898137,
3566
+ "grad_norm": 7.51368522644043,
3567
+ "learning_rate": 2e-05,
3568
+ "loss": 0.1378,
3569
+ "step": 5050
3570
+ },
3571
+ {
3572
+ "epoch": 2.7710843373493974,
3573
+ "grad_norm": 4.798404693603516,
3574
+ "learning_rate": 2e-05,
3575
+ "loss": 0.1305,
3576
+ "step": 5060
3577
+ },
3578
+ {
3579
+ "epoch": 2.7765607886089816,
3580
+ "grad_norm": 1.396974802017212,
3581
+ "learning_rate": 2e-05,
3582
+ "loss": 0.1043,
3583
+ "step": 5070
3584
+ },
3585
+ {
3586
+ "epoch": 2.7820372398685653,
3587
+ "grad_norm": 1.14879310131073,
3588
+ "learning_rate": 2e-05,
3589
+ "loss": 0.12,
3590
+ "step": 5080
3591
+ },
3592
+ {
3593
+ "epoch": 2.787513691128149,
3594
+ "grad_norm": 1.2579361200332642,
3595
+ "learning_rate": 2e-05,
3596
+ "loss": 0.1501,
3597
+ "step": 5090
3598
+ },
3599
+ {
3600
+ "epoch": 2.792990142387733,
3601
+ "grad_norm": 2.2348382472991943,
3602
+ "learning_rate": 2e-05,
3603
+ "loss": 0.157,
3604
+ "step": 5100
3605
+ },
3606
+ {
3607
+ "epoch": 2.7984665936473165,
3608
+ "grad_norm": 1.5609731674194336,
3609
+ "learning_rate": 2e-05,
3610
+ "loss": 0.135,
3611
+ "step": 5110
3612
+ },
3613
+ {
3614
+ "epoch": 2.8039430449069003,
3615
+ "grad_norm": 2.0120913982391357,
3616
+ "learning_rate": 2e-05,
3617
+ "loss": 0.1123,
3618
+ "step": 5120
3619
+ },
3620
+ {
3621
+ "epoch": 2.809419496166484,
3622
+ "grad_norm": 2.593989610671997,
3623
+ "learning_rate": 2e-05,
3624
+ "loss": 0.1142,
3625
+ "step": 5130
3626
+ },
3627
+ {
3628
+ "epoch": 2.8148959474260677,
3629
+ "grad_norm": 1.574157953262329,
3630
+ "learning_rate": 2e-05,
3631
+ "loss": 0.1701,
3632
+ "step": 5140
3633
+ },
3634
+ {
3635
+ "epoch": 2.8203723986856515,
3636
+ "grad_norm": 3.661393642425537,
3637
+ "learning_rate": 2e-05,
3638
+ "loss": 0.1311,
3639
+ "step": 5150
3640
+ },
3641
+ {
3642
+ "epoch": 2.8258488499452357,
3643
+ "grad_norm": 0.9907870888710022,
3644
+ "learning_rate": 2e-05,
3645
+ "loss": 0.1421,
3646
+ "step": 5160
3647
+ },
3648
+ {
3649
+ "epoch": 2.8313253012048194,
3650
+ "grad_norm": 2.06791615486145,
3651
+ "learning_rate": 2e-05,
3652
+ "loss": 0.1353,
3653
+ "step": 5170
3654
+ },
3655
+ {
3656
+ "epoch": 2.836801752464403,
3657
+ "grad_norm": 3.9285051822662354,
3658
+ "learning_rate": 2e-05,
3659
+ "loss": 0.1373,
3660
+ "step": 5180
3661
+ },
3662
+ {
3663
+ "epoch": 2.842278203723987,
3664
+ "grad_norm": 1.7791670560836792,
3665
+ "learning_rate": 2e-05,
3666
+ "loss": 0.1018,
3667
+ "step": 5190
3668
+ },
3669
+ {
3670
+ "epoch": 2.8477546549835706,
3671
+ "grad_norm": 1.8296700716018677,
3672
+ "learning_rate": 2e-05,
3673
+ "loss": 0.1247,
3674
+ "step": 5200
3675
+ },
3676
+ {
3677
+ "epoch": 2.8532311062431543,
3678
+ "grad_norm": 4.70639181137085,
3679
+ "learning_rate": 2e-05,
3680
+ "loss": 0.1314,
3681
+ "step": 5210
3682
+ },
3683
+ {
3684
+ "epoch": 2.858707557502738,
3685
+ "grad_norm": 2.3807830810546875,
3686
+ "learning_rate": 2e-05,
3687
+ "loss": 0.1356,
3688
+ "step": 5220
3689
+ },
3690
+ {
3691
+ "epoch": 2.8641840087623223,
3692
+ "grad_norm": 1.6014913320541382,
3693
+ "learning_rate": 2e-05,
3694
+ "loss": 0.1146,
3695
+ "step": 5230
3696
+ },
3697
+ {
3698
+ "epoch": 2.8696604600219056,
3699
+ "grad_norm": 1.8272550106048584,
3700
+ "learning_rate": 2e-05,
3701
+ "loss": 0.1183,
3702
+ "step": 5240
3703
+ },
3704
+ {
3705
+ "epoch": 2.8751369112814897,
3706
+ "grad_norm": 1.299852728843689,
3707
+ "learning_rate": 2e-05,
3708
+ "loss": 0.1405,
3709
+ "step": 5250
3710
+ },
3711
+ {
3712
+ "epoch": 2.8806133625410735,
3713
+ "grad_norm": 1.1718955039978027,
3714
+ "learning_rate": 2e-05,
3715
+ "loss": 0.1461,
3716
+ "step": 5260
3717
+ },
3718
+ {
3719
+ "epoch": 2.886089813800657,
3720
+ "grad_norm": 5.982026100158691,
3721
+ "learning_rate": 2e-05,
3722
+ "loss": 0.1539,
3723
+ "step": 5270
3724
+ },
3725
+ {
3726
+ "epoch": 2.891566265060241,
3727
+ "grad_norm": 3.6748552322387695,
3728
+ "learning_rate": 2e-05,
3729
+ "loss": 0.1164,
3730
+ "step": 5280
3731
+ },
3732
+ {
3733
+ "epoch": 2.8970427163198247,
3734
+ "grad_norm": 2.9227006435394287,
3735
+ "learning_rate": 2e-05,
3736
+ "loss": 0.1557,
3737
+ "step": 5290
3738
+ },
3739
+ {
3740
+ "epoch": 2.9025191675794084,
3741
+ "grad_norm": 1.4735232591629028,
3742
+ "learning_rate": 2e-05,
3743
+ "loss": 0.1168,
3744
+ "step": 5300
3745
+ },
3746
+ {
3747
+ "epoch": 2.907995618838992,
3748
+ "grad_norm": 3.212067127227783,
3749
+ "learning_rate": 2e-05,
3750
+ "loss": 0.1489,
3751
+ "step": 5310
3752
+ },
3753
+ {
3754
+ "epoch": 2.9134720700985763,
3755
+ "grad_norm": 1.4650025367736816,
3756
+ "learning_rate": 2e-05,
3757
+ "loss": 0.1131,
3758
+ "step": 5320
3759
+ },
3760
+ {
3761
+ "epoch": 2.91894852135816,
3762
+ "grad_norm": 4.302365779876709,
3763
+ "learning_rate": 2e-05,
3764
+ "loss": 0.1705,
3765
+ "step": 5330
3766
+ },
3767
+ {
3768
+ "epoch": 2.924424972617744,
3769
+ "grad_norm": 2.2288858890533447,
3770
+ "learning_rate": 2e-05,
3771
+ "loss": 0.1485,
3772
+ "step": 5340
3773
+ },
3774
+ {
3775
+ "epoch": 2.9299014238773275,
3776
+ "grad_norm": 1.019721508026123,
3777
+ "learning_rate": 2e-05,
3778
+ "loss": 0.1331,
3779
+ "step": 5350
3780
+ },
3781
+ {
3782
+ "epoch": 2.9353778751369113,
3783
+ "grad_norm": 2.5705177783966064,
3784
+ "learning_rate": 2e-05,
3785
+ "loss": 0.122,
3786
+ "step": 5360
3787
+ },
3788
+ {
3789
+ "epoch": 2.940854326396495,
3790
+ "grad_norm": 1.639599084854126,
3791
+ "learning_rate": 2e-05,
3792
+ "loss": 0.1218,
3793
+ "step": 5370
3794
+ },
3795
+ {
3796
+ "epoch": 2.9463307776560788,
3797
+ "grad_norm": 3.7570650577545166,
3798
+ "learning_rate": 2e-05,
3799
+ "loss": 0.1491,
3800
+ "step": 5380
3801
+ },
3802
+ {
3803
+ "epoch": 2.9518072289156625,
3804
+ "grad_norm": 3.499650716781616,
3805
+ "learning_rate": 2e-05,
3806
+ "loss": 0.1335,
3807
+ "step": 5390
3808
+ },
3809
+ {
3810
+ "epoch": 2.9572836801752462,
3811
+ "grad_norm": 2.9174211025238037,
3812
+ "learning_rate": 2e-05,
3813
+ "loss": 0.1468,
3814
+ "step": 5400
3815
+ },
3816
+ {
3817
+ "epoch": 2.9627601314348304,
3818
+ "grad_norm": 3.045962333679199,
3819
+ "learning_rate": 2e-05,
3820
+ "loss": 0.1283,
3821
+ "step": 5410
3822
+ },
3823
+ {
3824
+ "epoch": 2.968236582694414,
3825
+ "grad_norm": 2.5407910346984863,
3826
+ "learning_rate": 2e-05,
3827
+ "loss": 0.1171,
3828
+ "step": 5420
3829
+ },
3830
+ {
3831
+ "epoch": 2.973713033953998,
3832
+ "grad_norm": 2.07804274559021,
3833
+ "learning_rate": 2e-05,
3834
+ "loss": 0.1127,
3835
+ "step": 5430
3836
+ },
3837
+ {
3838
+ "epoch": 2.9791894852135816,
3839
+ "grad_norm": 2.2112016677856445,
3840
+ "learning_rate": 2e-05,
3841
+ "loss": 0.1249,
3842
+ "step": 5440
3843
+ },
3844
+ {
3845
+ "epoch": 2.9846659364731654,
3846
+ "grad_norm": 4.099008083343506,
3847
+ "learning_rate": 2e-05,
3848
+ "loss": 0.141,
3849
+ "step": 5450
3850
+ },
3851
+ {
3852
+ "epoch": 2.990142387732749,
3853
+ "grad_norm": 1.716291069984436,
3854
+ "learning_rate": 2e-05,
3855
+ "loss": 0.1102,
3856
+ "step": 5460
3857
+ },
3858
+ {
3859
+ "epoch": 2.995618838992333,
3860
+ "grad_norm": 3.4466896057128906,
3861
+ "learning_rate": 2e-05,
3862
+ "loss": 0.1283,
3863
+ "step": 5470
3864
+ }
3865
+ ],
3866
+ "logging_steps": 10,
3867
+ "max_steps": 5478,
3868
+ "num_input_tokens_seen": 0,
3869
+ "num_train_epochs": 3,
3870
+ "save_steps": 500,
3871
+ "stateful_callbacks": {
3872
+ "TrainerControl": {
3873
+ "args": {
3874
+ "should_epoch_stop": false,
3875
+ "should_evaluate": false,
3876
+ "should_log": false,
3877
+ "should_save": true,
3878
+ "should_training_stop": true
3879
+ },
3880
+ "attributes": {}
3881
+ }
3882
+ },
3883
+ "total_flos": 7443682033477008.0,
3884
+ "train_batch_size": 16,
3885
+ "trial_name": null,
3886
+ "trial_params": null
3887
+ }
checkpoint-5478/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c4db978d2252b87618631b5caad1b741d6991ec8ee053ec1cfdb52d9e04cd46e
3
+ size 5304
checkpoint-5478/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
runs/May12_13-57-39_f775cc786983/events.out.tfevents.1747058260.f775cc786983.1548.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:beabe5bae77f054272a3b51b79064a6ad63fdc746d187462ed85ac82d4267275
3
+ size 122298
runs/May12_13-57-39_f775cc786983/events.out.tfevents.1747059233.f775cc786983.1548.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:76e662fa79fa62a5327b8af85882aea1727b4bd26dff1b412603c85b2e58a0b8
3
+ size 560