DominicTWHV commited on
Commit
4730bdc
·
verified ·
1 Parent(s): 2efd830

Model upload

Browse files
config.json ADDED
@@ -0,0 +1,52 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "DebertaV2ForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 1,
7
+ "dtype": "float32",
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "id2label": {
13
+ "0": "LABEL_0",
14
+ "1": "LABEL_1",
15
+ "2": "LABEL_2",
16
+ "3": "LABEL_3"
17
+ },
18
+ "initializer_range": 0.02,
19
+ "intermediate_size": 3072,
20
+ "label2id": {
21
+ "LABEL_0": 0,
22
+ "LABEL_1": 1,
23
+ "LABEL_2": 2,
24
+ "LABEL_3": 3
25
+ },
26
+ "layer_norm_eps": 1e-07,
27
+ "legacy": true,
28
+ "max_position_embeddings": 512,
29
+ "max_relative_positions": -1,
30
+ "model_type": "deberta-v2",
31
+ "norm_rel_ebd": "layer_norm",
32
+ "num_attention_heads": 12,
33
+ "num_hidden_layers": 12,
34
+ "pad_token_id": 0,
35
+ "pooler_dropout": 0,
36
+ "pooler_hidden_act": "gelu",
37
+ "pooler_hidden_size": 768,
38
+ "pos_att_type": [
39
+ "p2c",
40
+ "c2p"
41
+ ],
42
+ "position_biased_input": false,
43
+ "position_buckets": 256,
44
+ "problem_type": "multi_label_classification",
45
+ "relative_attention": true,
46
+ "share_att_key": true,
47
+ "tie_word_embeddings": true,
48
+ "transformers_version": "5.1.0",
49
+ "type_vocab_size": 0,
50
+ "use_cache": false,
51
+ "vocab_size": 128100
52
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0b7f0cf9ba378b5b459fbe57101a27833ba67bd754ecc2f53597a2ea6f3c4e6a
3
+ size 737725408
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ac5a2318cb5cc89f98690dd8d9046fd5a205b4cb18f97db1d0582dcc95680328
3
+ size 1475570682
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ba7f7f687dc30519ec7e8cdb55e38be9e06deab118555e5a3b929f34adc7684
3
+ size 14244
scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e17baf6d9219c5a08d7ac5cda72e5b9a8823233175e63f12778c2a21f955f06a
3
+ size 988
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0ec795293513fdac88e6b6abecf1aaf8089cfb6bfc9ad777c34ffb30a2508c7f
3
+ size 1064
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": true,
3
+ "backend": "tokenizers",
4
+ "bos_token": "[CLS]",
5
+ "cls_token": "[CLS]",
6
+ "do_lower_case": false,
7
+ "eos_token": "[SEP]",
8
+ "extra_special_tokens": [
9
+ "[PAD]",
10
+ "[CLS]",
11
+ "[SEP]"
12
+ ],
13
+ "is_local": false,
14
+ "mask_token": "[MASK]",
15
+ "model_max_length": 1000000000000000019884624838656,
16
+ "pad_token": "[PAD]",
17
+ "sep_token": "[SEP]",
18
+ "split_by_punct": false,
19
+ "tokenizer_class": "DebertaV2Tokenizer",
20
+ "unk_id": 3,
21
+ "unk_token": "[UNK]",
22
+ "vocab_type": "spm"
23
+ }
trainer_state.json ADDED
@@ -0,0 +1,2888 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 4839,
3
+ "best_metric": 0.43726749573500223,
4
+ "best_model_checkpoint": "constellation_one_text/checkpoint-4839",
5
+ "epoch": 3.0,
6
+ "eval_steps": 500,
7
+ "global_step": 4839,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.00744301442084044,
14
+ "grad_norm": 16.79511070251465,
15
+ "learning_rate": 4.5454545454545457e-07,
16
+ "loss": 5.104981422424316,
17
+ "step": 12
18
+ },
19
+ {
20
+ "epoch": 0.01488602884168088,
21
+ "grad_norm": 14.2466402053833,
22
+ "learning_rate": 9.50413223140496e-07,
23
+ "loss": 4.855861345926921,
24
+ "step": 24
25
+ },
26
+ {
27
+ "epoch": 0.02232904326252132,
28
+ "grad_norm": 15.325632095336914,
29
+ "learning_rate": 1.4462809917355372e-06,
30
+ "loss": 4.62240473429362,
31
+ "step": 36
32
+ },
33
+ {
34
+ "epoch": 0.02977205768336176,
35
+ "grad_norm": 14.659135818481445,
36
+ "learning_rate": 1.9421487603305786e-06,
37
+ "loss": 4.279359499613444,
38
+ "step": 48
39
+ },
40
+ {
41
+ "epoch": 0.037215072104202204,
42
+ "grad_norm": 11.83539867401123,
43
+ "learning_rate": 2.43801652892562e-06,
44
+ "loss": 4.009869893391927,
45
+ "step": 60
46
+ },
47
+ {
48
+ "epoch": 0.04465808652504264,
49
+ "grad_norm": 12.459957122802734,
50
+ "learning_rate": 2.9338842975206615e-06,
51
+ "loss": 3.658400217692057,
52
+ "step": 72
53
+ },
54
+ {
55
+ "epoch": 0.052101100945883085,
56
+ "grad_norm": 10.960445404052734,
57
+ "learning_rate": 3.429752066115703e-06,
58
+ "loss": 3.3341188430786133,
59
+ "step": 84
60
+ },
61
+ {
62
+ "epoch": 0.05954411536672352,
63
+ "grad_norm": 10.394844055175781,
64
+ "learning_rate": 3.925619834710744e-06,
65
+ "loss": 2.9902642567952475,
66
+ "step": 96
67
+ },
68
+ {
69
+ "epoch": 0.06698712978756396,
70
+ "grad_norm": 10.080375671386719,
71
+ "learning_rate": 4.421487603305786e-06,
72
+ "loss": 2.7187296549479165,
73
+ "step": 108
74
+ },
75
+ {
76
+ "epoch": 0.07443014420840441,
77
+ "grad_norm": 11.83609676361084,
78
+ "learning_rate": 4.917355371900827e-06,
79
+ "loss": 2.4078760147094727,
80
+ "step": 120
81
+ },
82
+ {
83
+ "epoch": 0.08187315862924484,
84
+ "grad_norm": 20.040725708007812,
85
+ "learning_rate": 5.413223140495868e-06,
86
+ "loss": 2.1843010584513345,
87
+ "step": 132
88
+ },
89
+ {
90
+ "epoch": 0.08931617305008528,
91
+ "grad_norm": 10.70347785949707,
92
+ "learning_rate": 5.90909090909091e-06,
93
+ "loss": 1.9951588312784831,
94
+ "step": 144
95
+ },
96
+ {
97
+ "epoch": 0.09675918747092573,
98
+ "grad_norm": 13.84825611114502,
99
+ "learning_rate": 6.404958677685951e-06,
100
+ "loss": 1.7978707949320476,
101
+ "step": 156
102
+ },
103
+ {
104
+ "epoch": 0.10420220189176617,
105
+ "grad_norm": 8.921030044555664,
106
+ "learning_rate": 6.900826446280993e-06,
107
+ "loss": 1.6856780052185059,
108
+ "step": 168
109
+ },
110
+ {
111
+ "epoch": 0.1116452163126066,
112
+ "grad_norm": 7.919989585876465,
113
+ "learning_rate": 7.396694214876033e-06,
114
+ "loss": 1.497524897257487,
115
+ "step": 180
116
+ },
117
+ {
118
+ "epoch": 0.11908823073344704,
119
+ "grad_norm": 15.635968208312988,
120
+ "learning_rate": 7.892561983471076e-06,
121
+ "loss": 1.4976633389790852,
122
+ "step": 192
123
+ },
124
+ {
125
+ "epoch": 0.12653124515428749,
126
+ "grad_norm": 14.213494300842285,
127
+ "learning_rate": 8.388429752066116e-06,
128
+ "loss": 1.4405194918314617,
129
+ "step": 204
130
+ },
131
+ {
132
+ "epoch": 0.13397425957512793,
133
+ "grad_norm": 10.790483474731445,
134
+ "learning_rate": 8.884297520661158e-06,
135
+ "loss": 1.2696106433868408,
136
+ "step": 216
137
+ },
138
+ {
139
+ "epoch": 0.14141727399596837,
140
+ "grad_norm": 14.101875305175781,
141
+ "learning_rate": 9.3801652892562e-06,
142
+ "loss": 1.3300576210021973,
143
+ "step": 228
144
+ },
145
+ {
146
+ "epoch": 0.14886028841680882,
147
+ "grad_norm": 19.911815643310547,
148
+ "learning_rate": 9.876033057851241e-06,
149
+ "loss": 1.2497991720835369,
150
+ "step": 240
151
+ },
152
+ {
153
+ "epoch": 0.15630330283764926,
154
+ "grad_norm": 12.594736099243164,
155
+ "learning_rate": 1.0371900826446282e-05,
156
+ "loss": 1.20013427734375,
157
+ "step": 252
158
+ },
159
+ {
160
+ "epoch": 0.16374631725848968,
161
+ "grad_norm": 10.003790855407715,
162
+ "learning_rate": 1.0867768595041323e-05,
163
+ "loss": 1.1903626918792725,
164
+ "step": 264
165
+ },
166
+ {
167
+ "epoch": 0.17118933167933012,
168
+ "grad_norm": 19.644290924072266,
169
+ "learning_rate": 1.1363636363636366e-05,
170
+ "loss": 1.2084464232126872,
171
+ "step": 276
172
+ },
173
+ {
174
+ "epoch": 0.17863234610017056,
175
+ "grad_norm": 12.33438777923584,
176
+ "learning_rate": 1.1859504132231406e-05,
177
+ "loss": 1.1396081447601318,
178
+ "step": 288
179
+ },
180
+ {
181
+ "epoch": 0.186075360521011,
182
+ "grad_norm": 7.845709800720215,
183
+ "learning_rate": 1.2355371900826447e-05,
184
+ "loss": 1.0346049467722576,
185
+ "step": 300
186
+ },
187
+ {
188
+ "epoch": 0.19351837494185145,
189
+ "grad_norm": 12.355867385864258,
190
+ "learning_rate": 1.2851239669421488e-05,
191
+ "loss": 1.0486024220784504,
192
+ "step": 312
193
+ },
194
+ {
195
+ "epoch": 0.2009613893626919,
196
+ "grad_norm": 9.542502403259277,
197
+ "learning_rate": 1.3347107438016531e-05,
198
+ "loss": 1.1321392059326172,
199
+ "step": 324
200
+ },
201
+ {
202
+ "epoch": 0.20840440378353234,
203
+ "grad_norm": 171.94647216796875,
204
+ "learning_rate": 1.384297520661157e-05,
205
+ "loss": 0.9731620152791342,
206
+ "step": 336
207
+ },
208
+ {
209
+ "epoch": 0.21584741820437278,
210
+ "grad_norm": 14.012189865112305,
211
+ "learning_rate": 1.4338842975206612e-05,
212
+ "loss": 0.9310257434844971,
213
+ "step": 348
214
+ },
215
+ {
216
+ "epoch": 0.2232904326252132,
217
+ "grad_norm": 17.743682861328125,
218
+ "learning_rate": 1.4834710743801655e-05,
219
+ "loss": 0.9263285795847574,
220
+ "step": 360
221
+ },
222
+ {
223
+ "epoch": 0.23073344704605364,
224
+ "grad_norm": 29.65188217163086,
225
+ "learning_rate": 1.5330578512396693e-05,
226
+ "loss": 1.0049312114715576,
227
+ "step": 372
228
+ },
229
+ {
230
+ "epoch": 0.23817646146689408,
231
+ "grad_norm": 16.46782684326172,
232
+ "learning_rate": 1.5826446280991736e-05,
233
+ "loss": 1.078270673751831,
234
+ "step": 384
235
+ },
236
+ {
237
+ "epoch": 0.24561947588773453,
238
+ "grad_norm": 15.282443046569824,
239
+ "learning_rate": 1.632231404958678e-05,
240
+ "loss": 0.9908095200856527,
241
+ "step": 396
242
+ },
243
+ {
244
+ "epoch": 0.25306249030857497,
245
+ "grad_norm": 7.152077674865723,
246
+ "learning_rate": 1.681818181818182e-05,
247
+ "loss": 0.8867685794830322,
248
+ "step": 408
249
+ },
250
+ {
251
+ "epoch": 0.2605055047294154,
252
+ "grad_norm": 17.630233764648438,
253
+ "learning_rate": 1.731404958677686e-05,
254
+ "loss": 0.8261091709136963,
255
+ "step": 420
256
+ },
257
+ {
258
+ "epoch": 0.26794851915025586,
259
+ "grad_norm": 8.756381034851074,
260
+ "learning_rate": 1.78099173553719e-05,
261
+ "loss": 0.8141599496205648,
262
+ "step": 432
263
+ },
264
+ {
265
+ "epoch": 0.2753915335710963,
266
+ "grad_norm": 14.227313041687012,
267
+ "learning_rate": 1.8305785123966944e-05,
268
+ "loss": 0.8025492032368978,
269
+ "step": 444
270
+ },
271
+ {
272
+ "epoch": 0.28283454799193675,
273
+ "grad_norm": 6.028214931488037,
274
+ "learning_rate": 1.8801652892561987e-05,
275
+ "loss": 0.827876885732015,
276
+ "step": 456
277
+ },
278
+ {
279
+ "epoch": 0.2902775624127772,
280
+ "grad_norm": 9.791404724121094,
281
+ "learning_rate": 1.9297520661157026e-05,
282
+ "loss": 0.8186439673105875,
283
+ "step": 468
284
+ },
285
+ {
286
+ "epoch": 0.29772057683361763,
287
+ "grad_norm": 19.028491973876953,
288
+ "learning_rate": 1.9793388429752066e-05,
289
+ "loss": 0.8027651309967041,
290
+ "step": 480
291
+ },
292
+ {
293
+ "epoch": 0.3051635912544581,
294
+ "grad_norm": 5.418436527252197,
295
+ "learning_rate": 1.996785304247991e-05,
296
+ "loss": 0.7800490061442057,
297
+ "step": 492
298
+ },
299
+ {
300
+ "epoch": 0.3126066056752985,
301
+ "grad_norm": 7.598865985870361,
302
+ "learning_rate": 1.9912743972445466e-05,
303
+ "loss": 0.7126566569010416,
304
+ "step": 504
305
+ },
306
+ {
307
+ "epoch": 0.3200496200961389,
308
+ "grad_norm": 7.867424011230469,
309
+ "learning_rate": 1.9857634902411024e-05,
310
+ "loss": 0.6536041895548502,
311
+ "step": 516
312
+ },
313
+ {
314
+ "epoch": 0.32749263451697935,
315
+ "grad_norm": 10.367350578308105,
316
+ "learning_rate": 1.980252583237658e-05,
317
+ "loss": 0.8624240557352701,
318
+ "step": 528
319
+ },
320
+ {
321
+ "epoch": 0.3349356489378198,
322
+ "grad_norm": 6.30031681060791,
323
+ "learning_rate": 1.9747416762342138e-05,
324
+ "loss": 0.8412895202636719,
325
+ "step": 540
326
+ },
327
+ {
328
+ "epoch": 0.34237866335866024,
329
+ "grad_norm": 15.809948921203613,
330
+ "learning_rate": 1.9692307692307696e-05,
331
+ "loss": 0.7370687325795492,
332
+ "step": 552
333
+ },
334
+ {
335
+ "epoch": 0.3498216777795007,
336
+ "grad_norm": 6.0920491218566895,
337
+ "learning_rate": 1.963719862227325e-05,
338
+ "loss": 0.7390193144480387,
339
+ "step": 564
340
+ },
341
+ {
342
+ "epoch": 0.3572646922003411,
343
+ "grad_norm": 11.583715438842773,
344
+ "learning_rate": 1.9582089552238807e-05,
345
+ "loss": 0.6651956637700399,
346
+ "step": 576
347
+ },
348
+ {
349
+ "epoch": 0.36470770662118157,
350
+ "grad_norm": 11.411588668823242,
351
+ "learning_rate": 1.9526980482204364e-05,
352
+ "loss": 0.7644002437591553,
353
+ "step": 588
354
+ },
355
+ {
356
+ "epoch": 0.372150721042022,
357
+ "grad_norm": 8.31484603881836,
358
+ "learning_rate": 1.947187141216992e-05,
359
+ "loss": 0.6794478893280029,
360
+ "step": 600
361
+ },
362
+ {
363
+ "epoch": 0.37959373546286246,
364
+ "grad_norm": 6.703721523284912,
365
+ "learning_rate": 1.941676234213548e-05,
366
+ "loss": 0.6266262531280518,
367
+ "step": 612
368
+ },
369
+ {
370
+ "epoch": 0.3870367498837029,
371
+ "grad_norm": 9.479427337646484,
372
+ "learning_rate": 1.9361653272101036e-05,
373
+ "loss": 0.6851427555084229,
374
+ "step": 624
375
+ },
376
+ {
377
+ "epoch": 0.39447976430454335,
378
+ "grad_norm": 7.663156032562256,
379
+ "learning_rate": 1.9306544202066593e-05,
380
+ "loss": 0.6938677628835043,
381
+ "step": 636
382
+ },
383
+ {
384
+ "epoch": 0.4019227787253838,
385
+ "grad_norm": 4.276080131530762,
386
+ "learning_rate": 1.9251435132032147e-05,
387
+ "loss": 0.76728622118632,
388
+ "step": 648
389
+ },
390
+ {
391
+ "epoch": 0.40936579314622423,
392
+ "grad_norm": 11.622859001159668,
393
+ "learning_rate": 1.9196326061997705e-05,
394
+ "loss": 0.7580918471018473,
395
+ "step": 660
396
+ },
397
+ {
398
+ "epoch": 0.4168088075670647,
399
+ "grad_norm": 13.203335762023926,
400
+ "learning_rate": 1.9141216991963262e-05,
401
+ "loss": 0.642679770787557,
402
+ "step": 672
403
+ },
404
+ {
405
+ "epoch": 0.4242518219879051,
406
+ "grad_norm": 8.963321685791016,
407
+ "learning_rate": 1.908610792192882e-05,
408
+ "loss": 0.6361099084218343,
409
+ "step": 684
410
+ },
411
+ {
412
+ "epoch": 0.43169483640874556,
413
+ "grad_norm": 8.1705904006958,
414
+ "learning_rate": 1.9030998851894377e-05,
415
+ "loss": 0.6898341178894043,
416
+ "step": 696
417
+ },
418
+ {
419
+ "epoch": 0.439137850829586,
420
+ "grad_norm": 3.9877262115478516,
421
+ "learning_rate": 1.8975889781859934e-05,
422
+ "loss": 0.6462088028589884,
423
+ "step": 708
424
+ },
425
+ {
426
+ "epoch": 0.4465808652504264,
427
+ "grad_norm": 12.81478500366211,
428
+ "learning_rate": 1.892078071182549e-05,
429
+ "loss": 0.6965091228485107,
430
+ "step": 720
431
+ },
432
+ {
433
+ "epoch": 0.45402387967126684,
434
+ "grad_norm": 7.810659885406494,
435
+ "learning_rate": 1.8865671641791045e-05,
436
+ "loss": 0.7788422902425131,
437
+ "step": 732
438
+ },
439
+ {
440
+ "epoch": 0.4614668940921073,
441
+ "grad_norm": 4.958326816558838,
442
+ "learning_rate": 1.8810562571756603e-05,
443
+ "loss": 0.7460188865661621,
444
+ "step": 744
445
+ },
446
+ {
447
+ "epoch": 0.4689099085129477,
448
+ "grad_norm": 9.091962814331055,
449
+ "learning_rate": 1.875545350172216e-05,
450
+ "loss": 0.6937299569447836,
451
+ "step": 756
452
+ },
453
+ {
454
+ "epoch": 0.47635292293378817,
455
+ "grad_norm": 7.729589939117432,
456
+ "learning_rate": 1.8700344431687717e-05,
457
+ "loss": 0.6188247601191202,
458
+ "step": 768
459
+ },
460
+ {
461
+ "epoch": 0.4837959373546286,
462
+ "grad_norm": 8.878933906555176,
463
+ "learning_rate": 1.8645235361653275e-05,
464
+ "loss": 0.7017858028411865,
465
+ "step": 780
466
+ },
467
+ {
468
+ "epoch": 0.49123895177546906,
469
+ "grad_norm": 23.914348602294922,
470
+ "learning_rate": 1.8590126291618832e-05,
471
+ "loss": 0.7923436164855957,
472
+ "step": 792
473
+ },
474
+ {
475
+ "epoch": 0.4986819661963095,
476
+ "grad_norm": 10.980387687683105,
477
+ "learning_rate": 1.853501722158439e-05,
478
+ "loss": 0.6881453990936279,
479
+ "step": 804
480
+ },
481
+ {
482
+ "epoch": 0.5061249806171499,
483
+ "grad_norm": 6.988458156585693,
484
+ "learning_rate": 1.8479908151549943e-05,
485
+ "loss": 0.683276891708374,
486
+ "step": 816
487
+ },
488
+ {
489
+ "epoch": 0.5135679950379903,
490
+ "grad_norm": 23.667926788330078,
491
+ "learning_rate": 1.84247990815155e-05,
492
+ "loss": 0.6124229431152344,
493
+ "step": 828
494
+ },
495
+ {
496
+ "epoch": 0.5210110094588308,
497
+ "grad_norm": 7.078935623168945,
498
+ "learning_rate": 1.8369690011481058e-05,
499
+ "loss": 0.7043429215749105,
500
+ "step": 840
501
+ },
502
+ {
503
+ "epoch": 0.5284540238796712,
504
+ "grad_norm": 9.82224178314209,
505
+ "learning_rate": 1.8314580941446615e-05,
506
+ "loss": 0.6555114189783732,
507
+ "step": 852
508
+ },
509
+ {
510
+ "epoch": 0.5358970383005117,
511
+ "grad_norm": 8.077360153198242,
512
+ "learning_rate": 1.8259471871412173e-05,
513
+ "loss": 0.6555444002151489,
514
+ "step": 864
515
+ },
516
+ {
517
+ "epoch": 0.5433400527213521,
518
+ "grad_norm": 3.6762046813964844,
519
+ "learning_rate": 1.820436280137773e-05,
520
+ "loss": 0.636172374089559,
521
+ "step": 876
522
+ },
523
+ {
524
+ "epoch": 0.5507830671421926,
525
+ "grad_norm": 3.8388607501983643,
526
+ "learning_rate": 1.8149253731343287e-05,
527
+ "loss": 0.6085333824157715,
528
+ "step": 888
529
+ },
530
+ {
531
+ "epoch": 0.558226081563033,
532
+ "grad_norm": 3.0353925228118896,
533
+ "learning_rate": 1.809414466130884e-05,
534
+ "loss": 0.58968718846639,
535
+ "step": 900
536
+ },
537
+ {
538
+ "epoch": 0.5656690959838735,
539
+ "grad_norm": 6.465055465698242,
540
+ "learning_rate": 1.80390355912744e-05,
541
+ "loss": 0.6078658103942871,
542
+ "step": 912
543
+ },
544
+ {
545
+ "epoch": 0.5731121104047139,
546
+ "grad_norm": 5.472475528717041,
547
+ "learning_rate": 1.7983926521239956e-05,
548
+ "loss": 0.6997927029927572,
549
+ "step": 924
550
+ },
551
+ {
552
+ "epoch": 0.5805551248255544,
553
+ "grad_norm": 15.40697193145752,
554
+ "learning_rate": 1.792881745120551e-05,
555
+ "loss": 0.6386371453603109,
556
+ "step": 936
557
+ },
558
+ {
559
+ "epoch": 0.5879981392463948,
560
+ "grad_norm": 6.439900875091553,
561
+ "learning_rate": 1.787370838117107e-05,
562
+ "loss": 0.6876135667165121,
563
+ "step": 948
564
+ },
565
+ {
566
+ "epoch": 0.5954411536672353,
567
+ "grad_norm": 10.793220520019531,
568
+ "learning_rate": 1.7818599311136628e-05,
569
+ "loss": 0.6237523953119913,
570
+ "step": 960
571
+ },
572
+ {
573
+ "epoch": 0.6028841680880757,
574
+ "grad_norm": 5.377976417541504,
575
+ "learning_rate": 1.7763490241102185e-05,
576
+ "loss": 0.614266554514567,
577
+ "step": 972
578
+ },
579
+ {
580
+ "epoch": 0.6103271825089162,
581
+ "grad_norm": 7.794371604919434,
582
+ "learning_rate": 1.770838117106774e-05,
583
+ "loss": 0.5918615261713663,
584
+ "step": 984
585
+ },
586
+ {
587
+ "epoch": 0.6177701969297565,
588
+ "grad_norm": 4.7419867515563965,
589
+ "learning_rate": 1.7653272101033296e-05,
590
+ "loss": 0.5848552385965983,
591
+ "step": 996
592
+ },
593
+ {
594
+ "epoch": 0.625213211350597,
595
+ "grad_norm": 14.705470085144043,
596
+ "learning_rate": 1.7598163030998854e-05,
597
+ "loss": 0.6608580350875854,
598
+ "step": 1008
599
+ },
600
+ {
601
+ "epoch": 0.6326562257714374,
602
+ "grad_norm": 6.041922092437744,
603
+ "learning_rate": 1.754305396096441e-05,
604
+ "loss": 0.549665609995524,
605
+ "step": 1020
606
+ },
607
+ {
608
+ "epoch": 0.6400992401922778,
609
+ "grad_norm": 5.13696813583374,
610
+ "learning_rate": 1.7487944890929965e-05,
611
+ "loss": 0.7017458279927572,
612
+ "step": 1032
613
+ },
614
+ {
615
+ "epoch": 0.6475422546131183,
616
+ "grad_norm": 6.016454696655273,
617
+ "learning_rate": 1.7432835820895522e-05,
618
+ "loss": 0.6309004227320353,
619
+ "step": 1044
620
+ },
621
+ {
622
+ "epoch": 0.6549852690339587,
623
+ "grad_norm": 9.331708908081055,
624
+ "learning_rate": 1.7377726750861083e-05,
625
+ "loss": 0.6831174691518148,
626
+ "step": 1056
627
+ },
628
+ {
629
+ "epoch": 0.6624282834547992,
630
+ "grad_norm": 9.878951072692871,
631
+ "learning_rate": 1.7322617680826637e-05,
632
+ "loss": 0.6587471961975098,
633
+ "step": 1068
634
+ },
635
+ {
636
+ "epoch": 0.6698712978756396,
637
+ "grad_norm": 5.033365726470947,
638
+ "learning_rate": 1.7267508610792194e-05,
639
+ "loss": 0.6370361646016439,
640
+ "step": 1080
641
+ },
642
+ {
643
+ "epoch": 0.6773143122964801,
644
+ "grad_norm": 18.762298583984375,
645
+ "learning_rate": 1.721239954075775e-05,
646
+ "loss": 0.5823976198832194,
647
+ "step": 1092
648
+ },
649
+ {
650
+ "epoch": 0.6847573267173205,
651
+ "grad_norm": 2.940394163131714,
652
+ "learning_rate": 1.715729047072331e-05,
653
+ "loss": 0.6264007488886515,
654
+ "step": 1104
655
+ },
656
+ {
657
+ "epoch": 0.692200341138161,
658
+ "grad_norm": 7.621018886566162,
659
+ "learning_rate": 1.7102181400688863e-05,
660
+ "loss": 0.5824793974558512,
661
+ "step": 1116
662
+ },
663
+ {
664
+ "epoch": 0.6996433555590014,
665
+ "grad_norm": 3.141854763031006,
666
+ "learning_rate": 1.704707233065442e-05,
667
+ "loss": 0.5842764774958292,
668
+ "step": 1128
669
+ },
670
+ {
671
+ "epoch": 0.7070863699798419,
672
+ "grad_norm": 5.849940776824951,
673
+ "learning_rate": 1.6991963260619978e-05,
674
+ "loss": 0.5304047664006551,
675
+ "step": 1140
676
+ },
677
+ {
678
+ "epoch": 0.7145293844006823,
679
+ "grad_norm": 7.9883551597595215,
680
+ "learning_rate": 1.6936854190585535e-05,
681
+ "loss": 0.5599017937978109,
682
+ "step": 1152
683
+ },
684
+ {
685
+ "epoch": 0.7219723988215228,
686
+ "grad_norm": 11.370931625366211,
687
+ "learning_rate": 1.6881745120551092e-05,
688
+ "loss": 0.5798830588658651,
689
+ "step": 1164
690
+ },
691
+ {
692
+ "epoch": 0.7294154132423631,
693
+ "grad_norm": 3.5065290927886963,
694
+ "learning_rate": 1.682663605051665e-05,
695
+ "loss": 0.6167506376902262,
696
+ "step": 1176
697
+ },
698
+ {
699
+ "epoch": 0.7368584276632036,
700
+ "grad_norm": 5.930673599243164,
701
+ "learning_rate": 1.6771526980482207e-05,
702
+ "loss": 0.5873833497365316,
703
+ "step": 1188
704
+ },
705
+ {
706
+ "epoch": 0.744301442084044,
707
+ "grad_norm": 6.102614402770996,
708
+ "learning_rate": 1.671641791044776e-05,
709
+ "loss": 0.6477183898289999,
710
+ "step": 1200
711
+ },
712
+ {
713
+ "epoch": 0.7517444565048845,
714
+ "grad_norm": 4.337888717651367,
715
+ "learning_rate": 1.6661308840413318e-05,
716
+ "loss": 0.5860347350438436,
717
+ "step": 1212
718
+ },
719
+ {
720
+ "epoch": 0.7591874709257249,
721
+ "grad_norm": 4.841605186462402,
722
+ "learning_rate": 1.6606199770378875e-05,
723
+ "loss": 0.6613442897796631,
724
+ "step": 1224
725
+ },
726
+ {
727
+ "epoch": 0.7666304853465653,
728
+ "grad_norm": 14.614047050476074,
729
+ "learning_rate": 1.6551090700344433e-05,
730
+ "loss": 0.6218246618906657,
731
+ "step": 1236
732
+ },
733
+ {
734
+ "epoch": 0.7740734997674058,
735
+ "grad_norm": 8.036581039428711,
736
+ "learning_rate": 1.649598163030999e-05,
737
+ "loss": 0.5646830002466837,
738
+ "step": 1248
739
+ },
740
+ {
741
+ "epoch": 0.7815165141882462,
742
+ "grad_norm": 3.943291664123535,
743
+ "learning_rate": 1.6440872560275547e-05,
744
+ "loss": 0.6018180449803671,
745
+ "step": 1260
746
+ },
747
+ {
748
+ "epoch": 0.7889595286090867,
749
+ "grad_norm": 12.51102352142334,
750
+ "learning_rate": 1.6385763490241105e-05,
751
+ "loss": 0.6140671968460083,
752
+ "step": 1272
753
+ },
754
+ {
755
+ "epoch": 0.7964025430299271,
756
+ "grad_norm": 3.718653678894043,
757
+ "learning_rate": 1.633065442020666e-05,
758
+ "loss": 0.5359119176864624,
759
+ "step": 1284
760
+ },
761
+ {
762
+ "epoch": 0.8038455574507676,
763
+ "grad_norm": 2.8353357315063477,
764
+ "learning_rate": 1.6275545350172216e-05,
765
+ "loss": 0.502113143603007,
766
+ "step": 1296
767
+ },
768
+ {
769
+ "epoch": 0.811288571871608,
770
+ "grad_norm": 4.345269203186035,
771
+ "learning_rate": 1.6220436280137773e-05,
772
+ "loss": 0.5975545644760132,
773
+ "step": 1308
774
+ },
775
+ {
776
+ "epoch": 0.8187315862924485,
777
+ "grad_norm": 6.92914342880249,
778
+ "learning_rate": 1.616532721010333e-05,
779
+ "loss": 0.6587652762730917,
780
+ "step": 1320
781
+ },
782
+ {
783
+ "epoch": 0.8261746007132889,
784
+ "grad_norm": 4.188693046569824,
785
+ "learning_rate": 1.6110218140068888e-05,
786
+ "loss": 0.6142017841339111,
787
+ "step": 1332
788
+ },
789
+ {
790
+ "epoch": 0.8336176151341294,
791
+ "grad_norm": 9.596400260925293,
792
+ "learning_rate": 1.6055109070034445e-05,
793
+ "loss": 0.5469466845194498,
794
+ "step": 1344
795
+ },
796
+ {
797
+ "epoch": 0.8410606295549697,
798
+ "grad_norm": 4.810947895050049,
799
+ "learning_rate": 1.6000000000000003e-05,
800
+ "loss": 0.5744484265645345,
801
+ "step": 1356
802
+ },
803
+ {
804
+ "epoch": 0.8485036439758102,
805
+ "grad_norm": 3.5819036960601807,
806
+ "learning_rate": 1.5944890929965557e-05,
807
+ "loss": 0.5045839150746664,
808
+ "step": 1368
809
+ },
810
+ {
811
+ "epoch": 0.8559466583966506,
812
+ "grad_norm": 4.879307746887207,
813
+ "learning_rate": 1.5889781859931114e-05,
814
+ "loss": 0.6669184366861979,
815
+ "step": 1380
816
+ },
817
+ {
818
+ "epoch": 0.8633896728174911,
819
+ "grad_norm": 6.7210693359375,
820
+ "learning_rate": 1.583467278989667e-05,
821
+ "loss": 0.5324758291244507,
822
+ "step": 1392
823
+ },
824
+ {
825
+ "epoch": 0.8708326872383315,
826
+ "grad_norm": 4.653786659240723,
827
+ "learning_rate": 1.577956371986223e-05,
828
+ "loss": 0.543891986211141,
829
+ "step": 1404
830
+ },
831
+ {
832
+ "epoch": 0.878275701659172,
833
+ "grad_norm": 6.386638641357422,
834
+ "learning_rate": 1.5724454649827786e-05,
835
+ "loss": 0.5688877105712891,
836
+ "step": 1416
837
+ },
838
+ {
839
+ "epoch": 0.8857187160800124,
840
+ "grad_norm": 14.5455322265625,
841
+ "learning_rate": 1.5669345579793343e-05,
842
+ "loss": 0.5081936915715536,
843
+ "step": 1428
844
+ },
845
+ {
846
+ "epoch": 0.8931617305008528,
847
+ "grad_norm": 13.621335983276367,
848
+ "learning_rate": 1.56142365097589e-05,
849
+ "loss": 0.5466565688451132,
850
+ "step": 1440
851
+ },
852
+ {
853
+ "epoch": 0.9006047449216933,
854
+ "grad_norm": 7.791660308837891,
855
+ "learning_rate": 1.5559127439724455e-05,
856
+ "loss": 0.5543188651402792,
857
+ "step": 1452
858
+ },
859
+ {
860
+ "epoch": 0.9080477593425337,
861
+ "grad_norm": 4.039332866668701,
862
+ "learning_rate": 1.5504018369690012e-05,
863
+ "loss": 0.564227819442749,
864
+ "step": 1464
865
+ },
866
+ {
867
+ "epoch": 0.9154907737633742,
868
+ "grad_norm": 5.744030475616455,
869
+ "learning_rate": 1.544890929965557e-05,
870
+ "loss": 0.5645032723744711,
871
+ "step": 1476
872
+ },
873
+ {
874
+ "epoch": 0.9229337881842146,
875
+ "grad_norm": 7.17244815826416,
876
+ "learning_rate": 1.5393800229621126e-05,
877
+ "loss": 0.6025459369023641,
878
+ "step": 1488
879
+ },
880
+ {
881
+ "epoch": 0.9303768026050551,
882
+ "grad_norm": 9.460329055786133,
883
+ "learning_rate": 1.5338691159586684e-05,
884
+ "loss": 0.5522710482279459,
885
+ "step": 1500
886
+ },
887
+ {
888
+ "epoch": 0.9378198170258955,
889
+ "grad_norm": 8.257369995117188,
890
+ "learning_rate": 1.528358208955224e-05,
891
+ "loss": 0.5696142514546713,
892
+ "step": 1512
893
+ },
894
+ {
895
+ "epoch": 0.945262831446736,
896
+ "grad_norm": 14.734770774841309,
897
+ "learning_rate": 1.5228473019517798e-05,
898
+ "loss": 0.60454261302948,
899
+ "step": 1524
900
+ },
901
+ {
902
+ "epoch": 0.9527058458675763,
903
+ "grad_norm": 4.352370738983154,
904
+ "learning_rate": 1.5173363949483352e-05,
905
+ "loss": 0.48172632853190106,
906
+ "step": 1536
907
+ },
908
+ {
909
+ "epoch": 0.9601488602884168,
910
+ "grad_norm": 2.388683557510376,
911
+ "learning_rate": 1.511825487944891e-05,
912
+ "loss": 0.5889216661453247,
913
+ "step": 1548
914
+ },
915
+ {
916
+ "epoch": 0.9675918747092572,
917
+ "grad_norm": 9.910285949707031,
918
+ "learning_rate": 1.5063145809414467e-05,
919
+ "loss": 0.5621689558029175,
920
+ "step": 1560
921
+ },
922
+ {
923
+ "epoch": 0.9750348891300977,
924
+ "grad_norm": 5.445796966552734,
925
+ "learning_rate": 1.5008036739380026e-05,
926
+ "loss": 0.5526663859685262,
927
+ "step": 1572
928
+ },
929
+ {
930
+ "epoch": 0.9824779035509381,
931
+ "grad_norm": 5.242825984954834,
932
+ "learning_rate": 1.495292766934558e-05,
933
+ "loss": 0.5673882563908895,
934
+ "step": 1584
935
+ },
936
+ {
937
+ "epoch": 0.9899209179717786,
938
+ "grad_norm": 10.1865234375,
939
+ "learning_rate": 1.4897818599311137e-05,
940
+ "loss": 0.5648102362950643,
941
+ "step": 1596
942
+ },
943
+ {
944
+ "epoch": 0.997363932392619,
945
+ "grad_norm": 5.388990879058838,
946
+ "learning_rate": 1.4842709529276695e-05,
947
+ "loss": 0.5376612345377604,
948
+ "step": 1608
949
+ },
950
+ {
951
+ "epoch": 1.0,
952
+ "eval_f1": 0.4322638779516363,
953
+ "eval_loss": 0.13781657814979553,
954
+ "eval_precision": 0.3967545697112817,
955
+ "eval_recall": 0.4884485429972486,
956
+ "eval_runtime": 583.7374,
957
+ "eval_samples_per_second": 66.278,
958
+ "eval_steps_per_second": 1.382,
959
+ "step": 1613
960
+ },
961
+ {
962
+ "epoch": 1.004341758412157,
963
+ "grad_norm": 11.303878784179688,
964
+ "learning_rate": 1.478760045924225e-05,
965
+ "loss": 0.46324888865152997,
966
+ "step": 1620
967
+ },
968
+ {
969
+ "epoch": 1.0117847728329974,
970
+ "grad_norm": 4.389431476593018,
971
+ "learning_rate": 1.4732491389207808e-05,
972
+ "loss": 0.48095786571502686,
973
+ "step": 1632
974
+ },
975
+ {
976
+ "epoch": 1.0192277872538378,
977
+ "grad_norm": 2.298799514770508,
978
+ "learning_rate": 1.4677382319173365e-05,
979
+ "loss": 0.5406383275985718,
980
+ "step": 1644
981
+ },
982
+ {
983
+ "epoch": 1.0266708016746782,
984
+ "grad_norm": 4.433741092681885,
985
+ "learning_rate": 1.4622273249138922e-05,
986
+ "loss": 0.4697510798772176,
987
+ "step": 1656
988
+ },
989
+ {
990
+ "epoch": 1.0341138160955188,
991
+ "grad_norm": 4.704965591430664,
992
+ "learning_rate": 1.4567164179104478e-05,
993
+ "loss": 0.5180115699768066,
994
+ "step": 1668
995
+ },
996
+ {
997
+ "epoch": 1.0415568305163592,
998
+ "grad_norm": 5.16159725189209,
999
+ "learning_rate": 1.4512055109070035e-05,
1000
+ "loss": 0.49386584758758545,
1001
+ "step": 1680
1002
+ },
1003
+ {
1004
+ "epoch": 1.0489998449371996,
1005
+ "grad_norm": 2.5488502979278564,
1006
+ "learning_rate": 1.4456946039035593e-05,
1007
+ "loss": 0.41516109307607013,
1008
+ "step": 1692
1009
+ },
1010
+ {
1011
+ "epoch": 1.05644285935804,
1012
+ "grad_norm": 12.81408405303955,
1013
+ "learning_rate": 1.4401836969001148e-05,
1014
+ "loss": 0.5269262790679932,
1015
+ "step": 1704
1016
+ },
1017
+ {
1018
+ "epoch": 1.0638858737788803,
1019
+ "grad_norm": 2.8521316051483154,
1020
+ "learning_rate": 1.4346727898966706e-05,
1021
+ "loss": 0.45834481716156006,
1022
+ "step": 1716
1023
+ },
1024
+ {
1025
+ "epoch": 1.071328888199721,
1026
+ "grad_norm": 5.517307758331299,
1027
+ "learning_rate": 1.4291618828932263e-05,
1028
+ "loss": 0.573523203531901,
1029
+ "step": 1728
1030
+ },
1031
+ {
1032
+ "epoch": 1.0787719026205613,
1033
+ "grad_norm": 2.4321818351745605,
1034
+ "learning_rate": 1.423650975889782e-05,
1035
+ "loss": 0.4625085194905599,
1036
+ "step": 1740
1037
+ },
1038
+ {
1039
+ "epoch": 1.0862149170414017,
1040
+ "grad_norm": 15.532980918884277,
1041
+ "learning_rate": 1.4181400688863376e-05,
1042
+ "loss": 0.5057009855906168,
1043
+ "step": 1752
1044
+ },
1045
+ {
1046
+ "epoch": 1.093657931462242,
1047
+ "grad_norm": 4.501278877258301,
1048
+ "learning_rate": 1.4126291618828933e-05,
1049
+ "loss": 0.4823911984761556,
1050
+ "step": 1764
1051
+ },
1052
+ {
1053
+ "epoch": 1.1011009458830827,
1054
+ "grad_norm": 6.726215362548828,
1055
+ "learning_rate": 1.407118254879449e-05,
1056
+ "loss": 0.42187273502349854,
1057
+ "step": 1776
1058
+ },
1059
+ {
1060
+ "epoch": 1.108543960303923,
1061
+ "grad_norm": 14.170055389404297,
1062
+ "learning_rate": 1.4016073478760046e-05,
1063
+ "loss": 0.5301618576049805,
1064
+ "step": 1788
1065
+ },
1066
+ {
1067
+ "epoch": 1.1159869747247635,
1068
+ "grad_norm": 2.776092767715454,
1069
+ "learning_rate": 1.3960964408725603e-05,
1070
+ "loss": 0.4935903151830037,
1071
+ "step": 1800
1072
+ },
1073
+ {
1074
+ "epoch": 1.1234299891456039,
1075
+ "grad_norm": 7.334898948669434,
1076
+ "learning_rate": 1.390585533869116e-05,
1077
+ "loss": 0.5331637859344482,
1078
+ "step": 1812
1079
+ },
1080
+ {
1081
+ "epoch": 1.1308730035664445,
1082
+ "grad_norm": 4.995052337646484,
1083
+ "learning_rate": 1.3850746268656718e-05,
1084
+ "loss": 0.4663925568262736,
1085
+ "step": 1824
1086
+ },
1087
+ {
1088
+ "epoch": 1.1383160179872849,
1089
+ "grad_norm": 9.281367301940918,
1090
+ "learning_rate": 1.3795637198622274e-05,
1091
+ "loss": 0.44923396905263263,
1092
+ "step": 1836
1093
+ },
1094
+ {
1095
+ "epoch": 1.1457590324081253,
1096
+ "grad_norm": 5.095090866088867,
1097
+ "learning_rate": 1.3740528128587831e-05,
1098
+ "loss": 0.5650514364242554,
1099
+ "step": 1848
1100
+ },
1101
+ {
1102
+ "epoch": 1.1532020468289657,
1103
+ "grad_norm": 2.299600839614868,
1104
+ "learning_rate": 1.3685419058553388e-05,
1105
+ "loss": 0.48252185185750324,
1106
+ "step": 1860
1107
+ },
1108
+ {
1109
+ "epoch": 1.1606450612498063,
1110
+ "grad_norm": 6.702273368835449,
1111
+ "learning_rate": 1.3630309988518944e-05,
1112
+ "loss": 0.5192966063817342,
1113
+ "step": 1872
1114
+ },
1115
+ {
1116
+ "epoch": 1.1680880756706467,
1117
+ "grad_norm": 10.89989948272705,
1118
+ "learning_rate": 1.3575200918484501e-05,
1119
+ "loss": 0.48262282212575275,
1120
+ "step": 1884
1121
+ },
1122
+ {
1123
+ "epoch": 1.175531090091487,
1124
+ "grad_norm": 15.075289726257324,
1125
+ "learning_rate": 1.3520091848450059e-05,
1126
+ "loss": 0.45538806915283203,
1127
+ "step": 1896
1128
+ },
1129
+ {
1130
+ "epoch": 1.1829741045123274,
1131
+ "grad_norm": 3.0880722999572754,
1132
+ "learning_rate": 1.3464982778415616e-05,
1133
+ "loss": 0.46872226397196454,
1134
+ "step": 1908
1135
+ },
1136
+ {
1137
+ "epoch": 1.1904171189331678,
1138
+ "grad_norm": 8.533724784851074,
1139
+ "learning_rate": 1.3409873708381172e-05,
1140
+ "loss": 0.4827297528584798,
1141
+ "step": 1920
1142
+ },
1143
+ {
1144
+ "epoch": 1.1978601333540084,
1145
+ "grad_norm": 3.070657968521118,
1146
+ "learning_rate": 1.3354764638346729e-05,
1147
+ "loss": 0.48583118120829266,
1148
+ "step": 1932
1149
+ },
1150
+ {
1151
+ "epoch": 1.2053031477748488,
1152
+ "grad_norm": 3.7270054817199707,
1153
+ "learning_rate": 1.3299655568312286e-05,
1154
+ "loss": 0.505421002705892,
1155
+ "step": 1944
1156
+ },
1157
+ {
1158
+ "epoch": 1.2127461621956892,
1159
+ "grad_norm": 9.997303009033203,
1160
+ "learning_rate": 1.3244546498277842e-05,
1161
+ "loss": 0.4140005111694336,
1162
+ "step": 1956
1163
+ },
1164
+ {
1165
+ "epoch": 1.2201891766165298,
1166
+ "grad_norm": 11.578160285949707,
1167
+ "learning_rate": 1.31894374282434e-05,
1168
+ "loss": 0.44274091720581055,
1169
+ "step": 1968
1170
+ },
1171
+ {
1172
+ "epoch": 1.2276321910373702,
1173
+ "grad_norm": 9.199183464050293,
1174
+ "learning_rate": 1.3134328358208957e-05,
1175
+ "loss": 0.5600036780039469,
1176
+ "step": 1980
1177
+ },
1178
+ {
1179
+ "epoch": 1.2350752054582106,
1180
+ "grad_norm": 7.212144374847412,
1181
+ "learning_rate": 1.3079219288174514e-05,
1182
+ "loss": 0.494090994199117,
1183
+ "step": 1992
1184
+ },
1185
+ {
1186
+ "epoch": 1.242518219879051,
1187
+ "grad_norm": 3.4123635292053223,
1188
+ "learning_rate": 1.302411021814007e-05,
1189
+ "loss": 0.4909547170003255,
1190
+ "step": 2004
1191
+ },
1192
+ {
1193
+ "epoch": 1.2499612342998914,
1194
+ "grad_norm": 7.941708087921143,
1195
+ "learning_rate": 1.2969001148105627e-05,
1196
+ "loss": 0.47832663853963214,
1197
+ "step": 2016
1198
+ },
1199
+ {
1200
+ "epoch": 1.257404248720732,
1201
+ "grad_norm": 2.4799387454986572,
1202
+ "learning_rate": 1.2913892078071184e-05,
1203
+ "loss": 0.49106045564015705,
1204
+ "step": 2028
1205
+ },
1206
+ {
1207
+ "epoch": 1.2648472631415724,
1208
+ "grad_norm": 5.136545658111572,
1209
+ "learning_rate": 1.2858783008036742e-05,
1210
+ "loss": 0.4738738536834717,
1211
+ "step": 2040
1212
+ },
1213
+ {
1214
+ "epoch": 1.2722902775624128,
1215
+ "grad_norm": 4.9489240646362305,
1216
+ "learning_rate": 1.2803673938002297e-05,
1217
+ "loss": 0.4953068097432454,
1218
+ "step": 2052
1219
+ },
1220
+ {
1221
+ "epoch": 1.2797332919832531,
1222
+ "grad_norm": 6.822914123535156,
1223
+ "learning_rate": 1.2748564867967855e-05,
1224
+ "loss": 0.46026841799418133,
1225
+ "step": 2064
1226
+ },
1227
+ {
1228
+ "epoch": 1.2871763064040938,
1229
+ "grad_norm": 6.177013874053955,
1230
+ "learning_rate": 1.2693455797933412e-05,
1231
+ "loss": 0.494237224260966,
1232
+ "step": 2076
1233
+ },
1234
+ {
1235
+ "epoch": 1.2946193208249341,
1236
+ "grad_norm": 2.4243626594543457,
1237
+ "learning_rate": 1.2638346727898967e-05,
1238
+ "loss": 0.5003351370493571,
1239
+ "step": 2088
1240
+ },
1241
+ {
1242
+ "epoch": 1.3020623352457745,
1243
+ "grad_norm": 18.99603843688965,
1244
+ "learning_rate": 1.2583237657864525e-05,
1245
+ "loss": 0.5109163920084635,
1246
+ "step": 2100
1247
+ },
1248
+ {
1249
+ "epoch": 1.309505349666615,
1250
+ "grad_norm": 2.4371707439422607,
1251
+ "learning_rate": 1.2528128587830082e-05,
1252
+ "loss": 0.41310568650563556,
1253
+ "step": 2112
1254
+ },
1255
+ {
1256
+ "epoch": 1.3169483640874553,
1257
+ "grad_norm": 3.7665302753448486,
1258
+ "learning_rate": 1.247301951779564e-05,
1259
+ "loss": 0.45848862330118817,
1260
+ "step": 2124
1261
+ },
1262
+ {
1263
+ "epoch": 1.324391378508296,
1264
+ "grad_norm": 12.537642478942871,
1265
+ "learning_rate": 1.2417910447761195e-05,
1266
+ "loss": 0.523716410001119,
1267
+ "step": 2136
1268
+ },
1269
+ {
1270
+ "epoch": 1.3318343929291363,
1271
+ "grad_norm": 2.882084846496582,
1272
+ "learning_rate": 1.2362801377726752e-05,
1273
+ "loss": 0.47608526547749835,
1274
+ "step": 2148
1275
+ },
1276
+ {
1277
+ "epoch": 1.3392774073499767,
1278
+ "grad_norm": 2.86336612701416,
1279
+ "learning_rate": 1.230769230769231e-05,
1280
+ "loss": 0.4347230593363444,
1281
+ "step": 2160
1282
+ },
1283
+ {
1284
+ "epoch": 1.3467204217708173,
1285
+ "grad_norm": 3.1628830432891846,
1286
+ "learning_rate": 1.2252583237657865e-05,
1287
+ "loss": 0.46674203872680664,
1288
+ "step": 2172
1289
+ },
1290
+ {
1291
+ "epoch": 1.3541634361916577,
1292
+ "grad_norm": 11.767653465270996,
1293
+ "learning_rate": 1.2197474167623423e-05,
1294
+ "loss": 0.47306569417317706,
1295
+ "step": 2184
1296
+ },
1297
+ {
1298
+ "epoch": 1.361606450612498,
1299
+ "grad_norm": 11.81271743774414,
1300
+ "learning_rate": 1.214236509758898e-05,
1301
+ "loss": 0.4672517776489258,
1302
+ "step": 2196
1303
+ },
1304
+ {
1305
+ "epoch": 1.3690494650333385,
1306
+ "grad_norm": 3.6157212257385254,
1307
+ "learning_rate": 1.2087256027554537e-05,
1308
+ "loss": 0.4465065797170003,
1309
+ "step": 2208
1310
+ },
1311
+ {
1312
+ "epoch": 1.3764924794541789,
1313
+ "grad_norm": 3.778449773788452,
1314
+ "learning_rate": 1.2032146957520093e-05,
1315
+ "loss": 0.5149937868118286,
1316
+ "step": 2220
1317
+ },
1318
+ {
1319
+ "epoch": 1.3839354938750195,
1320
+ "grad_norm": 2.5120906829833984,
1321
+ "learning_rate": 1.197703788748565e-05,
1322
+ "loss": 0.45879046122233075,
1323
+ "step": 2232
1324
+ },
1325
+ {
1326
+ "epoch": 1.3913785082958599,
1327
+ "grad_norm": 17.704999923706055,
1328
+ "learning_rate": 1.1921928817451208e-05,
1329
+ "loss": 0.5167669057846069,
1330
+ "step": 2244
1331
+ },
1332
+ {
1333
+ "epoch": 1.3988215227167002,
1334
+ "grad_norm": 11.8012113571167,
1335
+ "learning_rate": 1.1866819747416762e-05,
1336
+ "loss": 0.496524175008138,
1337
+ "step": 2256
1338
+ },
1339
+ {
1340
+ "epoch": 1.4062645371375406,
1341
+ "grad_norm": 13.236916542053223,
1342
+ "learning_rate": 1.181171067738232e-05,
1343
+ "loss": 0.47164463996887207,
1344
+ "step": 2268
1345
+ },
1346
+ {
1347
+ "epoch": 1.4137075515583812,
1348
+ "grad_norm": 3.6107146739959717,
1349
+ "learning_rate": 1.1756601607347878e-05,
1350
+ "loss": 0.4411802689234416,
1351
+ "step": 2280
1352
+ },
1353
+ {
1354
+ "epoch": 1.4211505659792216,
1355
+ "grad_norm": 3.5400538444519043,
1356
+ "learning_rate": 1.1701492537313435e-05,
1357
+ "loss": 0.44078512986501056,
1358
+ "step": 2292
1359
+ },
1360
+ {
1361
+ "epoch": 1.428593580400062,
1362
+ "grad_norm": 3.386744260787964,
1363
+ "learning_rate": 1.164638346727899e-05,
1364
+ "loss": 0.44522058963775635,
1365
+ "step": 2304
1366
+ },
1367
+ {
1368
+ "epoch": 1.4360365948209024,
1369
+ "grad_norm": 7.451818466186523,
1370
+ "learning_rate": 1.1591274397244548e-05,
1371
+ "loss": 0.4643220106760661,
1372
+ "step": 2316
1373
+ },
1374
+ {
1375
+ "epoch": 1.4434796092417428,
1376
+ "grad_norm": 3.741562843322754,
1377
+ "learning_rate": 1.1536165327210106e-05,
1378
+ "loss": 0.4557652473449707,
1379
+ "step": 2328
1380
+ },
1381
+ {
1382
+ "epoch": 1.4509226236625834,
1383
+ "grad_norm": 2.767171621322632,
1384
+ "learning_rate": 1.148105625717566e-05,
1385
+ "loss": 0.4677225748697917,
1386
+ "step": 2340
1387
+ },
1388
+ {
1389
+ "epoch": 1.4583656380834238,
1390
+ "grad_norm": 5.696690559387207,
1391
+ "learning_rate": 1.1425947187141217e-05,
1392
+ "loss": 0.42428747812906903,
1393
+ "step": 2352
1394
+ },
1395
+ {
1396
+ "epoch": 1.4658086525042642,
1397
+ "grad_norm": 6.44115686416626,
1398
+ "learning_rate": 1.1370838117106774e-05,
1399
+ "loss": 0.4969560702641805,
1400
+ "step": 2364
1401
+ },
1402
+ {
1403
+ "epoch": 1.4732516669251048,
1404
+ "grad_norm": 6.7684831619262695,
1405
+ "learning_rate": 1.1315729047072333e-05,
1406
+ "loss": 0.5301390091578165,
1407
+ "step": 2376
1408
+ },
1409
+ {
1410
+ "epoch": 1.4806946813459452,
1411
+ "grad_norm": 2.761455774307251,
1412
+ "learning_rate": 1.1260619977037887e-05,
1413
+ "loss": 0.4755421082178752,
1414
+ "step": 2388
1415
+ },
1416
+ {
1417
+ "epoch": 1.4881376957667856,
1418
+ "grad_norm": 7.615389347076416,
1419
+ "learning_rate": 1.1205510907003444e-05,
1420
+ "loss": 0.4676011800765991,
1421
+ "step": 2400
1422
+ },
1423
+ {
1424
+ "epoch": 1.495580710187626,
1425
+ "grad_norm": 3.118619680404663,
1426
+ "learning_rate": 1.1150401836969002e-05,
1427
+ "loss": 0.4575995206832886,
1428
+ "step": 2412
1429
+ },
1430
+ {
1431
+ "epoch": 1.5030237246084663,
1432
+ "grad_norm": 4.179815769195557,
1433
+ "learning_rate": 1.1095292766934557e-05,
1434
+ "loss": 0.5326940615971884,
1435
+ "step": 2424
1436
+ },
1437
+ {
1438
+ "epoch": 1.5104667390293067,
1439
+ "grad_norm": 3.128330945968628,
1440
+ "learning_rate": 1.1040183696900115e-05,
1441
+ "loss": 0.45927361647288006,
1442
+ "step": 2436
1443
+ },
1444
+ {
1445
+ "epoch": 1.5179097534501473,
1446
+ "grad_norm": 3.6722943782806396,
1447
+ "learning_rate": 1.0985074626865672e-05,
1448
+ "loss": 0.5232657591501871,
1449
+ "step": 2448
1450
+ },
1451
+ {
1452
+ "epoch": 1.5253527678709877,
1453
+ "grad_norm": 8.696102142333984,
1454
+ "learning_rate": 1.092996555683123e-05,
1455
+ "loss": 0.5253320535024008,
1456
+ "step": 2460
1457
+ },
1458
+ {
1459
+ "epoch": 1.5327957822918283,
1460
+ "grad_norm": 6.030095100402832,
1461
+ "learning_rate": 1.0874856486796785e-05,
1462
+ "loss": 0.4725768566131592,
1463
+ "step": 2472
1464
+ },
1465
+ {
1466
+ "epoch": 1.5402387967126687,
1467
+ "grad_norm": 8.892803192138672,
1468
+ "learning_rate": 1.0819747416762342e-05,
1469
+ "loss": 0.44700531164805096,
1470
+ "step": 2484
1471
+ },
1472
+ {
1473
+ "epoch": 1.5476818111335091,
1474
+ "grad_norm": 15.271442413330078,
1475
+ "learning_rate": 1.07646383467279e-05,
1476
+ "loss": 0.44845902919769287,
1477
+ "step": 2496
1478
+ },
1479
+ {
1480
+ "epoch": 1.5551248255543495,
1481
+ "grad_norm": 5.234111785888672,
1482
+ "learning_rate": 1.0709529276693457e-05,
1483
+ "loss": 0.5186563730239868,
1484
+ "step": 2508
1485
+ },
1486
+ {
1487
+ "epoch": 1.5625678399751899,
1488
+ "grad_norm": 6.541170597076416,
1489
+ "learning_rate": 1.0654420206659013e-05,
1490
+ "loss": 0.4690740505854289,
1491
+ "step": 2520
1492
+ },
1493
+ {
1494
+ "epoch": 1.5700108543960303,
1495
+ "grad_norm": 2.7548892498016357,
1496
+ "learning_rate": 1.059931113662457e-05,
1497
+ "loss": 0.43329620361328125,
1498
+ "step": 2532
1499
+ },
1500
+ {
1501
+ "epoch": 1.5774538688168709,
1502
+ "grad_norm": 12.428861618041992,
1503
+ "learning_rate": 1.0544202066590127e-05,
1504
+ "loss": 0.43588805198669434,
1505
+ "step": 2544
1506
+ },
1507
+ {
1508
+ "epoch": 1.5848968832377113,
1509
+ "grad_norm": 9.76059627532959,
1510
+ "learning_rate": 1.0489092996555683e-05,
1511
+ "loss": 0.4283796151479085,
1512
+ "step": 2556
1513
+ },
1514
+ {
1515
+ "epoch": 1.5923398976585517,
1516
+ "grad_norm": 10.960260391235352,
1517
+ "learning_rate": 1.043398392652124e-05,
1518
+ "loss": 0.4565364519755046,
1519
+ "step": 2568
1520
+ },
1521
+ {
1522
+ "epoch": 1.5997829120793923,
1523
+ "grad_norm": 6.568747043609619,
1524
+ "learning_rate": 1.0378874856486798e-05,
1525
+ "loss": 0.41670429706573486,
1526
+ "step": 2580
1527
+ },
1528
+ {
1529
+ "epoch": 1.6072259265002327,
1530
+ "grad_norm": 2.755124568939209,
1531
+ "learning_rate": 1.0323765786452355e-05,
1532
+ "loss": 0.4691346486409505,
1533
+ "step": 2592
1534
+ },
1535
+ {
1536
+ "epoch": 1.614668940921073,
1537
+ "grad_norm": 21.070772171020508,
1538
+ "learning_rate": 1.026865671641791e-05,
1539
+ "loss": 0.4186259905497233,
1540
+ "step": 2604
1541
+ },
1542
+ {
1543
+ "epoch": 1.6221119553419134,
1544
+ "grad_norm": 5.272284507751465,
1545
+ "learning_rate": 1.0213547646383468e-05,
1546
+ "loss": 0.4942372639973958,
1547
+ "step": 2616
1548
+ },
1549
+ {
1550
+ "epoch": 1.6295549697627538,
1551
+ "grad_norm": 8.858941078186035,
1552
+ "learning_rate": 1.0158438576349025e-05,
1553
+ "loss": 0.4842514594395955,
1554
+ "step": 2628
1555
+ },
1556
+ {
1557
+ "epoch": 1.6369979841835942,
1558
+ "grad_norm": 4.663693428039551,
1559
+ "learning_rate": 1.010332950631458e-05,
1560
+ "loss": 0.49429325262705487,
1561
+ "step": 2640
1562
+ },
1563
+ {
1564
+ "epoch": 1.6444409986044348,
1565
+ "grad_norm": 14.864917755126953,
1566
+ "learning_rate": 1.0048220436280138e-05,
1567
+ "loss": 0.46838700771331787,
1568
+ "step": 2652
1569
+ },
1570
+ {
1571
+ "epoch": 1.6518840130252752,
1572
+ "grad_norm": 2.5411393642425537,
1573
+ "learning_rate": 9.993111366245695e-06,
1574
+ "loss": 0.4521595239639282,
1575
+ "step": 2664
1576
+ },
1577
+ {
1578
+ "epoch": 1.6593270274461158,
1579
+ "grad_norm": 3.005941152572632,
1580
+ "learning_rate": 9.938002296211253e-06,
1581
+ "loss": 0.48365652561187744,
1582
+ "step": 2676
1583
+ },
1584
+ {
1585
+ "epoch": 1.6667700418669562,
1586
+ "grad_norm": 5.7398552894592285,
1587
+ "learning_rate": 9.88289322617681e-06,
1588
+ "loss": 0.4695123831431071,
1589
+ "step": 2688
1590
+ },
1591
+ {
1592
+ "epoch": 1.6742130562877966,
1593
+ "grad_norm": 4.946065902709961,
1594
+ "learning_rate": 9.827784156142366e-06,
1595
+ "loss": 0.4761979579925537,
1596
+ "step": 2700
1597
+ },
1598
+ {
1599
+ "epoch": 1.681656070708637,
1600
+ "grad_norm": 7.703652858734131,
1601
+ "learning_rate": 9.772675086107923e-06,
1602
+ "loss": 0.49780480066935223,
1603
+ "step": 2712
1604
+ },
1605
+ {
1606
+ "epoch": 1.6890990851294774,
1607
+ "grad_norm": 8.237687110900879,
1608
+ "learning_rate": 9.71756601607348e-06,
1609
+ "loss": 0.4623022476832072,
1610
+ "step": 2724
1611
+ },
1612
+ {
1613
+ "epoch": 1.6965420995503178,
1614
+ "grad_norm": 2.87007474899292,
1615
+ "learning_rate": 9.662456946039036e-06,
1616
+ "loss": 0.41221630573272705,
1617
+ "step": 2736
1618
+ },
1619
+ {
1620
+ "epoch": 1.7039851139711584,
1621
+ "grad_norm": 4.247465133666992,
1622
+ "learning_rate": 9.607347876004593e-06,
1623
+ "loss": 0.4721166690190633,
1624
+ "step": 2748
1625
+ },
1626
+ {
1627
+ "epoch": 1.7114281283919988,
1628
+ "grad_norm": 4.022077560424805,
1629
+ "learning_rate": 9.552238805970149e-06,
1630
+ "loss": 0.47880788644154865,
1631
+ "step": 2760
1632
+ },
1633
+ {
1634
+ "epoch": 1.7188711428128391,
1635
+ "grad_norm": 5.686273574829102,
1636
+ "learning_rate": 9.497129735935708e-06,
1637
+ "loss": 0.486567219098409,
1638
+ "step": 2772
1639
+ },
1640
+ {
1641
+ "epoch": 1.7263141572336798,
1642
+ "grad_norm": 4.733608245849609,
1643
+ "learning_rate": 9.442020665901264e-06,
1644
+ "loss": 0.4696682294209798,
1645
+ "step": 2784
1646
+ },
1647
+ {
1648
+ "epoch": 1.7337571716545201,
1649
+ "grad_norm": 3.8102357387542725,
1650
+ "learning_rate": 9.38691159586682e-06,
1651
+ "loss": 0.4944278796513875,
1652
+ "step": 2796
1653
+ },
1654
+ {
1655
+ "epoch": 1.7412001860753605,
1656
+ "grad_norm": 5.343743801116943,
1657
+ "learning_rate": 9.331802525832377e-06,
1658
+ "loss": 0.45073699951171875,
1659
+ "step": 2808
1660
+ },
1661
+ {
1662
+ "epoch": 1.748643200496201,
1663
+ "grad_norm": 8.939608573913574,
1664
+ "learning_rate": 9.276693455797934e-06,
1665
+ "loss": 0.5150019327799479,
1666
+ "step": 2820
1667
+ },
1668
+ {
1669
+ "epoch": 1.7560862149170413,
1670
+ "grad_norm": 9.984607696533203,
1671
+ "learning_rate": 9.221584385763491e-06,
1672
+ "loss": 0.49051181475321454,
1673
+ "step": 2832
1674
+ },
1675
+ {
1676
+ "epoch": 1.7635292293378817,
1677
+ "grad_norm": 4.297845840454102,
1678
+ "learning_rate": 9.166475315729047e-06,
1679
+ "loss": 0.43834813435872394,
1680
+ "step": 2844
1681
+ },
1682
+ {
1683
+ "epoch": 1.7709722437587223,
1684
+ "grad_norm": 4.738193035125732,
1685
+ "learning_rate": 9.111366245694604e-06,
1686
+ "loss": 0.48496174812316895,
1687
+ "step": 2856
1688
+ },
1689
+ {
1690
+ "epoch": 1.7784152581795627,
1691
+ "grad_norm": 6.950840473175049,
1692
+ "learning_rate": 9.056257175660162e-06,
1693
+ "loss": 0.4803895950317383,
1694
+ "step": 2868
1695
+ },
1696
+ {
1697
+ "epoch": 1.7858582726004033,
1698
+ "grad_norm": 2.9567737579345703,
1699
+ "learning_rate": 9.001148105625719e-06,
1700
+ "loss": 0.47137478987375897,
1701
+ "step": 2880
1702
+ },
1703
+ {
1704
+ "epoch": 1.7933012870212437,
1705
+ "grad_norm": 21.629295349121094,
1706
+ "learning_rate": 8.946039035591275e-06,
1707
+ "loss": 0.5382961829503378,
1708
+ "step": 2892
1709
+ },
1710
+ {
1711
+ "epoch": 1.800744301442084,
1712
+ "grad_norm": 4.054839611053467,
1713
+ "learning_rate": 8.890929965556832e-06,
1714
+ "loss": 0.429937203725179,
1715
+ "step": 2904
1716
+ },
1717
+ {
1718
+ "epoch": 1.8081873158629245,
1719
+ "grad_norm": 8.124676704406738,
1720
+ "learning_rate": 8.83582089552239e-06,
1721
+ "loss": 0.46343564987182617,
1722
+ "step": 2916
1723
+ },
1724
+ {
1725
+ "epoch": 1.8156303302837649,
1726
+ "grad_norm": 6.405475616455078,
1727
+ "learning_rate": 8.780711825487945e-06,
1728
+ "loss": 0.47476502259572345,
1729
+ "step": 2928
1730
+ },
1731
+ {
1732
+ "epoch": 1.8230733447046052,
1733
+ "grad_norm": 3.4982993602752686,
1734
+ "learning_rate": 8.725602755453502e-06,
1735
+ "loss": 0.42661325136820477,
1736
+ "step": 2940
1737
+ },
1738
+ {
1739
+ "epoch": 1.8305163591254459,
1740
+ "grad_norm": 5.036385536193848,
1741
+ "learning_rate": 8.67049368541906e-06,
1742
+ "loss": 0.42475831508636475,
1743
+ "step": 2952
1744
+ },
1745
+ {
1746
+ "epoch": 1.8379593735462862,
1747
+ "grad_norm": 9.453807830810547,
1748
+ "learning_rate": 8.615384615384617e-06,
1749
+ "loss": 0.4522843360900879,
1750
+ "step": 2964
1751
+ },
1752
+ {
1753
+ "epoch": 1.8454023879671266,
1754
+ "grad_norm": 7.572172164916992,
1755
+ "learning_rate": 8.560275545350172e-06,
1756
+ "loss": 0.5405757427215576,
1757
+ "step": 2976
1758
+ },
1759
+ {
1760
+ "epoch": 1.8528454023879672,
1761
+ "grad_norm": 3.8509397506713867,
1762
+ "learning_rate": 8.50516647531573e-06,
1763
+ "loss": 0.4206368128458659,
1764
+ "step": 2988
1765
+ },
1766
+ {
1767
+ "epoch": 1.8602884168088076,
1768
+ "grad_norm": 3.8660781383514404,
1769
+ "learning_rate": 8.450057405281287e-06,
1770
+ "loss": 0.4278140465418498,
1771
+ "step": 3000
1772
+ },
1773
+ {
1774
+ "epoch": 1.867731431229648,
1775
+ "grad_norm": 13.179638862609863,
1776
+ "learning_rate": 8.394948335246843e-06,
1777
+ "loss": 0.45146167278289795,
1778
+ "step": 3012
1779
+ },
1780
+ {
1781
+ "epoch": 1.8751744456504884,
1782
+ "grad_norm": 2.5003507137298584,
1783
+ "learning_rate": 8.3398392652124e-06,
1784
+ "loss": 0.5010615189870199,
1785
+ "step": 3024
1786
+ },
1787
+ {
1788
+ "epoch": 1.8826174600713288,
1789
+ "grad_norm": 6.336158752441406,
1790
+ "learning_rate": 8.284730195177957e-06,
1791
+ "loss": 0.48331379890441895,
1792
+ "step": 3036
1793
+ },
1794
+ {
1795
+ "epoch": 1.8900604744921692,
1796
+ "grad_norm": 3.9048869609832764,
1797
+ "learning_rate": 8.229621125143515e-06,
1798
+ "loss": 0.4964629014333089,
1799
+ "step": 3048
1800
+ },
1801
+ {
1802
+ "epoch": 1.8975034889130098,
1803
+ "grad_norm": 4.851749897003174,
1804
+ "learning_rate": 8.17451205510907e-06,
1805
+ "loss": 0.4605306386947632,
1806
+ "step": 3060
1807
+ },
1808
+ {
1809
+ "epoch": 1.9049465033338502,
1810
+ "grad_norm": 2.5984604358673096,
1811
+ "learning_rate": 8.119402985074628e-06,
1812
+ "loss": 0.42377761999766034,
1813
+ "step": 3072
1814
+ },
1815
+ {
1816
+ "epoch": 1.9123895177546908,
1817
+ "grad_norm": 14.330255508422852,
1818
+ "learning_rate": 8.064293915040185e-06,
1819
+ "loss": 0.4586070378621419,
1820
+ "step": 3084
1821
+ },
1822
+ {
1823
+ "epoch": 1.9198325321755312,
1824
+ "grad_norm": 5.363494873046875,
1825
+ "learning_rate": 8.00918484500574e-06,
1826
+ "loss": 0.4935295581817627,
1827
+ "step": 3096
1828
+ },
1829
+ {
1830
+ "epoch": 1.9272755465963716,
1831
+ "grad_norm": 5.703904151916504,
1832
+ "learning_rate": 7.954075774971298e-06,
1833
+ "loss": 0.44021427631378174,
1834
+ "step": 3108
1835
+ },
1836
+ {
1837
+ "epoch": 1.934718561017212,
1838
+ "grad_norm": 5.600277423858643,
1839
+ "learning_rate": 7.898966704936855e-06,
1840
+ "loss": 0.48560158411661786,
1841
+ "step": 3120
1842
+ },
1843
+ {
1844
+ "epoch": 1.9421615754380523,
1845
+ "grad_norm": 11.074832916259766,
1846
+ "learning_rate": 7.843857634902413e-06,
1847
+ "loss": 0.4312416712443034,
1848
+ "step": 3132
1849
+ },
1850
+ {
1851
+ "epoch": 1.9496045898588927,
1852
+ "grad_norm": 3.4356892108917236,
1853
+ "learning_rate": 7.788748564867968e-06,
1854
+ "loss": 0.4442025025685628,
1855
+ "step": 3144
1856
+ },
1857
+ {
1858
+ "epoch": 1.9570476042797333,
1859
+ "grad_norm": 3.7474091053009033,
1860
+ "learning_rate": 7.733639494833526e-06,
1861
+ "loss": 0.5241368214289347,
1862
+ "step": 3156
1863
+ },
1864
+ {
1865
+ "epoch": 1.9644906187005737,
1866
+ "grad_norm": 4.750489234924316,
1867
+ "learning_rate": 7.678530424799083e-06,
1868
+ "loss": 0.4401020606358846,
1869
+ "step": 3168
1870
+ },
1871
+ {
1872
+ "epoch": 1.9719336331214141,
1873
+ "grad_norm": 22.131851196289062,
1874
+ "learning_rate": 7.6234213547646386e-06,
1875
+ "loss": 0.5134913126627604,
1876
+ "step": 3180
1877
+ },
1878
+ {
1879
+ "epoch": 1.9793766475422547,
1880
+ "grad_norm": 4.812230587005615,
1881
+ "learning_rate": 7.568312284730196e-06,
1882
+ "loss": 0.5479523340861002,
1883
+ "step": 3192
1884
+ },
1885
+ {
1886
+ "epoch": 1.9868196619630951,
1887
+ "grad_norm": 6.560222625732422,
1888
+ "learning_rate": 7.513203214695752e-06,
1889
+ "loss": 0.4738404353459676,
1890
+ "step": 3204
1891
+ },
1892
+ {
1893
+ "epoch": 1.9942626763839355,
1894
+ "grad_norm": 5.240246772766113,
1895
+ "learning_rate": 7.45809414466131e-06,
1896
+ "loss": 0.4475013017654419,
1897
+ "step": 3216
1898
+ },
1899
+ {
1900
+ "epoch": 2.0,
1901
+ "eval_f1": 0.43079906968624254,
1902
+ "eval_loss": 0.11952196806669235,
1903
+ "eval_precision": 0.391528709389682,
1904
+ "eval_recall": 0.4931553870446119,
1905
+ "eval_runtime": 585.0453,
1906
+ "eval_samples_per_second": 66.13,
1907
+ "eval_steps_per_second": 1.379,
1908
+ "step": 3226
1909
+ },
1910
+ {
1911
+ "epoch": 2.0012405024034736,
1912
+ "grad_norm": 4.430677890777588,
1913
+ "learning_rate": 7.402985074626866e-06,
1914
+ "loss": 0.4009953737258911,
1915
+ "step": 3228
1916
+ },
1917
+ {
1918
+ "epoch": 2.008683516824314,
1919
+ "grad_norm": 10.324471473693848,
1920
+ "learning_rate": 7.3478760045924235e-06,
1921
+ "loss": 0.4711928367614746,
1922
+ "step": 3240
1923
+ },
1924
+ {
1925
+ "epoch": 2.0161265312451544,
1926
+ "grad_norm": 11.249197006225586,
1927
+ "learning_rate": 7.29276693455798e-06,
1928
+ "loss": 0.4341440995534261,
1929
+ "step": 3252
1930
+ },
1931
+ {
1932
+ "epoch": 2.023569545665995,
1933
+ "grad_norm": 2.7949812412261963,
1934
+ "learning_rate": 7.2376578645235365e-06,
1935
+ "loss": 0.3914073705673218,
1936
+ "step": 3264
1937
+ },
1938
+ {
1939
+ "epoch": 2.031012560086835,
1940
+ "grad_norm": 10.501336097717285,
1941
+ "learning_rate": 7.182548794489094e-06,
1942
+ "loss": 0.3871670166651408,
1943
+ "step": 3276
1944
+ },
1945
+ {
1946
+ "epoch": 2.0384555745076756,
1947
+ "grad_norm": 11.492402076721191,
1948
+ "learning_rate": 7.12743972445465e-06,
1949
+ "loss": 0.44295652707417804,
1950
+ "step": 3288
1951
+ },
1952
+ {
1953
+ "epoch": 2.045898588928516,
1954
+ "grad_norm": 8.688313484191895,
1955
+ "learning_rate": 7.072330654420208e-06,
1956
+ "loss": 0.4092850685119629,
1957
+ "step": 3300
1958
+ },
1959
+ {
1960
+ "epoch": 2.0533416033493563,
1961
+ "grad_norm": 5.402098178863525,
1962
+ "learning_rate": 7.017221584385764e-06,
1963
+ "loss": 0.41869743665059406,
1964
+ "step": 3312
1965
+ },
1966
+ {
1967
+ "epoch": 2.0607846177701967,
1968
+ "grad_norm": 3.6429481506347656,
1969
+ "learning_rate": 6.962112514351321e-06,
1970
+ "loss": 0.3916611671447754,
1971
+ "step": 3324
1972
+ },
1973
+ {
1974
+ "epoch": 2.0682276321910376,
1975
+ "grad_norm": 4.778937339782715,
1976
+ "learning_rate": 6.907003444316878e-06,
1977
+ "loss": 0.3913481632868449,
1978
+ "step": 3336
1979
+ },
1980
+ {
1981
+ "epoch": 2.075670646611878,
1982
+ "grad_norm": 4.281859874725342,
1983
+ "learning_rate": 6.851894374282435e-06,
1984
+ "loss": 0.380032738049825,
1985
+ "step": 3348
1986
+ },
1987
+ {
1988
+ "epoch": 2.0831136610327183,
1989
+ "grad_norm": 7.385513782501221,
1990
+ "learning_rate": 6.796785304247992e-06,
1991
+ "loss": 0.3545822699864705,
1992
+ "step": 3360
1993
+ },
1994
+ {
1995
+ "epoch": 2.0905566754535587,
1996
+ "grad_norm": 2.9248600006103516,
1997
+ "learning_rate": 6.741676234213548e-06,
1998
+ "loss": 0.419588565826416,
1999
+ "step": 3372
2000
+ },
2001
+ {
2002
+ "epoch": 2.097999689874399,
2003
+ "grad_norm": 3.0418336391448975,
2004
+ "learning_rate": 6.6865671641791055e-06,
2005
+ "loss": 0.4189613262812297,
2006
+ "step": 3384
2007
+ },
2008
+ {
2009
+ "epoch": 2.1054427042952395,
2010
+ "grad_norm": 4.628702640533447,
2011
+ "learning_rate": 6.631458094144662e-06,
2012
+ "loss": 0.38280495007832843,
2013
+ "step": 3396
2014
+ },
2015
+ {
2016
+ "epoch": 2.11288571871608,
2017
+ "grad_norm": 2.931917667388916,
2018
+ "learning_rate": 6.576349024110219e-06,
2019
+ "loss": 0.40134119987487793,
2020
+ "step": 3408
2021
+ },
2022
+ {
2023
+ "epoch": 2.1203287331369203,
2024
+ "grad_norm": 5.4905853271484375,
2025
+ "learning_rate": 6.521239954075776e-06,
2026
+ "loss": 0.3685312271118164,
2027
+ "step": 3420
2028
+ },
2029
+ {
2030
+ "epoch": 2.1277717475577607,
2031
+ "grad_norm": 2.9753782749176025,
2032
+ "learning_rate": 6.466130884041333e-06,
2033
+ "loss": 0.3878607749938965,
2034
+ "step": 3432
2035
+ },
2036
+ {
2037
+ "epoch": 2.1352147619786015,
2038
+ "grad_norm": 7.17921257019043,
2039
+ "learning_rate": 6.411021814006889e-06,
2040
+ "loss": 0.41369112332661945,
2041
+ "step": 3444
2042
+ },
2043
+ {
2044
+ "epoch": 2.142657776399442,
2045
+ "grad_norm": 13.806902885437012,
2046
+ "learning_rate": 6.355912743972445e-06,
2047
+ "loss": 0.43599124749501544,
2048
+ "step": 3456
2049
+ },
2050
+ {
2051
+ "epoch": 2.1501007908202823,
2052
+ "grad_norm": 3.4916634559631348,
2053
+ "learning_rate": 6.3008036739380026e-06,
2054
+ "loss": 0.3406885862350464,
2055
+ "step": 3468
2056
+ },
2057
+ {
2058
+ "epoch": 2.1575438052411227,
2059
+ "grad_norm": 6.193579196929932,
2060
+ "learning_rate": 6.245694603903559e-06,
2061
+ "loss": 0.3558163642883301,
2062
+ "step": 3480
2063
+ },
2064
+ {
2065
+ "epoch": 2.164986819661963,
2066
+ "grad_norm": 6.37896203994751,
2067
+ "learning_rate": 6.190585533869116e-06,
2068
+ "loss": 0.35776766141255695,
2069
+ "step": 3492
2070
+ },
2071
+ {
2072
+ "epoch": 2.1724298340828034,
2073
+ "grad_norm": 12.731496810913086,
2074
+ "learning_rate": 6.135476463834673e-06,
2075
+ "loss": 0.37972402572631836,
2076
+ "step": 3504
2077
+ },
2078
+ {
2079
+ "epoch": 2.179872848503644,
2080
+ "grad_norm": 19.98930549621582,
2081
+ "learning_rate": 6.08036739380023e-06,
2082
+ "loss": 0.42111217975616455,
2083
+ "step": 3516
2084
+ },
2085
+ {
2086
+ "epoch": 2.187315862924484,
2087
+ "grad_norm": 6.11861515045166,
2088
+ "learning_rate": 6.025258323765787e-06,
2089
+ "loss": 0.3672644297281901,
2090
+ "step": 3528
2091
+ },
2092
+ {
2093
+ "epoch": 2.194758877345325,
2094
+ "grad_norm": 11.929699897766113,
2095
+ "learning_rate": 5.970149253731343e-06,
2096
+ "loss": 0.4023996591567993,
2097
+ "step": 3540
2098
+ },
2099
+ {
2100
+ "epoch": 2.2022018917661654,
2101
+ "grad_norm": 17.26346206665039,
2102
+ "learning_rate": 5.9150401836969005e-06,
2103
+ "loss": 0.38841597239176434,
2104
+ "step": 3552
2105
+ },
2106
+ {
2107
+ "epoch": 2.209644906187006,
2108
+ "grad_norm": 9.183552742004395,
2109
+ "learning_rate": 5.859931113662457e-06,
2110
+ "loss": 0.42536401748657227,
2111
+ "step": 3564
2112
+ },
2113
+ {
2114
+ "epoch": 2.217087920607846,
2115
+ "grad_norm": 2.3118231296539307,
2116
+ "learning_rate": 5.804822043628014e-06,
2117
+ "loss": 0.4157342513402303,
2118
+ "step": 3576
2119
+ },
2120
+ {
2121
+ "epoch": 2.2245309350286866,
2122
+ "grad_norm": 6.309724807739258,
2123
+ "learning_rate": 5.749712973593571e-06,
2124
+ "loss": 0.4599275191624959,
2125
+ "step": 3588
2126
+ },
2127
+ {
2128
+ "epoch": 2.231973949449527,
2129
+ "grad_norm": 2.892469882965088,
2130
+ "learning_rate": 5.694603903559128e-06,
2131
+ "loss": 0.441303292910258,
2132
+ "step": 3600
2133
+ },
2134
+ {
2135
+ "epoch": 2.2394169638703674,
2136
+ "grad_norm": 6.523403167724609,
2137
+ "learning_rate": 5.6394948335246846e-06,
2138
+ "loss": 0.41275028387705487,
2139
+ "step": 3612
2140
+ },
2141
+ {
2142
+ "epoch": 2.2468599782912078,
2143
+ "grad_norm": 2.6101267337799072,
2144
+ "learning_rate": 5.584385763490242e-06,
2145
+ "loss": 0.41505225499471027,
2146
+ "step": 3624
2147
+ },
2148
+ {
2149
+ "epoch": 2.2543029927120486,
2150
+ "grad_norm": 5.343144416809082,
2151
+ "learning_rate": 5.529276693455798e-06,
2152
+ "loss": 0.38965781529744464,
2153
+ "step": 3636
2154
+ },
2155
+ {
2156
+ "epoch": 2.261746007132889,
2157
+ "grad_norm": 4.3300395011901855,
2158
+ "learning_rate": 5.474167623421355e-06,
2159
+ "loss": 0.4278339942296346,
2160
+ "step": 3648
2161
+ },
2162
+ {
2163
+ "epoch": 2.2691890215537294,
2164
+ "grad_norm": 5.109958171844482,
2165
+ "learning_rate": 5.419058553386912e-06,
2166
+ "loss": 0.366446574529012,
2167
+ "step": 3660
2168
+ },
2169
+ {
2170
+ "epoch": 2.2766320359745698,
2171
+ "grad_norm": 3.8399014472961426,
2172
+ "learning_rate": 5.363949483352469e-06,
2173
+ "loss": 0.3991047541300456,
2174
+ "step": 3672
2175
+ },
2176
+ {
2177
+ "epoch": 2.28407505039541,
2178
+ "grad_norm": 6.625537872314453,
2179
+ "learning_rate": 5.308840413318026e-06,
2180
+ "loss": 0.3346426486968994,
2181
+ "step": 3684
2182
+ },
2183
+ {
2184
+ "epoch": 2.2915180648162505,
2185
+ "grad_norm": 11.645654678344727,
2186
+ "learning_rate": 5.2537313432835825e-06,
2187
+ "loss": 0.3985482454299927,
2188
+ "step": 3696
2189
+ },
2190
+ {
2191
+ "epoch": 2.298961079237091,
2192
+ "grad_norm": 5.67885684967041,
2193
+ "learning_rate": 5.19862227324914e-06,
2194
+ "loss": 0.3815650939941406,
2195
+ "step": 3708
2196
+ },
2197
+ {
2198
+ "epoch": 2.3064040936579313,
2199
+ "grad_norm": 4.548233985900879,
2200
+ "learning_rate": 5.143513203214696e-06,
2201
+ "loss": 0.39840646584828693,
2202
+ "step": 3720
2203
+ },
2204
+ {
2205
+ "epoch": 2.3138471080787717,
2206
+ "grad_norm": 3.8364691734313965,
2207
+ "learning_rate": 5.088404133180253e-06,
2208
+ "loss": 0.4081765413284302,
2209
+ "step": 3732
2210
+ },
2211
+ {
2212
+ "epoch": 2.3212901224996125,
2213
+ "grad_norm": 2.5266079902648926,
2214
+ "learning_rate": 5.03329506314581e-06,
2215
+ "loss": 0.3613650401433309,
2216
+ "step": 3744
2217
+ },
2218
+ {
2219
+ "epoch": 2.328733136920453,
2220
+ "grad_norm": 7.049173831939697,
2221
+ "learning_rate": 4.9781859931113666e-06,
2222
+ "loss": 0.4112436771392822,
2223
+ "step": 3756
2224
+ },
2225
+ {
2226
+ "epoch": 2.3361761513412933,
2227
+ "grad_norm": 7.23855447769165,
2228
+ "learning_rate": 4.923076923076924e-06,
2229
+ "loss": 0.4015626907348633,
2230
+ "step": 3768
2231
+ },
2232
+ {
2233
+ "epoch": 2.3436191657621337,
2234
+ "grad_norm": 7.326627731323242,
2235
+ "learning_rate": 4.86796785304248e-06,
2236
+ "loss": 0.389956792195638,
2237
+ "step": 3780
2238
+ },
2239
+ {
2240
+ "epoch": 2.351062180182974,
2241
+ "grad_norm": 11.426876068115234,
2242
+ "learning_rate": 4.812858783008037e-06,
2243
+ "loss": 0.392941157023112,
2244
+ "step": 3792
2245
+ },
2246
+ {
2247
+ "epoch": 2.3585051946038145,
2248
+ "grad_norm": 5.058406352996826,
2249
+ "learning_rate": 4.757749712973594e-06,
2250
+ "loss": 0.388182799021403,
2251
+ "step": 3804
2252
+ },
2253
+ {
2254
+ "epoch": 2.365948209024655,
2255
+ "grad_norm": 7.783097267150879,
2256
+ "learning_rate": 4.702640642939151e-06,
2257
+ "loss": 0.4082544247309367,
2258
+ "step": 3816
2259
+ },
2260
+ {
2261
+ "epoch": 2.3733912234454952,
2262
+ "grad_norm": 4.8967084884643555,
2263
+ "learning_rate": 4.647531572904708e-06,
2264
+ "loss": 0.40780651569366455,
2265
+ "step": 3828
2266
+ },
2267
+ {
2268
+ "epoch": 2.3808342378663356,
2269
+ "grad_norm": 5.760252952575684,
2270
+ "learning_rate": 4.5924225028702645e-06,
2271
+ "loss": 0.4002196391423543,
2272
+ "step": 3840
2273
+ },
2274
+ {
2275
+ "epoch": 2.3882772522871765,
2276
+ "grad_norm": 4.79511022567749,
2277
+ "learning_rate": 4.537313432835822e-06,
2278
+ "loss": 0.3828426996866862,
2279
+ "step": 3852
2280
+ },
2281
+ {
2282
+ "epoch": 2.395720266708017,
2283
+ "grad_norm": 3.2499914169311523,
2284
+ "learning_rate": 4.4822043628013774e-06,
2285
+ "loss": 0.3649975061416626,
2286
+ "step": 3864
2287
+ },
2288
+ {
2289
+ "epoch": 2.4031632811288572,
2290
+ "grad_norm": 5.451921463012695,
2291
+ "learning_rate": 4.427095292766935e-06,
2292
+ "loss": 0.3998970588048299,
2293
+ "step": 3876
2294
+ },
2295
+ {
2296
+ "epoch": 2.4106062955496976,
2297
+ "grad_norm": 3.8105506896972656,
2298
+ "learning_rate": 4.371986222732491e-06,
2299
+ "loss": 0.45681726932525635,
2300
+ "step": 3888
2301
+ },
2302
+ {
2303
+ "epoch": 2.418049309970538,
2304
+ "grad_norm": 3.690845012664795,
2305
+ "learning_rate": 4.3168771526980486e-06,
2306
+ "loss": 0.3797287543614705,
2307
+ "step": 3900
2308
+ },
2309
+ {
2310
+ "epoch": 2.4254923243913784,
2311
+ "grad_norm": 12.44582748413086,
2312
+ "learning_rate": 4.261768082663605e-06,
2313
+ "loss": 0.47908584276835126,
2314
+ "step": 3912
2315
+ },
2316
+ {
2317
+ "epoch": 2.432935338812219,
2318
+ "grad_norm": 3.862395763397217,
2319
+ "learning_rate": 4.206659012629162e-06,
2320
+ "loss": 0.4127648671468099,
2321
+ "step": 3924
2322
+ },
2323
+ {
2324
+ "epoch": 2.4403783532330596,
2325
+ "grad_norm": 11.71980094909668,
2326
+ "learning_rate": 4.151549942594719e-06,
2327
+ "loss": 0.33937788009643555,
2328
+ "step": 3936
2329
+ },
2330
+ {
2331
+ "epoch": 2.4478213676539,
2332
+ "grad_norm": 4.254403591156006,
2333
+ "learning_rate": 4.096440872560276e-06,
2334
+ "loss": 0.3548990885416667,
2335
+ "step": 3948
2336
+ },
2337
+ {
2338
+ "epoch": 2.4552643820747404,
2339
+ "grad_norm": 5.00128173828125,
2340
+ "learning_rate": 4.041331802525833e-06,
2341
+ "loss": 0.4270055294036865,
2342
+ "step": 3960
2343
+ },
2344
+ {
2345
+ "epoch": 2.462707396495581,
2346
+ "grad_norm": 3.918459892272949,
2347
+ "learning_rate": 3.986222732491389e-06,
2348
+ "loss": 0.3760935465494792,
2349
+ "step": 3972
2350
+ },
2351
+ {
2352
+ "epoch": 2.470150410916421,
2353
+ "grad_norm": 11.43891716003418,
2354
+ "learning_rate": 3.9311136624569465e-06,
2355
+ "loss": 0.4183223644892375,
2356
+ "step": 3984
2357
+ },
2358
+ {
2359
+ "epoch": 2.4775934253372616,
2360
+ "grad_norm": 16.374967575073242,
2361
+ "learning_rate": 3.876004592422503e-06,
2362
+ "loss": 0.36837557951609295,
2363
+ "step": 3996
2364
+ },
2365
+ {
2366
+ "epoch": 2.485036439758102,
2367
+ "grad_norm": 4.490777015686035,
2368
+ "learning_rate": 3.82089552238806e-06,
2369
+ "loss": 0.4069160620371501,
2370
+ "step": 4008
2371
+ },
2372
+ {
2373
+ "epoch": 2.4924794541789423,
2374
+ "grad_norm": 8.420413970947266,
2375
+ "learning_rate": 3.7657864523536168e-06,
2376
+ "loss": 0.4271164337793986,
2377
+ "step": 4020
2378
+ },
2379
+ {
2380
+ "epoch": 2.4999224685997827,
2381
+ "grad_norm": 8.309126853942871,
2382
+ "learning_rate": 3.7106773823191737e-06,
2383
+ "loss": 0.3547343810399373,
2384
+ "step": 4032
2385
+ },
2386
+ {
2387
+ "epoch": 2.5073654830206236,
2388
+ "grad_norm": 14.98065185546875,
2389
+ "learning_rate": 3.6555683122847306e-06,
2390
+ "loss": 0.40314682324727374,
2391
+ "step": 4044
2392
+ },
2393
+ {
2394
+ "epoch": 2.514808497441464,
2395
+ "grad_norm": 16.558191299438477,
2396
+ "learning_rate": 3.600459242250287e-06,
2397
+ "loss": 0.36269084612528485,
2398
+ "step": 4056
2399
+ },
2400
+ {
2401
+ "epoch": 2.5222515118623043,
2402
+ "grad_norm": 6.547549724578857,
2403
+ "learning_rate": 3.545350172215844e-06,
2404
+ "loss": 0.36424537499745685,
2405
+ "step": 4068
2406
+ },
2407
+ {
2408
+ "epoch": 2.5296945262831447,
2409
+ "grad_norm": 4.773808002471924,
2410
+ "learning_rate": 3.490241102181401e-06,
2411
+ "loss": 0.37531224886576336,
2412
+ "step": 4080
2413
+ },
2414
+ {
2415
+ "epoch": 2.537137540703985,
2416
+ "grad_norm": 4.01258659362793,
2417
+ "learning_rate": 3.4351320321469578e-06,
2418
+ "loss": 0.36545733610788983,
2419
+ "step": 4092
2420
+ },
2421
+ {
2422
+ "epoch": 2.5445805551248255,
2423
+ "grad_norm": 10.372180938720703,
2424
+ "learning_rate": 3.3800229621125147e-06,
2425
+ "loss": 0.4671864112218221,
2426
+ "step": 4104
2427
+ },
2428
+ {
2429
+ "epoch": 2.552023569545666,
2430
+ "grad_norm": 3.3598952293395996,
2431
+ "learning_rate": 3.3249138920780716e-06,
2432
+ "loss": 0.3458172082901001,
2433
+ "step": 4116
2434
+ },
2435
+ {
2436
+ "epoch": 2.5594665839665063,
2437
+ "grad_norm": 11.469687461853027,
2438
+ "learning_rate": 3.2698048220436285e-06,
2439
+ "loss": 0.39522536595662433,
2440
+ "step": 4128
2441
+ },
2442
+ {
2443
+ "epoch": 2.5669095983873467,
2444
+ "grad_norm": 3.848041534423828,
2445
+ "learning_rate": 3.2146957520091854e-06,
2446
+ "loss": 0.41400329271952313,
2447
+ "step": 4140
2448
+ },
2449
+ {
2450
+ "epoch": 2.5743526128081875,
2451
+ "grad_norm": 4.791919231414795,
2452
+ "learning_rate": 3.159586681974742e-06,
2453
+ "loss": 0.393940011660258,
2454
+ "step": 4152
2455
+ },
2456
+ {
2457
+ "epoch": 2.581795627229028,
2458
+ "grad_norm": 21.486618041992188,
2459
+ "learning_rate": 3.1044776119402988e-06,
2460
+ "loss": 0.4398730993270874,
2461
+ "step": 4164
2462
+ },
2463
+ {
2464
+ "epoch": 2.5892386416498683,
2465
+ "grad_norm": 5.638022422790527,
2466
+ "learning_rate": 3.0493685419058557e-06,
2467
+ "loss": 0.3547349770863851,
2468
+ "step": 4176
2469
+ },
2470
+ {
2471
+ "epoch": 2.5966816560707087,
2472
+ "grad_norm": 7.414913177490234,
2473
+ "learning_rate": 2.9942594718714126e-06,
2474
+ "loss": 0.38705146312713623,
2475
+ "step": 4188
2476
+ },
2477
+ {
2478
+ "epoch": 2.604124670491549,
2479
+ "grad_norm": 6.696681976318359,
2480
+ "learning_rate": 2.9391504018369695e-06,
2481
+ "loss": 0.36440642674763996,
2482
+ "step": 4200
2483
+ },
2484
+ {
2485
+ "epoch": 2.6115676849123894,
2486
+ "grad_norm": 4.02039098739624,
2487
+ "learning_rate": 2.8840413318025264e-06,
2488
+ "loss": 0.39015217622121173,
2489
+ "step": 4212
2490
+ },
2491
+ {
2492
+ "epoch": 2.61901069933323,
2493
+ "grad_norm": 3.370777130126953,
2494
+ "learning_rate": 2.8289322617680833e-06,
2495
+ "loss": 0.4275425275166829,
2496
+ "step": 4224
2497
+ },
2498
+ {
2499
+ "epoch": 2.6264537137540707,
2500
+ "grad_norm": 8.47400951385498,
2501
+ "learning_rate": 2.7738231917336393e-06,
2502
+ "loss": 0.3559015194574992,
2503
+ "step": 4236
2504
+ },
2505
+ {
2506
+ "epoch": 2.6338967281749106,
2507
+ "grad_norm": 11.06500244140625,
2508
+ "learning_rate": 2.7187141216991963e-06,
2509
+ "loss": 0.3683815002441406,
2510
+ "step": 4248
2511
+ },
2512
+ {
2513
+ "epoch": 2.6413397425957514,
2514
+ "grad_norm": 3.4861528873443604,
2515
+ "learning_rate": 2.663605051664753e-06,
2516
+ "loss": 0.44681187470753986,
2517
+ "step": 4260
2518
+ },
2519
+ {
2520
+ "epoch": 2.648782757016592,
2521
+ "grad_norm": 10.642603874206543,
2522
+ "learning_rate": 2.60849598163031e-06,
2523
+ "loss": 0.4434703588485718,
2524
+ "step": 4272
2525
+ },
2526
+ {
2527
+ "epoch": 2.656225771437432,
2528
+ "grad_norm": 2.501110315322876,
2529
+ "learning_rate": 2.553386911595867e-06,
2530
+ "loss": 0.3525495131810506,
2531
+ "step": 4284
2532
+ },
2533
+ {
2534
+ "epoch": 2.6636687858582726,
2535
+ "grad_norm": 5.691764831542969,
2536
+ "learning_rate": 2.498277841561424e-06,
2537
+ "loss": 0.3853313128153483,
2538
+ "step": 4296
2539
+ },
2540
+ {
2541
+ "epoch": 2.671111800279113,
2542
+ "grad_norm": 4.1908135414123535,
2543
+ "learning_rate": 2.4431687715269808e-06,
2544
+ "loss": 0.38127346833546955,
2545
+ "step": 4308
2546
+ },
2547
+ {
2548
+ "epoch": 2.6785548146999534,
2549
+ "grad_norm": 9.538026809692383,
2550
+ "learning_rate": 2.3880597014925373e-06,
2551
+ "loss": 0.39995817343393963,
2552
+ "step": 4320
2553
+ },
2554
+ {
2555
+ "epoch": 2.6859978291207938,
2556
+ "grad_norm": 8.436595916748047,
2557
+ "learning_rate": 2.332950631458094e-06,
2558
+ "loss": 0.3635564645131429,
2559
+ "step": 4332
2560
+ },
2561
+ {
2562
+ "epoch": 2.6934408435416346,
2563
+ "grad_norm": 2.5905513763427734,
2564
+ "learning_rate": 2.277841561423651e-06,
2565
+ "loss": 0.46339670817057294,
2566
+ "step": 4344
2567
+ },
2568
+ {
2569
+ "epoch": 2.7008838579624745,
2570
+ "grad_norm": 6.738951206207275,
2571
+ "learning_rate": 2.222732491389208e-06,
2572
+ "loss": 0.3373739719390869,
2573
+ "step": 4356
2574
+ },
2575
+ {
2576
+ "epoch": 2.7083268723833154,
2577
+ "grad_norm": 5.625753402709961,
2578
+ "learning_rate": 2.167623421354765e-06,
2579
+ "loss": 0.3713107109069824,
2580
+ "step": 4368
2581
+ },
2582
+ {
2583
+ "epoch": 2.7157698868041558,
2584
+ "grad_norm": 3.6908581256866455,
2585
+ "learning_rate": 2.1125143513203218e-06,
2586
+ "loss": 0.3845006227493286,
2587
+ "step": 4380
2588
+ },
2589
+ {
2590
+ "epoch": 2.723212901224996,
2591
+ "grad_norm": 5.123325824737549,
2592
+ "learning_rate": 2.0574052812858787e-06,
2593
+ "loss": 0.3693963686625163,
2594
+ "step": 4392
2595
+ },
2596
+ {
2597
+ "epoch": 2.7306559156458365,
2598
+ "grad_norm": 5.600500583648682,
2599
+ "learning_rate": 2.002296211251435e-06,
2600
+ "loss": 0.4005578358968099,
2601
+ "step": 4404
2602
+ },
2603
+ {
2604
+ "epoch": 2.738098930066677,
2605
+ "grad_norm": 4.9075775146484375,
2606
+ "learning_rate": 1.947187141216992e-06,
2607
+ "loss": 0.44304617245992023,
2608
+ "step": 4416
2609
+ },
2610
+ {
2611
+ "epoch": 2.7455419444875173,
2612
+ "grad_norm": 2.535568952560425,
2613
+ "learning_rate": 1.892078071182549e-06,
2614
+ "loss": 0.36018415292104083,
2615
+ "step": 4428
2616
+ },
2617
+ {
2618
+ "epoch": 2.7529849589083577,
2619
+ "grad_norm": 3.863154888153076,
2620
+ "learning_rate": 1.8369690011481059e-06,
2621
+ "loss": 0.3833086093266805,
2622
+ "step": 4440
2623
+ },
2624
+ {
2625
+ "epoch": 2.7604279733291985,
2626
+ "grad_norm": 3.38565731048584,
2627
+ "learning_rate": 1.7818599311136626e-06,
2628
+ "loss": 0.36296629905700684,
2629
+ "step": 4452
2630
+ },
2631
+ {
2632
+ "epoch": 2.767870987750039,
2633
+ "grad_norm": 3.979094982147217,
2634
+ "learning_rate": 1.7267508610792195e-06,
2635
+ "loss": 0.400799036026001,
2636
+ "step": 4464
2637
+ },
2638
+ {
2639
+ "epoch": 2.7753140021708793,
2640
+ "grad_norm": 3.6006662845611572,
2641
+ "learning_rate": 1.6716417910447764e-06,
2642
+ "loss": 0.38404210408528644,
2643
+ "step": 4476
2644
+ },
2645
+ {
2646
+ "epoch": 2.7827570165917197,
2647
+ "grad_norm": 9.927759170532227,
2648
+ "learning_rate": 1.6165327210103333e-06,
2649
+ "loss": 0.47922762235005695,
2650
+ "step": 4488
2651
+ },
2652
+ {
2653
+ "epoch": 2.79020003101256,
2654
+ "grad_norm": 4.767171859741211,
2655
+ "learning_rate": 1.5614236509758898e-06,
2656
+ "loss": 0.40151556332906085,
2657
+ "step": 4500
2658
+ },
2659
+ {
2660
+ "epoch": 2.7976430454334005,
2661
+ "grad_norm": 5.649435043334961,
2662
+ "learning_rate": 1.5063145809414467e-06,
2663
+ "loss": 0.3603046735127767,
2664
+ "step": 4512
2665
+ },
2666
+ {
2667
+ "epoch": 2.805086059854241,
2668
+ "grad_norm": 11.296677589416504,
2669
+ "learning_rate": 1.4512055109070036e-06,
2670
+ "loss": 0.38084761301676434,
2671
+ "step": 4524
2672
+ },
2673
+ {
2674
+ "epoch": 2.8125290742750813,
2675
+ "grad_norm": 2.71022629737854,
2676
+ "learning_rate": 1.3960964408725605e-06,
2677
+ "loss": 0.3726603190104167,
2678
+ "step": 4536
2679
+ },
2680
+ {
2681
+ "epoch": 2.8199720886959216,
2682
+ "grad_norm": 3.849479913711548,
2683
+ "learning_rate": 1.3409873708381172e-06,
2684
+ "loss": 0.3995700279871623,
2685
+ "step": 4548
2686
+ },
2687
+ {
2688
+ "epoch": 2.8274151031167625,
2689
+ "grad_norm": 14.668109893798828,
2690
+ "learning_rate": 1.285878300803674e-06,
2691
+ "loss": 0.39227835337320965,
2692
+ "step": 4560
2693
+ },
2694
+ {
2695
+ "epoch": 2.834858117537603,
2696
+ "grad_norm": 3.9545083045959473,
2697
+ "learning_rate": 1.230769230769231e-06,
2698
+ "loss": 0.42009902000427246,
2699
+ "step": 4572
2700
+ },
2701
+ {
2702
+ "epoch": 2.8423011319584432,
2703
+ "grad_norm": 5.8148298263549805,
2704
+ "learning_rate": 1.1756601607347877e-06,
2705
+ "loss": 0.39560989538828534,
2706
+ "step": 4584
2707
+ },
2708
+ {
2709
+ "epoch": 2.8497441463792836,
2710
+ "grad_norm": 6.249505996704102,
2711
+ "learning_rate": 1.1205510907003444e-06,
2712
+ "loss": 0.42494750022888184,
2713
+ "step": 4596
2714
+ },
2715
+ {
2716
+ "epoch": 2.857187160800124,
2717
+ "grad_norm": 4.1339921951293945,
2718
+ "learning_rate": 1.0654420206659013e-06,
2719
+ "loss": 0.5030697584152222,
2720
+ "step": 4608
2721
+ },
2722
+ {
2723
+ "epoch": 2.8646301752209644,
2724
+ "grad_norm": 13.68895435333252,
2725
+ "learning_rate": 1.0103329506314582e-06,
2726
+ "loss": 0.36397520701090497,
2727
+ "step": 4620
2728
+ },
2729
+ {
2730
+ "epoch": 2.872073189641805,
2731
+ "grad_norm": 2.826042890548706,
2732
+ "learning_rate": 9.55223880597015e-07,
2733
+ "loss": 0.3502591848373413,
2734
+ "step": 4632
2735
+ },
2736
+ {
2737
+ "epoch": 2.8795162040626456,
2738
+ "grad_norm": 6.833806991577148,
2739
+ "learning_rate": 9.001148105625718e-07,
2740
+ "loss": 0.3613890012105306,
2741
+ "step": 4644
2742
+ },
2743
+ {
2744
+ "epoch": 2.8869592184834856,
2745
+ "grad_norm": 4.942678451538086,
2746
+ "learning_rate": 8.450057405281287e-07,
2747
+ "loss": 0.39194099108378094,
2748
+ "step": 4656
2749
+ },
2750
+ {
2751
+ "epoch": 2.8944022329043264,
2752
+ "grad_norm": 4.509676456451416,
2753
+ "learning_rate": 7.898966704936855e-07,
2754
+ "loss": 0.351750651995341,
2755
+ "step": 4668
2756
+ },
2757
+ {
2758
+ "epoch": 2.901845247325167,
2759
+ "grad_norm": 8.305526733398438,
2760
+ "learning_rate": 7.347876004592424e-07,
2761
+ "loss": 0.40360478560129803,
2762
+ "step": 4680
2763
+ },
2764
+ {
2765
+ "epoch": 2.909288261746007,
2766
+ "grad_norm": 4.9328765869140625,
2767
+ "learning_rate": 6.796785304247991e-07,
2768
+ "loss": 0.33100277185440063,
2769
+ "step": 4692
2770
+ },
2771
+ {
2772
+ "epoch": 2.9167312761668476,
2773
+ "grad_norm": 4.945671558380127,
2774
+ "learning_rate": 6.24569460390356e-07,
2775
+ "loss": 0.39974749088287354,
2776
+ "step": 4704
2777
+ },
2778
+ {
2779
+ "epoch": 2.924174290587688,
2780
+ "grad_norm": 9.925528526306152,
2781
+ "learning_rate": 5.694603903559128e-07,
2782
+ "loss": 0.4116141001383464,
2783
+ "step": 4716
2784
+ },
2785
+ {
2786
+ "epoch": 2.9316173050085284,
2787
+ "grad_norm": 4.063233375549316,
2788
+ "learning_rate": 5.143513203214697e-07,
2789
+ "loss": 0.3659325838088989,
2790
+ "step": 4728
2791
+ },
2792
+ {
2793
+ "epoch": 2.9390603194293687,
2794
+ "grad_norm": 3.5343589782714844,
2795
+ "learning_rate": 4.5924225028702647e-07,
2796
+ "loss": 0.3983626365661621,
2797
+ "step": 4740
2798
+ },
2799
+ {
2800
+ "epoch": 2.9465033338502096,
2801
+ "grad_norm": 6.534095764160156,
2802
+ "learning_rate": 4.041331802525833e-07,
2803
+ "loss": 0.393149733543396,
2804
+ "step": 4752
2805
+ },
2806
+ {
2807
+ "epoch": 2.9539463482710495,
2808
+ "grad_norm": 3.4787096977233887,
2809
+ "learning_rate": 3.490241102181401e-07,
2810
+ "loss": 0.3340187867482503,
2811
+ "step": 4764
2812
+ },
2813
+ {
2814
+ "epoch": 2.9613893626918903,
2815
+ "grad_norm": 5.42100191116333,
2816
+ "learning_rate": 2.939150401836969e-07,
2817
+ "loss": 0.3814918597539266,
2818
+ "step": 4776
2819
+ },
2820
+ {
2821
+ "epoch": 2.9688323771127307,
2822
+ "grad_norm": 4.148738861083984,
2823
+ "learning_rate": 2.3880597014925377e-07,
2824
+ "loss": 0.4039960702260335,
2825
+ "step": 4788
2826
+ },
2827
+ {
2828
+ "epoch": 2.976275391533571,
2829
+ "grad_norm": 4.3285746574401855,
2830
+ "learning_rate": 1.836969001148106e-07,
2831
+ "loss": 0.34236987431844074,
2832
+ "step": 4800
2833
+ },
2834
+ {
2835
+ "epoch": 2.9837184059544115,
2836
+ "grad_norm": 2.8112664222717285,
2837
+ "learning_rate": 1.2858783008036742e-07,
2838
+ "loss": 0.3349067767461141,
2839
+ "step": 4812
2840
+ },
2841
+ {
2842
+ "epoch": 2.991161420375252,
2843
+ "grad_norm": 4.724297523498535,
2844
+ "learning_rate": 7.347876004592423e-08,
2845
+ "loss": 0.38507378101348877,
2846
+ "step": 4824
2847
+ },
2848
+ {
2849
+ "epoch": 2.9986044347960923,
2850
+ "grad_norm": 7.1218132972717285,
2851
+ "learning_rate": 1.8369690011481057e-08,
2852
+ "loss": 0.34174474080403644,
2853
+ "step": 4836
2854
+ },
2855
+ {
2856
+ "epoch": 3.0,
2857
+ "eval_f1": 0.43726749573500223,
2858
+ "eval_loss": 0.12126699090003967,
2859
+ "eval_precision": 0.4012637195169362,
2860
+ "eval_recall": 0.4913673269074057,
2861
+ "eval_runtime": 522.9994,
2862
+ "eval_samples_per_second": 73.975,
2863
+ "eval_steps_per_second": 1.543,
2864
+ "step": 4839
2865
+ }
2866
+ ],
2867
+ "logging_steps": 12,
2868
+ "max_steps": 4839,
2869
+ "num_input_tokens_seen": 0,
2870
+ "num_train_epochs": 3,
2871
+ "save_steps": 500,
2872
+ "stateful_callbacks": {
2873
+ "TrainerControl": {
2874
+ "args": {
2875
+ "should_epoch_stop": false,
2876
+ "should_evaluate": false,
2877
+ "should_log": false,
2878
+ "should_save": true,
2879
+ "should_training_stop": true
2880
+ },
2881
+ "attributes": {}
2882
+ }
2883
+ },
2884
+ "total_flos": 1.2215684896188826e+17,
2885
+ "train_batch_size": 48,
2886
+ "trial_name": null,
2887
+ "trial_params": null
2888
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4a3e9b6857a14b78f40f49b62af19e176a243af623343fdde91f131fdf81cfbe
3
+ size 4792