MuhammadUzaires commited on
Commit
e6ad2e6
·
verified ·
1 Parent(s): 2a42f1c

Upload folder using huggingface_hub

Browse files
checkpoint-40000/config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "activation_function": "gelu_new",
3
+ "architectures": [
4
+ "GPT2LMHeadModel"
5
+ ],
6
+ "attn_pdrop": 0.1,
7
+ "bos_token_id": 50256,
8
+ "embd_pdrop": 0.1,
9
+ "eos_token_id": 50256,
10
+ "initializer_range": 0.02,
11
+ "layer_norm_epsilon": 1e-05,
12
+ "model_type": "gpt2",
13
+ "n_ctx": 1024,
14
+ "n_embd": 768,
15
+ "n_head": 12,
16
+ "n_inner": null,
17
+ "n_layer": 12,
18
+ "n_positions": 1024,
19
+ "reorder_and_upcast_attn": false,
20
+ "resid_pdrop": 0.1,
21
+ "scale_attn_by_inverse_layer_idx": false,
22
+ "scale_attn_weights": true,
23
+ "summary_activation": null,
24
+ "summary_first_dropout": 0.1,
25
+ "summary_proj_to_labels": true,
26
+ "summary_type": "cls_index",
27
+ "summary_use_proj": true,
28
+ "task_specific_params": {
29
+ "text-generation": {
30
+ "do_sample": true,
31
+ "max_length": 50
32
+ }
33
+ },
34
+ "torch_dtype": "float32",
35
+ "transformers_version": "4.52.4",
36
+ "use_cache": true,
37
+ "vocab_size": 50257
38
+ }
checkpoint-40000/generation_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 50256,
4
+ "eos_token_id": 50256,
5
+ "transformers_version": "4.52.4"
6
+ }
checkpoint-40000/merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-40000/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:163d230ce12799dc97b168faa1075a640b0f1955ed6f6ac4c1bc8fda0d73aecb
3
+ size 497774208
checkpoint-40000/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:99d21807ea06fe700683477a415ae5004f84503be37f9d31b975faa5e24a0250
3
+ size 995642298
checkpoint-40000/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:76bee4113ca691962a7f4cc5e3fb3089c2623053c5ff5caf2b5a5cda263b201c
3
+ size 14244
checkpoint-40000/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c907a2f2b37d498e65b6da072b0c0c2eeae2ebab4b3d1bb5dc2c5b68e457eaf8
3
+ size 1064
checkpoint-40000/special_tokens_map.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<|endoftext|>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "eos_token": {
10
+ "content": "<|endoftext|>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": "<|endoftext|>",
17
+ "unk_token": {
18
+ "content": "<|endoftext|>",
19
+ "lstrip": false,
20
+ "normalized": true,
21
+ "rstrip": false,
22
+ "single_word": false
23
+ }
24
+ }
checkpoint-40000/tokenizer_config.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": false,
3
+ "add_prefix_space": false,
4
+ "added_tokens_decoder": {
5
+ "50256": {
6
+ "content": "<|endoftext|>",
7
+ "lstrip": false,
8
+ "normalized": true,
9
+ "rstrip": false,
10
+ "single_word": false,
11
+ "special": true
12
+ }
13
+ },
14
+ "bos_token": "<|endoftext|>",
15
+ "clean_up_tokenization_spaces": false,
16
+ "eos_token": "<|endoftext|>",
17
+ "errors": "replace",
18
+ "extra_special_tokens": {},
19
+ "model_max_length": 1024,
20
+ "pad_token": "<|endoftext|>",
21
+ "tokenizer_class": "GPT2Tokenizer",
22
+ "unk_token": "<|endoftext|>"
23
+ }
checkpoint-40000/trainer_state.json ADDED
@@ -0,0 +1,2907 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 40000,
3
+ "best_metric": 0.11772522330284119,
4
+ "best_model_checkpoint": "/content/drive/MyDrive/chatbot/gpt2-finetuned-uet/checkpoint-40000",
5
+ "epoch": 3.5555555555555554,
6
+ "eval_steps": 5000,
7
+ "global_step": 40000,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.008888888888888889,
14
+ "grad_norm": 6.82129430770874,
15
+ "learning_rate": 2.9934000000000002e-05,
16
+ "loss": 0.9164,
17
+ "step": 100
18
+ },
19
+ {
20
+ "epoch": 0.017777777777777778,
21
+ "grad_norm": 5.949863433837891,
22
+ "learning_rate": 2.9867333333333335e-05,
23
+ "loss": 0.2066,
24
+ "step": 200
25
+ },
26
+ {
27
+ "epoch": 0.02666666666666667,
28
+ "grad_norm": 4.183337211608887,
29
+ "learning_rate": 2.9800666666666667e-05,
30
+ "loss": 0.1721,
31
+ "step": 300
32
+ },
33
+ {
34
+ "epoch": 0.035555555555555556,
35
+ "grad_norm": 4.205233573913574,
36
+ "learning_rate": 2.9734e-05,
37
+ "loss": 0.1537,
38
+ "step": 400
39
+ },
40
+ {
41
+ "epoch": 0.044444444444444446,
42
+ "grad_norm": 3.5019726753234863,
43
+ "learning_rate": 2.9667333333333333e-05,
44
+ "loss": 0.138,
45
+ "step": 500
46
+ },
47
+ {
48
+ "epoch": 0.05333333333333334,
49
+ "grad_norm": 3.7419962882995605,
50
+ "learning_rate": 2.9600666666666666e-05,
51
+ "loss": 0.1372,
52
+ "step": 600
53
+ },
54
+ {
55
+ "epoch": 0.06222222222222222,
56
+ "grad_norm": 4.127668380737305,
57
+ "learning_rate": 2.9534000000000002e-05,
58
+ "loss": 0.1348,
59
+ "step": 700
60
+ },
61
+ {
62
+ "epoch": 0.07111111111111111,
63
+ "grad_norm": 5.248896598815918,
64
+ "learning_rate": 2.9467333333333335e-05,
65
+ "loss": 0.1268,
66
+ "step": 800
67
+ },
68
+ {
69
+ "epoch": 0.08,
70
+ "grad_norm": 4.989108562469482,
71
+ "learning_rate": 2.9400666666666668e-05,
72
+ "loss": 0.1249,
73
+ "step": 900
74
+ },
75
+ {
76
+ "epoch": 0.08888888888888889,
77
+ "grad_norm": 3.937284231185913,
78
+ "learning_rate": 2.9334e-05,
79
+ "loss": 0.1247,
80
+ "step": 1000
81
+ },
82
+ {
83
+ "epoch": 0.09777777777777778,
84
+ "grad_norm": 4.6740522384643555,
85
+ "learning_rate": 2.9267333333333334e-05,
86
+ "loss": 0.1241,
87
+ "step": 1100
88
+ },
89
+ {
90
+ "epoch": 0.10666666666666667,
91
+ "grad_norm": 5.112093448638916,
92
+ "learning_rate": 2.9200666666666666e-05,
93
+ "loss": 0.1237,
94
+ "step": 1200
95
+ },
96
+ {
97
+ "epoch": 0.11555555555555555,
98
+ "grad_norm": 4.429466247558594,
99
+ "learning_rate": 2.9134e-05,
100
+ "loss": 0.1233,
101
+ "step": 1300
102
+ },
103
+ {
104
+ "epoch": 0.12444444444444444,
105
+ "grad_norm": 3.7811667919158936,
106
+ "learning_rate": 2.9067333333333332e-05,
107
+ "loss": 0.1224,
108
+ "step": 1400
109
+ },
110
+ {
111
+ "epoch": 0.13333333333333333,
112
+ "grad_norm": 3.949687957763672,
113
+ "learning_rate": 2.9000666666666668e-05,
114
+ "loss": 0.1221,
115
+ "step": 1500
116
+ },
117
+ {
118
+ "epoch": 0.14222222222222222,
119
+ "grad_norm": 4.339414119720459,
120
+ "learning_rate": 2.8934e-05,
121
+ "loss": 0.1208,
122
+ "step": 1600
123
+ },
124
+ {
125
+ "epoch": 0.1511111111111111,
126
+ "grad_norm": 4.27586030960083,
127
+ "learning_rate": 2.8867333333333334e-05,
128
+ "loss": 0.1236,
129
+ "step": 1700
130
+ },
131
+ {
132
+ "epoch": 0.16,
133
+ "grad_norm": 3.8597822189331055,
134
+ "learning_rate": 2.8800666666666667e-05,
135
+ "loss": 0.1211,
136
+ "step": 1800
137
+ },
138
+ {
139
+ "epoch": 0.1688888888888889,
140
+ "grad_norm": 4.734971046447754,
141
+ "learning_rate": 2.8734e-05,
142
+ "loss": 0.122,
143
+ "step": 1900
144
+ },
145
+ {
146
+ "epoch": 0.17777777777777778,
147
+ "grad_norm": 3.8875231742858887,
148
+ "learning_rate": 2.8667333333333333e-05,
149
+ "loss": 0.1213,
150
+ "step": 2000
151
+ },
152
+ {
153
+ "epoch": 0.18666666666666668,
154
+ "grad_norm": 2.6618669033050537,
155
+ "learning_rate": 2.8600666666666665e-05,
156
+ "loss": 0.1218,
157
+ "step": 2100
158
+ },
159
+ {
160
+ "epoch": 0.19555555555555557,
161
+ "grad_norm": 3.809056043624878,
162
+ "learning_rate": 2.8534e-05,
163
+ "loss": 0.1236,
164
+ "step": 2200
165
+ },
166
+ {
167
+ "epoch": 0.20444444444444446,
168
+ "grad_norm": 4.541649341583252,
169
+ "learning_rate": 2.8467333333333334e-05,
170
+ "loss": 0.1211,
171
+ "step": 2300
172
+ },
173
+ {
174
+ "epoch": 0.21333333333333335,
175
+ "grad_norm": 3.4047656059265137,
176
+ "learning_rate": 2.8400666666666667e-05,
177
+ "loss": 0.1221,
178
+ "step": 2400
179
+ },
180
+ {
181
+ "epoch": 0.2222222222222222,
182
+ "grad_norm": 3.6217405796051025,
183
+ "learning_rate": 2.8334e-05,
184
+ "loss": 0.1211,
185
+ "step": 2500
186
+ },
187
+ {
188
+ "epoch": 0.2311111111111111,
189
+ "grad_norm": 3.8457906246185303,
190
+ "learning_rate": 2.8267333333333333e-05,
191
+ "loss": 0.122,
192
+ "step": 2600
193
+ },
194
+ {
195
+ "epoch": 0.24,
196
+ "grad_norm": 5.507346153259277,
197
+ "learning_rate": 2.8200666666666666e-05,
198
+ "loss": 0.1207,
199
+ "step": 2700
200
+ },
201
+ {
202
+ "epoch": 0.24888888888888888,
203
+ "grad_norm": 4.867903232574463,
204
+ "learning_rate": 2.8134e-05,
205
+ "loss": 0.1201,
206
+ "step": 2800
207
+ },
208
+ {
209
+ "epoch": 0.2577777777777778,
210
+ "grad_norm": 3.717101573944092,
211
+ "learning_rate": 2.806733333333333e-05,
212
+ "loss": 0.1202,
213
+ "step": 2900
214
+ },
215
+ {
216
+ "epoch": 0.26666666666666666,
217
+ "grad_norm": 3.990020990371704,
218
+ "learning_rate": 2.8000666666666668e-05,
219
+ "loss": 0.1214,
220
+ "step": 3000
221
+ },
222
+ {
223
+ "epoch": 0.27555555555555555,
224
+ "grad_norm": 3.9653103351593018,
225
+ "learning_rate": 2.7934e-05,
226
+ "loss": 0.1195,
227
+ "step": 3100
228
+ },
229
+ {
230
+ "epoch": 0.28444444444444444,
231
+ "grad_norm": 3.743941068649292,
232
+ "learning_rate": 2.7867333333333333e-05,
233
+ "loss": 0.1209,
234
+ "step": 3200
235
+ },
236
+ {
237
+ "epoch": 0.29333333333333333,
238
+ "grad_norm": 4.509164333343506,
239
+ "learning_rate": 2.7800666666666666e-05,
240
+ "loss": 0.1204,
241
+ "step": 3300
242
+ },
243
+ {
244
+ "epoch": 0.3022222222222222,
245
+ "grad_norm": 4.283110618591309,
246
+ "learning_rate": 2.7734e-05,
247
+ "loss": 0.1205,
248
+ "step": 3400
249
+ },
250
+ {
251
+ "epoch": 0.3111111111111111,
252
+ "grad_norm": 3.8113884925842285,
253
+ "learning_rate": 2.7667333333333332e-05,
254
+ "loss": 0.1184,
255
+ "step": 3500
256
+ },
257
+ {
258
+ "epoch": 0.32,
259
+ "grad_norm": 3.287177801132202,
260
+ "learning_rate": 2.7600666666666665e-05,
261
+ "loss": 0.1201,
262
+ "step": 3600
263
+ },
264
+ {
265
+ "epoch": 0.3288888888888889,
266
+ "grad_norm": 4.167423248291016,
267
+ "learning_rate": 2.7533999999999998e-05,
268
+ "loss": 0.119,
269
+ "step": 3700
270
+ },
271
+ {
272
+ "epoch": 0.3377777777777778,
273
+ "grad_norm": 4.485795974731445,
274
+ "learning_rate": 2.7467333333333334e-05,
275
+ "loss": 0.121,
276
+ "step": 3800
277
+ },
278
+ {
279
+ "epoch": 0.3466666666666667,
280
+ "grad_norm": 3.1703178882598877,
281
+ "learning_rate": 2.7400666666666667e-05,
282
+ "loss": 0.1186,
283
+ "step": 3900
284
+ },
285
+ {
286
+ "epoch": 0.35555555555555557,
287
+ "grad_norm": 3.0991108417510986,
288
+ "learning_rate": 2.7334e-05,
289
+ "loss": 0.1201,
290
+ "step": 4000
291
+ },
292
+ {
293
+ "epoch": 0.36444444444444446,
294
+ "grad_norm": 4.4850053787231445,
295
+ "learning_rate": 2.7267333333333336e-05,
296
+ "loss": 0.1193,
297
+ "step": 4100
298
+ },
299
+ {
300
+ "epoch": 0.37333333333333335,
301
+ "grad_norm": 3.0892951488494873,
302
+ "learning_rate": 2.720066666666667e-05,
303
+ "loss": 0.1186,
304
+ "step": 4200
305
+ },
306
+ {
307
+ "epoch": 0.38222222222222224,
308
+ "grad_norm": 3.4168922901153564,
309
+ "learning_rate": 2.7134e-05,
310
+ "loss": 0.1186,
311
+ "step": 4300
312
+ },
313
+ {
314
+ "epoch": 0.39111111111111113,
315
+ "grad_norm": 2.864269733428955,
316
+ "learning_rate": 2.7067333333333334e-05,
317
+ "loss": 0.1176,
318
+ "step": 4400
319
+ },
320
+ {
321
+ "epoch": 0.4,
322
+ "grad_norm": 4.241358280181885,
323
+ "learning_rate": 2.7000666666666667e-05,
324
+ "loss": 0.118,
325
+ "step": 4500
326
+ },
327
+ {
328
+ "epoch": 0.4088888888888889,
329
+ "grad_norm": 3.6913700103759766,
330
+ "learning_rate": 2.6934000000000003e-05,
331
+ "loss": 0.1184,
332
+ "step": 4600
333
+ },
334
+ {
335
+ "epoch": 0.4177777777777778,
336
+ "grad_norm": 2.865185499191284,
337
+ "learning_rate": 2.6867333333333336e-05,
338
+ "loss": 0.1191,
339
+ "step": 4700
340
+ },
341
+ {
342
+ "epoch": 0.4266666666666667,
343
+ "grad_norm": 3.7335503101348877,
344
+ "learning_rate": 2.680066666666667e-05,
345
+ "loss": 0.1199,
346
+ "step": 4800
347
+ },
348
+ {
349
+ "epoch": 0.43555555555555553,
350
+ "grad_norm": 3.280344009399414,
351
+ "learning_rate": 2.6734000000000002e-05,
352
+ "loss": 0.1184,
353
+ "step": 4900
354
+ },
355
+ {
356
+ "epoch": 0.4444444444444444,
357
+ "grad_norm": 3.2532272338867188,
358
+ "learning_rate": 2.6667333333333335e-05,
359
+ "loss": 0.1188,
360
+ "step": 5000
361
+ },
362
+ {
363
+ "epoch": 0.4444444444444444,
364
+ "eval_loss": 0.12208713591098785,
365
+ "eval_runtime": 204.8959,
366
+ "eval_samples_per_second": 48.805,
367
+ "eval_steps_per_second": 6.101,
368
+ "step": 5000
369
+ },
370
+ {
371
+ "epoch": 0.4533333333333333,
372
+ "grad_norm": 3.123708486557007,
373
+ "learning_rate": 2.6600666666666668e-05,
374
+ "loss": 0.1196,
375
+ "step": 5100
376
+ },
377
+ {
378
+ "epoch": 0.4622222222222222,
379
+ "grad_norm": 3.468099594116211,
380
+ "learning_rate": 2.6534e-05,
381
+ "loss": 0.1181,
382
+ "step": 5200
383
+ },
384
+ {
385
+ "epoch": 0.4711111111111111,
386
+ "grad_norm": 3.4722182750701904,
387
+ "learning_rate": 2.6467333333333337e-05,
388
+ "loss": 0.1186,
389
+ "step": 5300
390
+ },
391
+ {
392
+ "epoch": 0.48,
393
+ "grad_norm": 3.341700792312622,
394
+ "learning_rate": 2.640066666666667e-05,
395
+ "loss": 0.1175,
396
+ "step": 5400
397
+ },
398
+ {
399
+ "epoch": 0.4888888888888889,
400
+ "grad_norm": 5.254228591918945,
401
+ "learning_rate": 2.6334000000000002e-05,
402
+ "loss": 0.1171,
403
+ "step": 5500
404
+ },
405
+ {
406
+ "epoch": 0.49777777777777776,
407
+ "grad_norm": 3.9166531562805176,
408
+ "learning_rate": 2.6267333333333335e-05,
409
+ "loss": 0.1181,
410
+ "step": 5600
411
+ },
412
+ {
413
+ "epoch": 0.5066666666666667,
414
+ "grad_norm": 3.530609130859375,
415
+ "learning_rate": 2.6200666666666668e-05,
416
+ "loss": 0.118,
417
+ "step": 5700
418
+ },
419
+ {
420
+ "epoch": 0.5155555555555555,
421
+ "grad_norm": 2.8813321590423584,
422
+ "learning_rate": 2.6134e-05,
423
+ "loss": 0.119,
424
+ "step": 5800
425
+ },
426
+ {
427
+ "epoch": 0.5244444444444445,
428
+ "grad_norm": 2.88515567779541,
429
+ "learning_rate": 2.6067333333333334e-05,
430
+ "loss": 0.1192,
431
+ "step": 5900
432
+ },
433
+ {
434
+ "epoch": 0.5333333333333333,
435
+ "grad_norm": 3.641014814376831,
436
+ "learning_rate": 2.6000666666666667e-05,
437
+ "loss": 0.1177,
438
+ "step": 6000
439
+ },
440
+ {
441
+ "epoch": 0.5422222222222223,
442
+ "grad_norm": 3.2416274547576904,
443
+ "learning_rate": 2.5934000000000003e-05,
444
+ "loss": 0.1189,
445
+ "step": 6100
446
+ },
447
+ {
448
+ "epoch": 0.5511111111111111,
449
+ "grad_norm": 3.6603827476501465,
450
+ "learning_rate": 2.5867333333333336e-05,
451
+ "loss": 0.12,
452
+ "step": 6200
453
+ },
454
+ {
455
+ "epoch": 0.56,
456
+ "grad_norm": 2.7942700386047363,
457
+ "learning_rate": 2.580066666666667e-05,
458
+ "loss": 0.1186,
459
+ "step": 6300
460
+ },
461
+ {
462
+ "epoch": 0.5688888888888889,
463
+ "grad_norm": 2.454925298690796,
464
+ "learning_rate": 2.5734e-05,
465
+ "loss": 0.1193,
466
+ "step": 6400
467
+ },
468
+ {
469
+ "epoch": 0.5777777777777777,
470
+ "grad_norm": 3.182051420211792,
471
+ "learning_rate": 2.5667333333333334e-05,
472
+ "loss": 0.1179,
473
+ "step": 6500
474
+ },
475
+ {
476
+ "epoch": 0.5866666666666667,
477
+ "grad_norm": 2.543154001235962,
478
+ "learning_rate": 2.5600666666666667e-05,
479
+ "loss": 0.1169,
480
+ "step": 6600
481
+ },
482
+ {
483
+ "epoch": 0.5955555555555555,
484
+ "grad_norm": 2.878065586090088,
485
+ "learning_rate": 2.5534e-05,
486
+ "loss": 0.1165,
487
+ "step": 6700
488
+ },
489
+ {
490
+ "epoch": 0.6044444444444445,
491
+ "grad_norm": 2.6504786014556885,
492
+ "learning_rate": 2.5467333333333333e-05,
493
+ "loss": 0.1177,
494
+ "step": 6800
495
+ },
496
+ {
497
+ "epoch": 0.6133333333333333,
498
+ "grad_norm": 3.112470865249634,
499
+ "learning_rate": 2.540066666666667e-05,
500
+ "loss": 0.1188,
501
+ "step": 6900
502
+ },
503
+ {
504
+ "epoch": 0.6222222222222222,
505
+ "grad_norm": 3.2158005237579346,
506
+ "learning_rate": 2.5334000000000002e-05,
507
+ "loss": 0.1182,
508
+ "step": 7000
509
+ },
510
+ {
511
+ "epoch": 0.6311111111111111,
512
+ "grad_norm": 2.7829103469848633,
513
+ "learning_rate": 2.5267333333333335e-05,
514
+ "loss": 0.1182,
515
+ "step": 7100
516
+ },
517
+ {
518
+ "epoch": 0.64,
519
+ "grad_norm": 3.6927225589752197,
520
+ "learning_rate": 2.5200666666666667e-05,
521
+ "loss": 0.1172,
522
+ "step": 7200
523
+ },
524
+ {
525
+ "epoch": 0.6488888888888888,
526
+ "grad_norm": 2.701704978942871,
527
+ "learning_rate": 2.5134e-05,
528
+ "loss": 0.1174,
529
+ "step": 7300
530
+ },
531
+ {
532
+ "epoch": 0.6577777777777778,
533
+ "grad_norm": 3.097184419631958,
534
+ "learning_rate": 2.5067333333333333e-05,
535
+ "loss": 0.1181,
536
+ "step": 7400
537
+ },
538
+ {
539
+ "epoch": 0.6666666666666666,
540
+ "grad_norm": 3.704460620880127,
541
+ "learning_rate": 2.5000666666666666e-05,
542
+ "loss": 0.1171,
543
+ "step": 7500
544
+ },
545
+ {
546
+ "epoch": 0.6755555555555556,
547
+ "grad_norm": 2.7724316120147705,
548
+ "learning_rate": 2.4934e-05,
549
+ "loss": 0.1172,
550
+ "step": 7600
551
+ },
552
+ {
553
+ "epoch": 0.6844444444444444,
554
+ "grad_norm": 3.8086202144622803,
555
+ "learning_rate": 2.4867333333333335e-05,
556
+ "loss": 0.1182,
557
+ "step": 7700
558
+ },
559
+ {
560
+ "epoch": 0.6933333333333334,
561
+ "grad_norm": 3.596428632736206,
562
+ "learning_rate": 2.4800666666666668e-05,
563
+ "loss": 0.1181,
564
+ "step": 7800
565
+ },
566
+ {
567
+ "epoch": 0.7022222222222222,
568
+ "grad_norm": 2.5893187522888184,
569
+ "learning_rate": 2.4734e-05,
570
+ "loss": 0.118,
571
+ "step": 7900
572
+ },
573
+ {
574
+ "epoch": 0.7111111111111111,
575
+ "grad_norm": 2.582350730895996,
576
+ "learning_rate": 2.4667333333333334e-05,
577
+ "loss": 0.1185,
578
+ "step": 8000
579
+ },
580
+ {
581
+ "epoch": 0.72,
582
+ "grad_norm": 3.3927502632141113,
583
+ "learning_rate": 2.4600666666666666e-05,
584
+ "loss": 0.1179,
585
+ "step": 8100
586
+ },
587
+ {
588
+ "epoch": 0.7288888888888889,
589
+ "grad_norm": 4.322011947631836,
590
+ "learning_rate": 2.4534e-05,
591
+ "loss": 0.118,
592
+ "step": 8200
593
+ },
594
+ {
595
+ "epoch": 0.7377777777777778,
596
+ "grad_norm": 2.3560194969177246,
597
+ "learning_rate": 2.4467333333333332e-05,
598
+ "loss": 0.1175,
599
+ "step": 8300
600
+ },
601
+ {
602
+ "epoch": 0.7466666666666667,
603
+ "grad_norm": 3.332634925842285,
604
+ "learning_rate": 2.4400666666666668e-05,
605
+ "loss": 0.117,
606
+ "step": 8400
607
+ },
608
+ {
609
+ "epoch": 0.7555555555555555,
610
+ "grad_norm": 3.440761089324951,
611
+ "learning_rate": 2.4334e-05,
612
+ "loss": 0.1177,
613
+ "step": 8500
614
+ },
615
+ {
616
+ "epoch": 0.7644444444444445,
617
+ "grad_norm": 2.6699066162109375,
618
+ "learning_rate": 2.4267333333333334e-05,
619
+ "loss": 0.1159,
620
+ "step": 8600
621
+ },
622
+ {
623
+ "epoch": 0.7733333333333333,
624
+ "grad_norm": 2.5748603343963623,
625
+ "learning_rate": 2.4200666666666667e-05,
626
+ "loss": 0.1161,
627
+ "step": 8700
628
+ },
629
+ {
630
+ "epoch": 0.7822222222222223,
631
+ "grad_norm": 3.216967821121216,
632
+ "learning_rate": 2.4134e-05,
633
+ "loss": 0.1167,
634
+ "step": 8800
635
+ },
636
+ {
637
+ "epoch": 0.7911111111111111,
638
+ "grad_norm": 2.9499289989471436,
639
+ "learning_rate": 2.4067333333333333e-05,
640
+ "loss": 0.1164,
641
+ "step": 8900
642
+ },
643
+ {
644
+ "epoch": 0.8,
645
+ "grad_norm": 2.6872825622558594,
646
+ "learning_rate": 2.4000666666666665e-05,
647
+ "loss": 0.117,
648
+ "step": 9000
649
+ },
650
+ {
651
+ "epoch": 0.8088888888888889,
652
+ "grad_norm": 3.444622039794922,
653
+ "learning_rate": 2.3933999999999998e-05,
654
+ "loss": 0.1187,
655
+ "step": 9100
656
+ },
657
+ {
658
+ "epoch": 0.8177777777777778,
659
+ "grad_norm": 2.4359054565429688,
660
+ "learning_rate": 2.3867333333333334e-05,
661
+ "loss": 0.1163,
662
+ "step": 9200
663
+ },
664
+ {
665
+ "epoch": 0.8266666666666667,
666
+ "grad_norm": 2.510025978088379,
667
+ "learning_rate": 2.3800666666666667e-05,
668
+ "loss": 0.117,
669
+ "step": 9300
670
+ },
671
+ {
672
+ "epoch": 0.8355555555555556,
673
+ "grad_norm": 2.5156795978546143,
674
+ "learning_rate": 2.3734e-05,
675
+ "loss": 0.1177,
676
+ "step": 9400
677
+ },
678
+ {
679
+ "epoch": 0.8444444444444444,
680
+ "grad_norm": 3.8582279682159424,
681
+ "learning_rate": 2.3667333333333333e-05,
682
+ "loss": 0.1188,
683
+ "step": 9500
684
+ },
685
+ {
686
+ "epoch": 0.8533333333333334,
687
+ "grad_norm": 2.9142448902130127,
688
+ "learning_rate": 2.3600666666666666e-05,
689
+ "loss": 0.1201,
690
+ "step": 9600
691
+ },
692
+ {
693
+ "epoch": 0.8622222222222222,
694
+ "grad_norm": 1.9949374198913574,
695
+ "learning_rate": 2.3534e-05,
696
+ "loss": 0.1173,
697
+ "step": 9700
698
+ },
699
+ {
700
+ "epoch": 0.8711111111111111,
701
+ "grad_norm": 2.8266148567199707,
702
+ "learning_rate": 2.346733333333333e-05,
703
+ "loss": 0.1156,
704
+ "step": 9800
705
+ },
706
+ {
707
+ "epoch": 0.88,
708
+ "grad_norm": 2.821716070175171,
709
+ "learning_rate": 2.3400666666666664e-05,
710
+ "loss": 0.114,
711
+ "step": 9900
712
+ },
713
+ {
714
+ "epoch": 0.8888888888888888,
715
+ "grad_norm": 2.1341419219970703,
716
+ "learning_rate": 2.3334e-05,
717
+ "loss": 0.118,
718
+ "step": 10000
719
+ },
720
+ {
721
+ "epoch": 0.8888888888888888,
722
+ "eval_loss": 0.11916246265172958,
723
+ "eval_runtime": 209.6485,
724
+ "eval_samples_per_second": 47.699,
725
+ "eval_steps_per_second": 5.962,
726
+ "step": 10000
727
+ },
728
+ {
729
+ "epoch": 0.8977777777777778,
730
+ "grad_norm": 2.4303793907165527,
731
+ "learning_rate": 2.3267333333333333e-05,
732
+ "loss": 0.1164,
733
+ "step": 10100
734
+ },
735
+ {
736
+ "epoch": 0.9066666666666666,
737
+ "grad_norm": 2.23417329788208,
738
+ "learning_rate": 2.3200666666666666e-05,
739
+ "loss": 0.1168,
740
+ "step": 10200
741
+ },
742
+ {
743
+ "epoch": 0.9155555555555556,
744
+ "grad_norm": 2.7402517795562744,
745
+ "learning_rate": 2.3134e-05,
746
+ "loss": 0.1171,
747
+ "step": 10300
748
+ },
749
+ {
750
+ "epoch": 0.9244444444444444,
751
+ "grad_norm": 2.4961931705474854,
752
+ "learning_rate": 2.3067333333333332e-05,
753
+ "loss": 0.117,
754
+ "step": 10400
755
+ },
756
+ {
757
+ "epoch": 0.9333333333333333,
758
+ "grad_norm": 3.0183095932006836,
759
+ "learning_rate": 2.3000666666666668e-05,
760
+ "loss": 0.1166,
761
+ "step": 10500
762
+ },
763
+ {
764
+ "epoch": 0.9422222222222222,
765
+ "grad_norm": 3.062873125076294,
766
+ "learning_rate": 2.2934e-05,
767
+ "loss": 0.1167,
768
+ "step": 10600
769
+ },
770
+ {
771
+ "epoch": 0.9511111111111111,
772
+ "grad_norm": 2.418299436569214,
773
+ "learning_rate": 2.2867333333333334e-05,
774
+ "loss": 0.1173,
775
+ "step": 10700
776
+ },
777
+ {
778
+ "epoch": 0.96,
779
+ "grad_norm": 2.580348253250122,
780
+ "learning_rate": 2.280066666666667e-05,
781
+ "loss": 0.1173,
782
+ "step": 10800
783
+ },
784
+ {
785
+ "epoch": 0.9688888888888889,
786
+ "grad_norm": 2.902337074279785,
787
+ "learning_rate": 2.2734000000000003e-05,
788
+ "loss": 0.1174,
789
+ "step": 10900
790
+ },
791
+ {
792
+ "epoch": 0.9777777777777777,
793
+ "grad_norm": 2.1894068717956543,
794
+ "learning_rate": 2.2667333333333336e-05,
795
+ "loss": 0.1167,
796
+ "step": 11000
797
+ },
798
+ {
799
+ "epoch": 0.9866666666666667,
800
+ "grad_norm": 2.944486618041992,
801
+ "learning_rate": 2.260066666666667e-05,
802
+ "loss": 0.1174,
803
+ "step": 11100
804
+ },
805
+ {
806
+ "epoch": 0.9955555555555555,
807
+ "grad_norm": 2.560166835784912,
808
+ "learning_rate": 2.2534e-05,
809
+ "loss": 0.1179,
810
+ "step": 11200
811
+ },
812
+ {
813
+ "epoch": 1.0044444444444445,
814
+ "grad_norm": 2.7553763389587402,
815
+ "learning_rate": 2.2467333333333334e-05,
816
+ "loss": 0.1158,
817
+ "step": 11300
818
+ },
819
+ {
820
+ "epoch": 1.0133333333333334,
821
+ "grad_norm": 2.8809797763824463,
822
+ "learning_rate": 2.2400666666666667e-05,
823
+ "loss": 0.1175,
824
+ "step": 11400
825
+ },
826
+ {
827
+ "epoch": 1.0222222222222221,
828
+ "grad_norm": 2.329749822616577,
829
+ "learning_rate": 2.2334000000000003e-05,
830
+ "loss": 0.1155,
831
+ "step": 11500
832
+ },
833
+ {
834
+ "epoch": 1.031111111111111,
835
+ "grad_norm": 2.763226270675659,
836
+ "learning_rate": 2.2267333333333336e-05,
837
+ "loss": 0.1166,
838
+ "step": 11600
839
+ },
840
+ {
841
+ "epoch": 1.04,
842
+ "grad_norm": 3.360959768295288,
843
+ "learning_rate": 2.220066666666667e-05,
844
+ "loss": 0.1162,
845
+ "step": 11700
846
+ },
847
+ {
848
+ "epoch": 1.048888888888889,
849
+ "grad_norm": 2.1025476455688477,
850
+ "learning_rate": 2.2134000000000002e-05,
851
+ "loss": 0.1167,
852
+ "step": 11800
853
+ },
854
+ {
855
+ "epoch": 1.0577777777777777,
856
+ "grad_norm": 2.6342437267303467,
857
+ "learning_rate": 2.2067333333333335e-05,
858
+ "loss": 0.1159,
859
+ "step": 11900
860
+ },
861
+ {
862
+ "epoch": 1.0666666666666667,
863
+ "grad_norm": 2.8531672954559326,
864
+ "learning_rate": 2.2000666666666668e-05,
865
+ "loss": 0.1174,
866
+ "step": 12000
867
+ },
868
+ {
869
+ "epoch": 1.0755555555555556,
870
+ "grad_norm": 2.5636589527130127,
871
+ "learning_rate": 2.1934e-05,
872
+ "loss": 0.1164,
873
+ "step": 12100
874
+ },
875
+ {
876
+ "epoch": 1.0844444444444445,
877
+ "grad_norm": 2.7614545822143555,
878
+ "learning_rate": 2.1867333333333333e-05,
879
+ "loss": 0.1172,
880
+ "step": 12200
881
+ },
882
+ {
883
+ "epoch": 1.0933333333333333,
884
+ "grad_norm": 2.60809063911438,
885
+ "learning_rate": 2.180066666666667e-05,
886
+ "loss": 0.1163,
887
+ "step": 12300
888
+ },
889
+ {
890
+ "epoch": 1.1022222222222222,
891
+ "grad_norm": 3.316859483718872,
892
+ "learning_rate": 2.1734000000000002e-05,
893
+ "loss": 0.1177,
894
+ "step": 12400
895
+ },
896
+ {
897
+ "epoch": 1.1111111111111112,
898
+ "grad_norm": 3.271606922149658,
899
+ "learning_rate": 2.1667333333333335e-05,
900
+ "loss": 0.1167,
901
+ "step": 12500
902
+ },
903
+ {
904
+ "epoch": 1.12,
905
+ "grad_norm": 3.194365978240967,
906
+ "learning_rate": 2.1600666666666668e-05,
907
+ "loss": 0.118,
908
+ "step": 12600
909
+ },
910
+ {
911
+ "epoch": 1.1288888888888888,
912
+ "grad_norm": 2.5785796642303467,
913
+ "learning_rate": 2.1534e-05,
914
+ "loss": 0.1166,
915
+ "step": 12700
916
+ },
917
+ {
918
+ "epoch": 1.1377777777777778,
919
+ "grad_norm": 2.8842148780822754,
920
+ "learning_rate": 2.1467333333333334e-05,
921
+ "loss": 0.1169,
922
+ "step": 12800
923
+ },
924
+ {
925
+ "epoch": 1.1466666666666667,
926
+ "grad_norm": 2.530769109725952,
927
+ "learning_rate": 2.1400666666666667e-05,
928
+ "loss": 0.1176,
929
+ "step": 12900
930
+ },
931
+ {
932
+ "epoch": 1.1555555555555554,
933
+ "grad_norm": 2.9388973712921143,
934
+ "learning_rate": 2.1334e-05,
935
+ "loss": 0.1164,
936
+ "step": 13000
937
+ },
938
+ {
939
+ "epoch": 1.1644444444444444,
940
+ "grad_norm": 3.258341073989868,
941
+ "learning_rate": 2.1267333333333336e-05,
942
+ "loss": 0.1161,
943
+ "step": 13100
944
+ },
945
+ {
946
+ "epoch": 1.1733333333333333,
947
+ "grad_norm": 3.597013473510742,
948
+ "learning_rate": 2.120066666666667e-05,
949
+ "loss": 0.1168,
950
+ "step": 13200
951
+ },
952
+ {
953
+ "epoch": 1.1822222222222223,
954
+ "grad_norm": 2.683460235595703,
955
+ "learning_rate": 2.1134e-05,
956
+ "loss": 0.1152,
957
+ "step": 13300
958
+ },
959
+ {
960
+ "epoch": 1.1911111111111112,
961
+ "grad_norm": 3.4266109466552734,
962
+ "learning_rate": 2.1067333333333334e-05,
963
+ "loss": 0.1158,
964
+ "step": 13400
965
+ },
966
+ {
967
+ "epoch": 1.2,
968
+ "grad_norm": 2.183912754058838,
969
+ "learning_rate": 2.1000666666666667e-05,
970
+ "loss": 0.1162,
971
+ "step": 13500
972
+ },
973
+ {
974
+ "epoch": 1.208888888888889,
975
+ "grad_norm": 2.8540754318237305,
976
+ "learning_rate": 2.0934e-05,
977
+ "loss": 0.1162,
978
+ "step": 13600
979
+ },
980
+ {
981
+ "epoch": 1.2177777777777778,
982
+ "grad_norm": 2.472102403640747,
983
+ "learning_rate": 2.0867333333333333e-05,
984
+ "loss": 0.1165,
985
+ "step": 13700
986
+ },
987
+ {
988
+ "epoch": 1.2266666666666666,
989
+ "grad_norm": 2.466033697128296,
990
+ "learning_rate": 2.0800666666666665e-05,
991
+ "loss": 0.1171,
992
+ "step": 13800
993
+ },
994
+ {
995
+ "epoch": 1.2355555555555555,
996
+ "grad_norm": 2.822277784347534,
997
+ "learning_rate": 2.0734000000000002e-05,
998
+ "loss": 0.1154,
999
+ "step": 13900
1000
+ },
1001
+ {
1002
+ "epoch": 1.2444444444444445,
1003
+ "grad_norm": 2.0999035835266113,
1004
+ "learning_rate": 2.0667333333333335e-05,
1005
+ "loss": 0.1163,
1006
+ "step": 14000
1007
+ },
1008
+ {
1009
+ "epoch": 1.2533333333333334,
1010
+ "grad_norm": 2.3862359523773193,
1011
+ "learning_rate": 2.0600666666666667e-05,
1012
+ "loss": 0.1166,
1013
+ "step": 14100
1014
+ },
1015
+ {
1016
+ "epoch": 1.2622222222222224,
1017
+ "grad_norm": 3.0106606483459473,
1018
+ "learning_rate": 2.0534e-05,
1019
+ "loss": 0.1174,
1020
+ "step": 14200
1021
+ },
1022
+ {
1023
+ "epoch": 1.271111111111111,
1024
+ "grad_norm": 2.2720947265625,
1025
+ "learning_rate": 2.0467333333333333e-05,
1026
+ "loss": 0.1162,
1027
+ "step": 14300
1028
+ },
1029
+ {
1030
+ "epoch": 1.28,
1031
+ "grad_norm": 2.4867804050445557,
1032
+ "learning_rate": 2.0400666666666666e-05,
1033
+ "loss": 0.1167,
1034
+ "step": 14400
1035
+ },
1036
+ {
1037
+ "epoch": 1.2888888888888888,
1038
+ "grad_norm": 3.227097511291504,
1039
+ "learning_rate": 2.0334e-05,
1040
+ "loss": 0.1166,
1041
+ "step": 14500
1042
+ },
1043
+ {
1044
+ "epoch": 1.2977777777777777,
1045
+ "grad_norm": 2.6462483406066895,
1046
+ "learning_rate": 2.0267333333333335e-05,
1047
+ "loss": 0.116,
1048
+ "step": 14600
1049
+ },
1050
+ {
1051
+ "epoch": 1.3066666666666666,
1052
+ "grad_norm": 1.9896470308303833,
1053
+ "learning_rate": 2.0200666666666668e-05,
1054
+ "loss": 0.1166,
1055
+ "step": 14700
1056
+ },
1057
+ {
1058
+ "epoch": 1.3155555555555556,
1059
+ "grad_norm": 3.9435179233551025,
1060
+ "learning_rate": 2.0134e-05,
1061
+ "loss": 0.1161,
1062
+ "step": 14800
1063
+ },
1064
+ {
1065
+ "epoch": 1.3244444444444445,
1066
+ "grad_norm": 3.1520168781280518,
1067
+ "learning_rate": 2.0067333333333334e-05,
1068
+ "loss": 0.1163,
1069
+ "step": 14900
1070
+ },
1071
+ {
1072
+ "epoch": 1.3333333333333333,
1073
+ "grad_norm": 2.1935575008392334,
1074
+ "learning_rate": 2.0000666666666666e-05,
1075
+ "loss": 0.1166,
1076
+ "step": 15000
1077
+ },
1078
+ {
1079
+ "epoch": 1.3333333333333333,
1080
+ "eval_loss": 0.11884617805480957,
1081
+ "eval_runtime": 211.3057,
1082
+ "eval_samples_per_second": 47.325,
1083
+ "eval_steps_per_second": 5.916,
1084
+ "step": 15000
1085
+ },
1086
+ {
1087
+ "epoch": 1.3422222222222222,
1088
+ "grad_norm": 2.775670289993286,
1089
+ "learning_rate": 1.9934e-05,
1090
+ "loss": 0.1159,
1091
+ "step": 15100
1092
+ },
1093
+ {
1094
+ "epoch": 1.3511111111111112,
1095
+ "grad_norm": 2.6361074447631836,
1096
+ "learning_rate": 1.9867333333333332e-05,
1097
+ "loss": 0.1169,
1098
+ "step": 15200
1099
+ },
1100
+ {
1101
+ "epoch": 1.3599999999999999,
1102
+ "grad_norm": 2.5795843601226807,
1103
+ "learning_rate": 1.9800666666666665e-05,
1104
+ "loss": 0.1166,
1105
+ "step": 15300
1106
+ },
1107
+ {
1108
+ "epoch": 1.3688888888888888,
1109
+ "grad_norm": 3.1737446784973145,
1110
+ "learning_rate": 1.9734e-05,
1111
+ "loss": 0.1167,
1112
+ "step": 15400
1113
+ },
1114
+ {
1115
+ "epoch": 1.3777777777777778,
1116
+ "grad_norm": 2.2223973274230957,
1117
+ "learning_rate": 1.9667333333333334e-05,
1118
+ "loss": 0.1164,
1119
+ "step": 15500
1120
+ },
1121
+ {
1122
+ "epoch": 1.3866666666666667,
1123
+ "grad_norm": 2.2306268215179443,
1124
+ "learning_rate": 1.9600666666666667e-05,
1125
+ "loss": 0.1168,
1126
+ "step": 15600
1127
+ },
1128
+ {
1129
+ "epoch": 1.3955555555555557,
1130
+ "grad_norm": 2.343104600906372,
1131
+ "learning_rate": 1.9534e-05,
1132
+ "loss": 0.1169,
1133
+ "step": 15700
1134
+ },
1135
+ {
1136
+ "epoch": 1.4044444444444444,
1137
+ "grad_norm": 2.2243905067443848,
1138
+ "learning_rate": 1.9467333333333333e-05,
1139
+ "loss": 0.1168,
1140
+ "step": 15800
1141
+ },
1142
+ {
1143
+ "epoch": 1.4133333333333333,
1144
+ "grad_norm": 2.11381459236145,
1145
+ "learning_rate": 1.9400666666666665e-05,
1146
+ "loss": 0.1176,
1147
+ "step": 15900
1148
+ },
1149
+ {
1150
+ "epoch": 1.4222222222222223,
1151
+ "grad_norm": 2.713016986846924,
1152
+ "learning_rate": 1.9333999999999998e-05,
1153
+ "loss": 0.117,
1154
+ "step": 16000
1155
+ },
1156
+ {
1157
+ "epoch": 1.431111111111111,
1158
+ "grad_norm": 2.860501766204834,
1159
+ "learning_rate": 1.926733333333333e-05,
1160
+ "loss": 0.1165,
1161
+ "step": 16100
1162
+ },
1163
+ {
1164
+ "epoch": 1.44,
1165
+ "grad_norm": 2.216109037399292,
1166
+ "learning_rate": 1.9200666666666667e-05,
1167
+ "loss": 0.117,
1168
+ "step": 16200
1169
+ },
1170
+ {
1171
+ "epoch": 1.448888888888889,
1172
+ "grad_norm": 2.458571672439575,
1173
+ "learning_rate": 1.9134e-05,
1174
+ "loss": 0.1166,
1175
+ "step": 16300
1176
+ },
1177
+ {
1178
+ "epoch": 1.4577777777777778,
1179
+ "grad_norm": 2.421862840652466,
1180
+ "learning_rate": 1.9067333333333333e-05,
1181
+ "loss": 0.117,
1182
+ "step": 16400
1183
+ },
1184
+ {
1185
+ "epoch": 1.4666666666666668,
1186
+ "grad_norm": 2.4166271686553955,
1187
+ "learning_rate": 1.9000666666666666e-05,
1188
+ "loss": 0.1158,
1189
+ "step": 16500
1190
+ },
1191
+ {
1192
+ "epoch": 1.4755555555555555,
1193
+ "grad_norm": 2.1545352935791016,
1194
+ "learning_rate": 1.8934e-05,
1195
+ "loss": 0.1153,
1196
+ "step": 16600
1197
+ },
1198
+ {
1199
+ "epoch": 1.4844444444444445,
1200
+ "grad_norm": 2.041667938232422,
1201
+ "learning_rate": 1.886733333333333e-05,
1202
+ "loss": 0.1174,
1203
+ "step": 16700
1204
+ },
1205
+ {
1206
+ "epoch": 1.4933333333333334,
1207
+ "grad_norm": 2.384735584259033,
1208
+ "learning_rate": 1.8800666666666664e-05,
1209
+ "loss": 0.1163,
1210
+ "step": 16800
1211
+ },
1212
+ {
1213
+ "epoch": 1.5022222222222221,
1214
+ "grad_norm": 2.500413656234741,
1215
+ "learning_rate": 1.8734e-05,
1216
+ "loss": 0.1151,
1217
+ "step": 16900
1218
+ },
1219
+ {
1220
+ "epoch": 1.511111111111111,
1221
+ "grad_norm": 2.1342129707336426,
1222
+ "learning_rate": 1.8667333333333337e-05,
1223
+ "loss": 0.1159,
1224
+ "step": 17000
1225
+ },
1226
+ {
1227
+ "epoch": 1.52,
1228
+ "grad_norm": 1.887050986289978,
1229
+ "learning_rate": 1.860066666666667e-05,
1230
+ "loss": 0.1167,
1231
+ "step": 17100
1232
+ },
1233
+ {
1234
+ "epoch": 1.528888888888889,
1235
+ "grad_norm": 2.915043830871582,
1236
+ "learning_rate": 1.8534000000000002e-05,
1237
+ "loss": 0.1146,
1238
+ "step": 17200
1239
+ },
1240
+ {
1241
+ "epoch": 1.537777777777778,
1242
+ "grad_norm": 1.9369572401046753,
1243
+ "learning_rate": 1.8467333333333335e-05,
1244
+ "loss": 0.115,
1245
+ "step": 17300
1246
+ },
1247
+ {
1248
+ "epoch": 1.5466666666666666,
1249
+ "grad_norm": 2.6729207038879395,
1250
+ "learning_rate": 1.8400666666666668e-05,
1251
+ "loss": 0.1164,
1252
+ "step": 17400
1253
+ },
1254
+ {
1255
+ "epoch": 1.5555555555555556,
1256
+ "grad_norm": 2.3808655738830566,
1257
+ "learning_rate": 1.8334e-05,
1258
+ "loss": 0.1164,
1259
+ "step": 17500
1260
+ },
1261
+ {
1262
+ "epoch": 1.5644444444444443,
1263
+ "grad_norm": 2.073694944381714,
1264
+ "learning_rate": 1.8267333333333334e-05,
1265
+ "loss": 0.1162,
1266
+ "step": 17600
1267
+ },
1268
+ {
1269
+ "epoch": 1.5733333333333333,
1270
+ "grad_norm": 2.777702808380127,
1271
+ "learning_rate": 1.820066666666667e-05,
1272
+ "loss": 0.1165,
1273
+ "step": 17700
1274
+ },
1275
+ {
1276
+ "epoch": 1.5822222222222222,
1277
+ "grad_norm": 2.505470037460327,
1278
+ "learning_rate": 1.8134000000000003e-05,
1279
+ "loss": 0.1161,
1280
+ "step": 17800
1281
+ },
1282
+ {
1283
+ "epoch": 1.5911111111111111,
1284
+ "grad_norm": 2.718674421310425,
1285
+ "learning_rate": 1.8067333333333336e-05,
1286
+ "loss": 0.1163,
1287
+ "step": 17900
1288
+ },
1289
+ {
1290
+ "epoch": 1.6,
1291
+ "grad_norm": 2.1494431495666504,
1292
+ "learning_rate": 1.800066666666667e-05,
1293
+ "loss": 0.1156,
1294
+ "step": 18000
1295
+ },
1296
+ {
1297
+ "epoch": 1.608888888888889,
1298
+ "grad_norm": 2.116150379180908,
1299
+ "learning_rate": 1.7934e-05,
1300
+ "loss": 0.1151,
1301
+ "step": 18100
1302
+ },
1303
+ {
1304
+ "epoch": 1.6177777777777778,
1305
+ "grad_norm": 2.0484061241149902,
1306
+ "learning_rate": 1.7867333333333334e-05,
1307
+ "loss": 0.1156,
1308
+ "step": 18200
1309
+ },
1310
+ {
1311
+ "epoch": 1.6266666666666667,
1312
+ "grad_norm": 2.424205780029297,
1313
+ "learning_rate": 1.7800666666666667e-05,
1314
+ "loss": 0.1163,
1315
+ "step": 18300
1316
+ },
1317
+ {
1318
+ "epoch": 1.6355555555555554,
1319
+ "grad_norm": 1.8127673864364624,
1320
+ "learning_rate": 1.7734e-05,
1321
+ "loss": 0.1158,
1322
+ "step": 18400
1323
+ },
1324
+ {
1325
+ "epoch": 1.6444444444444444,
1326
+ "grad_norm": 1.8198715448379517,
1327
+ "learning_rate": 1.7667333333333336e-05,
1328
+ "loss": 0.1154,
1329
+ "step": 18500
1330
+ },
1331
+ {
1332
+ "epoch": 1.6533333333333333,
1333
+ "grad_norm": 2.0981502532958984,
1334
+ "learning_rate": 1.760066666666667e-05,
1335
+ "loss": 0.1151,
1336
+ "step": 18600
1337
+ },
1338
+ {
1339
+ "epoch": 1.6622222222222223,
1340
+ "grad_norm": 2.4855105876922607,
1341
+ "learning_rate": 1.7534000000000002e-05,
1342
+ "loss": 0.1159,
1343
+ "step": 18700
1344
+ },
1345
+ {
1346
+ "epoch": 1.6711111111111112,
1347
+ "grad_norm": 2.699737071990967,
1348
+ "learning_rate": 1.7467333333333335e-05,
1349
+ "loss": 0.1157,
1350
+ "step": 18800
1351
+ },
1352
+ {
1353
+ "epoch": 1.6800000000000002,
1354
+ "grad_norm": 2.327432870864868,
1355
+ "learning_rate": 1.7400666666666668e-05,
1356
+ "loss": 0.1171,
1357
+ "step": 18900
1358
+ },
1359
+ {
1360
+ "epoch": 1.6888888888888889,
1361
+ "grad_norm": 2.1968882083892822,
1362
+ "learning_rate": 1.7334e-05,
1363
+ "loss": 0.1161,
1364
+ "step": 19000
1365
+ },
1366
+ {
1367
+ "epoch": 1.6977777777777778,
1368
+ "grad_norm": 1.8226240873336792,
1369
+ "learning_rate": 1.7267333333333333e-05,
1370
+ "loss": 0.1151,
1371
+ "step": 19100
1372
+ },
1373
+ {
1374
+ "epoch": 1.7066666666666666,
1375
+ "grad_norm": 2.7223825454711914,
1376
+ "learning_rate": 1.7200666666666666e-05,
1377
+ "loss": 0.1171,
1378
+ "step": 19200
1379
+ },
1380
+ {
1381
+ "epoch": 1.7155555555555555,
1382
+ "grad_norm": 2.9477438926696777,
1383
+ "learning_rate": 1.7134000000000002e-05,
1384
+ "loss": 0.1156,
1385
+ "step": 19300
1386
+ },
1387
+ {
1388
+ "epoch": 1.7244444444444444,
1389
+ "grad_norm": 2.40928316116333,
1390
+ "learning_rate": 1.7067333333333335e-05,
1391
+ "loss": 0.1166,
1392
+ "step": 19400
1393
+ },
1394
+ {
1395
+ "epoch": 1.7333333333333334,
1396
+ "grad_norm": 1.8822649717330933,
1397
+ "learning_rate": 1.7000666666666668e-05,
1398
+ "loss": 0.1153,
1399
+ "step": 19500
1400
+ },
1401
+ {
1402
+ "epoch": 1.7422222222222223,
1403
+ "grad_norm": 2.2142670154571533,
1404
+ "learning_rate": 1.6934e-05,
1405
+ "loss": 0.1163,
1406
+ "step": 19600
1407
+ },
1408
+ {
1409
+ "epoch": 1.751111111111111,
1410
+ "grad_norm": 2.1836495399475098,
1411
+ "learning_rate": 1.6867333333333334e-05,
1412
+ "loss": 0.1151,
1413
+ "step": 19700
1414
+ },
1415
+ {
1416
+ "epoch": 1.76,
1417
+ "grad_norm": 3.2107222080230713,
1418
+ "learning_rate": 1.6800666666666667e-05,
1419
+ "loss": 0.1163,
1420
+ "step": 19800
1421
+ },
1422
+ {
1423
+ "epoch": 1.7688888888888887,
1424
+ "grad_norm": 1.8287441730499268,
1425
+ "learning_rate": 1.6734e-05,
1426
+ "loss": 0.1156,
1427
+ "step": 19900
1428
+ },
1429
+ {
1430
+ "epoch": 1.7777777777777777,
1431
+ "grad_norm": 2.0980119705200195,
1432
+ "learning_rate": 1.6667333333333332e-05,
1433
+ "loss": 0.1155,
1434
+ "step": 20000
1435
+ },
1436
+ {
1437
+ "epoch": 1.7777777777777777,
1438
+ "eval_loss": 0.11874008923768997,
1439
+ "eval_runtime": 211.255,
1440
+ "eval_samples_per_second": 47.336,
1441
+ "eval_steps_per_second": 5.917,
1442
+ "step": 20000
1443
+ },
1444
+ {
1445
+ "epoch": 1.7866666666666666,
1446
+ "grad_norm": 2.3383679389953613,
1447
+ "learning_rate": 1.660066666666667e-05,
1448
+ "loss": 0.1138,
1449
+ "step": 20100
1450
+ },
1451
+ {
1452
+ "epoch": 1.7955555555555556,
1453
+ "grad_norm": 2.7525901794433594,
1454
+ "learning_rate": 1.6534e-05,
1455
+ "loss": 0.116,
1456
+ "step": 20200
1457
+ },
1458
+ {
1459
+ "epoch": 1.8044444444444445,
1460
+ "grad_norm": 2.5040132999420166,
1461
+ "learning_rate": 1.6467333333333334e-05,
1462
+ "loss": 0.1161,
1463
+ "step": 20300
1464
+ },
1465
+ {
1466
+ "epoch": 1.8133333333333335,
1467
+ "grad_norm": 2.259471893310547,
1468
+ "learning_rate": 1.6400666666666667e-05,
1469
+ "loss": 0.117,
1470
+ "step": 20400
1471
+ },
1472
+ {
1473
+ "epoch": 1.8222222222222222,
1474
+ "grad_norm": 2.2679028511047363,
1475
+ "learning_rate": 1.6334e-05,
1476
+ "loss": 0.1137,
1477
+ "step": 20500
1478
+ },
1479
+ {
1480
+ "epoch": 1.8311111111111111,
1481
+ "grad_norm": 2.327155351638794,
1482
+ "learning_rate": 1.6267333333333333e-05,
1483
+ "loss": 0.1166,
1484
+ "step": 20600
1485
+ },
1486
+ {
1487
+ "epoch": 1.8399999999999999,
1488
+ "grad_norm": 1.955175757408142,
1489
+ "learning_rate": 1.6200666666666665e-05,
1490
+ "loss": 0.1166,
1491
+ "step": 20700
1492
+ },
1493
+ {
1494
+ "epoch": 1.8488888888888888,
1495
+ "grad_norm": 2.710777759552002,
1496
+ "learning_rate": 1.6134e-05,
1497
+ "loss": 0.1172,
1498
+ "step": 20800
1499
+ },
1500
+ {
1501
+ "epoch": 1.8577777777777778,
1502
+ "grad_norm": 2.216688632965088,
1503
+ "learning_rate": 1.6067333333333335e-05,
1504
+ "loss": 0.1161,
1505
+ "step": 20900
1506
+ },
1507
+ {
1508
+ "epoch": 1.8666666666666667,
1509
+ "grad_norm": 2.182429075241089,
1510
+ "learning_rate": 1.6000666666666667e-05,
1511
+ "loss": 0.1156,
1512
+ "step": 21000
1513
+ },
1514
+ {
1515
+ "epoch": 1.8755555555555556,
1516
+ "grad_norm": 1.9243407249450684,
1517
+ "learning_rate": 1.5934e-05,
1518
+ "loss": 0.1142,
1519
+ "step": 21100
1520
+ },
1521
+ {
1522
+ "epoch": 1.8844444444444446,
1523
+ "grad_norm": 2.7626757621765137,
1524
+ "learning_rate": 1.5867333333333333e-05,
1525
+ "loss": 0.1145,
1526
+ "step": 21200
1527
+ },
1528
+ {
1529
+ "epoch": 1.8933333333333333,
1530
+ "grad_norm": 2.6856908798217773,
1531
+ "learning_rate": 1.5800666666666666e-05,
1532
+ "loss": 0.1152,
1533
+ "step": 21300
1534
+ },
1535
+ {
1536
+ "epoch": 1.9022222222222223,
1537
+ "grad_norm": 1.7904895544052124,
1538
+ "learning_rate": 1.5734e-05,
1539
+ "loss": 0.1155,
1540
+ "step": 21400
1541
+ },
1542
+ {
1543
+ "epoch": 1.911111111111111,
1544
+ "grad_norm": 3.033803939819336,
1545
+ "learning_rate": 1.566733333333333e-05,
1546
+ "loss": 0.1166,
1547
+ "step": 21500
1548
+ },
1549
+ {
1550
+ "epoch": 1.92,
1551
+ "grad_norm": 2.309826612472534,
1552
+ "learning_rate": 1.5600666666666668e-05,
1553
+ "loss": 0.1158,
1554
+ "step": 21600
1555
+ },
1556
+ {
1557
+ "epoch": 1.9288888888888889,
1558
+ "grad_norm": 1.7815381288528442,
1559
+ "learning_rate": 1.5534e-05,
1560
+ "loss": 0.1162,
1561
+ "step": 21700
1562
+ },
1563
+ {
1564
+ "epoch": 1.9377777777777778,
1565
+ "grad_norm": 2.4178450107574463,
1566
+ "learning_rate": 1.5467333333333334e-05,
1567
+ "loss": 0.1148,
1568
+ "step": 21800
1569
+ },
1570
+ {
1571
+ "epoch": 1.9466666666666668,
1572
+ "grad_norm": 2.054873466491699,
1573
+ "learning_rate": 1.5400666666666666e-05,
1574
+ "loss": 0.1159,
1575
+ "step": 21900
1576
+ },
1577
+ {
1578
+ "epoch": 1.9555555555555557,
1579
+ "grad_norm": 2.2199928760528564,
1580
+ "learning_rate": 1.5334e-05,
1581
+ "loss": 0.116,
1582
+ "step": 22000
1583
+ },
1584
+ {
1585
+ "epoch": 1.9644444444444444,
1586
+ "grad_norm": 2.7613635063171387,
1587
+ "learning_rate": 1.5267333333333332e-05,
1588
+ "loss": 0.1158,
1589
+ "step": 22100
1590
+ },
1591
+ {
1592
+ "epoch": 1.9733333333333334,
1593
+ "grad_norm": 2.339095115661621,
1594
+ "learning_rate": 1.5200666666666667e-05,
1595
+ "loss": 0.1165,
1596
+ "step": 22200
1597
+ },
1598
+ {
1599
+ "epoch": 1.982222222222222,
1600
+ "grad_norm": 2.9039108753204346,
1601
+ "learning_rate": 1.5134e-05,
1602
+ "loss": 0.1161,
1603
+ "step": 22300
1604
+ },
1605
+ {
1606
+ "epoch": 1.991111111111111,
1607
+ "grad_norm": 1.7739943265914917,
1608
+ "learning_rate": 1.5067333333333336e-05,
1609
+ "loss": 0.1156,
1610
+ "step": 22400
1611
+ },
1612
+ {
1613
+ "epoch": 2.0,
1614
+ "grad_norm": 2.047527551651001,
1615
+ "learning_rate": 1.5000666666666669e-05,
1616
+ "loss": 0.1154,
1617
+ "step": 22500
1618
+ },
1619
+ {
1620
+ "epoch": 2.008888888888889,
1621
+ "grad_norm": 2.352304458618164,
1622
+ "learning_rate": 1.4934000000000001e-05,
1623
+ "loss": 0.1158,
1624
+ "step": 22600
1625
+ },
1626
+ {
1627
+ "epoch": 2.017777777777778,
1628
+ "grad_norm": 2.671964645385742,
1629
+ "learning_rate": 1.4867333333333334e-05,
1630
+ "loss": 0.1162,
1631
+ "step": 22700
1632
+ },
1633
+ {
1634
+ "epoch": 2.026666666666667,
1635
+ "grad_norm": 2.2361083030700684,
1636
+ "learning_rate": 1.4800666666666667e-05,
1637
+ "loss": 0.1159,
1638
+ "step": 22800
1639
+ },
1640
+ {
1641
+ "epoch": 2.0355555555555553,
1642
+ "grad_norm": 2.8421878814697266,
1643
+ "learning_rate": 1.4734e-05,
1644
+ "loss": 0.1165,
1645
+ "step": 22900
1646
+ },
1647
+ {
1648
+ "epoch": 2.0444444444444443,
1649
+ "grad_norm": 2.485544204711914,
1650
+ "learning_rate": 1.4667333333333334e-05,
1651
+ "loss": 0.1152,
1652
+ "step": 23000
1653
+ },
1654
+ {
1655
+ "epoch": 2.0533333333333332,
1656
+ "grad_norm": 2.96846079826355,
1657
+ "learning_rate": 1.4600666666666667e-05,
1658
+ "loss": 0.1155,
1659
+ "step": 23100
1660
+ },
1661
+ {
1662
+ "epoch": 2.062222222222222,
1663
+ "grad_norm": 2.7394907474517822,
1664
+ "learning_rate": 1.4534e-05,
1665
+ "loss": 0.1164,
1666
+ "step": 23200
1667
+ },
1668
+ {
1669
+ "epoch": 2.071111111111111,
1670
+ "grad_norm": 2.4437592029571533,
1671
+ "learning_rate": 1.4467333333333333e-05,
1672
+ "loss": 0.1156,
1673
+ "step": 23300
1674
+ },
1675
+ {
1676
+ "epoch": 2.08,
1677
+ "grad_norm": 2.2288527488708496,
1678
+ "learning_rate": 1.4400666666666667e-05,
1679
+ "loss": 0.1158,
1680
+ "step": 23400
1681
+ },
1682
+ {
1683
+ "epoch": 2.088888888888889,
1684
+ "grad_norm": 2.3188891410827637,
1685
+ "learning_rate": 1.4334e-05,
1686
+ "loss": 0.1148,
1687
+ "step": 23500
1688
+ },
1689
+ {
1690
+ "epoch": 2.097777777777778,
1691
+ "grad_norm": 2.7612464427948,
1692
+ "learning_rate": 1.4267333333333333e-05,
1693
+ "loss": 0.1171,
1694
+ "step": 23600
1695
+ },
1696
+ {
1697
+ "epoch": 2.1066666666666665,
1698
+ "grad_norm": 2.3894736766815186,
1699
+ "learning_rate": 1.4200666666666666e-05,
1700
+ "loss": 0.1148,
1701
+ "step": 23700
1702
+ },
1703
+ {
1704
+ "epoch": 2.1155555555555554,
1705
+ "grad_norm": 2.3277463912963867,
1706
+ "learning_rate": 1.4134e-05,
1707
+ "loss": 0.1153,
1708
+ "step": 23800
1709
+ },
1710
+ {
1711
+ "epoch": 2.1244444444444444,
1712
+ "grad_norm": 2.8140342235565186,
1713
+ "learning_rate": 1.4067333333333333e-05,
1714
+ "loss": 0.1137,
1715
+ "step": 23900
1716
+ },
1717
+ {
1718
+ "epoch": 2.1333333333333333,
1719
+ "grad_norm": 2.089547634124756,
1720
+ "learning_rate": 1.4000666666666666e-05,
1721
+ "loss": 0.1155,
1722
+ "step": 24000
1723
+ },
1724
+ {
1725
+ "epoch": 2.1422222222222222,
1726
+ "grad_norm": 3.302685260772705,
1727
+ "learning_rate": 1.3934e-05,
1728
+ "loss": 0.1153,
1729
+ "step": 24100
1730
+ },
1731
+ {
1732
+ "epoch": 2.151111111111111,
1733
+ "grad_norm": 4.049182415008545,
1734
+ "learning_rate": 1.3867333333333334e-05,
1735
+ "loss": 0.1157,
1736
+ "step": 24200
1737
+ },
1738
+ {
1739
+ "epoch": 2.16,
1740
+ "grad_norm": 2.8935699462890625,
1741
+ "learning_rate": 1.3800666666666666e-05,
1742
+ "loss": 0.1148,
1743
+ "step": 24300
1744
+ },
1745
+ {
1746
+ "epoch": 2.168888888888889,
1747
+ "grad_norm": 2.7473628520965576,
1748
+ "learning_rate": 1.3734e-05,
1749
+ "loss": 0.1163,
1750
+ "step": 24400
1751
+ },
1752
+ {
1753
+ "epoch": 2.1777777777777776,
1754
+ "grad_norm": 2.5902512073516846,
1755
+ "learning_rate": 1.3667333333333334e-05,
1756
+ "loss": 0.1166,
1757
+ "step": 24500
1758
+ },
1759
+ {
1760
+ "epoch": 2.1866666666666665,
1761
+ "grad_norm": 2.7223613262176514,
1762
+ "learning_rate": 1.3600666666666667e-05,
1763
+ "loss": 0.1162,
1764
+ "step": 24600
1765
+ },
1766
+ {
1767
+ "epoch": 2.1955555555555555,
1768
+ "grad_norm": 2.1939899921417236,
1769
+ "learning_rate": 1.3534e-05,
1770
+ "loss": 0.1154,
1771
+ "step": 24700
1772
+ },
1773
+ {
1774
+ "epoch": 2.2044444444444444,
1775
+ "grad_norm": 2.0452585220336914,
1776
+ "learning_rate": 1.3467333333333332e-05,
1777
+ "loss": 0.1152,
1778
+ "step": 24800
1779
+ },
1780
+ {
1781
+ "epoch": 2.2133333333333334,
1782
+ "grad_norm": 1.8646681308746338,
1783
+ "learning_rate": 1.3400666666666667e-05,
1784
+ "loss": 0.1155,
1785
+ "step": 24900
1786
+ },
1787
+ {
1788
+ "epoch": 2.2222222222222223,
1789
+ "grad_norm": 1.9449495077133179,
1790
+ "learning_rate": 1.3334000000000001e-05,
1791
+ "loss": 0.1152,
1792
+ "step": 25000
1793
+ },
1794
+ {
1795
+ "epoch": 2.2222222222222223,
1796
+ "eval_loss": 0.11821907013654709,
1797
+ "eval_runtime": 205.4004,
1798
+ "eval_samples_per_second": 48.685,
1799
+ "eval_steps_per_second": 6.086,
1800
+ "step": 25000
1801
+ },
1802
+ {
1803
+ "epoch": 2.2311111111111113,
1804
+ "grad_norm": 2.43855881690979,
1805
+ "learning_rate": 1.3267333333333334e-05,
1806
+ "loss": 0.1152,
1807
+ "step": 25100
1808
+ },
1809
+ {
1810
+ "epoch": 2.24,
1811
+ "grad_norm": 2.259459972381592,
1812
+ "learning_rate": 1.3200666666666667e-05,
1813
+ "loss": 0.1166,
1814
+ "step": 25200
1815
+ },
1816
+ {
1817
+ "epoch": 2.2488888888888887,
1818
+ "grad_norm": 1.6553391218185425,
1819
+ "learning_rate": 1.3134000000000002e-05,
1820
+ "loss": 0.1161,
1821
+ "step": 25300
1822
+ },
1823
+ {
1824
+ "epoch": 2.2577777777777777,
1825
+ "grad_norm": 2.632042407989502,
1826
+ "learning_rate": 1.3067333333333334e-05,
1827
+ "loss": 0.1158,
1828
+ "step": 25400
1829
+ },
1830
+ {
1831
+ "epoch": 2.2666666666666666,
1832
+ "grad_norm": 1.961142897605896,
1833
+ "learning_rate": 1.3000666666666667e-05,
1834
+ "loss": 0.1155,
1835
+ "step": 25500
1836
+ },
1837
+ {
1838
+ "epoch": 2.2755555555555556,
1839
+ "grad_norm": 3.4109835624694824,
1840
+ "learning_rate": 1.2934e-05,
1841
+ "loss": 0.1157,
1842
+ "step": 25600
1843
+ },
1844
+ {
1845
+ "epoch": 2.2844444444444445,
1846
+ "grad_norm": 1.8419948816299438,
1847
+ "learning_rate": 1.2867333333333335e-05,
1848
+ "loss": 0.1155,
1849
+ "step": 25700
1850
+ },
1851
+ {
1852
+ "epoch": 2.2933333333333334,
1853
+ "grad_norm": 1.9801756143569946,
1854
+ "learning_rate": 1.2800666666666668e-05,
1855
+ "loss": 0.1158,
1856
+ "step": 25800
1857
+ },
1858
+ {
1859
+ "epoch": 2.3022222222222224,
1860
+ "grad_norm": 2.43862247467041,
1861
+ "learning_rate": 1.2734e-05,
1862
+ "loss": 0.1153,
1863
+ "step": 25900
1864
+ },
1865
+ {
1866
+ "epoch": 2.311111111111111,
1867
+ "grad_norm": 2.5168206691741943,
1868
+ "learning_rate": 1.2667333333333333e-05,
1869
+ "loss": 0.1156,
1870
+ "step": 26000
1871
+ },
1872
+ {
1873
+ "epoch": 2.32,
1874
+ "grad_norm": 1.8565939664840698,
1875
+ "learning_rate": 1.2600666666666668e-05,
1876
+ "loss": 0.1152,
1877
+ "step": 26100
1878
+ },
1879
+ {
1880
+ "epoch": 2.328888888888889,
1881
+ "grad_norm": 2.830747127532959,
1882
+ "learning_rate": 1.2534e-05,
1883
+ "loss": 0.1162,
1884
+ "step": 26200
1885
+ },
1886
+ {
1887
+ "epoch": 2.3377777777777777,
1888
+ "grad_norm": 2.1019651889801025,
1889
+ "learning_rate": 1.2467333333333333e-05,
1890
+ "loss": 0.1133,
1891
+ "step": 26300
1892
+ },
1893
+ {
1894
+ "epoch": 2.3466666666666667,
1895
+ "grad_norm": 2.217740774154663,
1896
+ "learning_rate": 1.2400666666666666e-05,
1897
+ "loss": 0.1152,
1898
+ "step": 26400
1899
+ },
1900
+ {
1901
+ "epoch": 2.3555555555555556,
1902
+ "grad_norm": 2.361687660217285,
1903
+ "learning_rate": 1.2334e-05,
1904
+ "loss": 0.1156,
1905
+ "step": 26500
1906
+ },
1907
+ {
1908
+ "epoch": 2.3644444444444446,
1909
+ "grad_norm": 2.0507583618164062,
1910
+ "learning_rate": 1.2267333333333334e-05,
1911
+ "loss": 0.1159,
1912
+ "step": 26600
1913
+ },
1914
+ {
1915
+ "epoch": 2.3733333333333335,
1916
+ "grad_norm": 2.8861610889434814,
1917
+ "learning_rate": 1.2200666666666667e-05,
1918
+ "loss": 0.1151,
1919
+ "step": 26700
1920
+ },
1921
+ {
1922
+ "epoch": 2.3822222222222225,
1923
+ "grad_norm": 1.8134089708328247,
1924
+ "learning_rate": 1.2134e-05,
1925
+ "loss": 0.1154,
1926
+ "step": 26800
1927
+ },
1928
+ {
1929
+ "epoch": 2.391111111111111,
1930
+ "grad_norm": 2.0537240505218506,
1931
+ "learning_rate": 1.2067333333333334e-05,
1932
+ "loss": 0.1159,
1933
+ "step": 26900
1934
+ },
1935
+ {
1936
+ "epoch": 2.4,
1937
+ "grad_norm": 2.097390651702881,
1938
+ "learning_rate": 1.2000666666666667e-05,
1939
+ "loss": 0.1161,
1940
+ "step": 27000
1941
+ },
1942
+ {
1943
+ "epoch": 2.408888888888889,
1944
+ "grad_norm": 2.088944435119629,
1945
+ "learning_rate": 1.1934e-05,
1946
+ "loss": 0.1146,
1947
+ "step": 27100
1948
+ },
1949
+ {
1950
+ "epoch": 2.417777777777778,
1951
+ "grad_norm": 2.133535385131836,
1952
+ "learning_rate": 1.1867333333333332e-05,
1953
+ "loss": 0.1159,
1954
+ "step": 27200
1955
+ },
1956
+ {
1957
+ "epoch": 2.4266666666666667,
1958
+ "grad_norm": 1.7839490175247192,
1959
+ "learning_rate": 1.1800666666666667e-05,
1960
+ "loss": 0.1151,
1961
+ "step": 27300
1962
+ },
1963
+ {
1964
+ "epoch": 2.4355555555555557,
1965
+ "grad_norm": 2.6169657707214355,
1966
+ "learning_rate": 1.1734e-05,
1967
+ "loss": 0.1163,
1968
+ "step": 27400
1969
+ },
1970
+ {
1971
+ "epoch": 2.4444444444444446,
1972
+ "grad_norm": 2.3692398071289062,
1973
+ "learning_rate": 1.1667333333333333e-05,
1974
+ "loss": 0.1154,
1975
+ "step": 27500
1976
+ },
1977
+ {
1978
+ "epoch": 2.453333333333333,
1979
+ "grad_norm": 2.067922353744507,
1980
+ "learning_rate": 1.1600666666666667e-05,
1981
+ "loss": 0.1164,
1982
+ "step": 27600
1983
+ },
1984
+ {
1985
+ "epoch": 2.462222222222222,
1986
+ "grad_norm": 2.0473413467407227,
1987
+ "learning_rate": 1.1534e-05,
1988
+ "loss": 0.1163,
1989
+ "step": 27700
1990
+ },
1991
+ {
1992
+ "epoch": 2.471111111111111,
1993
+ "grad_norm": 2.808614730834961,
1994
+ "learning_rate": 1.1467333333333333e-05,
1995
+ "loss": 0.1156,
1996
+ "step": 27800
1997
+ },
1998
+ {
1999
+ "epoch": 2.48,
2000
+ "grad_norm": 2.913728713989258,
2001
+ "learning_rate": 1.1400666666666666e-05,
2002
+ "loss": 0.116,
2003
+ "step": 27900
2004
+ },
2005
+ {
2006
+ "epoch": 2.488888888888889,
2007
+ "grad_norm": 1.912876009941101,
2008
+ "learning_rate": 1.1334e-05,
2009
+ "loss": 0.1152,
2010
+ "step": 28000
2011
+ },
2012
+ {
2013
+ "epoch": 2.497777777777778,
2014
+ "grad_norm": 1.86778724193573,
2015
+ "learning_rate": 1.1267333333333333e-05,
2016
+ "loss": 0.1153,
2017
+ "step": 28100
2018
+ },
2019
+ {
2020
+ "epoch": 2.506666666666667,
2021
+ "grad_norm": 2.0126466751098633,
2022
+ "learning_rate": 1.1200666666666668e-05,
2023
+ "loss": 0.1158,
2024
+ "step": 28200
2025
+ },
2026
+ {
2027
+ "epoch": 2.5155555555555553,
2028
+ "grad_norm": 3.1814756393432617,
2029
+ "learning_rate": 1.1134e-05,
2030
+ "loss": 0.1141,
2031
+ "step": 28300
2032
+ },
2033
+ {
2034
+ "epoch": 2.5244444444444447,
2035
+ "grad_norm": 1.9883755445480347,
2036
+ "learning_rate": 1.1067333333333335e-05,
2037
+ "loss": 0.1166,
2038
+ "step": 28400
2039
+ },
2040
+ {
2041
+ "epoch": 2.533333333333333,
2042
+ "grad_norm": 2.183955192565918,
2043
+ "learning_rate": 1.1000666666666668e-05,
2044
+ "loss": 0.1148,
2045
+ "step": 28500
2046
+ },
2047
+ {
2048
+ "epoch": 2.542222222222222,
2049
+ "grad_norm": 1.8114796876907349,
2050
+ "learning_rate": 1.0934e-05,
2051
+ "loss": 0.1152,
2052
+ "step": 28600
2053
+ },
2054
+ {
2055
+ "epoch": 2.551111111111111,
2056
+ "grad_norm": 2.805391550064087,
2057
+ "learning_rate": 1.0867333333333334e-05,
2058
+ "loss": 0.1167,
2059
+ "step": 28700
2060
+ },
2061
+ {
2062
+ "epoch": 2.56,
2063
+ "grad_norm": 1.9589388370513916,
2064
+ "learning_rate": 1.0800666666666668e-05,
2065
+ "loss": 0.1159,
2066
+ "step": 28800
2067
+ },
2068
+ {
2069
+ "epoch": 2.568888888888889,
2070
+ "grad_norm": 2.483231782913208,
2071
+ "learning_rate": 1.0734000000000001e-05,
2072
+ "loss": 0.1164,
2073
+ "step": 28900
2074
+ },
2075
+ {
2076
+ "epoch": 2.5777777777777775,
2077
+ "grad_norm": 2.146597385406494,
2078
+ "learning_rate": 1.0667333333333334e-05,
2079
+ "loss": 0.1157,
2080
+ "step": 29000
2081
+ },
2082
+ {
2083
+ "epoch": 2.586666666666667,
2084
+ "grad_norm": 2.4722535610198975,
2085
+ "learning_rate": 1.0600666666666667e-05,
2086
+ "loss": 0.1152,
2087
+ "step": 29100
2088
+ },
2089
+ {
2090
+ "epoch": 2.5955555555555554,
2091
+ "grad_norm": 2.1983442306518555,
2092
+ "learning_rate": 1.0534000000000001e-05,
2093
+ "loss": 0.1157,
2094
+ "step": 29200
2095
+ },
2096
+ {
2097
+ "epoch": 2.6044444444444443,
2098
+ "grad_norm": 2.2970950603485107,
2099
+ "learning_rate": 1.0467333333333334e-05,
2100
+ "loss": 0.1157,
2101
+ "step": 29300
2102
+ },
2103
+ {
2104
+ "epoch": 2.6133333333333333,
2105
+ "grad_norm": 2.0761561393737793,
2106
+ "learning_rate": 1.0400666666666667e-05,
2107
+ "loss": 0.1158,
2108
+ "step": 29400
2109
+ },
2110
+ {
2111
+ "epoch": 2.6222222222222222,
2112
+ "grad_norm": 2.563446283340454,
2113
+ "learning_rate": 1.0334e-05,
2114
+ "loss": 0.1148,
2115
+ "step": 29500
2116
+ },
2117
+ {
2118
+ "epoch": 2.631111111111111,
2119
+ "grad_norm": 1.857676386833191,
2120
+ "learning_rate": 1.0267333333333334e-05,
2121
+ "loss": 0.1156,
2122
+ "step": 29600
2123
+ },
2124
+ {
2125
+ "epoch": 2.64,
2126
+ "grad_norm": 1.8866102695465088,
2127
+ "learning_rate": 1.0200666666666667e-05,
2128
+ "loss": 0.1161,
2129
+ "step": 29700
2130
+ },
2131
+ {
2132
+ "epoch": 2.648888888888889,
2133
+ "grad_norm": 2.0575530529022217,
2134
+ "learning_rate": 1.0134e-05,
2135
+ "loss": 0.1147,
2136
+ "step": 29800
2137
+ },
2138
+ {
2139
+ "epoch": 2.6577777777777776,
2140
+ "grad_norm": 2.034001111984253,
2141
+ "learning_rate": 1.0067333333333333e-05,
2142
+ "loss": 0.1157,
2143
+ "step": 29900
2144
+ },
2145
+ {
2146
+ "epoch": 2.6666666666666665,
2147
+ "grad_norm": 2.0795133113861084,
2148
+ "learning_rate": 1.0000666666666667e-05,
2149
+ "loss": 0.1148,
2150
+ "step": 30000
2151
+ },
2152
+ {
2153
+ "epoch": 2.6666666666666665,
2154
+ "eval_loss": 0.11856765300035477,
2155
+ "eval_runtime": 205.9117,
2156
+ "eval_samples_per_second": 48.565,
2157
+ "eval_steps_per_second": 6.071,
2158
+ "step": 30000
2159
+ },
2160
+ {
2161
+ "epoch": 2.6755555555555555,
2162
+ "grad_norm": 1.806398630142212,
2163
+ "learning_rate": 9.934e-06,
2164
+ "loss": 0.1157,
2165
+ "step": 30100
2166
+ },
2167
+ {
2168
+ "epoch": 2.6844444444444444,
2169
+ "grad_norm": 2.670499563217163,
2170
+ "learning_rate": 9.867333333333333e-06,
2171
+ "loss": 0.1158,
2172
+ "step": 30200
2173
+ },
2174
+ {
2175
+ "epoch": 2.6933333333333334,
2176
+ "grad_norm": 2.7029168605804443,
2177
+ "learning_rate": 9.800666666666666e-06,
2178
+ "loss": 0.1158,
2179
+ "step": 30300
2180
+ },
2181
+ {
2182
+ "epoch": 2.7022222222222223,
2183
+ "grad_norm": 2.2368838787078857,
2184
+ "learning_rate": 9.734e-06,
2185
+ "loss": 0.1158,
2186
+ "step": 30400
2187
+ },
2188
+ {
2189
+ "epoch": 2.7111111111111112,
2190
+ "grad_norm": 2.2548608779907227,
2191
+ "learning_rate": 9.667333333333333e-06,
2192
+ "loss": 0.1158,
2193
+ "step": 30500
2194
+ },
2195
+ {
2196
+ "epoch": 2.7199999999999998,
2197
+ "grad_norm": 2.935089588165283,
2198
+ "learning_rate": 9.600666666666666e-06,
2199
+ "loss": 0.1158,
2200
+ "step": 30600
2201
+ },
2202
+ {
2203
+ "epoch": 2.728888888888889,
2204
+ "grad_norm": 2.124918222427368,
2205
+ "learning_rate": 9.534e-06,
2206
+ "loss": 0.116,
2207
+ "step": 30700
2208
+ },
2209
+ {
2210
+ "epoch": 2.7377777777777776,
2211
+ "grad_norm": 2.378983736038208,
2212
+ "learning_rate": 9.467333333333333e-06,
2213
+ "loss": 0.1151,
2214
+ "step": 30800
2215
+ },
2216
+ {
2217
+ "epoch": 2.7466666666666666,
2218
+ "grad_norm": 2.25007963180542,
2219
+ "learning_rate": 9.400666666666666e-06,
2220
+ "loss": 0.1149,
2221
+ "step": 30900
2222
+ },
2223
+ {
2224
+ "epoch": 2.7555555555555555,
2225
+ "grad_norm": 2.59733510017395,
2226
+ "learning_rate": 9.333999999999999e-06,
2227
+ "loss": 0.1161,
2228
+ "step": 31000
2229
+ },
2230
+ {
2231
+ "epoch": 2.7644444444444445,
2232
+ "grad_norm": 1.812325119972229,
2233
+ "learning_rate": 9.267333333333334e-06,
2234
+ "loss": 0.1138,
2235
+ "step": 31100
2236
+ },
2237
+ {
2238
+ "epoch": 2.7733333333333334,
2239
+ "grad_norm": 1.9207689762115479,
2240
+ "learning_rate": 9.200666666666666e-06,
2241
+ "loss": 0.1147,
2242
+ "step": 31200
2243
+ },
2244
+ {
2245
+ "epoch": 2.7822222222222224,
2246
+ "grad_norm": 2.4983069896698,
2247
+ "learning_rate": 9.134e-06,
2248
+ "loss": 0.1153,
2249
+ "step": 31300
2250
+ },
2251
+ {
2252
+ "epoch": 2.7911111111111113,
2253
+ "grad_norm": 2.1139156818389893,
2254
+ "learning_rate": 9.067333333333334e-06,
2255
+ "loss": 0.1147,
2256
+ "step": 31400
2257
+ },
2258
+ {
2259
+ "epoch": 2.8,
2260
+ "grad_norm": 1.7658330202102661,
2261
+ "learning_rate": 9.000666666666668e-06,
2262
+ "loss": 0.1149,
2263
+ "step": 31500
2264
+ },
2265
+ {
2266
+ "epoch": 2.8088888888888888,
2267
+ "grad_norm": 2.7101166248321533,
2268
+ "learning_rate": 8.934000000000001e-06,
2269
+ "loss": 0.1159,
2270
+ "step": 31600
2271
+ },
2272
+ {
2273
+ "epoch": 2.8177777777777777,
2274
+ "grad_norm": 2.397491455078125,
2275
+ "learning_rate": 8.867333333333334e-06,
2276
+ "loss": 0.1145,
2277
+ "step": 31700
2278
+ },
2279
+ {
2280
+ "epoch": 2.8266666666666667,
2281
+ "grad_norm": 1.7462725639343262,
2282
+ "learning_rate": 8.800666666666667e-06,
2283
+ "loss": 0.1146,
2284
+ "step": 31800
2285
+ },
2286
+ {
2287
+ "epoch": 2.8355555555555556,
2288
+ "grad_norm": 1.9845815896987915,
2289
+ "learning_rate": 8.734000000000001e-06,
2290
+ "loss": 0.1159,
2291
+ "step": 31900
2292
+ },
2293
+ {
2294
+ "epoch": 2.8444444444444446,
2295
+ "grad_norm": 2.7019858360290527,
2296
+ "learning_rate": 8.667333333333334e-06,
2297
+ "loss": 0.1161,
2298
+ "step": 32000
2299
+ },
2300
+ {
2301
+ "epoch": 2.8533333333333335,
2302
+ "grad_norm": 2.1721303462982178,
2303
+ "learning_rate": 8.600666666666667e-06,
2304
+ "loss": 0.1158,
2305
+ "step": 32100
2306
+ },
2307
+ {
2308
+ "epoch": 2.862222222222222,
2309
+ "grad_norm": 2.018580436706543,
2310
+ "learning_rate": 8.534e-06,
2311
+ "loss": 0.1155,
2312
+ "step": 32200
2313
+ },
2314
+ {
2315
+ "epoch": 2.871111111111111,
2316
+ "grad_norm": 2.5351226329803467,
2317
+ "learning_rate": 8.467333333333334e-06,
2318
+ "loss": 0.1145,
2319
+ "step": 32300
2320
+ },
2321
+ {
2322
+ "epoch": 2.88,
2323
+ "grad_norm": 2.0548834800720215,
2324
+ "learning_rate": 8.400666666666667e-06,
2325
+ "loss": 0.1123,
2326
+ "step": 32400
2327
+ },
2328
+ {
2329
+ "epoch": 2.888888888888889,
2330
+ "grad_norm": 1.849409818649292,
2331
+ "learning_rate": 8.334e-06,
2332
+ "loss": 0.1164,
2333
+ "step": 32500
2334
+ },
2335
+ {
2336
+ "epoch": 2.897777777777778,
2337
+ "grad_norm": 1.837160348892212,
2338
+ "learning_rate": 8.267333333333333e-06,
2339
+ "loss": 0.1149,
2340
+ "step": 32600
2341
+ },
2342
+ {
2343
+ "epoch": 2.9066666666666667,
2344
+ "grad_norm": 2.0503478050231934,
2345
+ "learning_rate": 8.200666666666668e-06,
2346
+ "loss": 0.1156,
2347
+ "step": 32700
2348
+ },
2349
+ {
2350
+ "epoch": 2.9155555555555557,
2351
+ "grad_norm": 2.295761823654175,
2352
+ "learning_rate": 8.134e-06,
2353
+ "loss": 0.1161,
2354
+ "step": 32800
2355
+ },
2356
+ {
2357
+ "epoch": 2.924444444444444,
2358
+ "grad_norm": 1.939372181892395,
2359
+ "learning_rate": 8.067333333333333e-06,
2360
+ "loss": 0.1159,
2361
+ "step": 32900
2362
+ },
2363
+ {
2364
+ "epoch": 2.9333333333333336,
2365
+ "grad_norm": 2.1088409423828125,
2366
+ "learning_rate": 8.000666666666666e-06,
2367
+ "loss": 0.1151,
2368
+ "step": 33000
2369
+ },
2370
+ {
2371
+ "epoch": 2.942222222222222,
2372
+ "grad_norm": 2.3162732124328613,
2373
+ "learning_rate": 7.934e-06,
2374
+ "loss": 0.1146,
2375
+ "step": 33100
2376
+ },
2377
+ {
2378
+ "epoch": 2.951111111111111,
2379
+ "grad_norm": 2.5189192295074463,
2380
+ "learning_rate": 7.867333333333333e-06,
2381
+ "loss": 0.1153,
2382
+ "step": 33200
2383
+ },
2384
+ {
2385
+ "epoch": 2.96,
2386
+ "grad_norm": 2.011211633682251,
2387
+ "learning_rate": 7.800666666666666e-06,
2388
+ "loss": 0.1154,
2389
+ "step": 33300
2390
+ },
2391
+ {
2392
+ "epoch": 2.968888888888889,
2393
+ "grad_norm": 2.14790415763855,
2394
+ "learning_rate": 7.733999999999999e-06,
2395
+ "loss": 0.1158,
2396
+ "step": 33400
2397
+ },
2398
+ {
2399
+ "epoch": 2.977777777777778,
2400
+ "grad_norm": 1.6173288822174072,
2401
+ "learning_rate": 7.667333333333334e-06,
2402
+ "loss": 0.1154,
2403
+ "step": 33500
2404
+ },
2405
+ {
2406
+ "epoch": 2.986666666666667,
2407
+ "grad_norm": 2.406761407852173,
2408
+ "learning_rate": 7.6006666666666665e-06,
2409
+ "loss": 0.1162,
2410
+ "step": 33600
2411
+ },
2412
+ {
2413
+ "epoch": 2.9955555555555557,
2414
+ "grad_norm": 1.9551059007644653,
2415
+ "learning_rate": 7.533999999999999e-06,
2416
+ "loss": 0.1152,
2417
+ "step": 33700
2418
+ },
2419
+ {
2420
+ "epoch": 3.0044444444444443,
2421
+ "grad_norm": 3.290292263031006,
2422
+ "learning_rate": 7.467333333333334e-06,
2423
+ "loss": 0.1139,
2424
+ "step": 33800
2425
+ },
2426
+ {
2427
+ "epoch": 3.013333333333333,
2428
+ "grad_norm": 1.8533827066421509,
2429
+ "learning_rate": 7.400666666666668e-06,
2430
+ "loss": 0.115,
2431
+ "step": 33900
2432
+ },
2433
+ {
2434
+ "epoch": 3.022222222222222,
2435
+ "grad_norm": 2.736829996109009,
2436
+ "learning_rate": 7.3340000000000004e-06,
2437
+ "loss": 0.1166,
2438
+ "step": 34000
2439
+ },
2440
+ {
2441
+ "epoch": 3.031111111111111,
2442
+ "grad_norm": 1.9183787107467651,
2443
+ "learning_rate": 7.267333333333334e-06,
2444
+ "loss": 0.1156,
2445
+ "step": 34100
2446
+ },
2447
+ {
2448
+ "epoch": 3.04,
2449
+ "grad_norm": 2.566490411758423,
2450
+ "learning_rate": 7.200666666666667e-06,
2451
+ "loss": 0.1144,
2452
+ "step": 34200
2453
+ },
2454
+ {
2455
+ "epoch": 3.048888888888889,
2456
+ "grad_norm": 1.9702024459838867,
2457
+ "learning_rate": 7.134000000000001e-06,
2458
+ "loss": 0.1155,
2459
+ "step": 34300
2460
+ },
2461
+ {
2462
+ "epoch": 3.057777777777778,
2463
+ "grad_norm": 1.7992531061172485,
2464
+ "learning_rate": 7.0673333333333335e-06,
2465
+ "loss": 0.115,
2466
+ "step": 34400
2467
+ },
2468
+ {
2469
+ "epoch": 3.066666666666667,
2470
+ "grad_norm": 2.741799831390381,
2471
+ "learning_rate": 7.000666666666667e-06,
2472
+ "loss": 0.1135,
2473
+ "step": 34500
2474
+ },
2475
+ {
2476
+ "epoch": 3.0755555555555554,
2477
+ "grad_norm": 2.1746695041656494,
2478
+ "learning_rate": 6.934e-06,
2479
+ "loss": 0.1157,
2480
+ "step": 34600
2481
+ },
2482
+ {
2483
+ "epoch": 3.0844444444444443,
2484
+ "grad_norm": 2.317960023880005,
2485
+ "learning_rate": 6.867333333333334e-06,
2486
+ "loss": 0.116,
2487
+ "step": 34700
2488
+ },
2489
+ {
2490
+ "epoch": 3.0933333333333333,
2491
+ "grad_norm": 2.2601873874664307,
2492
+ "learning_rate": 6.8006666666666666e-06,
2493
+ "loss": 0.1166,
2494
+ "step": 34800
2495
+ },
2496
+ {
2497
+ "epoch": 3.102222222222222,
2498
+ "grad_norm": 2.3944337368011475,
2499
+ "learning_rate": 6.734e-06,
2500
+ "loss": 0.1148,
2501
+ "step": 34900
2502
+ },
2503
+ {
2504
+ "epoch": 3.111111111111111,
2505
+ "grad_norm": 1.8338050842285156,
2506
+ "learning_rate": 6.667333333333333e-06,
2507
+ "loss": 0.1162,
2508
+ "step": 35000
2509
+ },
2510
+ {
2511
+ "epoch": 3.111111111111111,
2512
+ "eval_loss": 0.11784859746694565,
2513
+ "eval_runtime": 222.7792,
2514
+ "eval_samples_per_second": 44.887,
2515
+ "eval_steps_per_second": 5.611,
2516
+ "step": 35000
2517
+ },
2518
+ {
2519
+ "epoch": 3.12,
2520
+ "grad_norm": 2.1952126026153564,
2521
+ "learning_rate": 6.600666666666667e-06,
2522
+ "loss": 0.1155,
2523
+ "step": 35100
2524
+ },
2525
+ {
2526
+ "epoch": 3.128888888888889,
2527
+ "grad_norm": 2.4511802196502686,
2528
+ "learning_rate": 6.534e-06,
2529
+ "loss": 0.1161,
2530
+ "step": 35200
2531
+ },
2532
+ {
2533
+ "epoch": 3.137777777777778,
2534
+ "grad_norm": 2.5017638206481934,
2535
+ "learning_rate": 6.467333333333333e-06,
2536
+ "loss": 0.1151,
2537
+ "step": 35300
2538
+ },
2539
+ {
2540
+ "epoch": 3.1466666666666665,
2541
+ "grad_norm": 2.345991373062134,
2542
+ "learning_rate": 6.400666666666667e-06,
2543
+ "loss": 0.1161,
2544
+ "step": 35400
2545
+ },
2546
+ {
2547
+ "epoch": 3.1555555555555554,
2548
+ "grad_norm": 2.8866028785705566,
2549
+ "learning_rate": 6.334000000000001e-06,
2550
+ "loss": 0.1156,
2551
+ "step": 35500
2552
+ },
2553
+ {
2554
+ "epoch": 3.1644444444444444,
2555
+ "grad_norm": 2.9575486183166504,
2556
+ "learning_rate": 6.2673333333333335e-06,
2557
+ "loss": 0.1142,
2558
+ "step": 35600
2559
+ },
2560
+ {
2561
+ "epoch": 3.1733333333333333,
2562
+ "grad_norm": 2.0834195613861084,
2563
+ "learning_rate": 6.200666666666667e-06,
2564
+ "loss": 0.1155,
2565
+ "step": 35700
2566
+ },
2567
+ {
2568
+ "epoch": 3.1822222222222223,
2569
+ "grad_norm": 2.265125036239624,
2570
+ "learning_rate": 6.134e-06,
2571
+ "loss": 0.1153,
2572
+ "step": 35800
2573
+ },
2574
+ {
2575
+ "epoch": 3.1911111111111112,
2576
+ "grad_norm": 1.915515661239624,
2577
+ "learning_rate": 6.067333333333334e-06,
2578
+ "loss": 0.1156,
2579
+ "step": 35900
2580
+ },
2581
+ {
2582
+ "epoch": 3.2,
2583
+ "grad_norm": 1.5453358888626099,
2584
+ "learning_rate": 6.000666666666667e-06,
2585
+ "loss": 0.1159,
2586
+ "step": 36000
2587
+ },
2588
+ {
2589
+ "epoch": 3.2088888888888887,
2590
+ "grad_norm": 3.102155923843384,
2591
+ "learning_rate": 5.934e-06,
2592
+ "loss": 0.1159,
2593
+ "step": 36100
2594
+ },
2595
+ {
2596
+ "epoch": 3.2177777777777776,
2597
+ "grad_norm": 1.9122494459152222,
2598
+ "learning_rate": 5.867333333333333e-06,
2599
+ "loss": 0.1152,
2600
+ "step": 36200
2601
+ },
2602
+ {
2603
+ "epoch": 3.2266666666666666,
2604
+ "grad_norm": 3.5081045627593994,
2605
+ "learning_rate": 5.800666666666667e-06,
2606
+ "loss": 0.1155,
2607
+ "step": 36300
2608
+ },
2609
+ {
2610
+ "epoch": 3.2355555555555555,
2611
+ "grad_norm": 2.1976592540740967,
2612
+ "learning_rate": 5.734e-06,
2613
+ "loss": 0.1153,
2614
+ "step": 36400
2615
+ },
2616
+ {
2617
+ "epoch": 3.2444444444444445,
2618
+ "grad_norm": 1.8369086980819702,
2619
+ "learning_rate": 5.667333333333333e-06,
2620
+ "loss": 0.1144,
2621
+ "step": 36500
2622
+ },
2623
+ {
2624
+ "epoch": 3.2533333333333334,
2625
+ "grad_norm": 2.886779308319092,
2626
+ "learning_rate": 5.600666666666666e-06,
2627
+ "loss": 0.1137,
2628
+ "step": 36600
2629
+ },
2630
+ {
2631
+ "epoch": 3.2622222222222224,
2632
+ "grad_norm": 2.462570905685425,
2633
+ "learning_rate": 5.534e-06,
2634
+ "loss": 0.1149,
2635
+ "step": 36700
2636
+ },
2637
+ {
2638
+ "epoch": 3.2711111111111113,
2639
+ "grad_norm": 2.79964017868042,
2640
+ "learning_rate": 5.467333333333333e-06,
2641
+ "loss": 0.1144,
2642
+ "step": 36800
2643
+ },
2644
+ {
2645
+ "epoch": 3.2800000000000002,
2646
+ "grad_norm": 2.734807014465332,
2647
+ "learning_rate": 5.400666666666666e-06,
2648
+ "loss": 0.1165,
2649
+ "step": 36900
2650
+ },
2651
+ {
2652
+ "epoch": 3.2888888888888888,
2653
+ "grad_norm": 2.096987247467041,
2654
+ "learning_rate": 5.334000000000001e-06,
2655
+ "loss": 0.1152,
2656
+ "step": 37000
2657
+ },
2658
+ {
2659
+ "epoch": 3.2977777777777777,
2660
+ "grad_norm": 2.1545772552490234,
2661
+ "learning_rate": 5.267333333333334e-06,
2662
+ "loss": 0.1159,
2663
+ "step": 37100
2664
+ },
2665
+ {
2666
+ "epoch": 3.3066666666666666,
2667
+ "grad_norm": 2.877927780151367,
2668
+ "learning_rate": 5.2006666666666675e-06,
2669
+ "loss": 0.1145,
2670
+ "step": 37200
2671
+ },
2672
+ {
2673
+ "epoch": 3.3155555555555556,
2674
+ "grad_norm": 2.041455030441284,
2675
+ "learning_rate": 5.134e-06,
2676
+ "loss": 0.1146,
2677
+ "step": 37300
2678
+ },
2679
+ {
2680
+ "epoch": 3.3244444444444445,
2681
+ "grad_norm": 3.838764190673828,
2682
+ "learning_rate": 5.067333333333334e-06,
2683
+ "loss": 0.115,
2684
+ "step": 37400
2685
+ },
2686
+ {
2687
+ "epoch": 3.3333333333333335,
2688
+ "grad_norm": 2.4776864051818848,
2689
+ "learning_rate": 5.000666666666667e-06,
2690
+ "loss": 0.1153,
2691
+ "step": 37500
2692
+ },
2693
+ {
2694
+ "epoch": 3.3422222222222224,
2695
+ "grad_norm": 2.534553050994873,
2696
+ "learning_rate": 4.9340000000000005e-06,
2697
+ "loss": 0.1154,
2698
+ "step": 37600
2699
+ },
2700
+ {
2701
+ "epoch": 3.351111111111111,
2702
+ "grad_norm": 2.8918344974517822,
2703
+ "learning_rate": 4.867333333333333e-06,
2704
+ "loss": 0.1148,
2705
+ "step": 37700
2706
+ },
2707
+ {
2708
+ "epoch": 3.36,
2709
+ "grad_norm": 2.2287111282348633,
2710
+ "learning_rate": 4.800666666666667e-06,
2711
+ "loss": 0.1154,
2712
+ "step": 37800
2713
+ },
2714
+ {
2715
+ "epoch": 3.368888888888889,
2716
+ "grad_norm": 1.7449971437454224,
2717
+ "learning_rate": 4.734e-06,
2718
+ "loss": 0.1135,
2719
+ "step": 37900
2720
+ },
2721
+ {
2722
+ "epoch": 3.3777777777777778,
2723
+ "grad_norm": 1.7717570066452026,
2724
+ "learning_rate": 4.667333333333334e-06,
2725
+ "loss": 0.1159,
2726
+ "step": 38000
2727
+ },
2728
+ {
2729
+ "epoch": 3.3866666666666667,
2730
+ "grad_norm": 2.641322135925293,
2731
+ "learning_rate": 4.6006666666666664e-06,
2732
+ "loss": 0.115,
2733
+ "step": 38100
2734
+ },
2735
+ {
2736
+ "epoch": 3.3955555555555557,
2737
+ "grad_norm": 2.314724922180176,
2738
+ "learning_rate": 4.534e-06,
2739
+ "loss": 0.1155,
2740
+ "step": 38200
2741
+ },
2742
+ {
2743
+ "epoch": 3.4044444444444446,
2744
+ "grad_norm": 2.006136894226074,
2745
+ "learning_rate": 4.467333333333333e-06,
2746
+ "loss": 0.1151,
2747
+ "step": 38300
2748
+ },
2749
+ {
2750
+ "epoch": 3.413333333333333,
2751
+ "grad_norm": 2.498370885848999,
2752
+ "learning_rate": 4.400666666666667e-06,
2753
+ "loss": 0.1135,
2754
+ "step": 38400
2755
+ },
2756
+ {
2757
+ "epoch": 3.422222222222222,
2758
+ "grad_norm": 2.1067326068878174,
2759
+ "learning_rate": 4.3339999999999995e-06,
2760
+ "loss": 0.1142,
2761
+ "step": 38500
2762
+ },
2763
+ {
2764
+ "epoch": 3.431111111111111,
2765
+ "grad_norm": 2.3120410442352295,
2766
+ "learning_rate": 4.267333333333334e-06,
2767
+ "loss": 0.1156,
2768
+ "step": 38600
2769
+ },
2770
+ {
2771
+ "epoch": 3.44,
2772
+ "grad_norm": 2.062558650970459,
2773
+ "learning_rate": 4.200666666666667e-06,
2774
+ "loss": 0.1146,
2775
+ "step": 38700
2776
+ },
2777
+ {
2778
+ "epoch": 3.448888888888889,
2779
+ "grad_norm": 1.8033158779144287,
2780
+ "learning_rate": 4.1340000000000006e-06,
2781
+ "loss": 0.1142,
2782
+ "step": 38800
2783
+ },
2784
+ {
2785
+ "epoch": 3.457777777777778,
2786
+ "grad_norm": 1.7999958992004395,
2787
+ "learning_rate": 4.067333333333333e-06,
2788
+ "loss": 0.1152,
2789
+ "step": 38900
2790
+ },
2791
+ {
2792
+ "epoch": 3.466666666666667,
2793
+ "grad_norm": 1.9380857944488525,
2794
+ "learning_rate": 4.000666666666667e-06,
2795
+ "loss": 0.1159,
2796
+ "step": 39000
2797
+ },
2798
+ {
2799
+ "epoch": 3.4755555555555557,
2800
+ "grad_norm": 2.4088852405548096,
2801
+ "learning_rate": 3.934e-06,
2802
+ "loss": 0.1142,
2803
+ "step": 39100
2804
+ },
2805
+ {
2806
+ "epoch": 3.4844444444444447,
2807
+ "grad_norm": 1.9888384342193604,
2808
+ "learning_rate": 3.867333333333334e-06,
2809
+ "loss": 0.1131,
2810
+ "step": 39200
2811
+ },
2812
+ {
2813
+ "epoch": 3.493333333333333,
2814
+ "grad_norm": 2.044527530670166,
2815
+ "learning_rate": 3.8006666666666665e-06,
2816
+ "loss": 0.1145,
2817
+ "step": 39300
2818
+ },
2819
+ {
2820
+ "epoch": 3.502222222222222,
2821
+ "grad_norm": 1.478445291519165,
2822
+ "learning_rate": 3.734e-06,
2823
+ "loss": 0.114,
2824
+ "step": 39400
2825
+ },
2826
+ {
2827
+ "epoch": 3.511111111111111,
2828
+ "grad_norm": 2.0271923542022705,
2829
+ "learning_rate": 3.6673333333333334e-06,
2830
+ "loss": 0.1148,
2831
+ "step": 39500
2832
+ },
2833
+ {
2834
+ "epoch": 3.52,
2835
+ "grad_norm": 2.7675399780273438,
2836
+ "learning_rate": 3.6006666666666667e-06,
2837
+ "loss": 0.116,
2838
+ "step": 39600
2839
+ },
2840
+ {
2841
+ "epoch": 3.528888888888889,
2842
+ "grad_norm": 1.6932669878005981,
2843
+ "learning_rate": 3.534e-06,
2844
+ "loss": 0.1142,
2845
+ "step": 39700
2846
+ },
2847
+ {
2848
+ "epoch": 3.537777777777778,
2849
+ "grad_norm": 2.0795860290527344,
2850
+ "learning_rate": 3.4673333333333337e-06,
2851
+ "loss": 0.1148,
2852
+ "step": 39800
2853
+ },
2854
+ {
2855
+ "epoch": 3.546666666666667,
2856
+ "grad_norm": 1.9962270259857178,
2857
+ "learning_rate": 3.400666666666667e-06,
2858
+ "loss": 0.1147,
2859
+ "step": 39900
2860
+ },
2861
+ {
2862
+ "epoch": 3.5555555555555554,
2863
+ "grad_norm": 1.931861400604248,
2864
+ "learning_rate": 3.334e-06,
2865
+ "loss": 0.1144,
2866
+ "step": 40000
2867
+ },
2868
+ {
2869
+ "epoch": 3.5555555555555554,
2870
+ "eval_loss": 0.11772522330284119,
2871
+ "eval_runtime": 222.4728,
2872
+ "eval_samples_per_second": 44.949,
2873
+ "eval_steps_per_second": 5.619,
2874
+ "step": 40000
2875
+ }
2876
+ ],
2877
+ "logging_steps": 100,
2878
+ "max_steps": 45000,
2879
+ "num_input_tokens_seen": 0,
2880
+ "num_train_epochs": 4,
2881
+ "save_steps": 5000,
2882
+ "stateful_callbacks": {
2883
+ "EarlyStoppingCallback": {
2884
+ "args": {
2885
+ "early_stopping_patience": 2,
2886
+ "early_stopping_threshold": 0.0
2887
+ },
2888
+ "attributes": {
2889
+ "early_stopping_patience_counter": 0
2890
+ }
2891
+ },
2892
+ "TrainerControl": {
2893
+ "args": {
2894
+ "should_epoch_stop": false,
2895
+ "should_evaluate": false,
2896
+ "should_log": false,
2897
+ "should_save": true,
2898
+ "should_training_stop": false
2899
+ },
2900
+ "attributes": {}
2901
+ }
2902
+ },
2903
+ "total_flos": 4.180672512e+16,
2904
+ "train_batch_size": 8,
2905
+ "trial_name": null,
2906
+ "trial_params": null
2907
+ }
checkpoint-40000/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8cb95410d93c3ee210f1369fbf884daade6cf79cf421d895010b4ffb2d301809
3
+ size 5304
checkpoint-40000/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-45000/config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "activation_function": "gelu_new",
3
+ "architectures": [
4
+ "GPT2LMHeadModel"
5
+ ],
6
+ "attn_pdrop": 0.1,
7
+ "bos_token_id": 50256,
8
+ "embd_pdrop": 0.1,
9
+ "eos_token_id": 50256,
10
+ "initializer_range": 0.02,
11
+ "layer_norm_epsilon": 1e-05,
12
+ "model_type": "gpt2",
13
+ "n_ctx": 1024,
14
+ "n_embd": 768,
15
+ "n_head": 12,
16
+ "n_inner": null,
17
+ "n_layer": 12,
18
+ "n_positions": 1024,
19
+ "reorder_and_upcast_attn": false,
20
+ "resid_pdrop": 0.1,
21
+ "scale_attn_by_inverse_layer_idx": false,
22
+ "scale_attn_weights": true,
23
+ "summary_activation": null,
24
+ "summary_first_dropout": 0.1,
25
+ "summary_proj_to_labels": true,
26
+ "summary_type": "cls_index",
27
+ "summary_use_proj": true,
28
+ "task_specific_params": {
29
+ "text-generation": {
30
+ "do_sample": true,
31
+ "max_length": 50
32
+ }
33
+ },
34
+ "torch_dtype": "float32",
35
+ "transformers_version": "4.52.4",
36
+ "use_cache": true,
37
+ "vocab_size": 50257
38
+ }
checkpoint-45000/generation_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 50256,
4
+ "eos_token_id": 50256,
5
+ "transformers_version": "4.52.4"
6
+ }
checkpoint-45000/merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-45000/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f7882cef026f5b631de5c3e56bfe7367c976565a61c914b56fc7b1c8ccad767f
3
+ size 497774208
checkpoint-45000/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:20a974bad56e0c850ebb5e843c135c4b0cd42bf37a301c59dcb336be2a155435
3
+ size 995642298
checkpoint-45000/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e5b15b37f061ea2d640bcb850d18333d0d60535bf7b7690c0480668253f99f7c
3
+ size 14244
checkpoint-45000/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:55f3adb371f7e93a5e0d24c3e040f9ba552b925db3cb66115de5a20b55648bd5
3
+ size 1064
checkpoint-45000/special_tokens_map.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<|endoftext|>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "eos_token": {
10
+ "content": "<|endoftext|>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": "<|endoftext|>",
17
+ "unk_token": {
18
+ "content": "<|endoftext|>",
19
+ "lstrip": false,
20
+ "normalized": true,
21
+ "rstrip": false,
22
+ "single_word": false
23
+ }
24
+ }
checkpoint-45000/tokenizer_config.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": false,
3
+ "add_prefix_space": false,
4
+ "added_tokens_decoder": {
5
+ "50256": {
6
+ "content": "<|endoftext|>",
7
+ "lstrip": false,
8
+ "normalized": true,
9
+ "rstrip": false,
10
+ "single_word": false,
11
+ "special": true
12
+ }
13
+ },
14
+ "bos_token": "<|endoftext|>",
15
+ "clean_up_tokenization_spaces": false,
16
+ "eos_token": "<|endoftext|>",
17
+ "errors": "replace",
18
+ "extra_special_tokens": {},
19
+ "model_max_length": 1024,
20
+ "pad_token": "<|endoftext|>",
21
+ "tokenizer_class": "GPT2Tokenizer",
22
+ "unk_token": "<|endoftext|>"
23
+ }
checkpoint-45000/trainer_state.json ADDED
@@ -0,0 +1,3265 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 45000,
3
+ "best_metric": 0.11760604381561279,
4
+ "best_model_checkpoint": "/content/drive/MyDrive/chatbot/gpt2-finetuned-uet/checkpoint-45000",
5
+ "epoch": 4.0,
6
+ "eval_steps": 5000,
7
+ "global_step": 45000,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.008888888888888889,
14
+ "grad_norm": 6.82129430770874,
15
+ "learning_rate": 2.9934000000000002e-05,
16
+ "loss": 0.9164,
17
+ "step": 100
18
+ },
19
+ {
20
+ "epoch": 0.017777777777777778,
21
+ "grad_norm": 5.949863433837891,
22
+ "learning_rate": 2.9867333333333335e-05,
23
+ "loss": 0.2066,
24
+ "step": 200
25
+ },
26
+ {
27
+ "epoch": 0.02666666666666667,
28
+ "grad_norm": 4.183337211608887,
29
+ "learning_rate": 2.9800666666666667e-05,
30
+ "loss": 0.1721,
31
+ "step": 300
32
+ },
33
+ {
34
+ "epoch": 0.035555555555555556,
35
+ "grad_norm": 4.205233573913574,
36
+ "learning_rate": 2.9734e-05,
37
+ "loss": 0.1537,
38
+ "step": 400
39
+ },
40
+ {
41
+ "epoch": 0.044444444444444446,
42
+ "grad_norm": 3.5019726753234863,
43
+ "learning_rate": 2.9667333333333333e-05,
44
+ "loss": 0.138,
45
+ "step": 500
46
+ },
47
+ {
48
+ "epoch": 0.05333333333333334,
49
+ "grad_norm": 3.7419962882995605,
50
+ "learning_rate": 2.9600666666666666e-05,
51
+ "loss": 0.1372,
52
+ "step": 600
53
+ },
54
+ {
55
+ "epoch": 0.06222222222222222,
56
+ "grad_norm": 4.127668380737305,
57
+ "learning_rate": 2.9534000000000002e-05,
58
+ "loss": 0.1348,
59
+ "step": 700
60
+ },
61
+ {
62
+ "epoch": 0.07111111111111111,
63
+ "grad_norm": 5.248896598815918,
64
+ "learning_rate": 2.9467333333333335e-05,
65
+ "loss": 0.1268,
66
+ "step": 800
67
+ },
68
+ {
69
+ "epoch": 0.08,
70
+ "grad_norm": 4.989108562469482,
71
+ "learning_rate": 2.9400666666666668e-05,
72
+ "loss": 0.1249,
73
+ "step": 900
74
+ },
75
+ {
76
+ "epoch": 0.08888888888888889,
77
+ "grad_norm": 3.937284231185913,
78
+ "learning_rate": 2.9334e-05,
79
+ "loss": 0.1247,
80
+ "step": 1000
81
+ },
82
+ {
83
+ "epoch": 0.09777777777777778,
84
+ "grad_norm": 4.6740522384643555,
85
+ "learning_rate": 2.9267333333333334e-05,
86
+ "loss": 0.1241,
87
+ "step": 1100
88
+ },
89
+ {
90
+ "epoch": 0.10666666666666667,
91
+ "grad_norm": 5.112093448638916,
92
+ "learning_rate": 2.9200666666666666e-05,
93
+ "loss": 0.1237,
94
+ "step": 1200
95
+ },
96
+ {
97
+ "epoch": 0.11555555555555555,
98
+ "grad_norm": 4.429466247558594,
99
+ "learning_rate": 2.9134e-05,
100
+ "loss": 0.1233,
101
+ "step": 1300
102
+ },
103
+ {
104
+ "epoch": 0.12444444444444444,
105
+ "grad_norm": 3.7811667919158936,
106
+ "learning_rate": 2.9067333333333332e-05,
107
+ "loss": 0.1224,
108
+ "step": 1400
109
+ },
110
+ {
111
+ "epoch": 0.13333333333333333,
112
+ "grad_norm": 3.949687957763672,
113
+ "learning_rate": 2.9000666666666668e-05,
114
+ "loss": 0.1221,
115
+ "step": 1500
116
+ },
117
+ {
118
+ "epoch": 0.14222222222222222,
119
+ "grad_norm": 4.339414119720459,
120
+ "learning_rate": 2.8934e-05,
121
+ "loss": 0.1208,
122
+ "step": 1600
123
+ },
124
+ {
125
+ "epoch": 0.1511111111111111,
126
+ "grad_norm": 4.27586030960083,
127
+ "learning_rate": 2.8867333333333334e-05,
128
+ "loss": 0.1236,
129
+ "step": 1700
130
+ },
131
+ {
132
+ "epoch": 0.16,
133
+ "grad_norm": 3.8597822189331055,
134
+ "learning_rate": 2.8800666666666667e-05,
135
+ "loss": 0.1211,
136
+ "step": 1800
137
+ },
138
+ {
139
+ "epoch": 0.1688888888888889,
140
+ "grad_norm": 4.734971046447754,
141
+ "learning_rate": 2.8734e-05,
142
+ "loss": 0.122,
143
+ "step": 1900
144
+ },
145
+ {
146
+ "epoch": 0.17777777777777778,
147
+ "grad_norm": 3.8875231742858887,
148
+ "learning_rate": 2.8667333333333333e-05,
149
+ "loss": 0.1213,
150
+ "step": 2000
151
+ },
152
+ {
153
+ "epoch": 0.18666666666666668,
154
+ "grad_norm": 2.6618669033050537,
155
+ "learning_rate": 2.8600666666666665e-05,
156
+ "loss": 0.1218,
157
+ "step": 2100
158
+ },
159
+ {
160
+ "epoch": 0.19555555555555557,
161
+ "grad_norm": 3.809056043624878,
162
+ "learning_rate": 2.8534e-05,
163
+ "loss": 0.1236,
164
+ "step": 2200
165
+ },
166
+ {
167
+ "epoch": 0.20444444444444446,
168
+ "grad_norm": 4.541649341583252,
169
+ "learning_rate": 2.8467333333333334e-05,
170
+ "loss": 0.1211,
171
+ "step": 2300
172
+ },
173
+ {
174
+ "epoch": 0.21333333333333335,
175
+ "grad_norm": 3.4047656059265137,
176
+ "learning_rate": 2.8400666666666667e-05,
177
+ "loss": 0.1221,
178
+ "step": 2400
179
+ },
180
+ {
181
+ "epoch": 0.2222222222222222,
182
+ "grad_norm": 3.6217405796051025,
183
+ "learning_rate": 2.8334e-05,
184
+ "loss": 0.1211,
185
+ "step": 2500
186
+ },
187
+ {
188
+ "epoch": 0.2311111111111111,
189
+ "grad_norm": 3.8457906246185303,
190
+ "learning_rate": 2.8267333333333333e-05,
191
+ "loss": 0.122,
192
+ "step": 2600
193
+ },
194
+ {
195
+ "epoch": 0.24,
196
+ "grad_norm": 5.507346153259277,
197
+ "learning_rate": 2.8200666666666666e-05,
198
+ "loss": 0.1207,
199
+ "step": 2700
200
+ },
201
+ {
202
+ "epoch": 0.24888888888888888,
203
+ "grad_norm": 4.867903232574463,
204
+ "learning_rate": 2.8134e-05,
205
+ "loss": 0.1201,
206
+ "step": 2800
207
+ },
208
+ {
209
+ "epoch": 0.2577777777777778,
210
+ "grad_norm": 3.717101573944092,
211
+ "learning_rate": 2.806733333333333e-05,
212
+ "loss": 0.1202,
213
+ "step": 2900
214
+ },
215
+ {
216
+ "epoch": 0.26666666666666666,
217
+ "grad_norm": 3.990020990371704,
218
+ "learning_rate": 2.8000666666666668e-05,
219
+ "loss": 0.1214,
220
+ "step": 3000
221
+ },
222
+ {
223
+ "epoch": 0.27555555555555555,
224
+ "grad_norm": 3.9653103351593018,
225
+ "learning_rate": 2.7934e-05,
226
+ "loss": 0.1195,
227
+ "step": 3100
228
+ },
229
+ {
230
+ "epoch": 0.28444444444444444,
231
+ "grad_norm": 3.743941068649292,
232
+ "learning_rate": 2.7867333333333333e-05,
233
+ "loss": 0.1209,
234
+ "step": 3200
235
+ },
236
+ {
237
+ "epoch": 0.29333333333333333,
238
+ "grad_norm": 4.509164333343506,
239
+ "learning_rate": 2.7800666666666666e-05,
240
+ "loss": 0.1204,
241
+ "step": 3300
242
+ },
243
+ {
244
+ "epoch": 0.3022222222222222,
245
+ "grad_norm": 4.283110618591309,
246
+ "learning_rate": 2.7734e-05,
247
+ "loss": 0.1205,
248
+ "step": 3400
249
+ },
250
+ {
251
+ "epoch": 0.3111111111111111,
252
+ "grad_norm": 3.8113884925842285,
253
+ "learning_rate": 2.7667333333333332e-05,
254
+ "loss": 0.1184,
255
+ "step": 3500
256
+ },
257
+ {
258
+ "epoch": 0.32,
259
+ "grad_norm": 3.287177801132202,
260
+ "learning_rate": 2.7600666666666665e-05,
261
+ "loss": 0.1201,
262
+ "step": 3600
263
+ },
264
+ {
265
+ "epoch": 0.3288888888888889,
266
+ "grad_norm": 4.167423248291016,
267
+ "learning_rate": 2.7533999999999998e-05,
268
+ "loss": 0.119,
269
+ "step": 3700
270
+ },
271
+ {
272
+ "epoch": 0.3377777777777778,
273
+ "grad_norm": 4.485795974731445,
274
+ "learning_rate": 2.7467333333333334e-05,
275
+ "loss": 0.121,
276
+ "step": 3800
277
+ },
278
+ {
279
+ "epoch": 0.3466666666666667,
280
+ "grad_norm": 3.1703178882598877,
281
+ "learning_rate": 2.7400666666666667e-05,
282
+ "loss": 0.1186,
283
+ "step": 3900
284
+ },
285
+ {
286
+ "epoch": 0.35555555555555557,
287
+ "grad_norm": 3.0991108417510986,
288
+ "learning_rate": 2.7334e-05,
289
+ "loss": 0.1201,
290
+ "step": 4000
291
+ },
292
+ {
293
+ "epoch": 0.36444444444444446,
294
+ "grad_norm": 4.4850053787231445,
295
+ "learning_rate": 2.7267333333333336e-05,
296
+ "loss": 0.1193,
297
+ "step": 4100
298
+ },
299
+ {
300
+ "epoch": 0.37333333333333335,
301
+ "grad_norm": 3.0892951488494873,
302
+ "learning_rate": 2.720066666666667e-05,
303
+ "loss": 0.1186,
304
+ "step": 4200
305
+ },
306
+ {
307
+ "epoch": 0.38222222222222224,
308
+ "grad_norm": 3.4168922901153564,
309
+ "learning_rate": 2.7134e-05,
310
+ "loss": 0.1186,
311
+ "step": 4300
312
+ },
313
+ {
314
+ "epoch": 0.39111111111111113,
315
+ "grad_norm": 2.864269733428955,
316
+ "learning_rate": 2.7067333333333334e-05,
317
+ "loss": 0.1176,
318
+ "step": 4400
319
+ },
320
+ {
321
+ "epoch": 0.4,
322
+ "grad_norm": 4.241358280181885,
323
+ "learning_rate": 2.7000666666666667e-05,
324
+ "loss": 0.118,
325
+ "step": 4500
326
+ },
327
+ {
328
+ "epoch": 0.4088888888888889,
329
+ "grad_norm": 3.6913700103759766,
330
+ "learning_rate": 2.6934000000000003e-05,
331
+ "loss": 0.1184,
332
+ "step": 4600
333
+ },
334
+ {
335
+ "epoch": 0.4177777777777778,
336
+ "grad_norm": 2.865185499191284,
337
+ "learning_rate": 2.6867333333333336e-05,
338
+ "loss": 0.1191,
339
+ "step": 4700
340
+ },
341
+ {
342
+ "epoch": 0.4266666666666667,
343
+ "grad_norm": 3.7335503101348877,
344
+ "learning_rate": 2.680066666666667e-05,
345
+ "loss": 0.1199,
346
+ "step": 4800
347
+ },
348
+ {
349
+ "epoch": 0.43555555555555553,
350
+ "grad_norm": 3.280344009399414,
351
+ "learning_rate": 2.6734000000000002e-05,
352
+ "loss": 0.1184,
353
+ "step": 4900
354
+ },
355
+ {
356
+ "epoch": 0.4444444444444444,
357
+ "grad_norm": 3.2532272338867188,
358
+ "learning_rate": 2.6667333333333335e-05,
359
+ "loss": 0.1188,
360
+ "step": 5000
361
+ },
362
+ {
363
+ "epoch": 0.4444444444444444,
364
+ "eval_loss": 0.12208713591098785,
365
+ "eval_runtime": 204.8959,
366
+ "eval_samples_per_second": 48.805,
367
+ "eval_steps_per_second": 6.101,
368
+ "step": 5000
369
+ },
370
+ {
371
+ "epoch": 0.4533333333333333,
372
+ "grad_norm": 3.123708486557007,
373
+ "learning_rate": 2.6600666666666668e-05,
374
+ "loss": 0.1196,
375
+ "step": 5100
376
+ },
377
+ {
378
+ "epoch": 0.4622222222222222,
379
+ "grad_norm": 3.468099594116211,
380
+ "learning_rate": 2.6534e-05,
381
+ "loss": 0.1181,
382
+ "step": 5200
383
+ },
384
+ {
385
+ "epoch": 0.4711111111111111,
386
+ "grad_norm": 3.4722182750701904,
387
+ "learning_rate": 2.6467333333333337e-05,
388
+ "loss": 0.1186,
389
+ "step": 5300
390
+ },
391
+ {
392
+ "epoch": 0.48,
393
+ "grad_norm": 3.341700792312622,
394
+ "learning_rate": 2.640066666666667e-05,
395
+ "loss": 0.1175,
396
+ "step": 5400
397
+ },
398
+ {
399
+ "epoch": 0.4888888888888889,
400
+ "grad_norm": 5.254228591918945,
401
+ "learning_rate": 2.6334000000000002e-05,
402
+ "loss": 0.1171,
403
+ "step": 5500
404
+ },
405
+ {
406
+ "epoch": 0.49777777777777776,
407
+ "grad_norm": 3.9166531562805176,
408
+ "learning_rate": 2.6267333333333335e-05,
409
+ "loss": 0.1181,
410
+ "step": 5600
411
+ },
412
+ {
413
+ "epoch": 0.5066666666666667,
414
+ "grad_norm": 3.530609130859375,
415
+ "learning_rate": 2.6200666666666668e-05,
416
+ "loss": 0.118,
417
+ "step": 5700
418
+ },
419
+ {
420
+ "epoch": 0.5155555555555555,
421
+ "grad_norm": 2.8813321590423584,
422
+ "learning_rate": 2.6134e-05,
423
+ "loss": 0.119,
424
+ "step": 5800
425
+ },
426
+ {
427
+ "epoch": 0.5244444444444445,
428
+ "grad_norm": 2.88515567779541,
429
+ "learning_rate": 2.6067333333333334e-05,
430
+ "loss": 0.1192,
431
+ "step": 5900
432
+ },
433
+ {
434
+ "epoch": 0.5333333333333333,
435
+ "grad_norm": 3.641014814376831,
436
+ "learning_rate": 2.6000666666666667e-05,
437
+ "loss": 0.1177,
438
+ "step": 6000
439
+ },
440
+ {
441
+ "epoch": 0.5422222222222223,
442
+ "grad_norm": 3.2416274547576904,
443
+ "learning_rate": 2.5934000000000003e-05,
444
+ "loss": 0.1189,
445
+ "step": 6100
446
+ },
447
+ {
448
+ "epoch": 0.5511111111111111,
449
+ "grad_norm": 3.6603827476501465,
450
+ "learning_rate": 2.5867333333333336e-05,
451
+ "loss": 0.12,
452
+ "step": 6200
453
+ },
454
+ {
455
+ "epoch": 0.56,
456
+ "grad_norm": 2.7942700386047363,
457
+ "learning_rate": 2.580066666666667e-05,
458
+ "loss": 0.1186,
459
+ "step": 6300
460
+ },
461
+ {
462
+ "epoch": 0.5688888888888889,
463
+ "grad_norm": 2.454925298690796,
464
+ "learning_rate": 2.5734e-05,
465
+ "loss": 0.1193,
466
+ "step": 6400
467
+ },
468
+ {
469
+ "epoch": 0.5777777777777777,
470
+ "grad_norm": 3.182051420211792,
471
+ "learning_rate": 2.5667333333333334e-05,
472
+ "loss": 0.1179,
473
+ "step": 6500
474
+ },
475
+ {
476
+ "epoch": 0.5866666666666667,
477
+ "grad_norm": 2.543154001235962,
478
+ "learning_rate": 2.5600666666666667e-05,
479
+ "loss": 0.1169,
480
+ "step": 6600
481
+ },
482
+ {
483
+ "epoch": 0.5955555555555555,
484
+ "grad_norm": 2.878065586090088,
485
+ "learning_rate": 2.5534e-05,
486
+ "loss": 0.1165,
487
+ "step": 6700
488
+ },
489
+ {
490
+ "epoch": 0.6044444444444445,
491
+ "grad_norm": 2.6504786014556885,
492
+ "learning_rate": 2.5467333333333333e-05,
493
+ "loss": 0.1177,
494
+ "step": 6800
495
+ },
496
+ {
497
+ "epoch": 0.6133333333333333,
498
+ "grad_norm": 3.112470865249634,
499
+ "learning_rate": 2.540066666666667e-05,
500
+ "loss": 0.1188,
501
+ "step": 6900
502
+ },
503
+ {
504
+ "epoch": 0.6222222222222222,
505
+ "grad_norm": 3.2158005237579346,
506
+ "learning_rate": 2.5334000000000002e-05,
507
+ "loss": 0.1182,
508
+ "step": 7000
509
+ },
510
+ {
511
+ "epoch": 0.6311111111111111,
512
+ "grad_norm": 2.7829103469848633,
513
+ "learning_rate": 2.5267333333333335e-05,
514
+ "loss": 0.1182,
515
+ "step": 7100
516
+ },
517
+ {
518
+ "epoch": 0.64,
519
+ "grad_norm": 3.6927225589752197,
520
+ "learning_rate": 2.5200666666666667e-05,
521
+ "loss": 0.1172,
522
+ "step": 7200
523
+ },
524
+ {
525
+ "epoch": 0.6488888888888888,
526
+ "grad_norm": 2.701704978942871,
527
+ "learning_rate": 2.5134e-05,
528
+ "loss": 0.1174,
529
+ "step": 7300
530
+ },
531
+ {
532
+ "epoch": 0.6577777777777778,
533
+ "grad_norm": 3.097184419631958,
534
+ "learning_rate": 2.5067333333333333e-05,
535
+ "loss": 0.1181,
536
+ "step": 7400
537
+ },
538
+ {
539
+ "epoch": 0.6666666666666666,
540
+ "grad_norm": 3.704460620880127,
541
+ "learning_rate": 2.5000666666666666e-05,
542
+ "loss": 0.1171,
543
+ "step": 7500
544
+ },
545
+ {
546
+ "epoch": 0.6755555555555556,
547
+ "grad_norm": 2.7724316120147705,
548
+ "learning_rate": 2.4934e-05,
549
+ "loss": 0.1172,
550
+ "step": 7600
551
+ },
552
+ {
553
+ "epoch": 0.6844444444444444,
554
+ "grad_norm": 3.8086202144622803,
555
+ "learning_rate": 2.4867333333333335e-05,
556
+ "loss": 0.1182,
557
+ "step": 7700
558
+ },
559
+ {
560
+ "epoch": 0.6933333333333334,
561
+ "grad_norm": 3.596428632736206,
562
+ "learning_rate": 2.4800666666666668e-05,
563
+ "loss": 0.1181,
564
+ "step": 7800
565
+ },
566
+ {
567
+ "epoch": 0.7022222222222222,
568
+ "grad_norm": 2.5893187522888184,
569
+ "learning_rate": 2.4734e-05,
570
+ "loss": 0.118,
571
+ "step": 7900
572
+ },
573
+ {
574
+ "epoch": 0.7111111111111111,
575
+ "grad_norm": 2.582350730895996,
576
+ "learning_rate": 2.4667333333333334e-05,
577
+ "loss": 0.1185,
578
+ "step": 8000
579
+ },
580
+ {
581
+ "epoch": 0.72,
582
+ "grad_norm": 3.3927502632141113,
583
+ "learning_rate": 2.4600666666666666e-05,
584
+ "loss": 0.1179,
585
+ "step": 8100
586
+ },
587
+ {
588
+ "epoch": 0.7288888888888889,
589
+ "grad_norm": 4.322011947631836,
590
+ "learning_rate": 2.4534e-05,
591
+ "loss": 0.118,
592
+ "step": 8200
593
+ },
594
+ {
595
+ "epoch": 0.7377777777777778,
596
+ "grad_norm": 2.3560194969177246,
597
+ "learning_rate": 2.4467333333333332e-05,
598
+ "loss": 0.1175,
599
+ "step": 8300
600
+ },
601
+ {
602
+ "epoch": 0.7466666666666667,
603
+ "grad_norm": 3.332634925842285,
604
+ "learning_rate": 2.4400666666666668e-05,
605
+ "loss": 0.117,
606
+ "step": 8400
607
+ },
608
+ {
609
+ "epoch": 0.7555555555555555,
610
+ "grad_norm": 3.440761089324951,
611
+ "learning_rate": 2.4334e-05,
612
+ "loss": 0.1177,
613
+ "step": 8500
614
+ },
615
+ {
616
+ "epoch": 0.7644444444444445,
617
+ "grad_norm": 2.6699066162109375,
618
+ "learning_rate": 2.4267333333333334e-05,
619
+ "loss": 0.1159,
620
+ "step": 8600
621
+ },
622
+ {
623
+ "epoch": 0.7733333333333333,
624
+ "grad_norm": 2.5748603343963623,
625
+ "learning_rate": 2.4200666666666667e-05,
626
+ "loss": 0.1161,
627
+ "step": 8700
628
+ },
629
+ {
630
+ "epoch": 0.7822222222222223,
631
+ "grad_norm": 3.216967821121216,
632
+ "learning_rate": 2.4134e-05,
633
+ "loss": 0.1167,
634
+ "step": 8800
635
+ },
636
+ {
637
+ "epoch": 0.7911111111111111,
638
+ "grad_norm": 2.9499289989471436,
639
+ "learning_rate": 2.4067333333333333e-05,
640
+ "loss": 0.1164,
641
+ "step": 8900
642
+ },
643
+ {
644
+ "epoch": 0.8,
645
+ "grad_norm": 2.6872825622558594,
646
+ "learning_rate": 2.4000666666666665e-05,
647
+ "loss": 0.117,
648
+ "step": 9000
649
+ },
650
+ {
651
+ "epoch": 0.8088888888888889,
652
+ "grad_norm": 3.444622039794922,
653
+ "learning_rate": 2.3933999999999998e-05,
654
+ "loss": 0.1187,
655
+ "step": 9100
656
+ },
657
+ {
658
+ "epoch": 0.8177777777777778,
659
+ "grad_norm": 2.4359054565429688,
660
+ "learning_rate": 2.3867333333333334e-05,
661
+ "loss": 0.1163,
662
+ "step": 9200
663
+ },
664
+ {
665
+ "epoch": 0.8266666666666667,
666
+ "grad_norm": 2.510025978088379,
667
+ "learning_rate": 2.3800666666666667e-05,
668
+ "loss": 0.117,
669
+ "step": 9300
670
+ },
671
+ {
672
+ "epoch": 0.8355555555555556,
673
+ "grad_norm": 2.5156795978546143,
674
+ "learning_rate": 2.3734e-05,
675
+ "loss": 0.1177,
676
+ "step": 9400
677
+ },
678
+ {
679
+ "epoch": 0.8444444444444444,
680
+ "grad_norm": 3.8582279682159424,
681
+ "learning_rate": 2.3667333333333333e-05,
682
+ "loss": 0.1188,
683
+ "step": 9500
684
+ },
685
+ {
686
+ "epoch": 0.8533333333333334,
687
+ "grad_norm": 2.9142448902130127,
688
+ "learning_rate": 2.3600666666666666e-05,
689
+ "loss": 0.1201,
690
+ "step": 9600
691
+ },
692
+ {
693
+ "epoch": 0.8622222222222222,
694
+ "grad_norm": 1.9949374198913574,
695
+ "learning_rate": 2.3534e-05,
696
+ "loss": 0.1173,
697
+ "step": 9700
698
+ },
699
+ {
700
+ "epoch": 0.8711111111111111,
701
+ "grad_norm": 2.8266148567199707,
702
+ "learning_rate": 2.346733333333333e-05,
703
+ "loss": 0.1156,
704
+ "step": 9800
705
+ },
706
+ {
707
+ "epoch": 0.88,
708
+ "grad_norm": 2.821716070175171,
709
+ "learning_rate": 2.3400666666666664e-05,
710
+ "loss": 0.114,
711
+ "step": 9900
712
+ },
713
+ {
714
+ "epoch": 0.8888888888888888,
715
+ "grad_norm": 2.1341419219970703,
716
+ "learning_rate": 2.3334e-05,
717
+ "loss": 0.118,
718
+ "step": 10000
719
+ },
720
+ {
721
+ "epoch": 0.8888888888888888,
722
+ "eval_loss": 0.11916246265172958,
723
+ "eval_runtime": 209.6485,
724
+ "eval_samples_per_second": 47.699,
725
+ "eval_steps_per_second": 5.962,
726
+ "step": 10000
727
+ },
728
+ {
729
+ "epoch": 0.8977777777777778,
730
+ "grad_norm": 2.4303793907165527,
731
+ "learning_rate": 2.3267333333333333e-05,
732
+ "loss": 0.1164,
733
+ "step": 10100
734
+ },
735
+ {
736
+ "epoch": 0.9066666666666666,
737
+ "grad_norm": 2.23417329788208,
738
+ "learning_rate": 2.3200666666666666e-05,
739
+ "loss": 0.1168,
740
+ "step": 10200
741
+ },
742
+ {
743
+ "epoch": 0.9155555555555556,
744
+ "grad_norm": 2.7402517795562744,
745
+ "learning_rate": 2.3134e-05,
746
+ "loss": 0.1171,
747
+ "step": 10300
748
+ },
749
+ {
750
+ "epoch": 0.9244444444444444,
751
+ "grad_norm": 2.4961931705474854,
752
+ "learning_rate": 2.3067333333333332e-05,
753
+ "loss": 0.117,
754
+ "step": 10400
755
+ },
756
+ {
757
+ "epoch": 0.9333333333333333,
758
+ "grad_norm": 3.0183095932006836,
759
+ "learning_rate": 2.3000666666666668e-05,
760
+ "loss": 0.1166,
761
+ "step": 10500
762
+ },
763
+ {
764
+ "epoch": 0.9422222222222222,
765
+ "grad_norm": 3.062873125076294,
766
+ "learning_rate": 2.2934e-05,
767
+ "loss": 0.1167,
768
+ "step": 10600
769
+ },
770
+ {
771
+ "epoch": 0.9511111111111111,
772
+ "grad_norm": 2.418299436569214,
773
+ "learning_rate": 2.2867333333333334e-05,
774
+ "loss": 0.1173,
775
+ "step": 10700
776
+ },
777
+ {
778
+ "epoch": 0.96,
779
+ "grad_norm": 2.580348253250122,
780
+ "learning_rate": 2.280066666666667e-05,
781
+ "loss": 0.1173,
782
+ "step": 10800
783
+ },
784
+ {
785
+ "epoch": 0.9688888888888889,
786
+ "grad_norm": 2.902337074279785,
787
+ "learning_rate": 2.2734000000000003e-05,
788
+ "loss": 0.1174,
789
+ "step": 10900
790
+ },
791
+ {
792
+ "epoch": 0.9777777777777777,
793
+ "grad_norm": 2.1894068717956543,
794
+ "learning_rate": 2.2667333333333336e-05,
795
+ "loss": 0.1167,
796
+ "step": 11000
797
+ },
798
+ {
799
+ "epoch": 0.9866666666666667,
800
+ "grad_norm": 2.944486618041992,
801
+ "learning_rate": 2.260066666666667e-05,
802
+ "loss": 0.1174,
803
+ "step": 11100
804
+ },
805
+ {
806
+ "epoch": 0.9955555555555555,
807
+ "grad_norm": 2.560166835784912,
808
+ "learning_rate": 2.2534e-05,
809
+ "loss": 0.1179,
810
+ "step": 11200
811
+ },
812
+ {
813
+ "epoch": 1.0044444444444445,
814
+ "grad_norm": 2.7553763389587402,
815
+ "learning_rate": 2.2467333333333334e-05,
816
+ "loss": 0.1158,
817
+ "step": 11300
818
+ },
819
+ {
820
+ "epoch": 1.0133333333333334,
821
+ "grad_norm": 2.8809797763824463,
822
+ "learning_rate": 2.2400666666666667e-05,
823
+ "loss": 0.1175,
824
+ "step": 11400
825
+ },
826
+ {
827
+ "epoch": 1.0222222222222221,
828
+ "grad_norm": 2.329749822616577,
829
+ "learning_rate": 2.2334000000000003e-05,
830
+ "loss": 0.1155,
831
+ "step": 11500
832
+ },
833
+ {
834
+ "epoch": 1.031111111111111,
835
+ "grad_norm": 2.763226270675659,
836
+ "learning_rate": 2.2267333333333336e-05,
837
+ "loss": 0.1166,
838
+ "step": 11600
839
+ },
840
+ {
841
+ "epoch": 1.04,
842
+ "grad_norm": 3.360959768295288,
843
+ "learning_rate": 2.220066666666667e-05,
844
+ "loss": 0.1162,
845
+ "step": 11700
846
+ },
847
+ {
848
+ "epoch": 1.048888888888889,
849
+ "grad_norm": 2.1025476455688477,
850
+ "learning_rate": 2.2134000000000002e-05,
851
+ "loss": 0.1167,
852
+ "step": 11800
853
+ },
854
+ {
855
+ "epoch": 1.0577777777777777,
856
+ "grad_norm": 2.6342437267303467,
857
+ "learning_rate": 2.2067333333333335e-05,
858
+ "loss": 0.1159,
859
+ "step": 11900
860
+ },
861
+ {
862
+ "epoch": 1.0666666666666667,
863
+ "grad_norm": 2.8531672954559326,
864
+ "learning_rate": 2.2000666666666668e-05,
865
+ "loss": 0.1174,
866
+ "step": 12000
867
+ },
868
+ {
869
+ "epoch": 1.0755555555555556,
870
+ "grad_norm": 2.5636589527130127,
871
+ "learning_rate": 2.1934e-05,
872
+ "loss": 0.1164,
873
+ "step": 12100
874
+ },
875
+ {
876
+ "epoch": 1.0844444444444445,
877
+ "grad_norm": 2.7614545822143555,
878
+ "learning_rate": 2.1867333333333333e-05,
879
+ "loss": 0.1172,
880
+ "step": 12200
881
+ },
882
+ {
883
+ "epoch": 1.0933333333333333,
884
+ "grad_norm": 2.60809063911438,
885
+ "learning_rate": 2.180066666666667e-05,
886
+ "loss": 0.1163,
887
+ "step": 12300
888
+ },
889
+ {
890
+ "epoch": 1.1022222222222222,
891
+ "grad_norm": 3.316859483718872,
892
+ "learning_rate": 2.1734000000000002e-05,
893
+ "loss": 0.1177,
894
+ "step": 12400
895
+ },
896
+ {
897
+ "epoch": 1.1111111111111112,
898
+ "grad_norm": 3.271606922149658,
899
+ "learning_rate": 2.1667333333333335e-05,
900
+ "loss": 0.1167,
901
+ "step": 12500
902
+ },
903
+ {
904
+ "epoch": 1.12,
905
+ "grad_norm": 3.194365978240967,
906
+ "learning_rate": 2.1600666666666668e-05,
907
+ "loss": 0.118,
908
+ "step": 12600
909
+ },
910
+ {
911
+ "epoch": 1.1288888888888888,
912
+ "grad_norm": 2.5785796642303467,
913
+ "learning_rate": 2.1534e-05,
914
+ "loss": 0.1166,
915
+ "step": 12700
916
+ },
917
+ {
918
+ "epoch": 1.1377777777777778,
919
+ "grad_norm": 2.8842148780822754,
920
+ "learning_rate": 2.1467333333333334e-05,
921
+ "loss": 0.1169,
922
+ "step": 12800
923
+ },
924
+ {
925
+ "epoch": 1.1466666666666667,
926
+ "grad_norm": 2.530769109725952,
927
+ "learning_rate": 2.1400666666666667e-05,
928
+ "loss": 0.1176,
929
+ "step": 12900
930
+ },
931
+ {
932
+ "epoch": 1.1555555555555554,
933
+ "grad_norm": 2.9388973712921143,
934
+ "learning_rate": 2.1334e-05,
935
+ "loss": 0.1164,
936
+ "step": 13000
937
+ },
938
+ {
939
+ "epoch": 1.1644444444444444,
940
+ "grad_norm": 3.258341073989868,
941
+ "learning_rate": 2.1267333333333336e-05,
942
+ "loss": 0.1161,
943
+ "step": 13100
944
+ },
945
+ {
946
+ "epoch": 1.1733333333333333,
947
+ "grad_norm": 3.597013473510742,
948
+ "learning_rate": 2.120066666666667e-05,
949
+ "loss": 0.1168,
950
+ "step": 13200
951
+ },
952
+ {
953
+ "epoch": 1.1822222222222223,
954
+ "grad_norm": 2.683460235595703,
955
+ "learning_rate": 2.1134e-05,
956
+ "loss": 0.1152,
957
+ "step": 13300
958
+ },
959
+ {
960
+ "epoch": 1.1911111111111112,
961
+ "grad_norm": 3.4266109466552734,
962
+ "learning_rate": 2.1067333333333334e-05,
963
+ "loss": 0.1158,
964
+ "step": 13400
965
+ },
966
+ {
967
+ "epoch": 1.2,
968
+ "grad_norm": 2.183912754058838,
969
+ "learning_rate": 2.1000666666666667e-05,
970
+ "loss": 0.1162,
971
+ "step": 13500
972
+ },
973
+ {
974
+ "epoch": 1.208888888888889,
975
+ "grad_norm": 2.8540754318237305,
976
+ "learning_rate": 2.0934e-05,
977
+ "loss": 0.1162,
978
+ "step": 13600
979
+ },
980
+ {
981
+ "epoch": 1.2177777777777778,
982
+ "grad_norm": 2.472102403640747,
983
+ "learning_rate": 2.0867333333333333e-05,
984
+ "loss": 0.1165,
985
+ "step": 13700
986
+ },
987
+ {
988
+ "epoch": 1.2266666666666666,
989
+ "grad_norm": 2.466033697128296,
990
+ "learning_rate": 2.0800666666666665e-05,
991
+ "loss": 0.1171,
992
+ "step": 13800
993
+ },
994
+ {
995
+ "epoch": 1.2355555555555555,
996
+ "grad_norm": 2.822277784347534,
997
+ "learning_rate": 2.0734000000000002e-05,
998
+ "loss": 0.1154,
999
+ "step": 13900
1000
+ },
1001
+ {
1002
+ "epoch": 1.2444444444444445,
1003
+ "grad_norm": 2.0999035835266113,
1004
+ "learning_rate": 2.0667333333333335e-05,
1005
+ "loss": 0.1163,
1006
+ "step": 14000
1007
+ },
1008
+ {
1009
+ "epoch": 1.2533333333333334,
1010
+ "grad_norm": 2.3862359523773193,
1011
+ "learning_rate": 2.0600666666666667e-05,
1012
+ "loss": 0.1166,
1013
+ "step": 14100
1014
+ },
1015
+ {
1016
+ "epoch": 1.2622222222222224,
1017
+ "grad_norm": 3.0106606483459473,
1018
+ "learning_rate": 2.0534e-05,
1019
+ "loss": 0.1174,
1020
+ "step": 14200
1021
+ },
1022
+ {
1023
+ "epoch": 1.271111111111111,
1024
+ "grad_norm": 2.2720947265625,
1025
+ "learning_rate": 2.0467333333333333e-05,
1026
+ "loss": 0.1162,
1027
+ "step": 14300
1028
+ },
1029
+ {
1030
+ "epoch": 1.28,
1031
+ "grad_norm": 2.4867804050445557,
1032
+ "learning_rate": 2.0400666666666666e-05,
1033
+ "loss": 0.1167,
1034
+ "step": 14400
1035
+ },
1036
+ {
1037
+ "epoch": 1.2888888888888888,
1038
+ "grad_norm": 3.227097511291504,
1039
+ "learning_rate": 2.0334e-05,
1040
+ "loss": 0.1166,
1041
+ "step": 14500
1042
+ },
1043
+ {
1044
+ "epoch": 1.2977777777777777,
1045
+ "grad_norm": 2.6462483406066895,
1046
+ "learning_rate": 2.0267333333333335e-05,
1047
+ "loss": 0.116,
1048
+ "step": 14600
1049
+ },
1050
+ {
1051
+ "epoch": 1.3066666666666666,
1052
+ "grad_norm": 1.9896470308303833,
1053
+ "learning_rate": 2.0200666666666668e-05,
1054
+ "loss": 0.1166,
1055
+ "step": 14700
1056
+ },
1057
+ {
1058
+ "epoch": 1.3155555555555556,
1059
+ "grad_norm": 3.9435179233551025,
1060
+ "learning_rate": 2.0134e-05,
1061
+ "loss": 0.1161,
1062
+ "step": 14800
1063
+ },
1064
+ {
1065
+ "epoch": 1.3244444444444445,
1066
+ "grad_norm": 3.1520168781280518,
1067
+ "learning_rate": 2.0067333333333334e-05,
1068
+ "loss": 0.1163,
1069
+ "step": 14900
1070
+ },
1071
+ {
1072
+ "epoch": 1.3333333333333333,
1073
+ "grad_norm": 2.1935575008392334,
1074
+ "learning_rate": 2.0000666666666666e-05,
1075
+ "loss": 0.1166,
1076
+ "step": 15000
1077
+ },
1078
+ {
1079
+ "epoch": 1.3333333333333333,
1080
+ "eval_loss": 0.11884617805480957,
1081
+ "eval_runtime": 211.3057,
1082
+ "eval_samples_per_second": 47.325,
1083
+ "eval_steps_per_second": 5.916,
1084
+ "step": 15000
1085
+ },
1086
+ {
1087
+ "epoch": 1.3422222222222222,
1088
+ "grad_norm": 2.775670289993286,
1089
+ "learning_rate": 1.9934e-05,
1090
+ "loss": 0.1159,
1091
+ "step": 15100
1092
+ },
1093
+ {
1094
+ "epoch": 1.3511111111111112,
1095
+ "grad_norm": 2.6361074447631836,
1096
+ "learning_rate": 1.9867333333333332e-05,
1097
+ "loss": 0.1169,
1098
+ "step": 15200
1099
+ },
1100
+ {
1101
+ "epoch": 1.3599999999999999,
1102
+ "grad_norm": 2.5795843601226807,
1103
+ "learning_rate": 1.9800666666666665e-05,
1104
+ "loss": 0.1166,
1105
+ "step": 15300
1106
+ },
1107
+ {
1108
+ "epoch": 1.3688888888888888,
1109
+ "grad_norm": 3.1737446784973145,
1110
+ "learning_rate": 1.9734e-05,
1111
+ "loss": 0.1167,
1112
+ "step": 15400
1113
+ },
1114
+ {
1115
+ "epoch": 1.3777777777777778,
1116
+ "grad_norm": 2.2223973274230957,
1117
+ "learning_rate": 1.9667333333333334e-05,
1118
+ "loss": 0.1164,
1119
+ "step": 15500
1120
+ },
1121
+ {
1122
+ "epoch": 1.3866666666666667,
1123
+ "grad_norm": 2.2306268215179443,
1124
+ "learning_rate": 1.9600666666666667e-05,
1125
+ "loss": 0.1168,
1126
+ "step": 15600
1127
+ },
1128
+ {
1129
+ "epoch": 1.3955555555555557,
1130
+ "grad_norm": 2.343104600906372,
1131
+ "learning_rate": 1.9534e-05,
1132
+ "loss": 0.1169,
1133
+ "step": 15700
1134
+ },
1135
+ {
1136
+ "epoch": 1.4044444444444444,
1137
+ "grad_norm": 2.2243905067443848,
1138
+ "learning_rate": 1.9467333333333333e-05,
1139
+ "loss": 0.1168,
1140
+ "step": 15800
1141
+ },
1142
+ {
1143
+ "epoch": 1.4133333333333333,
1144
+ "grad_norm": 2.11381459236145,
1145
+ "learning_rate": 1.9400666666666665e-05,
1146
+ "loss": 0.1176,
1147
+ "step": 15900
1148
+ },
1149
+ {
1150
+ "epoch": 1.4222222222222223,
1151
+ "grad_norm": 2.713016986846924,
1152
+ "learning_rate": 1.9333999999999998e-05,
1153
+ "loss": 0.117,
1154
+ "step": 16000
1155
+ },
1156
+ {
1157
+ "epoch": 1.431111111111111,
1158
+ "grad_norm": 2.860501766204834,
1159
+ "learning_rate": 1.926733333333333e-05,
1160
+ "loss": 0.1165,
1161
+ "step": 16100
1162
+ },
1163
+ {
1164
+ "epoch": 1.44,
1165
+ "grad_norm": 2.216109037399292,
1166
+ "learning_rate": 1.9200666666666667e-05,
1167
+ "loss": 0.117,
1168
+ "step": 16200
1169
+ },
1170
+ {
1171
+ "epoch": 1.448888888888889,
1172
+ "grad_norm": 2.458571672439575,
1173
+ "learning_rate": 1.9134e-05,
1174
+ "loss": 0.1166,
1175
+ "step": 16300
1176
+ },
1177
+ {
1178
+ "epoch": 1.4577777777777778,
1179
+ "grad_norm": 2.421862840652466,
1180
+ "learning_rate": 1.9067333333333333e-05,
1181
+ "loss": 0.117,
1182
+ "step": 16400
1183
+ },
1184
+ {
1185
+ "epoch": 1.4666666666666668,
1186
+ "grad_norm": 2.4166271686553955,
1187
+ "learning_rate": 1.9000666666666666e-05,
1188
+ "loss": 0.1158,
1189
+ "step": 16500
1190
+ },
1191
+ {
1192
+ "epoch": 1.4755555555555555,
1193
+ "grad_norm": 2.1545352935791016,
1194
+ "learning_rate": 1.8934e-05,
1195
+ "loss": 0.1153,
1196
+ "step": 16600
1197
+ },
1198
+ {
1199
+ "epoch": 1.4844444444444445,
1200
+ "grad_norm": 2.041667938232422,
1201
+ "learning_rate": 1.886733333333333e-05,
1202
+ "loss": 0.1174,
1203
+ "step": 16700
1204
+ },
1205
+ {
1206
+ "epoch": 1.4933333333333334,
1207
+ "grad_norm": 2.384735584259033,
1208
+ "learning_rate": 1.8800666666666664e-05,
1209
+ "loss": 0.1163,
1210
+ "step": 16800
1211
+ },
1212
+ {
1213
+ "epoch": 1.5022222222222221,
1214
+ "grad_norm": 2.500413656234741,
1215
+ "learning_rate": 1.8734e-05,
1216
+ "loss": 0.1151,
1217
+ "step": 16900
1218
+ },
1219
+ {
1220
+ "epoch": 1.511111111111111,
1221
+ "grad_norm": 2.1342129707336426,
1222
+ "learning_rate": 1.8667333333333337e-05,
1223
+ "loss": 0.1159,
1224
+ "step": 17000
1225
+ },
1226
+ {
1227
+ "epoch": 1.52,
1228
+ "grad_norm": 1.887050986289978,
1229
+ "learning_rate": 1.860066666666667e-05,
1230
+ "loss": 0.1167,
1231
+ "step": 17100
1232
+ },
1233
+ {
1234
+ "epoch": 1.528888888888889,
1235
+ "grad_norm": 2.915043830871582,
1236
+ "learning_rate": 1.8534000000000002e-05,
1237
+ "loss": 0.1146,
1238
+ "step": 17200
1239
+ },
1240
+ {
1241
+ "epoch": 1.537777777777778,
1242
+ "grad_norm": 1.9369572401046753,
1243
+ "learning_rate": 1.8467333333333335e-05,
1244
+ "loss": 0.115,
1245
+ "step": 17300
1246
+ },
1247
+ {
1248
+ "epoch": 1.5466666666666666,
1249
+ "grad_norm": 2.6729207038879395,
1250
+ "learning_rate": 1.8400666666666668e-05,
1251
+ "loss": 0.1164,
1252
+ "step": 17400
1253
+ },
1254
+ {
1255
+ "epoch": 1.5555555555555556,
1256
+ "grad_norm": 2.3808655738830566,
1257
+ "learning_rate": 1.8334e-05,
1258
+ "loss": 0.1164,
1259
+ "step": 17500
1260
+ },
1261
+ {
1262
+ "epoch": 1.5644444444444443,
1263
+ "grad_norm": 2.073694944381714,
1264
+ "learning_rate": 1.8267333333333334e-05,
1265
+ "loss": 0.1162,
1266
+ "step": 17600
1267
+ },
1268
+ {
1269
+ "epoch": 1.5733333333333333,
1270
+ "grad_norm": 2.777702808380127,
1271
+ "learning_rate": 1.820066666666667e-05,
1272
+ "loss": 0.1165,
1273
+ "step": 17700
1274
+ },
1275
+ {
1276
+ "epoch": 1.5822222222222222,
1277
+ "grad_norm": 2.505470037460327,
1278
+ "learning_rate": 1.8134000000000003e-05,
1279
+ "loss": 0.1161,
1280
+ "step": 17800
1281
+ },
1282
+ {
1283
+ "epoch": 1.5911111111111111,
1284
+ "grad_norm": 2.718674421310425,
1285
+ "learning_rate": 1.8067333333333336e-05,
1286
+ "loss": 0.1163,
1287
+ "step": 17900
1288
+ },
1289
+ {
1290
+ "epoch": 1.6,
1291
+ "grad_norm": 2.1494431495666504,
1292
+ "learning_rate": 1.800066666666667e-05,
1293
+ "loss": 0.1156,
1294
+ "step": 18000
1295
+ },
1296
+ {
1297
+ "epoch": 1.608888888888889,
1298
+ "grad_norm": 2.116150379180908,
1299
+ "learning_rate": 1.7934e-05,
1300
+ "loss": 0.1151,
1301
+ "step": 18100
1302
+ },
1303
+ {
1304
+ "epoch": 1.6177777777777778,
1305
+ "grad_norm": 2.0484061241149902,
1306
+ "learning_rate": 1.7867333333333334e-05,
1307
+ "loss": 0.1156,
1308
+ "step": 18200
1309
+ },
1310
+ {
1311
+ "epoch": 1.6266666666666667,
1312
+ "grad_norm": 2.424205780029297,
1313
+ "learning_rate": 1.7800666666666667e-05,
1314
+ "loss": 0.1163,
1315
+ "step": 18300
1316
+ },
1317
+ {
1318
+ "epoch": 1.6355555555555554,
1319
+ "grad_norm": 1.8127673864364624,
1320
+ "learning_rate": 1.7734e-05,
1321
+ "loss": 0.1158,
1322
+ "step": 18400
1323
+ },
1324
+ {
1325
+ "epoch": 1.6444444444444444,
1326
+ "grad_norm": 1.8198715448379517,
1327
+ "learning_rate": 1.7667333333333336e-05,
1328
+ "loss": 0.1154,
1329
+ "step": 18500
1330
+ },
1331
+ {
1332
+ "epoch": 1.6533333333333333,
1333
+ "grad_norm": 2.0981502532958984,
1334
+ "learning_rate": 1.760066666666667e-05,
1335
+ "loss": 0.1151,
1336
+ "step": 18600
1337
+ },
1338
+ {
1339
+ "epoch": 1.6622222222222223,
1340
+ "grad_norm": 2.4855105876922607,
1341
+ "learning_rate": 1.7534000000000002e-05,
1342
+ "loss": 0.1159,
1343
+ "step": 18700
1344
+ },
1345
+ {
1346
+ "epoch": 1.6711111111111112,
1347
+ "grad_norm": 2.699737071990967,
1348
+ "learning_rate": 1.7467333333333335e-05,
1349
+ "loss": 0.1157,
1350
+ "step": 18800
1351
+ },
1352
+ {
1353
+ "epoch": 1.6800000000000002,
1354
+ "grad_norm": 2.327432870864868,
1355
+ "learning_rate": 1.7400666666666668e-05,
1356
+ "loss": 0.1171,
1357
+ "step": 18900
1358
+ },
1359
+ {
1360
+ "epoch": 1.6888888888888889,
1361
+ "grad_norm": 2.1968882083892822,
1362
+ "learning_rate": 1.7334e-05,
1363
+ "loss": 0.1161,
1364
+ "step": 19000
1365
+ },
1366
+ {
1367
+ "epoch": 1.6977777777777778,
1368
+ "grad_norm": 1.8226240873336792,
1369
+ "learning_rate": 1.7267333333333333e-05,
1370
+ "loss": 0.1151,
1371
+ "step": 19100
1372
+ },
1373
+ {
1374
+ "epoch": 1.7066666666666666,
1375
+ "grad_norm": 2.7223825454711914,
1376
+ "learning_rate": 1.7200666666666666e-05,
1377
+ "loss": 0.1171,
1378
+ "step": 19200
1379
+ },
1380
+ {
1381
+ "epoch": 1.7155555555555555,
1382
+ "grad_norm": 2.9477438926696777,
1383
+ "learning_rate": 1.7134000000000002e-05,
1384
+ "loss": 0.1156,
1385
+ "step": 19300
1386
+ },
1387
+ {
1388
+ "epoch": 1.7244444444444444,
1389
+ "grad_norm": 2.40928316116333,
1390
+ "learning_rate": 1.7067333333333335e-05,
1391
+ "loss": 0.1166,
1392
+ "step": 19400
1393
+ },
1394
+ {
1395
+ "epoch": 1.7333333333333334,
1396
+ "grad_norm": 1.8822649717330933,
1397
+ "learning_rate": 1.7000666666666668e-05,
1398
+ "loss": 0.1153,
1399
+ "step": 19500
1400
+ },
1401
+ {
1402
+ "epoch": 1.7422222222222223,
1403
+ "grad_norm": 2.2142670154571533,
1404
+ "learning_rate": 1.6934e-05,
1405
+ "loss": 0.1163,
1406
+ "step": 19600
1407
+ },
1408
+ {
1409
+ "epoch": 1.751111111111111,
1410
+ "grad_norm": 2.1836495399475098,
1411
+ "learning_rate": 1.6867333333333334e-05,
1412
+ "loss": 0.1151,
1413
+ "step": 19700
1414
+ },
1415
+ {
1416
+ "epoch": 1.76,
1417
+ "grad_norm": 3.2107222080230713,
1418
+ "learning_rate": 1.6800666666666667e-05,
1419
+ "loss": 0.1163,
1420
+ "step": 19800
1421
+ },
1422
+ {
1423
+ "epoch": 1.7688888888888887,
1424
+ "grad_norm": 1.8287441730499268,
1425
+ "learning_rate": 1.6734e-05,
1426
+ "loss": 0.1156,
1427
+ "step": 19900
1428
+ },
1429
+ {
1430
+ "epoch": 1.7777777777777777,
1431
+ "grad_norm": 2.0980119705200195,
1432
+ "learning_rate": 1.6667333333333332e-05,
1433
+ "loss": 0.1155,
1434
+ "step": 20000
1435
+ },
1436
+ {
1437
+ "epoch": 1.7777777777777777,
1438
+ "eval_loss": 0.11874008923768997,
1439
+ "eval_runtime": 211.255,
1440
+ "eval_samples_per_second": 47.336,
1441
+ "eval_steps_per_second": 5.917,
1442
+ "step": 20000
1443
+ },
1444
+ {
1445
+ "epoch": 1.7866666666666666,
1446
+ "grad_norm": 2.3383679389953613,
1447
+ "learning_rate": 1.660066666666667e-05,
1448
+ "loss": 0.1138,
1449
+ "step": 20100
1450
+ },
1451
+ {
1452
+ "epoch": 1.7955555555555556,
1453
+ "grad_norm": 2.7525901794433594,
1454
+ "learning_rate": 1.6534e-05,
1455
+ "loss": 0.116,
1456
+ "step": 20200
1457
+ },
1458
+ {
1459
+ "epoch": 1.8044444444444445,
1460
+ "grad_norm": 2.5040132999420166,
1461
+ "learning_rate": 1.6467333333333334e-05,
1462
+ "loss": 0.1161,
1463
+ "step": 20300
1464
+ },
1465
+ {
1466
+ "epoch": 1.8133333333333335,
1467
+ "grad_norm": 2.259471893310547,
1468
+ "learning_rate": 1.6400666666666667e-05,
1469
+ "loss": 0.117,
1470
+ "step": 20400
1471
+ },
1472
+ {
1473
+ "epoch": 1.8222222222222222,
1474
+ "grad_norm": 2.2679028511047363,
1475
+ "learning_rate": 1.6334e-05,
1476
+ "loss": 0.1137,
1477
+ "step": 20500
1478
+ },
1479
+ {
1480
+ "epoch": 1.8311111111111111,
1481
+ "grad_norm": 2.327155351638794,
1482
+ "learning_rate": 1.6267333333333333e-05,
1483
+ "loss": 0.1166,
1484
+ "step": 20600
1485
+ },
1486
+ {
1487
+ "epoch": 1.8399999999999999,
1488
+ "grad_norm": 1.955175757408142,
1489
+ "learning_rate": 1.6200666666666665e-05,
1490
+ "loss": 0.1166,
1491
+ "step": 20700
1492
+ },
1493
+ {
1494
+ "epoch": 1.8488888888888888,
1495
+ "grad_norm": 2.710777759552002,
1496
+ "learning_rate": 1.6134e-05,
1497
+ "loss": 0.1172,
1498
+ "step": 20800
1499
+ },
1500
+ {
1501
+ "epoch": 1.8577777777777778,
1502
+ "grad_norm": 2.216688632965088,
1503
+ "learning_rate": 1.6067333333333335e-05,
1504
+ "loss": 0.1161,
1505
+ "step": 20900
1506
+ },
1507
+ {
1508
+ "epoch": 1.8666666666666667,
1509
+ "grad_norm": 2.182429075241089,
1510
+ "learning_rate": 1.6000666666666667e-05,
1511
+ "loss": 0.1156,
1512
+ "step": 21000
1513
+ },
1514
+ {
1515
+ "epoch": 1.8755555555555556,
1516
+ "grad_norm": 1.9243407249450684,
1517
+ "learning_rate": 1.5934e-05,
1518
+ "loss": 0.1142,
1519
+ "step": 21100
1520
+ },
1521
+ {
1522
+ "epoch": 1.8844444444444446,
1523
+ "grad_norm": 2.7626757621765137,
1524
+ "learning_rate": 1.5867333333333333e-05,
1525
+ "loss": 0.1145,
1526
+ "step": 21200
1527
+ },
1528
+ {
1529
+ "epoch": 1.8933333333333333,
1530
+ "grad_norm": 2.6856908798217773,
1531
+ "learning_rate": 1.5800666666666666e-05,
1532
+ "loss": 0.1152,
1533
+ "step": 21300
1534
+ },
1535
+ {
1536
+ "epoch": 1.9022222222222223,
1537
+ "grad_norm": 1.7904895544052124,
1538
+ "learning_rate": 1.5734e-05,
1539
+ "loss": 0.1155,
1540
+ "step": 21400
1541
+ },
1542
+ {
1543
+ "epoch": 1.911111111111111,
1544
+ "grad_norm": 3.033803939819336,
1545
+ "learning_rate": 1.566733333333333e-05,
1546
+ "loss": 0.1166,
1547
+ "step": 21500
1548
+ },
1549
+ {
1550
+ "epoch": 1.92,
1551
+ "grad_norm": 2.309826612472534,
1552
+ "learning_rate": 1.5600666666666668e-05,
1553
+ "loss": 0.1158,
1554
+ "step": 21600
1555
+ },
1556
+ {
1557
+ "epoch": 1.9288888888888889,
1558
+ "grad_norm": 1.7815381288528442,
1559
+ "learning_rate": 1.5534e-05,
1560
+ "loss": 0.1162,
1561
+ "step": 21700
1562
+ },
1563
+ {
1564
+ "epoch": 1.9377777777777778,
1565
+ "grad_norm": 2.4178450107574463,
1566
+ "learning_rate": 1.5467333333333334e-05,
1567
+ "loss": 0.1148,
1568
+ "step": 21800
1569
+ },
1570
+ {
1571
+ "epoch": 1.9466666666666668,
1572
+ "grad_norm": 2.054873466491699,
1573
+ "learning_rate": 1.5400666666666666e-05,
1574
+ "loss": 0.1159,
1575
+ "step": 21900
1576
+ },
1577
+ {
1578
+ "epoch": 1.9555555555555557,
1579
+ "grad_norm": 2.2199928760528564,
1580
+ "learning_rate": 1.5334e-05,
1581
+ "loss": 0.116,
1582
+ "step": 22000
1583
+ },
1584
+ {
1585
+ "epoch": 1.9644444444444444,
1586
+ "grad_norm": 2.7613635063171387,
1587
+ "learning_rate": 1.5267333333333332e-05,
1588
+ "loss": 0.1158,
1589
+ "step": 22100
1590
+ },
1591
+ {
1592
+ "epoch": 1.9733333333333334,
1593
+ "grad_norm": 2.339095115661621,
1594
+ "learning_rate": 1.5200666666666667e-05,
1595
+ "loss": 0.1165,
1596
+ "step": 22200
1597
+ },
1598
+ {
1599
+ "epoch": 1.982222222222222,
1600
+ "grad_norm": 2.9039108753204346,
1601
+ "learning_rate": 1.5134e-05,
1602
+ "loss": 0.1161,
1603
+ "step": 22300
1604
+ },
1605
+ {
1606
+ "epoch": 1.991111111111111,
1607
+ "grad_norm": 1.7739943265914917,
1608
+ "learning_rate": 1.5067333333333336e-05,
1609
+ "loss": 0.1156,
1610
+ "step": 22400
1611
+ },
1612
+ {
1613
+ "epoch": 2.0,
1614
+ "grad_norm": 2.047527551651001,
1615
+ "learning_rate": 1.5000666666666669e-05,
1616
+ "loss": 0.1154,
1617
+ "step": 22500
1618
+ },
1619
+ {
1620
+ "epoch": 2.008888888888889,
1621
+ "grad_norm": 2.352304458618164,
1622
+ "learning_rate": 1.4934000000000001e-05,
1623
+ "loss": 0.1158,
1624
+ "step": 22600
1625
+ },
1626
+ {
1627
+ "epoch": 2.017777777777778,
1628
+ "grad_norm": 2.671964645385742,
1629
+ "learning_rate": 1.4867333333333334e-05,
1630
+ "loss": 0.1162,
1631
+ "step": 22700
1632
+ },
1633
+ {
1634
+ "epoch": 2.026666666666667,
1635
+ "grad_norm": 2.2361083030700684,
1636
+ "learning_rate": 1.4800666666666667e-05,
1637
+ "loss": 0.1159,
1638
+ "step": 22800
1639
+ },
1640
+ {
1641
+ "epoch": 2.0355555555555553,
1642
+ "grad_norm": 2.8421878814697266,
1643
+ "learning_rate": 1.4734e-05,
1644
+ "loss": 0.1165,
1645
+ "step": 22900
1646
+ },
1647
+ {
1648
+ "epoch": 2.0444444444444443,
1649
+ "grad_norm": 2.485544204711914,
1650
+ "learning_rate": 1.4667333333333334e-05,
1651
+ "loss": 0.1152,
1652
+ "step": 23000
1653
+ },
1654
+ {
1655
+ "epoch": 2.0533333333333332,
1656
+ "grad_norm": 2.96846079826355,
1657
+ "learning_rate": 1.4600666666666667e-05,
1658
+ "loss": 0.1155,
1659
+ "step": 23100
1660
+ },
1661
+ {
1662
+ "epoch": 2.062222222222222,
1663
+ "grad_norm": 2.7394907474517822,
1664
+ "learning_rate": 1.4534e-05,
1665
+ "loss": 0.1164,
1666
+ "step": 23200
1667
+ },
1668
+ {
1669
+ "epoch": 2.071111111111111,
1670
+ "grad_norm": 2.4437592029571533,
1671
+ "learning_rate": 1.4467333333333333e-05,
1672
+ "loss": 0.1156,
1673
+ "step": 23300
1674
+ },
1675
+ {
1676
+ "epoch": 2.08,
1677
+ "grad_norm": 2.2288527488708496,
1678
+ "learning_rate": 1.4400666666666667e-05,
1679
+ "loss": 0.1158,
1680
+ "step": 23400
1681
+ },
1682
+ {
1683
+ "epoch": 2.088888888888889,
1684
+ "grad_norm": 2.3188891410827637,
1685
+ "learning_rate": 1.4334e-05,
1686
+ "loss": 0.1148,
1687
+ "step": 23500
1688
+ },
1689
+ {
1690
+ "epoch": 2.097777777777778,
1691
+ "grad_norm": 2.7612464427948,
1692
+ "learning_rate": 1.4267333333333333e-05,
1693
+ "loss": 0.1171,
1694
+ "step": 23600
1695
+ },
1696
+ {
1697
+ "epoch": 2.1066666666666665,
1698
+ "grad_norm": 2.3894736766815186,
1699
+ "learning_rate": 1.4200666666666666e-05,
1700
+ "loss": 0.1148,
1701
+ "step": 23700
1702
+ },
1703
+ {
1704
+ "epoch": 2.1155555555555554,
1705
+ "grad_norm": 2.3277463912963867,
1706
+ "learning_rate": 1.4134e-05,
1707
+ "loss": 0.1153,
1708
+ "step": 23800
1709
+ },
1710
+ {
1711
+ "epoch": 2.1244444444444444,
1712
+ "grad_norm": 2.8140342235565186,
1713
+ "learning_rate": 1.4067333333333333e-05,
1714
+ "loss": 0.1137,
1715
+ "step": 23900
1716
+ },
1717
+ {
1718
+ "epoch": 2.1333333333333333,
1719
+ "grad_norm": 2.089547634124756,
1720
+ "learning_rate": 1.4000666666666666e-05,
1721
+ "loss": 0.1155,
1722
+ "step": 24000
1723
+ },
1724
+ {
1725
+ "epoch": 2.1422222222222222,
1726
+ "grad_norm": 3.302685260772705,
1727
+ "learning_rate": 1.3934e-05,
1728
+ "loss": 0.1153,
1729
+ "step": 24100
1730
+ },
1731
+ {
1732
+ "epoch": 2.151111111111111,
1733
+ "grad_norm": 4.049182415008545,
1734
+ "learning_rate": 1.3867333333333334e-05,
1735
+ "loss": 0.1157,
1736
+ "step": 24200
1737
+ },
1738
+ {
1739
+ "epoch": 2.16,
1740
+ "grad_norm": 2.8935699462890625,
1741
+ "learning_rate": 1.3800666666666666e-05,
1742
+ "loss": 0.1148,
1743
+ "step": 24300
1744
+ },
1745
+ {
1746
+ "epoch": 2.168888888888889,
1747
+ "grad_norm": 2.7473628520965576,
1748
+ "learning_rate": 1.3734e-05,
1749
+ "loss": 0.1163,
1750
+ "step": 24400
1751
+ },
1752
+ {
1753
+ "epoch": 2.1777777777777776,
1754
+ "grad_norm": 2.5902512073516846,
1755
+ "learning_rate": 1.3667333333333334e-05,
1756
+ "loss": 0.1166,
1757
+ "step": 24500
1758
+ },
1759
+ {
1760
+ "epoch": 2.1866666666666665,
1761
+ "grad_norm": 2.7223613262176514,
1762
+ "learning_rate": 1.3600666666666667e-05,
1763
+ "loss": 0.1162,
1764
+ "step": 24600
1765
+ },
1766
+ {
1767
+ "epoch": 2.1955555555555555,
1768
+ "grad_norm": 2.1939899921417236,
1769
+ "learning_rate": 1.3534e-05,
1770
+ "loss": 0.1154,
1771
+ "step": 24700
1772
+ },
1773
+ {
1774
+ "epoch": 2.2044444444444444,
1775
+ "grad_norm": 2.0452585220336914,
1776
+ "learning_rate": 1.3467333333333332e-05,
1777
+ "loss": 0.1152,
1778
+ "step": 24800
1779
+ },
1780
+ {
1781
+ "epoch": 2.2133333333333334,
1782
+ "grad_norm": 1.8646681308746338,
1783
+ "learning_rate": 1.3400666666666667e-05,
1784
+ "loss": 0.1155,
1785
+ "step": 24900
1786
+ },
1787
+ {
1788
+ "epoch": 2.2222222222222223,
1789
+ "grad_norm": 1.9449495077133179,
1790
+ "learning_rate": 1.3334000000000001e-05,
1791
+ "loss": 0.1152,
1792
+ "step": 25000
1793
+ },
1794
+ {
1795
+ "epoch": 2.2222222222222223,
1796
+ "eval_loss": 0.11821907013654709,
1797
+ "eval_runtime": 205.4004,
1798
+ "eval_samples_per_second": 48.685,
1799
+ "eval_steps_per_second": 6.086,
1800
+ "step": 25000
1801
+ },
1802
+ {
1803
+ "epoch": 2.2311111111111113,
1804
+ "grad_norm": 2.43855881690979,
1805
+ "learning_rate": 1.3267333333333334e-05,
1806
+ "loss": 0.1152,
1807
+ "step": 25100
1808
+ },
1809
+ {
1810
+ "epoch": 2.24,
1811
+ "grad_norm": 2.259459972381592,
1812
+ "learning_rate": 1.3200666666666667e-05,
1813
+ "loss": 0.1166,
1814
+ "step": 25200
1815
+ },
1816
+ {
1817
+ "epoch": 2.2488888888888887,
1818
+ "grad_norm": 1.6553391218185425,
1819
+ "learning_rate": 1.3134000000000002e-05,
1820
+ "loss": 0.1161,
1821
+ "step": 25300
1822
+ },
1823
+ {
1824
+ "epoch": 2.2577777777777777,
1825
+ "grad_norm": 2.632042407989502,
1826
+ "learning_rate": 1.3067333333333334e-05,
1827
+ "loss": 0.1158,
1828
+ "step": 25400
1829
+ },
1830
+ {
1831
+ "epoch": 2.2666666666666666,
1832
+ "grad_norm": 1.961142897605896,
1833
+ "learning_rate": 1.3000666666666667e-05,
1834
+ "loss": 0.1155,
1835
+ "step": 25500
1836
+ },
1837
+ {
1838
+ "epoch": 2.2755555555555556,
1839
+ "grad_norm": 3.4109835624694824,
1840
+ "learning_rate": 1.2934e-05,
1841
+ "loss": 0.1157,
1842
+ "step": 25600
1843
+ },
1844
+ {
1845
+ "epoch": 2.2844444444444445,
1846
+ "grad_norm": 1.8419948816299438,
1847
+ "learning_rate": 1.2867333333333335e-05,
1848
+ "loss": 0.1155,
1849
+ "step": 25700
1850
+ },
1851
+ {
1852
+ "epoch": 2.2933333333333334,
1853
+ "grad_norm": 1.9801756143569946,
1854
+ "learning_rate": 1.2800666666666668e-05,
1855
+ "loss": 0.1158,
1856
+ "step": 25800
1857
+ },
1858
+ {
1859
+ "epoch": 2.3022222222222224,
1860
+ "grad_norm": 2.43862247467041,
1861
+ "learning_rate": 1.2734e-05,
1862
+ "loss": 0.1153,
1863
+ "step": 25900
1864
+ },
1865
+ {
1866
+ "epoch": 2.311111111111111,
1867
+ "grad_norm": 2.5168206691741943,
1868
+ "learning_rate": 1.2667333333333333e-05,
1869
+ "loss": 0.1156,
1870
+ "step": 26000
1871
+ },
1872
+ {
1873
+ "epoch": 2.32,
1874
+ "grad_norm": 1.8565939664840698,
1875
+ "learning_rate": 1.2600666666666668e-05,
1876
+ "loss": 0.1152,
1877
+ "step": 26100
1878
+ },
1879
+ {
1880
+ "epoch": 2.328888888888889,
1881
+ "grad_norm": 2.830747127532959,
1882
+ "learning_rate": 1.2534e-05,
1883
+ "loss": 0.1162,
1884
+ "step": 26200
1885
+ },
1886
+ {
1887
+ "epoch": 2.3377777777777777,
1888
+ "grad_norm": 2.1019651889801025,
1889
+ "learning_rate": 1.2467333333333333e-05,
1890
+ "loss": 0.1133,
1891
+ "step": 26300
1892
+ },
1893
+ {
1894
+ "epoch": 2.3466666666666667,
1895
+ "grad_norm": 2.217740774154663,
1896
+ "learning_rate": 1.2400666666666666e-05,
1897
+ "loss": 0.1152,
1898
+ "step": 26400
1899
+ },
1900
+ {
1901
+ "epoch": 2.3555555555555556,
1902
+ "grad_norm": 2.361687660217285,
1903
+ "learning_rate": 1.2334e-05,
1904
+ "loss": 0.1156,
1905
+ "step": 26500
1906
+ },
1907
+ {
1908
+ "epoch": 2.3644444444444446,
1909
+ "grad_norm": 2.0507583618164062,
1910
+ "learning_rate": 1.2267333333333334e-05,
1911
+ "loss": 0.1159,
1912
+ "step": 26600
1913
+ },
1914
+ {
1915
+ "epoch": 2.3733333333333335,
1916
+ "grad_norm": 2.8861610889434814,
1917
+ "learning_rate": 1.2200666666666667e-05,
1918
+ "loss": 0.1151,
1919
+ "step": 26700
1920
+ },
1921
+ {
1922
+ "epoch": 2.3822222222222225,
1923
+ "grad_norm": 1.8134089708328247,
1924
+ "learning_rate": 1.2134e-05,
1925
+ "loss": 0.1154,
1926
+ "step": 26800
1927
+ },
1928
+ {
1929
+ "epoch": 2.391111111111111,
1930
+ "grad_norm": 2.0537240505218506,
1931
+ "learning_rate": 1.2067333333333334e-05,
1932
+ "loss": 0.1159,
1933
+ "step": 26900
1934
+ },
1935
+ {
1936
+ "epoch": 2.4,
1937
+ "grad_norm": 2.097390651702881,
1938
+ "learning_rate": 1.2000666666666667e-05,
1939
+ "loss": 0.1161,
1940
+ "step": 27000
1941
+ },
1942
+ {
1943
+ "epoch": 2.408888888888889,
1944
+ "grad_norm": 2.088944435119629,
1945
+ "learning_rate": 1.1934e-05,
1946
+ "loss": 0.1146,
1947
+ "step": 27100
1948
+ },
1949
+ {
1950
+ "epoch": 2.417777777777778,
1951
+ "grad_norm": 2.133535385131836,
1952
+ "learning_rate": 1.1867333333333332e-05,
1953
+ "loss": 0.1159,
1954
+ "step": 27200
1955
+ },
1956
+ {
1957
+ "epoch": 2.4266666666666667,
1958
+ "grad_norm": 1.7839490175247192,
1959
+ "learning_rate": 1.1800666666666667e-05,
1960
+ "loss": 0.1151,
1961
+ "step": 27300
1962
+ },
1963
+ {
1964
+ "epoch": 2.4355555555555557,
1965
+ "grad_norm": 2.6169657707214355,
1966
+ "learning_rate": 1.1734e-05,
1967
+ "loss": 0.1163,
1968
+ "step": 27400
1969
+ },
1970
+ {
1971
+ "epoch": 2.4444444444444446,
1972
+ "grad_norm": 2.3692398071289062,
1973
+ "learning_rate": 1.1667333333333333e-05,
1974
+ "loss": 0.1154,
1975
+ "step": 27500
1976
+ },
1977
+ {
1978
+ "epoch": 2.453333333333333,
1979
+ "grad_norm": 2.067922353744507,
1980
+ "learning_rate": 1.1600666666666667e-05,
1981
+ "loss": 0.1164,
1982
+ "step": 27600
1983
+ },
1984
+ {
1985
+ "epoch": 2.462222222222222,
1986
+ "grad_norm": 2.0473413467407227,
1987
+ "learning_rate": 1.1534e-05,
1988
+ "loss": 0.1163,
1989
+ "step": 27700
1990
+ },
1991
+ {
1992
+ "epoch": 2.471111111111111,
1993
+ "grad_norm": 2.808614730834961,
1994
+ "learning_rate": 1.1467333333333333e-05,
1995
+ "loss": 0.1156,
1996
+ "step": 27800
1997
+ },
1998
+ {
1999
+ "epoch": 2.48,
2000
+ "grad_norm": 2.913728713989258,
2001
+ "learning_rate": 1.1400666666666666e-05,
2002
+ "loss": 0.116,
2003
+ "step": 27900
2004
+ },
2005
+ {
2006
+ "epoch": 2.488888888888889,
2007
+ "grad_norm": 1.912876009941101,
2008
+ "learning_rate": 1.1334e-05,
2009
+ "loss": 0.1152,
2010
+ "step": 28000
2011
+ },
2012
+ {
2013
+ "epoch": 2.497777777777778,
2014
+ "grad_norm": 1.86778724193573,
2015
+ "learning_rate": 1.1267333333333333e-05,
2016
+ "loss": 0.1153,
2017
+ "step": 28100
2018
+ },
2019
+ {
2020
+ "epoch": 2.506666666666667,
2021
+ "grad_norm": 2.0126466751098633,
2022
+ "learning_rate": 1.1200666666666668e-05,
2023
+ "loss": 0.1158,
2024
+ "step": 28200
2025
+ },
2026
+ {
2027
+ "epoch": 2.5155555555555553,
2028
+ "grad_norm": 3.1814756393432617,
2029
+ "learning_rate": 1.1134e-05,
2030
+ "loss": 0.1141,
2031
+ "step": 28300
2032
+ },
2033
+ {
2034
+ "epoch": 2.5244444444444447,
2035
+ "grad_norm": 1.9883755445480347,
2036
+ "learning_rate": 1.1067333333333335e-05,
2037
+ "loss": 0.1166,
2038
+ "step": 28400
2039
+ },
2040
+ {
2041
+ "epoch": 2.533333333333333,
2042
+ "grad_norm": 2.183955192565918,
2043
+ "learning_rate": 1.1000666666666668e-05,
2044
+ "loss": 0.1148,
2045
+ "step": 28500
2046
+ },
2047
+ {
2048
+ "epoch": 2.542222222222222,
2049
+ "grad_norm": 1.8114796876907349,
2050
+ "learning_rate": 1.0934e-05,
2051
+ "loss": 0.1152,
2052
+ "step": 28600
2053
+ },
2054
+ {
2055
+ "epoch": 2.551111111111111,
2056
+ "grad_norm": 2.805391550064087,
2057
+ "learning_rate": 1.0867333333333334e-05,
2058
+ "loss": 0.1167,
2059
+ "step": 28700
2060
+ },
2061
+ {
2062
+ "epoch": 2.56,
2063
+ "grad_norm": 1.9589388370513916,
2064
+ "learning_rate": 1.0800666666666668e-05,
2065
+ "loss": 0.1159,
2066
+ "step": 28800
2067
+ },
2068
+ {
2069
+ "epoch": 2.568888888888889,
2070
+ "grad_norm": 2.483231782913208,
2071
+ "learning_rate": 1.0734000000000001e-05,
2072
+ "loss": 0.1164,
2073
+ "step": 28900
2074
+ },
2075
+ {
2076
+ "epoch": 2.5777777777777775,
2077
+ "grad_norm": 2.146597385406494,
2078
+ "learning_rate": 1.0667333333333334e-05,
2079
+ "loss": 0.1157,
2080
+ "step": 29000
2081
+ },
2082
+ {
2083
+ "epoch": 2.586666666666667,
2084
+ "grad_norm": 2.4722535610198975,
2085
+ "learning_rate": 1.0600666666666667e-05,
2086
+ "loss": 0.1152,
2087
+ "step": 29100
2088
+ },
2089
+ {
2090
+ "epoch": 2.5955555555555554,
2091
+ "grad_norm": 2.1983442306518555,
2092
+ "learning_rate": 1.0534000000000001e-05,
2093
+ "loss": 0.1157,
2094
+ "step": 29200
2095
+ },
2096
+ {
2097
+ "epoch": 2.6044444444444443,
2098
+ "grad_norm": 2.2970950603485107,
2099
+ "learning_rate": 1.0467333333333334e-05,
2100
+ "loss": 0.1157,
2101
+ "step": 29300
2102
+ },
2103
+ {
2104
+ "epoch": 2.6133333333333333,
2105
+ "grad_norm": 2.0761561393737793,
2106
+ "learning_rate": 1.0400666666666667e-05,
2107
+ "loss": 0.1158,
2108
+ "step": 29400
2109
+ },
2110
+ {
2111
+ "epoch": 2.6222222222222222,
2112
+ "grad_norm": 2.563446283340454,
2113
+ "learning_rate": 1.0334e-05,
2114
+ "loss": 0.1148,
2115
+ "step": 29500
2116
+ },
2117
+ {
2118
+ "epoch": 2.631111111111111,
2119
+ "grad_norm": 1.857676386833191,
2120
+ "learning_rate": 1.0267333333333334e-05,
2121
+ "loss": 0.1156,
2122
+ "step": 29600
2123
+ },
2124
+ {
2125
+ "epoch": 2.64,
2126
+ "grad_norm": 1.8866102695465088,
2127
+ "learning_rate": 1.0200666666666667e-05,
2128
+ "loss": 0.1161,
2129
+ "step": 29700
2130
+ },
2131
+ {
2132
+ "epoch": 2.648888888888889,
2133
+ "grad_norm": 2.0575530529022217,
2134
+ "learning_rate": 1.0134e-05,
2135
+ "loss": 0.1147,
2136
+ "step": 29800
2137
+ },
2138
+ {
2139
+ "epoch": 2.6577777777777776,
2140
+ "grad_norm": 2.034001111984253,
2141
+ "learning_rate": 1.0067333333333333e-05,
2142
+ "loss": 0.1157,
2143
+ "step": 29900
2144
+ },
2145
+ {
2146
+ "epoch": 2.6666666666666665,
2147
+ "grad_norm": 2.0795133113861084,
2148
+ "learning_rate": 1.0000666666666667e-05,
2149
+ "loss": 0.1148,
2150
+ "step": 30000
2151
+ },
2152
+ {
2153
+ "epoch": 2.6666666666666665,
2154
+ "eval_loss": 0.11856765300035477,
2155
+ "eval_runtime": 205.9117,
2156
+ "eval_samples_per_second": 48.565,
2157
+ "eval_steps_per_second": 6.071,
2158
+ "step": 30000
2159
+ },
2160
+ {
2161
+ "epoch": 2.6755555555555555,
2162
+ "grad_norm": 1.806398630142212,
2163
+ "learning_rate": 9.934e-06,
2164
+ "loss": 0.1157,
2165
+ "step": 30100
2166
+ },
2167
+ {
2168
+ "epoch": 2.6844444444444444,
2169
+ "grad_norm": 2.670499563217163,
2170
+ "learning_rate": 9.867333333333333e-06,
2171
+ "loss": 0.1158,
2172
+ "step": 30200
2173
+ },
2174
+ {
2175
+ "epoch": 2.6933333333333334,
2176
+ "grad_norm": 2.7029168605804443,
2177
+ "learning_rate": 9.800666666666666e-06,
2178
+ "loss": 0.1158,
2179
+ "step": 30300
2180
+ },
2181
+ {
2182
+ "epoch": 2.7022222222222223,
2183
+ "grad_norm": 2.2368838787078857,
2184
+ "learning_rate": 9.734e-06,
2185
+ "loss": 0.1158,
2186
+ "step": 30400
2187
+ },
2188
+ {
2189
+ "epoch": 2.7111111111111112,
2190
+ "grad_norm": 2.2548608779907227,
2191
+ "learning_rate": 9.667333333333333e-06,
2192
+ "loss": 0.1158,
2193
+ "step": 30500
2194
+ },
2195
+ {
2196
+ "epoch": 2.7199999999999998,
2197
+ "grad_norm": 2.935089588165283,
2198
+ "learning_rate": 9.600666666666666e-06,
2199
+ "loss": 0.1158,
2200
+ "step": 30600
2201
+ },
2202
+ {
2203
+ "epoch": 2.728888888888889,
2204
+ "grad_norm": 2.124918222427368,
2205
+ "learning_rate": 9.534e-06,
2206
+ "loss": 0.116,
2207
+ "step": 30700
2208
+ },
2209
+ {
2210
+ "epoch": 2.7377777777777776,
2211
+ "grad_norm": 2.378983736038208,
2212
+ "learning_rate": 9.467333333333333e-06,
2213
+ "loss": 0.1151,
2214
+ "step": 30800
2215
+ },
2216
+ {
2217
+ "epoch": 2.7466666666666666,
2218
+ "grad_norm": 2.25007963180542,
2219
+ "learning_rate": 9.400666666666666e-06,
2220
+ "loss": 0.1149,
2221
+ "step": 30900
2222
+ },
2223
+ {
2224
+ "epoch": 2.7555555555555555,
2225
+ "grad_norm": 2.59733510017395,
2226
+ "learning_rate": 9.333999999999999e-06,
2227
+ "loss": 0.1161,
2228
+ "step": 31000
2229
+ },
2230
+ {
2231
+ "epoch": 2.7644444444444445,
2232
+ "grad_norm": 1.812325119972229,
2233
+ "learning_rate": 9.267333333333334e-06,
2234
+ "loss": 0.1138,
2235
+ "step": 31100
2236
+ },
2237
+ {
2238
+ "epoch": 2.7733333333333334,
2239
+ "grad_norm": 1.9207689762115479,
2240
+ "learning_rate": 9.200666666666666e-06,
2241
+ "loss": 0.1147,
2242
+ "step": 31200
2243
+ },
2244
+ {
2245
+ "epoch": 2.7822222222222224,
2246
+ "grad_norm": 2.4983069896698,
2247
+ "learning_rate": 9.134e-06,
2248
+ "loss": 0.1153,
2249
+ "step": 31300
2250
+ },
2251
+ {
2252
+ "epoch": 2.7911111111111113,
2253
+ "grad_norm": 2.1139156818389893,
2254
+ "learning_rate": 9.067333333333334e-06,
2255
+ "loss": 0.1147,
2256
+ "step": 31400
2257
+ },
2258
+ {
2259
+ "epoch": 2.8,
2260
+ "grad_norm": 1.7658330202102661,
2261
+ "learning_rate": 9.000666666666668e-06,
2262
+ "loss": 0.1149,
2263
+ "step": 31500
2264
+ },
2265
+ {
2266
+ "epoch": 2.8088888888888888,
2267
+ "grad_norm": 2.7101166248321533,
2268
+ "learning_rate": 8.934000000000001e-06,
2269
+ "loss": 0.1159,
2270
+ "step": 31600
2271
+ },
2272
+ {
2273
+ "epoch": 2.8177777777777777,
2274
+ "grad_norm": 2.397491455078125,
2275
+ "learning_rate": 8.867333333333334e-06,
2276
+ "loss": 0.1145,
2277
+ "step": 31700
2278
+ },
2279
+ {
2280
+ "epoch": 2.8266666666666667,
2281
+ "grad_norm": 1.7462725639343262,
2282
+ "learning_rate": 8.800666666666667e-06,
2283
+ "loss": 0.1146,
2284
+ "step": 31800
2285
+ },
2286
+ {
2287
+ "epoch": 2.8355555555555556,
2288
+ "grad_norm": 1.9845815896987915,
2289
+ "learning_rate": 8.734000000000001e-06,
2290
+ "loss": 0.1159,
2291
+ "step": 31900
2292
+ },
2293
+ {
2294
+ "epoch": 2.8444444444444446,
2295
+ "grad_norm": 2.7019858360290527,
2296
+ "learning_rate": 8.667333333333334e-06,
2297
+ "loss": 0.1161,
2298
+ "step": 32000
2299
+ },
2300
+ {
2301
+ "epoch": 2.8533333333333335,
2302
+ "grad_norm": 2.1721303462982178,
2303
+ "learning_rate": 8.600666666666667e-06,
2304
+ "loss": 0.1158,
2305
+ "step": 32100
2306
+ },
2307
+ {
2308
+ "epoch": 2.862222222222222,
2309
+ "grad_norm": 2.018580436706543,
2310
+ "learning_rate": 8.534e-06,
2311
+ "loss": 0.1155,
2312
+ "step": 32200
2313
+ },
2314
+ {
2315
+ "epoch": 2.871111111111111,
2316
+ "grad_norm": 2.5351226329803467,
2317
+ "learning_rate": 8.467333333333334e-06,
2318
+ "loss": 0.1145,
2319
+ "step": 32300
2320
+ },
2321
+ {
2322
+ "epoch": 2.88,
2323
+ "grad_norm": 2.0548834800720215,
2324
+ "learning_rate": 8.400666666666667e-06,
2325
+ "loss": 0.1123,
2326
+ "step": 32400
2327
+ },
2328
+ {
2329
+ "epoch": 2.888888888888889,
2330
+ "grad_norm": 1.849409818649292,
2331
+ "learning_rate": 8.334e-06,
2332
+ "loss": 0.1164,
2333
+ "step": 32500
2334
+ },
2335
+ {
2336
+ "epoch": 2.897777777777778,
2337
+ "grad_norm": 1.837160348892212,
2338
+ "learning_rate": 8.267333333333333e-06,
2339
+ "loss": 0.1149,
2340
+ "step": 32600
2341
+ },
2342
+ {
2343
+ "epoch": 2.9066666666666667,
2344
+ "grad_norm": 2.0503478050231934,
2345
+ "learning_rate": 8.200666666666668e-06,
2346
+ "loss": 0.1156,
2347
+ "step": 32700
2348
+ },
2349
+ {
2350
+ "epoch": 2.9155555555555557,
2351
+ "grad_norm": 2.295761823654175,
2352
+ "learning_rate": 8.134e-06,
2353
+ "loss": 0.1161,
2354
+ "step": 32800
2355
+ },
2356
+ {
2357
+ "epoch": 2.924444444444444,
2358
+ "grad_norm": 1.939372181892395,
2359
+ "learning_rate": 8.067333333333333e-06,
2360
+ "loss": 0.1159,
2361
+ "step": 32900
2362
+ },
2363
+ {
2364
+ "epoch": 2.9333333333333336,
2365
+ "grad_norm": 2.1088409423828125,
2366
+ "learning_rate": 8.000666666666666e-06,
2367
+ "loss": 0.1151,
2368
+ "step": 33000
2369
+ },
2370
+ {
2371
+ "epoch": 2.942222222222222,
2372
+ "grad_norm": 2.3162732124328613,
2373
+ "learning_rate": 7.934e-06,
2374
+ "loss": 0.1146,
2375
+ "step": 33100
2376
+ },
2377
+ {
2378
+ "epoch": 2.951111111111111,
2379
+ "grad_norm": 2.5189192295074463,
2380
+ "learning_rate": 7.867333333333333e-06,
2381
+ "loss": 0.1153,
2382
+ "step": 33200
2383
+ },
2384
+ {
2385
+ "epoch": 2.96,
2386
+ "grad_norm": 2.011211633682251,
2387
+ "learning_rate": 7.800666666666666e-06,
2388
+ "loss": 0.1154,
2389
+ "step": 33300
2390
+ },
2391
+ {
2392
+ "epoch": 2.968888888888889,
2393
+ "grad_norm": 2.14790415763855,
2394
+ "learning_rate": 7.733999999999999e-06,
2395
+ "loss": 0.1158,
2396
+ "step": 33400
2397
+ },
2398
+ {
2399
+ "epoch": 2.977777777777778,
2400
+ "grad_norm": 1.6173288822174072,
2401
+ "learning_rate": 7.667333333333334e-06,
2402
+ "loss": 0.1154,
2403
+ "step": 33500
2404
+ },
2405
+ {
2406
+ "epoch": 2.986666666666667,
2407
+ "grad_norm": 2.406761407852173,
2408
+ "learning_rate": 7.6006666666666665e-06,
2409
+ "loss": 0.1162,
2410
+ "step": 33600
2411
+ },
2412
+ {
2413
+ "epoch": 2.9955555555555557,
2414
+ "grad_norm": 1.9551059007644653,
2415
+ "learning_rate": 7.533999999999999e-06,
2416
+ "loss": 0.1152,
2417
+ "step": 33700
2418
+ },
2419
+ {
2420
+ "epoch": 3.0044444444444443,
2421
+ "grad_norm": 3.290292263031006,
2422
+ "learning_rate": 7.467333333333334e-06,
2423
+ "loss": 0.1139,
2424
+ "step": 33800
2425
+ },
2426
+ {
2427
+ "epoch": 3.013333333333333,
2428
+ "grad_norm": 1.8533827066421509,
2429
+ "learning_rate": 7.400666666666668e-06,
2430
+ "loss": 0.115,
2431
+ "step": 33900
2432
+ },
2433
+ {
2434
+ "epoch": 3.022222222222222,
2435
+ "grad_norm": 2.736829996109009,
2436
+ "learning_rate": 7.3340000000000004e-06,
2437
+ "loss": 0.1166,
2438
+ "step": 34000
2439
+ },
2440
+ {
2441
+ "epoch": 3.031111111111111,
2442
+ "grad_norm": 1.9183787107467651,
2443
+ "learning_rate": 7.267333333333334e-06,
2444
+ "loss": 0.1156,
2445
+ "step": 34100
2446
+ },
2447
+ {
2448
+ "epoch": 3.04,
2449
+ "grad_norm": 2.566490411758423,
2450
+ "learning_rate": 7.200666666666667e-06,
2451
+ "loss": 0.1144,
2452
+ "step": 34200
2453
+ },
2454
+ {
2455
+ "epoch": 3.048888888888889,
2456
+ "grad_norm": 1.9702024459838867,
2457
+ "learning_rate": 7.134000000000001e-06,
2458
+ "loss": 0.1155,
2459
+ "step": 34300
2460
+ },
2461
+ {
2462
+ "epoch": 3.057777777777778,
2463
+ "grad_norm": 1.7992531061172485,
2464
+ "learning_rate": 7.0673333333333335e-06,
2465
+ "loss": 0.115,
2466
+ "step": 34400
2467
+ },
2468
+ {
2469
+ "epoch": 3.066666666666667,
2470
+ "grad_norm": 2.741799831390381,
2471
+ "learning_rate": 7.000666666666667e-06,
2472
+ "loss": 0.1135,
2473
+ "step": 34500
2474
+ },
2475
+ {
2476
+ "epoch": 3.0755555555555554,
2477
+ "grad_norm": 2.1746695041656494,
2478
+ "learning_rate": 6.934e-06,
2479
+ "loss": 0.1157,
2480
+ "step": 34600
2481
+ },
2482
+ {
2483
+ "epoch": 3.0844444444444443,
2484
+ "grad_norm": 2.317960023880005,
2485
+ "learning_rate": 6.867333333333334e-06,
2486
+ "loss": 0.116,
2487
+ "step": 34700
2488
+ },
2489
+ {
2490
+ "epoch": 3.0933333333333333,
2491
+ "grad_norm": 2.2601873874664307,
2492
+ "learning_rate": 6.8006666666666666e-06,
2493
+ "loss": 0.1166,
2494
+ "step": 34800
2495
+ },
2496
+ {
2497
+ "epoch": 3.102222222222222,
2498
+ "grad_norm": 2.3944337368011475,
2499
+ "learning_rate": 6.734e-06,
2500
+ "loss": 0.1148,
2501
+ "step": 34900
2502
+ },
2503
+ {
2504
+ "epoch": 3.111111111111111,
2505
+ "grad_norm": 1.8338050842285156,
2506
+ "learning_rate": 6.667333333333333e-06,
2507
+ "loss": 0.1162,
2508
+ "step": 35000
2509
+ },
2510
+ {
2511
+ "epoch": 3.111111111111111,
2512
+ "eval_loss": 0.11784859746694565,
2513
+ "eval_runtime": 222.7792,
2514
+ "eval_samples_per_second": 44.887,
2515
+ "eval_steps_per_second": 5.611,
2516
+ "step": 35000
2517
+ },
2518
+ {
2519
+ "epoch": 3.12,
2520
+ "grad_norm": 2.1952126026153564,
2521
+ "learning_rate": 6.600666666666667e-06,
2522
+ "loss": 0.1155,
2523
+ "step": 35100
2524
+ },
2525
+ {
2526
+ "epoch": 3.128888888888889,
2527
+ "grad_norm": 2.4511802196502686,
2528
+ "learning_rate": 6.534e-06,
2529
+ "loss": 0.1161,
2530
+ "step": 35200
2531
+ },
2532
+ {
2533
+ "epoch": 3.137777777777778,
2534
+ "grad_norm": 2.5017638206481934,
2535
+ "learning_rate": 6.467333333333333e-06,
2536
+ "loss": 0.1151,
2537
+ "step": 35300
2538
+ },
2539
+ {
2540
+ "epoch": 3.1466666666666665,
2541
+ "grad_norm": 2.345991373062134,
2542
+ "learning_rate": 6.400666666666667e-06,
2543
+ "loss": 0.1161,
2544
+ "step": 35400
2545
+ },
2546
+ {
2547
+ "epoch": 3.1555555555555554,
2548
+ "grad_norm": 2.8866028785705566,
2549
+ "learning_rate": 6.334000000000001e-06,
2550
+ "loss": 0.1156,
2551
+ "step": 35500
2552
+ },
2553
+ {
2554
+ "epoch": 3.1644444444444444,
2555
+ "grad_norm": 2.9575486183166504,
2556
+ "learning_rate": 6.2673333333333335e-06,
2557
+ "loss": 0.1142,
2558
+ "step": 35600
2559
+ },
2560
+ {
2561
+ "epoch": 3.1733333333333333,
2562
+ "grad_norm": 2.0834195613861084,
2563
+ "learning_rate": 6.200666666666667e-06,
2564
+ "loss": 0.1155,
2565
+ "step": 35700
2566
+ },
2567
+ {
2568
+ "epoch": 3.1822222222222223,
2569
+ "grad_norm": 2.265125036239624,
2570
+ "learning_rate": 6.134e-06,
2571
+ "loss": 0.1153,
2572
+ "step": 35800
2573
+ },
2574
+ {
2575
+ "epoch": 3.1911111111111112,
2576
+ "grad_norm": 1.915515661239624,
2577
+ "learning_rate": 6.067333333333334e-06,
2578
+ "loss": 0.1156,
2579
+ "step": 35900
2580
+ },
2581
+ {
2582
+ "epoch": 3.2,
2583
+ "grad_norm": 1.5453358888626099,
2584
+ "learning_rate": 6.000666666666667e-06,
2585
+ "loss": 0.1159,
2586
+ "step": 36000
2587
+ },
2588
+ {
2589
+ "epoch": 3.2088888888888887,
2590
+ "grad_norm": 3.102155923843384,
2591
+ "learning_rate": 5.934e-06,
2592
+ "loss": 0.1159,
2593
+ "step": 36100
2594
+ },
2595
+ {
2596
+ "epoch": 3.2177777777777776,
2597
+ "grad_norm": 1.9122494459152222,
2598
+ "learning_rate": 5.867333333333333e-06,
2599
+ "loss": 0.1152,
2600
+ "step": 36200
2601
+ },
2602
+ {
2603
+ "epoch": 3.2266666666666666,
2604
+ "grad_norm": 3.5081045627593994,
2605
+ "learning_rate": 5.800666666666667e-06,
2606
+ "loss": 0.1155,
2607
+ "step": 36300
2608
+ },
2609
+ {
2610
+ "epoch": 3.2355555555555555,
2611
+ "grad_norm": 2.1976592540740967,
2612
+ "learning_rate": 5.734e-06,
2613
+ "loss": 0.1153,
2614
+ "step": 36400
2615
+ },
2616
+ {
2617
+ "epoch": 3.2444444444444445,
2618
+ "grad_norm": 1.8369086980819702,
2619
+ "learning_rate": 5.667333333333333e-06,
2620
+ "loss": 0.1144,
2621
+ "step": 36500
2622
+ },
2623
+ {
2624
+ "epoch": 3.2533333333333334,
2625
+ "grad_norm": 2.886779308319092,
2626
+ "learning_rate": 5.600666666666666e-06,
2627
+ "loss": 0.1137,
2628
+ "step": 36600
2629
+ },
2630
+ {
2631
+ "epoch": 3.2622222222222224,
2632
+ "grad_norm": 2.462570905685425,
2633
+ "learning_rate": 5.534e-06,
2634
+ "loss": 0.1149,
2635
+ "step": 36700
2636
+ },
2637
+ {
2638
+ "epoch": 3.2711111111111113,
2639
+ "grad_norm": 2.79964017868042,
2640
+ "learning_rate": 5.467333333333333e-06,
2641
+ "loss": 0.1144,
2642
+ "step": 36800
2643
+ },
2644
+ {
2645
+ "epoch": 3.2800000000000002,
2646
+ "grad_norm": 2.734807014465332,
2647
+ "learning_rate": 5.400666666666666e-06,
2648
+ "loss": 0.1165,
2649
+ "step": 36900
2650
+ },
2651
+ {
2652
+ "epoch": 3.2888888888888888,
2653
+ "grad_norm": 2.096987247467041,
2654
+ "learning_rate": 5.334000000000001e-06,
2655
+ "loss": 0.1152,
2656
+ "step": 37000
2657
+ },
2658
+ {
2659
+ "epoch": 3.2977777777777777,
2660
+ "grad_norm": 2.1545772552490234,
2661
+ "learning_rate": 5.267333333333334e-06,
2662
+ "loss": 0.1159,
2663
+ "step": 37100
2664
+ },
2665
+ {
2666
+ "epoch": 3.3066666666666666,
2667
+ "grad_norm": 2.877927780151367,
2668
+ "learning_rate": 5.2006666666666675e-06,
2669
+ "loss": 0.1145,
2670
+ "step": 37200
2671
+ },
2672
+ {
2673
+ "epoch": 3.3155555555555556,
2674
+ "grad_norm": 2.041455030441284,
2675
+ "learning_rate": 5.134e-06,
2676
+ "loss": 0.1146,
2677
+ "step": 37300
2678
+ },
2679
+ {
2680
+ "epoch": 3.3244444444444445,
2681
+ "grad_norm": 3.838764190673828,
2682
+ "learning_rate": 5.067333333333334e-06,
2683
+ "loss": 0.115,
2684
+ "step": 37400
2685
+ },
2686
+ {
2687
+ "epoch": 3.3333333333333335,
2688
+ "grad_norm": 2.4776864051818848,
2689
+ "learning_rate": 5.000666666666667e-06,
2690
+ "loss": 0.1153,
2691
+ "step": 37500
2692
+ },
2693
+ {
2694
+ "epoch": 3.3422222222222224,
2695
+ "grad_norm": 2.534553050994873,
2696
+ "learning_rate": 4.9340000000000005e-06,
2697
+ "loss": 0.1154,
2698
+ "step": 37600
2699
+ },
2700
+ {
2701
+ "epoch": 3.351111111111111,
2702
+ "grad_norm": 2.8918344974517822,
2703
+ "learning_rate": 4.867333333333333e-06,
2704
+ "loss": 0.1148,
2705
+ "step": 37700
2706
+ },
2707
+ {
2708
+ "epoch": 3.36,
2709
+ "grad_norm": 2.2287111282348633,
2710
+ "learning_rate": 4.800666666666667e-06,
2711
+ "loss": 0.1154,
2712
+ "step": 37800
2713
+ },
2714
+ {
2715
+ "epoch": 3.368888888888889,
2716
+ "grad_norm": 1.7449971437454224,
2717
+ "learning_rate": 4.734e-06,
2718
+ "loss": 0.1135,
2719
+ "step": 37900
2720
+ },
2721
+ {
2722
+ "epoch": 3.3777777777777778,
2723
+ "grad_norm": 1.7717570066452026,
2724
+ "learning_rate": 4.667333333333334e-06,
2725
+ "loss": 0.1159,
2726
+ "step": 38000
2727
+ },
2728
+ {
2729
+ "epoch": 3.3866666666666667,
2730
+ "grad_norm": 2.641322135925293,
2731
+ "learning_rate": 4.6006666666666664e-06,
2732
+ "loss": 0.115,
2733
+ "step": 38100
2734
+ },
2735
+ {
2736
+ "epoch": 3.3955555555555557,
2737
+ "grad_norm": 2.314724922180176,
2738
+ "learning_rate": 4.534e-06,
2739
+ "loss": 0.1155,
2740
+ "step": 38200
2741
+ },
2742
+ {
2743
+ "epoch": 3.4044444444444446,
2744
+ "grad_norm": 2.006136894226074,
2745
+ "learning_rate": 4.467333333333333e-06,
2746
+ "loss": 0.1151,
2747
+ "step": 38300
2748
+ },
2749
+ {
2750
+ "epoch": 3.413333333333333,
2751
+ "grad_norm": 2.498370885848999,
2752
+ "learning_rate": 4.400666666666667e-06,
2753
+ "loss": 0.1135,
2754
+ "step": 38400
2755
+ },
2756
+ {
2757
+ "epoch": 3.422222222222222,
2758
+ "grad_norm": 2.1067326068878174,
2759
+ "learning_rate": 4.3339999999999995e-06,
2760
+ "loss": 0.1142,
2761
+ "step": 38500
2762
+ },
2763
+ {
2764
+ "epoch": 3.431111111111111,
2765
+ "grad_norm": 2.3120410442352295,
2766
+ "learning_rate": 4.267333333333334e-06,
2767
+ "loss": 0.1156,
2768
+ "step": 38600
2769
+ },
2770
+ {
2771
+ "epoch": 3.44,
2772
+ "grad_norm": 2.062558650970459,
2773
+ "learning_rate": 4.200666666666667e-06,
2774
+ "loss": 0.1146,
2775
+ "step": 38700
2776
+ },
2777
+ {
2778
+ "epoch": 3.448888888888889,
2779
+ "grad_norm": 1.8033158779144287,
2780
+ "learning_rate": 4.1340000000000006e-06,
2781
+ "loss": 0.1142,
2782
+ "step": 38800
2783
+ },
2784
+ {
2785
+ "epoch": 3.457777777777778,
2786
+ "grad_norm": 1.7999958992004395,
2787
+ "learning_rate": 4.067333333333333e-06,
2788
+ "loss": 0.1152,
2789
+ "step": 38900
2790
+ },
2791
+ {
2792
+ "epoch": 3.466666666666667,
2793
+ "grad_norm": 1.9380857944488525,
2794
+ "learning_rate": 4.000666666666667e-06,
2795
+ "loss": 0.1159,
2796
+ "step": 39000
2797
+ },
2798
+ {
2799
+ "epoch": 3.4755555555555557,
2800
+ "grad_norm": 2.4088852405548096,
2801
+ "learning_rate": 3.934e-06,
2802
+ "loss": 0.1142,
2803
+ "step": 39100
2804
+ },
2805
+ {
2806
+ "epoch": 3.4844444444444447,
2807
+ "grad_norm": 1.9888384342193604,
2808
+ "learning_rate": 3.867333333333334e-06,
2809
+ "loss": 0.1131,
2810
+ "step": 39200
2811
+ },
2812
+ {
2813
+ "epoch": 3.493333333333333,
2814
+ "grad_norm": 2.044527530670166,
2815
+ "learning_rate": 3.8006666666666665e-06,
2816
+ "loss": 0.1145,
2817
+ "step": 39300
2818
+ },
2819
+ {
2820
+ "epoch": 3.502222222222222,
2821
+ "grad_norm": 1.478445291519165,
2822
+ "learning_rate": 3.734e-06,
2823
+ "loss": 0.114,
2824
+ "step": 39400
2825
+ },
2826
+ {
2827
+ "epoch": 3.511111111111111,
2828
+ "grad_norm": 2.0271923542022705,
2829
+ "learning_rate": 3.6673333333333334e-06,
2830
+ "loss": 0.1148,
2831
+ "step": 39500
2832
+ },
2833
+ {
2834
+ "epoch": 3.52,
2835
+ "grad_norm": 2.7675399780273438,
2836
+ "learning_rate": 3.6006666666666667e-06,
2837
+ "loss": 0.116,
2838
+ "step": 39600
2839
+ },
2840
+ {
2841
+ "epoch": 3.528888888888889,
2842
+ "grad_norm": 1.6932669878005981,
2843
+ "learning_rate": 3.534e-06,
2844
+ "loss": 0.1142,
2845
+ "step": 39700
2846
+ },
2847
+ {
2848
+ "epoch": 3.537777777777778,
2849
+ "grad_norm": 2.0795860290527344,
2850
+ "learning_rate": 3.4673333333333337e-06,
2851
+ "loss": 0.1148,
2852
+ "step": 39800
2853
+ },
2854
+ {
2855
+ "epoch": 3.546666666666667,
2856
+ "grad_norm": 1.9962270259857178,
2857
+ "learning_rate": 3.400666666666667e-06,
2858
+ "loss": 0.1147,
2859
+ "step": 39900
2860
+ },
2861
+ {
2862
+ "epoch": 3.5555555555555554,
2863
+ "grad_norm": 1.931861400604248,
2864
+ "learning_rate": 3.334e-06,
2865
+ "loss": 0.1144,
2866
+ "step": 40000
2867
+ },
2868
+ {
2869
+ "epoch": 3.5555555555555554,
2870
+ "eval_loss": 0.11772522330284119,
2871
+ "eval_runtime": 222.4728,
2872
+ "eval_samples_per_second": 44.949,
2873
+ "eval_steps_per_second": 5.619,
2874
+ "step": 40000
2875
+ },
2876
+ {
2877
+ "epoch": 3.5644444444444443,
2878
+ "grad_norm": 2.4488837718963623,
2879
+ "learning_rate": 3.2673333333333334e-06,
2880
+ "loss": 0.1145,
2881
+ "step": 40100
2882
+ },
2883
+ {
2884
+ "epoch": 3.5733333333333333,
2885
+ "grad_norm": 2.099616050720215,
2886
+ "learning_rate": 3.2006666666666667e-06,
2887
+ "loss": 0.115,
2888
+ "step": 40200
2889
+ },
2890
+ {
2891
+ "epoch": 3.582222222222222,
2892
+ "grad_norm": 2.275487184524536,
2893
+ "learning_rate": 3.134e-06,
2894
+ "loss": 0.1155,
2895
+ "step": 40300
2896
+ },
2897
+ {
2898
+ "epoch": 3.591111111111111,
2899
+ "grad_norm": 2.2421047687530518,
2900
+ "learning_rate": 3.0673333333333332e-06,
2901
+ "loss": 0.1139,
2902
+ "step": 40400
2903
+ },
2904
+ {
2905
+ "epoch": 3.6,
2906
+ "grad_norm": 1.8405983448028564,
2907
+ "learning_rate": 3.0006666666666665e-06,
2908
+ "loss": 0.1132,
2909
+ "step": 40500
2910
+ },
2911
+ {
2912
+ "epoch": 3.608888888888889,
2913
+ "grad_norm": 2.1309421062469482,
2914
+ "learning_rate": 2.934e-06,
2915
+ "loss": 0.1165,
2916
+ "step": 40600
2917
+ },
2918
+ {
2919
+ "epoch": 3.6177777777777775,
2920
+ "grad_norm": 2.048819065093994,
2921
+ "learning_rate": 2.8673333333333335e-06,
2922
+ "loss": 0.1152,
2923
+ "step": 40700
2924
+ },
2925
+ {
2926
+ "epoch": 3.626666666666667,
2927
+ "grad_norm": 1.7024204730987549,
2928
+ "learning_rate": 2.8006666666666667e-06,
2929
+ "loss": 0.1156,
2930
+ "step": 40800
2931
+ },
2932
+ {
2933
+ "epoch": 3.6355555555555554,
2934
+ "grad_norm": 1.748242974281311,
2935
+ "learning_rate": 2.734e-06,
2936
+ "loss": 0.1151,
2937
+ "step": 40900
2938
+ },
2939
+ {
2940
+ "epoch": 3.6444444444444444,
2941
+ "grad_norm": 1.976176142692566,
2942
+ "learning_rate": 2.6673333333333333e-06,
2943
+ "loss": 0.1145,
2944
+ "step": 41000
2945
+ },
2946
+ {
2947
+ "epoch": 3.6533333333333333,
2948
+ "grad_norm": 2.0815675258636475,
2949
+ "learning_rate": 2.6006666666666665e-06,
2950
+ "loss": 0.115,
2951
+ "step": 41100
2952
+ },
2953
+ {
2954
+ "epoch": 3.6622222222222223,
2955
+ "grad_norm": 1.9975913763046265,
2956
+ "learning_rate": 2.534e-06,
2957
+ "loss": 0.1147,
2958
+ "step": 41200
2959
+ },
2960
+ {
2961
+ "epoch": 3.671111111111111,
2962
+ "grad_norm": 2.068807363510132,
2963
+ "learning_rate": 2.467333333333333e-06,
2964
+ "loss": 0.115,
2965
+ "step": 41300
2966
+ },
2967
+ {
2968
+ "epoch": 3.68,
2969
+ "grad_norm": 2.1508102416992188,
2970
+ "learning_rate": 2.4006666666666667e-06,
2971
+ "loss": 0.1156,
2972
+ "step": 41400
2973
+ },
2974
+ {
2975
+ "epoch": 3.688888888888889,
2976
+ "grad_norm": 2.2454254627227783,
2977
+ "learning_rate": 2.334e-06,
2978
+ "loss": 0.1153,
2979
+ "step": 41500
2980
+ },
2981
+ {
2982
+ "epoch": 3.6977777777777776,
2983
+ "grad_norm": 2.6782426834106445,
2984
+ "learning_rate": 2.2673333333333333e-06,
2985
+ "loss": 0.1147,
2986
+ "step": 41600
2987
+ },
2988
+ {
2989
+ "epoch": 3.7066666666666666,
2990
+ "grad_norm": 2.5738117694854736,
2991
+ "learning_rate": 2.2006666666666665e-06,
2992
+ "loss": 0.1152,
2993
+ "step": 41700
2994
+ },
2995
+ {
2996
+ "epoch": 3.7155555555555555,
2997
+ "grad_norm": 2.14444899559021,
2998
+ "learning_rate": 2.1340000000000002e-06,
2999
+ "loss": 0.1148,
3000
+ "step": 41800
3001
+ },
3002
+ {
3003
+ "epoch": 3.7244444444444444,
3004
+ "grad_norm": 2.488896369934082,
3005
+ "learning_rate": 2.0673333333333335e-06,
3006
+ "loss": 0.116,
3007
+ "step": 41900
3008
+ },
3009
+ {
3010
+ "epoch": 3.7333333333333334,
3011
+ "grad_norm": 1.549385905265808,
3012
+ "learning_rate": 2.0006666666666668e-06,
3013
+ "loss": 0.1143,
3014
+ "step": 42000
3015
+ },
3016
+ {
3017
+ "epoch": 3.7422222222222223,
3018
+ "grad_norm": 2.7564737796783447,
3019
+ "learning_rate": 1.934e-06,
3020
+ "loss": 0.1145,
3021
+ "step": 42100
3022
+ },
3023
+ {
3024
+ "epoch": 3.7511111111111113,
3025
+ "grad_norm": 1.8770675659179688,
3026
+ "learning_rate": 1.8673333333333333e-06,
3027
+ "loss": 0.1151,
3028
+ "step": 42200
3029
+ },
3030
+ {
3031
+ "epoch": 3.76,
3032
+ "grad_norm": 1.8028825521469116,
3033
+ "learning_rate": 1.8006666666666666e-06,
3034
+ "loss": 0.1142,
3035
+ "step": 42300
3036
+ },
3037
+ {
3038
+ "epoch": 3.7688888888888887,
3039
+ "grad_norm": 3.0894250869750977,
3040
+ "learning_rate": 1.734e-06,
3041
+ "loss": 0.113,
3042
+ "step": 42400
3043
+ },
3044
+ {
3045
+ "epoch": 3.7777777777777777,
3046
+ "grad_norm": 1.6943740844726562,
3047
+ "learning_rate": 1.6673333333333333e-06,
3048
+ "loss": 0.1158,
3049
+ "step": 42500
3050
+ },
3051
+ {
3052
+ "epoch": 3.7866666666666666,
3053
+ "grad_norm": 2.0735836029052734,
3054
+ "learning_rate": 1.6006666666666668e-06,
3055
+ "loss": 0.114,
3056
+ "step": 42600
3057
+ },
3058
+ {
3059
+ "epoch": 3.7955555555555556,
3060
+ "grad_norm": 2.2292916774749756,
3061
+ "learning_rate": 1.534e-06,
3062
+ "loss": 0.114,
3063
+ "step": 42700
3064
+ },
3065
+ {
3066
+ "epoch": 3.8044444444444445,
3067
+ "grad_norm": 2.780007839202881,
3068
+ "learning_rate": 1.4673333333333335e-06,
3069
+ "loss": 0.1149,
3070
+ "step": 42800
3071
+ },
3072
+ {
3073
+ "epoch": 3.8133333333333335,
3074
+ "grad_norm": 1.9034864902496338,
3075
+ "learning_rate": 1.4006666666666668e-06,
3076
+ "loss": 0.1149,
3077
+ "step": 42900
3078
+ },
3079
+ {
3080
+ "epoch": 3.822222222222222,
3081
+ "grad_norm": 1.8478845357894897,
3082
+ "learning_rate": 1.334e-06,
3083
+ "loss": 0.1131,
3084
+ "step": 43000
3085
+ },
3086
+ {
3087
+ "epoch": 3.8311111111111114,
3088
+ "grad_norm": 2.3863301277160645,
3089
+ "learning_rate": 1.2673333333333333e-06,
3090
+ "loss": 0.1151,
3091
+ "step": 43100
3092
+ },
3093
+ {
3094
+ "epoch": 3.84,
3095
+ "grad_norm": 2.5131964683532715,
3096
+ "learning_rate": 1.2006666666666668e-06,
3097
+ "loss": 0.1156,
3098
+ "step": 43200
3099
+ },
3100
+ {
3101
+ "epoch": 3.848888888888889,
3102
+ "grad_norm": 2.439030885696411,
3103
+ "learning_rate": 1.134e-06,
3104
+ "loss": 0.1151,
3105
+ "step": 43300
3106
+ },
3107
+ {
3108
+ "epoch": 3.8577777777777778,
3109
+ "grad_norm": 1.6926780939102173,
3110
+ "learning_rate": 1.0673333333333333e-06,
3111
+ "loss": 0.1149,
3112
+ "step": 43400
3113
+ },
3114
+ {
3115
+ "epoch": 3.8666666666666667,
3116
+ "grad_norm": 1.7866731882095337,
3117
+ "learning_rate": 1.0006666666666666e-06,
3118
+ "loss": 0.1147,
3119
+ "step": 43500
3120
+ },
3121
+ {
3122
+ "epoch": 3.8755555555555556,
3123
+ "grad_norm": 1.7567743062973022,
3124
+ "learning_rate": 9.34e-07,
3125
+ "loss": 0.1125,
3126
+ "step": 43600
3127
+ },
3128
+ {
3129
+ "epoch": 3.8844444444444446,
3130
+ "grad_norm": 1.9600574970245361,
3131
+ "learning_rate": 8.673333333333333e-07,
3132
+ "loss": 0.1145,
3133
+ "step": 43700
3134
+ },
3135
+ {
3136
+ "epoch": 3.8933333333333335,
3137
+ "grad_norm": 2.4924819469451904,
3138
+ "learning_rate": 8.006666666666667e-07,
3139
+ "loss": 0.1147,
3140
+ "step": 43800
3141
+ },
3142
+ {
3143
+ "epoch": 3.902222222222222,
3144
+ "grad_norm": 1.857824683189392,
3145
+ "learning_rate": 7.340000000000001e-07,
3146
+ "loss": 0.1144,
3147
+ "step": 43900
3148
+ },
3149
+ {
3150
+ "epoch": 3.911111111111111,
3151
+ "grad_norm": 2.3395354747772217,
3152
+ "learning_rate": 6.673333333333334e-07,
3153
+ "loss": 0.1156,
3154
+ "step": 44000
3155
+ },
3156
+ {
3157
+ "epoch": 3.92,
3158
+ "grad_norm": 2.1742966175079346,
3159
+ "learning_rate": 6.006666666666667e-07,
3160
+ "loss": 0.1149,
3161
+ "step": 44100
3162
+ },
3163
+ {
3164
+ "epoch": 3.928888888888889,
3165
+ "grad_norm": 1.9339632987976074,
3166
+ "learning_rate": 5.34e-07,
3167
+ "loss": 0.1157,
3168
+ "step": 44200
3169
+ },
3170
+ {
3171
+ "epoch": 3.937777777777778,
3172
+ "grad_norm": 2.219855785369873,
3173
+ "learning_rate": 4.673333333333333e-07,
3174
+ "loss": 0.113,
3175
+ "step": 44300
3176
+ },
3177
+ {
3178
+ "epoch": 3.9466666666666668,
3179
+ "grad_norm": 2.3561089038848877,
3180
+ "learning_rate": 4.006666666666667e-07,
3181
+ "loss": 0.1149,
3182
+ "step": 44400
3183
+ },
3184
+ {
3185
+ "epoch": 3.9555555555555557,
3186
+ "grad_norm": 1.901092529296875,
3187
+ "learning_rate": 3.34e-07,
3188
+ "loss": 0.1152,
3189
+ "step": 44500
3190
+ },
3191
+ {
3192
+ "epoch": 3.964444444444444,
3193
+ "grad_norm": 2.4958181381225586,
3194
+ "learning_rate": 2.673333333333333e-07,
3195
+ "loss": 0.1149,
3196
+ "step": 44600
3197
+ },
3198
+ {
3199
+ "epoch": 3.9733333333333336,
3200
+ "grad_norm": 1.7383066415786743,
3201
+ "learning_rate": 2.006666666666667e-07,
3202
+ "loss": 0.1153,
3203
+ "step": 44700
3204
+ },
3205
+ {
3206
+ "epoch": 3.982222222222222,
3207
+ "grad_norm": 2.181018590927124,
3208
+ "learning_rate": 1.34e-07,
3209
+ "loss": 0.1153,
3210
+ "step": 44800
3211
+ },
3212
+ {
3213
+ "epoch": 3.991111111111111,
3214
+ "grad_norm": 2.5362730026245117,
3215
+ "learning_rate": 6.733333333333333e-08,
3216
+ "loss": 0.1148,
3217
+ "step": 44900
3218
+ },
3219
+ {
3220
+ "epoch": 4.0,
3221
+ "grad_norm": 1.8079057931900024,
3222
+ "learning_rate": 6.666666666666667e-10,
3223
+ "loss": 0.1141,
3224
+ "step": 45000
3225
+ },
3226
+ {
3227
+ "epoch": 4.0,
3228
+ "eval_loss": 0.11760604381561279,
3229
+ "eval_runtime": 212.0163,
3230
+ "eval_samples_per_second": 47.166,
3231
+ "eval_steps_per_second": 5.896,
3232
+ "step": 45000
3233
+ }
3234
+ ],
3235
+ "logging_steps": 100,
3236
+ "max_steps": 45000,
3237
+ "num_input_tokens_seen": 0,
3238
+ "num_train_epochs": 4,
3239
+ "save_steps": 5000,
3240
+ "stateful_callbacks": {
3241
+ "EarlyStoppingCallback": {
3242
+ "args": {
3243
+ "early_stopping_patience": 2,
3244
+ "early_stopping_threshold": 0.0
3245
+ },
3246
+ "attributes": {
3247
+ "early_stopping_patience_counter": 0
3248
+ }
3249
+ },
3250
+ "TrainerControl": {
3251
+ "args": {
3252
+ "should_epoch_stop": false,
3253
+ "should_evaluate": false,
3254
+ "should_log": false,
3255
+ "should_save": true,
3256
+ "should_training_stop": true
3257
+ },
3258
+ "attributes": {}
3259
+ }
3260
+ },
3261
+ "total_flos": 4.703256576e+16,
3262
+ "train_batch_size": 8,
3263
+ "trial_name": null,
3264
+ "trial_params": null
3265
+ }
checkpoint-45000/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0b5f533eefab8fbf2b77e00f0333c4b6b9cd3cf7aa705a108b1b663e249b2de7
3
+ size 5304
checkpoint-45000/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "activation_function": "gelu_new",
3
+ "architectures": [
4
+ "GPT2LMHeadModel"
5
+ ],
6
+ "attn_pdrop": 0.1,
7
+ "bos_token_id": 50256,
8
+ "embd_pdrop": 0.1,
9
+ "eos_token_id": 50256,
10
+ "initializer_range": 0.02,
11
+ "layer_norm_epsilon": 1e-05,
12
+ "model_type": "gpt2",
13
+ "n_ctx": 1024,
14
+ "n_embd": 768,
15
+ "n_head": 12,
16
+ "n_inner": null,
17
+ "n_layer": 12,
18
+ "n_positions": 1024,
19
+ "reorder_and_upcast_attn": false,
20
+ "resid_pdrop": 0.1,
21
+ "scale_attn_by_inverse_layer_idx": false,
22
+ "scale_attn_weights": true,
23
+ "summary_activation": null,
24
+ "summary_first_dropout": 0.1,
25
+ "summary_proj_to_labels": true,
26
+ "summary_type": "cls_index",
27
+ "summary_use_proj": true,
28
+ "task_specific_params": {
29
+ "text-generation": {
30
+ "do_sample": true,
31
+ "max_length": 50
32
+ }
33
+ },
34
+ "torch_dtype": "float32",
35
+ "transformers_version": "4.52.4",
36
+ "use_cache": true,
37
+ "vocab_size": 50257
38
+ }
generation_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 50256,
4
+ "eos_token_id": 50256,
5
+ "transformers_version": "4.52.4"
6
+ }
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f7882cef026f5b631de5c3e56bfe7367c976565a61c914b56fc7b1c8ccad767f
3
+ size 497774208
special_tokens_map.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<|endoftext|>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "eos_token": {
10
+ "content": "<|endoftext|>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": "<|endoftext|>",
17
+ "unk_token": {
18
+ "content": "<|endoftext|>",
19
+ "lstrip": false,
20
+ "normalized": true,
21
+ "rstrip": false,
22
+ "single_word": false
23
+ }
24
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": false,
3
+ "add_prefix_space": false,
4
+ "added_tokens_decoder": {
5
+ "50256": {
6
+ "content": "<|endoftext|>",
7
+ "lstrip": false,
8
+ "normalized": true,
9
+ "rstrip": false,
10
+ "single_word": false,
11
+ "special": true
12
+ }
13
+ },
14
+ "bos_token": "<|endoftext|>",
15
+ "clean_up_tokenization_spaces": false,
16
+ "eos_token": "<|endoftext|>",
17
+ "errors": "replace",
18
+ "extra_special_tokens": {},
19
+ "model_max_length": 1024,
20
+ "pad_token": "<|endoftext|>",
21
+ "tokenizer_class": "GPT2Tokenizer",
22
+ "unk_token": "<|endoftext|>"
23
+ }
vocab.json ADDED
The diff for this file is too large to render. See raw diff