ssktora commited on Jul 14, 2025

Commit

aef95da

verified ·

1 Parent(s): 8d2ec05

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-11118/config.json +26 -0
checkpoint-11118/optimizer.pt +3 -0
checkpoint-11118/pytorch_model.bin +3 -0
checkpoint-11118/rng_state.pth +3 -0
checkpoint-11118/scheduler.pt +3 -0
checkpoint-11118/tokenizer.json +0 -0
checkpoint-11118/tokenizer_config.json +55 -0
checkpoint-11118/trainer_state.json +0 -0
checkpoint-11118/training_args.bin +3 -0
checkpoint-11118/vocab.txt +0 -0
checkpoint-12971/config.json +26 -0
checkpoint-12971/optimizer.pt +3 -0
checkpoint-12971/pytorch_model.bin +3 -0
checkpoint-12971/rng_state.pth +3 -0
checkpoint-12971/scheduler.pt +3 -0
checkpoint-12971/tokenizer.json +0 -0
checkpoint-12971/tokenizer_config.json +55 -0
checkpoint-12971/trainer_state.json +0 -0
checkpoint-12971/training_args.bin +3 -0
checkpoint-12971/vocab.txt +0 -0
checkpoint-14824/config.json +26 -0
checkpoint-14824/optimizer.pt +3 -0
checkpoint-14824/pytorch_model.bin +3 -0
checkpoint-14824/rng_state.pth +3 -0
checkpoint-14824/scheduler.pt +3 -0
checkpoint-14824/tokenizer.json +0 -0
checkpoint-14824/tokenizer_config.json +55 -0
checkpoint-14824/trainer_state.json +0 -0
checkpoint-14824/training_args.bin +3 -0
checkpoint-14824/vocab.txt +0 -0
checkpoint-16677/config.json +26 -0
checkpoint-16677/optimizer.pt +3 -0
checkpoint-16677/pytorch_model.bin +3 -0
checkpoint-16677/rng_state.pth +3 -0
checkpoint-16677/scheduler.pt +3 -0
checkpoint-16677/tokenizer.json +0 -0
checkpoint-16677/tokenizer_config.json +55 -0
checkpoint-16677/trainer_state.json +0 -0
checkpoint-16677/training_args.bin +3 -0
checkpoint-16677/vocab.txt +0 -0
checkpoint-1853/config.json +26 -0
checkpoint-1853/optimizer.pt +3 -0
checkpoint-1853/pytorch_model.bin +3 -0
checkpoint-1853/rng_state.pth +3 -0
checkpoint-1853/scheduler.pt +3 -0
checkpoint-1853/tokenizer.json +0 -0
checkpoint-1853/tokenizer_config.json +55 -0
checkpoint-1853/trainer_state.json +1328 -0
checkpoint-1853/training_args.bin +3 -0
checkpoint-1853/vocab.txt +0 -0

checkpoint-11118/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "intfloat/e5-base-v2",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.43.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-11118/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93c2aeea5976532fcfadfb26faf6adddcdb187ef5e977f69a8c19e35438736aa
+size 871298443

checkpoint-11118/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1388125c28b1ffce6499bdb3a901976778da116fb74b75ddb7dbfee06c2d6bd
+size 437996607

checkpoint-11118/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b540e2f579364899d666b5908117b431fbe801874a126cf16cf7babd2b8a2a12
+size 14645

checkpoint-11118/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:377fe88207e30e42ed2add57e371aa37136f8aac64c0727cadf567d86c5f33bd
+size 1465

checkpoint-11118/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-11118/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-11118/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-11118/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5700588298a783e95c1ce2b2e3e984a108dafdc83314148b0e8703b669b1c239
+size 5777

checkpoint-11118/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-12971/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "intfloat/e5-base-v2",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.43.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-12971/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b562e8660e077a53a09bc774af597650bd077647c324bb13c3f1d228fcf43cb
+size 871298443

checkpoint-12971/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ac531318b31f38b2afe8b1be678c045938d04ceb4a7eb4d3d0718811799d3fd
+size 437996607

checkpoint-12971/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba8019ec3eeab7b0c9d484aca769f45ff0cff286443a69fdd5ab6a881dec17fc
+size 14645

checkpoint-12971/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74051b3bb6700f1fd1e74666c73b717b918a7c8f6fde350756aa4534df66526b
+size 1465

checkpoint-12971/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-12971/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-12971/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-12971/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5700588298a783e95c1ce2b2e3e984a108dafdc83314148b0e8703b669b1c239
+size 5777

checkpoint-12971/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-14824/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "intfloat/e5-base-v2",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.43.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-14824/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33d7871763ea8325875f4333123c14d5d1bcf992b30b264bfb806859ce7190bb
+size 871298443

checkpoint-14824/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:268a12cd1b2d6bbfd230497c41c50782552ba66d12947ef3037590bbc73c7527
+size 437996607

checkpoint-14824/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec4d97a3f14dc200660b4547f67457fca224de922f2bdb06c08e4d85691647f1
+size 14645

checkpoint-14824/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e4c1a6165520754f0146fb1a1349521e95d27576f503d46b69e2ec6e52144b6
+size 1465

checkpoint-14824/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-14824/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-14824/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-14824/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5700588298a783e95c1ce2b2e3e984a108dafdc83314148b0e8703b669b1c239
+size 5777

checkpoint-14824/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-16677/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "intfloat/e5-base-v2",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.43.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-16677/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:303d31db3b9da84fe13482be31e3a3f25098ba7e9851a0557d62c88fdcf41714
+size 871298443

checkpoint-16677/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12b3a64a892befdf1dc0f1ebb03a823b4cd8c46e09f395f1448a124cdb59006b
+size 437996607

checkpoint-16677/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17a49063e95ef6ad97e995553a393b9473379ab9aa8c9ed79537839d4e0119cd
+size 14645

checkpoint-16677/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5394a1eac72e1a904c9364d0afbad631005bbfdd486d10b3d6dff7e1601efcab
+size 1465

checkpoint-16677/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-16677/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-16677/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-16677/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5700588298a783e95c1ce2b2e3e984a108dafdc83314148b0e8703b669b1c239
+size 5777

checkpoint-16677/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1853/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "intfloat/e5-base-v2",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.43.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1853/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:981a19567c04c2b2cb9b1a653a980a4da95c4b67f3d797729c9bf94d9d820221
+size 871298443

checkpoint-1853/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:470805b0ce63601f0782c614826d3963cd29818aaa5de7839d40717da037dbc9
+size 437996607

checkpoint-1853/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b80b6fd6641f8d23bd438cdf6cceef57e16c2fce00df1725f75f09caf97a19de
+size 14645

checkpoint-1853/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d851ecd6c343c0ff07e7ab1a38de41108844243787871e94dabeeeb08eda1c3
+size 1465

checkpoint-1853/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1853/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1853/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1328 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1853,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.005396654074473826,
+      "grad_norm": 29.233814239501953,
+      "learning_rate": 1e-05,
+      "loss": 2.7721,
+      "step": 10
+    },
+    {
+      "epoch": 0.010793308148947653,
+      "grad_norm": 41.590599060058594,
+      "learning_rate": 1e-05,
+      "loss": 1.0356,
+      "step": 20
+    },
+    {
+      "epoch": 0.016189962223421478,
+      "grad_norm": 30.425613403320312,
+      "learning_rate": 1e-05,
+      "loss": 0.9625,
+      "step": 30
+    },
+    {
+      "epoch": 0.021586616297895305,
+      "grad_norm": 18.49728775024414,
+      "learning_rate": 1e-05,
+      "loss": 0.7988,
+      "step": 40
+    },
+    {
+      "epoch": 0.026983270372369132,
+      "grad_norm": 24.669769287109375,
+      "learning_rate": 1e-05,
+      "loss": 0.7037,
+      "step": 50
+    },
+    {
+      "epoch": 0.032379924446842956,
+      "grad_norm": 31.885276794433594,
+      "learning_rate": 1e-05,
+      "loss": 0.7008,
+      "step": 60
+    },
+    {
+      "epoch": 0.037776578521316787,
+      "grad_norm": 39.430580139160156,
+      "learning_rate": 1e-05,
+      "loss": 0.8244,
+      "step": 70
+    },
+    {
+      "epoch": 0.04317323259579061,
+      "grad_norm": 31.985998153686523,
+      "learning_rate": 1e-05,
+      "loss": 0.6062,
+      "step": 80
+    },
+    {
+      "epoch": 0.048569886670264434,
+      "grad_norm": 34.52704620361328,
+      "learning_rate": 1e-05,
+      "loss": 0.6404,
+      "step": 90
+    },
+    {
+      "epoch": 0.053966540744738264,
+      "grad_norm": 26.020505905151367,
+      "learning_rate": 1e-05,
+      "loss": 0.4898,
+      "step": 100
+    },
+    {
+      "epoch": 0.05936319481921209,
+      "grad_norm": 20.571788787841797,
+      "learning_rate": 1e-05,
+      "loss": 0.4647,
+      "step": 110
+    },
+    {
+      "epoch": 0.06475984889368591,
+      "grad_norm": 23.191669464111328,
+      "learning_rate": 1e-05,
+      "loss": 0.514,
+      "step": 120
+    },
+    {
+      "epoch": 0.07015650296815974,
+      "grad_norm": 24.66558074951172,
+      "learning_rate": 1e-05,
+      "loss": 0.4045,
+      "step": 130
+    },
+    {
+      "epoch": 0.07555315704263357,
+      "grad_norm": 21.027311325073242,
+      "learning_rate": 1e-05,
+      "loss": 0.4915,
+      "step": 140
+    },
+    {
+      "epoch": 0.08094981111710739,
+      "grad_norm": 19.729063034057617,
+      "learning_rate": 1e-05,
+      "loss": 0.5797,
+      "step": 150
+    },
+    {
+      "epoch": 0.08634646519158122,
+      "grad_norm": 18.003055572509766,
+      "learning_rate": 1e-05,
+      "loss": 0.4057,
+      "step": 160
+    },
+    {
+      "epoch": 0.09174311926605505,
+      "grad_norm": 17.475120544433594,
+      "learning_rate": 1e-05,
+      "loss": 0.5727,
+      "step": 170
+    },
+    {
+      "epoch": 0.09713977334052887,
+      "grad_norm": 12.938204765319824,
+      "learning_rate": 1e-05,
+      "loss": 0.4603,
+      "step": 180
+    },
+    {
+      "epoch": 0.1025364274150027,
+      "grad_norm": 15.203913688659668,
+      "learning_rate": 1e-05,
+      "loss": 0.3722,
+      "step": 190
+    },
+    {
+      "epoch": 0.10793308148947653,
+      "grad_norm": 14.949216842651367,
+      "learning_rate": 1e-05,
+      "loss": 0.4513,
+      "step": 200
+    },
+    {
+      "epoch": 0.11332973556395035,
+      "grad_norm": 21.059656143188477,
+      "learning_rate": 1e-05,
+      "loss": 0.4286,
+      "step": 210
+    },
+    {
+      "epoch": 0.11872638963842418,
+      "grad_norm": 15.692352294921875,
+      "learning_rate": 1e-05,
+      "loss": 0.3947,
+      "step": 220
+    },
+    {
+      "epoch": 0.124123043712898,
+      "grad_norm": 16.783273696899414,
+      "learning_rate": 1e-05,
+      "loss": 0.316,
+      "step": 230
+    },
+    {
+      "epoch": 0.12951969778737182,
+      "grad_norm": 13.165032386779785,
+      "learning_rate": 1e-05,
+      "loss": 0.3057,
+      "step": 240
+    },
+    {
+      "epoch": 0.13491635186184567,
+      "grad_norm": 11.906001091003418,
+      "learning_rate": 1e-05,
+      "loss": 0.335,
+      "step": 250
+    },
+    {
+      "epoch": 0.14031300593631948,
+      "grad_norm": 11.135077476501465,
+      "learning_rate": 1e-05,
+      "loss": 0.3502,
+      "step": 260
+    },
+    {
+      "epoch": 0.1457096600107933,
+      "grad_norm": 13.552120208740234,
+      "learning_rate": 1e-05,
+      "loss": 0.4856,
+      "step": 270
+    },
+    {
+      "epoch": 0.15110631408526715,
+      "grad_norm": 8.249211311340332,
+      "learning_rate": 1e-05,
+      "loss": 0.3541,
+      "step": 280
+    },
+    {
+      "epoch": 0.15650296815974096,
+      "grad_norm": 9.598445892333984,
+      "learning_rate": 1e-05,
+      "loss": 0.3433,
+      "step": 290
+    },
+    {
+      "epoch": 0.16189962223421478,
+      "grad_norm": 14.606228828430176,
+      "learning_rate": 1e-05,
+      "loss": 0.3092,
+      "step": 300
+    },
+    {
+      "epoch": 0.16729627630868862,
+      "grad_norm": 14.358266830444336,
+      "learning_rate": 1e-05,
+      "loss": 0.2367,
+      "step": 310
+    },
+    {
+      "epoch": 0.17269293038316244,
+      "grad_norm": 13.869871139526367,
+      "learning_rate": 1e-05,
+      "loss": 0.3792,
+      "step": 320
+    },
+    {
+      "epoch": 0.17808958445763626,
+      "grad_norm": 6.00723934173584,
+      "learning_rate": 1e-05,
+      "loss": 0.2773,
+      "step": 330
+    },
+    {
+      "epoch": 0.1834862385321101,
+      "grad_norm": 9.07499885559082,
+      "learning_rate": 1e-05,
+      "loss": 0.2157,
+      "step": 340
+    },
+    {
+      "epoch": 0.18888289260658392,
+      "grad_norm": 10.11136531829834,
+      "learning_rate": 1e-05,
+      "loss": 0.2814,
+      "step": 350
+    },
+    {
+      "epoch": 0.19427954668105774,
+      "grad_norm": 8.610591888427734,
+      "learning_rate": 1e-05,
+      "loss": 0.3358,
+      "step": 360
+    },
+    {
+      "epoch": 0.19967620075553158,
+      "grad_norm": 7.348660945892334,
+      "learning_rate": 1e-05,
+      "loss": 0.3133,
+      "step": 370
+    },
+    {
+      "epoch": 0.2050728548300054,
+      "grad_norm": 9.130489349365234,
+      "learning_rate": 1e-05,
+      "loss": 0.3825,
+      "step": 380
+    },
+    {
+      "epoch": 0.2104695089044792,
+      "grad_norm": 10.860395431518555,
+      "learning_rate": 1e-05,
+      "loss": 0.2901,
+      "step": 390
+    },
+    {
+      "epoch": 0.21586616297895306,
+      "grad_norm": 13.92383861541748,
+      "learning_rate": 1e-05,
+      "loss": 0.2765,
+      "step": 400
+    },
+    {
+      "epoch": 0.22126281705342687,
+      "grad_norm": 10.262186050415039,
+      "learning_rate": 1e-05,
+      "loss": 0.3204,
+      "step": 410
+    },
+    {
+      "epoch": 0.2266594711279007,
+      "grad_norm": 12.785383224487305,
+      "learning_rate": 1e-05,
+      "loss": 0.2899,
+      "step": 420
+    },
+    {
+      "epoch": 0.23205612520237454,
+      "grad_norm": 7.4662089347839355,
+      "learning_rate": 1e-05,
+      "loss": 0.2543,
+      "step": 430
+    },
+    {
+      "epoch": 0.23745277927684835,
+      "grad_norm": 9.430139541625977,
+      "learning_rate": 1e-05,
+      "loss": 0.2249,
+      "step": 440
+    },
+    {
+      "epoch": 0.24284943335132217,
+      "grad_norm": 15.234227180480957,
+      "learning_rate": 1e-05,
+      "loss": 0.2782,
+      "step": 450
+    },
+    {
+      "epoch": 0.248246087425796,
+      "grad_norm": 12.813672065734863,
+      "learning_rate": 1e-05,
+      "loss": 0.3109,
+      "step": 460
+    },
+    {
+      "epoch": 0.25364274150026983,
+      "grad_norm": 8.589320182800293,
+      "learning_rate": 1e-05,
+      "loss": 0.2568,
+      "step": 470
+    },
+    {
+      "epoch": 0.25903939557474365,
+      "grad_norm": 10.285687446594238,
+      "learning_rate": 1e-05,
+      "loss": 0.3188,
+      "step": 480
+    },
+    {
+      "epoch": 0.26443604964921746,
+      "grad_norm": 6.851498126983643,
+      "learning_rate": 1e-05,
+      "loss": 0.281,
+      "step": 490
+    },
+    {
+      "epoch": 0.26983270372369134,
+      "grad_norm": 14.00925064086914,
+      "learning_rate": 1e-05,
+      "loss": 0.3208,
+      "step": 500
+    },
+    {
+      "epoch": 0.27522935779816515,
+      "grad_norm": 5.691648006439209,
+      "learning_rate": 1e-05,
+      "loss": 0.2477,
+      "step": 510
+    },
+    {
+      "epoch": 0.28062601187263897,
+      "grad_norm": 9.477752685546875,
+      "learning_rate": 1e-05,
+      "loss": 0.2657,
+      "step": 520
+    },
+    {
+      "epoch": 0.2860226659471128,
+      "grad_norm": 14.55162525177002,
+      "learning_rate": 1e-05,
+      "loss": 0.315,
+      "step": 530
+    },
+    {
+      "epoch": 0.2914193200215866,
+      "grad_norm": 8.495135307312012,
+      "learning_rate": 1e-05,
+      "loss": 0.1899,
+      "step": 540
+    },
+    {
+      "epoch": 0.2968159740960604,
+      "grad_norm": 7.937713146209717,
+      "learning_rate": 1e-05,
+      "loss": 0.2235,
+      "step": 550
+    },
+    {
+      "epoch": 0.3022126281705343,
+      "grad_norm": 6.74868631362915,
+      "learning_rate": 1e-05,
+      "loss": 0.2017,
+      "step": 560
+    },
+    {
+      "epoch": 0.3076092822450081,
+      "grad_norm": 10.642626762390137,
+      "learning_rate": 1e-05,
+      "loss": 0.271,
+      "step": 570
+    },
+    {
+      "epoch": 0.3130059363194819,
+      "grad_norm": 7.630133628845215,
+      "learning_rate": 1e-05,
+      "loss": 0.2843,
+      "step": 580
+    },
+    {
+      "epoch": 0.31840259039395574,
+      "grad_norm": 7.430366516113281,
+      "learning_rate": 1e-05,
+      "loss": 0.3251,
+      "step": 590
+    },
+    {
+      "epoch": 0.32379924446842956,
+      "grad_norm": 9.424999237060547,
+      "learning_rate": 1e-05,
+      "loss": 0.2786,
+      "step": 600
+    },
+    {
+      "epoch": 0.3291958985429034,
+      "grad_norm": 9.91606330871582,
+      "learning_rate": 1e-05,
+      "loss": 0.3073,
+      "step": 610
+    },
+    {
+      "epoch": 0.33459255261737725,
+      "grad_norm": 11.460907936096191,
+      "learning_rate": 1e-05,
+      "loss": 0.2649,
+      "step": 620
+    },
+    {
+      "epoch": 0.33998920669185106,
+      "grad_norm": 7.377775192260742,
+      "learning_rate": 1e-05,
+      "loss": 0.2736,
+      "step": 630
+    },
+    {
+      "epoch": 0.3453858607663249,
+      "grad_norm": 6.579836368560791,
+      "learning_rate": 1e-05,
+      "loss": 0.2087,
+      "step": 640
+    },
+    {
+      "epoch": 0.3507825148407987,
+      "grad_norm": 7.274311542510986,
+      "learning_rate": 1e-05,
+      "loss": 0.179,
+      "step": 650
+    },
+    {
+      "epoch": 0.3561791689152725,
+      "grad_norm": 4.020033359527588,
+      "learning_rate": 1e-05,
+      "loss": 0.2366,
+      "step": 660
+    },
+    {
+      "epoch": 0.36157582298974633,
+      "grad_norm": 5.806532382965088,
+      "learning_rate": 1e-05,
+      "loss": 0.2293,
+      "step": 670
+    },
+    {
+      "epoch": 0.3669724770642202,
+      "grad_norm": 9.085073471069336,
+      "learning_rate": 1e-05,
+      "loss": 0.2155,
+      "step": 680
+    },
+    {
+      "epoch": 0.372369131138694,
+      "grad_norm": 6.555941104888916,
+      "learning_rate": 1e-05,
+      "loss": 0.1883,
+      "step": 690
+    },
+    {
+      "epoch": 0.37776578521316784,
+      "grad_norm": 7.962392807006836,
+      "learning_rate": 1e-05,
+      "loss": 0.2434,
+      "step": 700
+    },
+    {
+      "epoch": 0.38316243928764165,
+      "grad_norm": 8.351177215576172,
+      "learning_rate": 1e-05,
+      "loss": 0.2944,
+      "step": 710
+    },
+    {
+      "epoch": 0.38855909336211547,
+      "grad_norm": 8.052698135375977,
+      "learning_rate": 1e-05,
+      "loss": 0.2638,
+      "step": 720
+    },
+    {
+      "epoch": 0.3939557474365893,
+      "grad_norm": 8.064635276794434,
+      "learning_rate": 1e-05,
+      "loss": 0.2193,
+      "step": 730
+    },
+    {
+      "epoch": 0.39935240151106316,
+      "grad_norm": 5.15111780166626,
+      "learning_rate": 1e-05,
+      "loss": 0.2221,
+      "step": 740
+    },
+    {
+      "epoch": 0.404749055585537,
+      "grad_norm": 6.953875541687012,
+      "learning_rate": 1e-05,
+      "loss": 0.3105,
+      "step": 750
+    },
+    {
+      "epoch": 0.4101457096600108,
+      "grad_norm": 6.684737682342529,
+      "learning_rate": 1e-05,
+      "loss": 0.2246,
+      "step": 760
+    },
+    {
+      "epoch": 0.4155423637344846,
+      "grad_norm": 11.400216102600098,
+      "learning_rate": 1e-05,
+      "loss": 0.2972,
+      "step": 770
+    },
+    {
+      "epoch": 0.4209390178089584,
+      "grad_norm": 7.080048561096191,
+      "learning_rate": 1e-05,
+      "loss": 0.2225,
+      "step": 780
+    },
+    {
+      "epoch": 0.4263356718834323,
+      "grad_norm": 8.054226875305176,
+      "learning_rate": 1e-05,
+      "loss": 0.2131,
+      "step": 790
+    },
+    {
+      "epoch": 0.4317323259579061,
+      "grad_norm": 4.726242542266846,
+      "learning_rate": 1e-05,
+      "loss": 0.2632,
+      "step": 800
+    },
+    {
+      "epoch": 0.43712898003237993,
+      "grad_norm": 5.8682942390441895,
+      "learning_rate": 1e-05,
+      "loss": 0.2042,
+      "step": 810
+    },
+    {
+      "epoch": 0.44252563410685375,
+      "grad_norm": 10.576642990112305,
+      "learning_rate": 1e-05,
+      "loss": 0.1665,
+      "step": 820
+    },
+    {
+      "epoch": 0.44792228818132757,
+      "grad_norm": 8.981599807739258,
+      "learning_rate": 1e-05,
+      "loss": 0.2466,
+      "step": 830
+    },
+    {
+      "epoch": 0.4533189422558014,
+      "grad_norm": 5.737548828125,
+      "learning_rate": 1e-05,
+      "loss": 0.2609,
+      "step": 840
+    },
+    {
+      "epoch": 0.45871559633027525,
+      "grad_norm": 8.086627960205078,
+      "learning_rate": 1e-05,
+      "loss": 0.2821,
+      "step": 850
+    },
+    {
+      "epoch": 0.46411225040474907,
+      "grad_norm": 3.403313398361206,
+      "learning_rate": 1e-05,
+      "loss": 0.2281,
+      "step": 860
+    },
+    {
+      "epoch": 0.4695089044792229,
+      "grad_norm": 3.788487672805786,
+      "learning_rate": 1e-05,
+      "loss": 0.2798,
+      "step": 870
+    },
+    {
+      "epoch": 0.4749055585536967,
+      "grad_norm": 2.9724912643432617,
+      "learning_rate": 1e-05,
+      "loss": 0.2317,
+      "step": 880
+    },
+    {
+      "epoch": 0.4803022126281705,
+      "grad_norm": 5.880742073059082,
+      "learning_rate": 1e-05,
+      "loss": 0.2615,
+      "step": 890
+    },
+    {
+      "epoch": 0.48569886670264434,
+      "grad_norm": 4.259861946105957,
+      "learning_rate": 1e-05,
+      "loss": 0.1988,
+      "step": 900
+    },
+    {
+      "epoch": 0.4910955207771182,
+      "grad_norm": 8.759398460388184,
+      "learning_rate": 1e-05,
+      "loss": 0.1831,
+      "step": 910
+    },
+    {
+      "epoch": 0.496492174851592,
+      "grad_norm": 7.270608425140381,
+      "learning_rate": 1e-05,
+      "loss": 0.2976,
+      "step": 920
+    },
+    {
+      "epoch": 0.5018888289260658,
+      "grad_norm": 8.03155517578125,
+      "learning_rate": 1e-05,
+      "loss": 0.2559,
+      "step": 930
+    },
+    {
+      "epoch": 0.5072854830005397,
+      "grad_norm": 8.855595588684082,
+      "learning_rate": 1e-05,
+      "loss": 0.207,
+      "step": 940
+    },
+    {
+      "epoch": 0.5126821370750135,
+      "grad_norm": 10.3396577835083,
+      "learning_rate": 1e-05,
+      "loss": 0.2343,
+      "step": 950
+    },
+    {
+      "epoch": 0.5180787911494873,
+      "grad_norm": 7.144564628601074,
+      "learning_rate": 1e-05,
+      "loss": 0.3085,
+      "step": 960
+    },
+    {
+      "epoch": 0.5234754452239612,
+      "grad_norm": 6.791202068328857,
+      "learning_rate": 1e-05,
+      "loss": 0.2256,
+      "step": 970
+    },
+    {
+      "epoch": 0.5288720992984349,
+      "grad_norm": 10.9970064163208,
+      "learning_rate": 1e-05,
+      "loss": 0.2426,
+      "step": 980
+    },
+    {
+      "epoch": 0.5342687533729088,
+      "grad_norm": 10.478626251220703,
+      "learning_rate": 1e-05,
+      "loss": 0.2366,
+      "step": 990
+    },
+    {
+      "epoch": 0.5396654074473827,
+      "grad_norm": 7.615540504455566,
+      "learning_rate": 1e-05,
+      "loss": 0.2386,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5450620615218564,
+      "grad_norm": 10.919700622558594,
+      "learning_rate": 1e-05,
+      "loss": 0.2146,
+      "step": 1010
+    },
+    {
+      "epoch": 0.5504587155963303,
+      "grad_norm": 5.4628095626831055,
+      "learning_rate": 1e-05,
+      "loss": 0.1707,
+      "step": 1020
+    },
+    {
+      "epoch": 0.5558553696708041,
+      "grad_norm": 7.794273853302002,
+      "learning_rate": 1e-05,
+      "loss": 0.2188,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5612520237452779,
+      "grad_norm": 3.660203695297241,
+      "learning_rate": 1e-05,
+      "loss": 0.2031,
+      "step": 1040
+    },
+    {
+      "epoch": 0.5666486778197517,
+      "grad_norm": 6.309048652648926,
+      "learning_rate": 1e-05,
+      "loss": 0.1868,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5720453318942256,
+      "grad_norm": 4.429934024810791,
+      "learning_rate": 1e-05,
+      "loss": 0.225,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5774419859686994,
+      "grad_norm": 7.08953857421875,
+      "learning_rate": 1e-05,
+      "loss": 0.2234,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5828386400431732,
+      "grad_norm": 5.881676197052002,
+      "learning_rate": 1e-05,
+      "loss": 0.1651,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 7.384402275085449,
+      "learning_rate": 1e-05,
+      "loss": 0.1686,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5936319481921208,
+      "grad_norm": 6.034684658050537,
+      "learning_rate": 1e-05,
+      "loss": 0.2284,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5990286022665947,
+      "grad_norm": 2.630262613296509,
+      "learning_rate": 1e-05,
+      "loss": 0.2197,
+      "step": 1110
+    },
+    {
+      "epoch": 0.6044252563410686,
+      "grad_norm": 6.340832233428955,
+      "learning_rate": 1e-05,
+      "loss": 0.1857,
+      "step": 1120
+    },
+    {
+      "epoch": 0.6098219104155423,
+      "grad_norm": 9.152372360229492,
+      "learning_rate": 1e-05,
+      "loss": 0.2412,
+      "step": 1130
+    },
+    {
+      "epoch": 0.6152185644900162,
+      "grad_norm": 5.497441291809082,
+      "learning_rate": 1e-05,
+      "loss": 0.1669,
+      "step": 1140
+    },
+    {
+      "epoch": 0.62061521856449,
+      "grad_norm": 9.082748413085938,
+      "learning_rate": 1e-05,
+      "loss": 0.156,
+      "step": 1150
+    },
+    {
+      "epoch": 0.6260118726389639,
+      "grad_norm": 4.197298526763916,
+      "learning_rate": 1e-05,
+      "loss": 0.2195,
+      "step": 1160
+    },
+    {
+      "epoch": 0.6314085267134377,
+      "grad_norm": 6.62587308883667,
+      "learning_rate": 1e-05,
+      "loss": 0.2377,
+      "step": 1170
+    },
+    {
+      "epoch": 0.6368051807879115,
+      "grad_norm": 5.473176956176758,
+      "learning_rate": 1e-05,
+      "loss": 0.1852,
+      "step": 1180
+    },
+    {
+      "epoch": 0.6422018348623854,
+      "grad_norm": 11.426214218139648,
+      "learning_rate": 1e-05,
+      "loss": 0.2576,
+      "step": 1190
+    },
+    {
+      "epoch": 0.6475984889368591,
+      "grad_norm": 5.523359775543213,
+      "learning_rate": 1e-05,
+      "loss": 0.1803,
+      "step": 1200
+    },
+    {
+      "epoch": 0.652995143011333,
+      "grad_norm": 8.255809783935547,
+      "learning_rate": 1e-05,
+      "loss": 0.2187,
+      "step": 1210
+    },
+    {
+      "epoch": 0.6583917970858068,
+      "grad_norm": 6.8662800788879395,
+      "learning_rate": 1e-05,
+      "loss": 0.1688,
+      "step": 1220
+    },
+    {
+      "epoch": 0.6637884511602806,
+      "grad_norm": 6.395972728729248,
+      "learning_rate": 1e-05,
+      "loss": 0.256,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6691851052347545,
+      "grad_norm": 5.074724197387695,
+      "learning_rate": 1e-05,
+      "loss": 0.2205,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6745817593092283,
+      "grad_norm": 8.648845672607422,
+      "learning_rate": 1e-05,
+      "loss": 0.1993,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6799784133837021,
+      "grad_norm": 8.962705612182617,
+      "learning_rate": 1e-05,
+      "loss": 0.1674,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6853750674581759,
+      "grad_norm": 7.555551528930664,
+      "learning_rate": 1e-05,
+      "loss": 0.1769,
+      "step": 1270
+    },
+    {
+      "epoch": 0.6907717215326498,
+      "grad_norm": 7.777824878692627,
+      "learning_rate": 1e-05,
+      "loss": 0.2648,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6961683756071236,
+      "grad_norm": 6.23061990737915,
+      "learning_rate": 1e-05,
+      "loss": 0.2291,
+      "step": 1290
+    },
+    {
+      "epoch": 0.7015650296815974,
+      "grad_norm": 4.784579753875732,
+      "learning_rate": 1e-05,
+      "loss": 0.1657,
+      "step": 1300
+    },
+    {
+      "epoch": 0.7069616837560713,
+      "grad_norm": 5.664929389953613,
+      "learning_rate": 1e-05,
+      "loss": 0.223,
+      "step": 1310
+    },
+    {
+      "epoch": 0.712358337830545,
+      "grad_norm": 5.156897068023682,
+      "learning_rate": 1e-05,
+      "loss": 0.2603,
+      "step": 1320
+    },
+    {
+      "epoch": 0.7177549919050189,
+      "grad_norm": 4.825225830078125,
+      "learning_rate": 1e-05,
+      "loss": 0.2073,
+      "step": 1330
+    },
+    {
+      "epoch": 0.7231516459794927,
+      "grad_norm": 4.079571723937988,
+      "learning_rate": 1e-05,
+      "loss": 0.1721,
+      "step": 1340
+    },
+    {
+      "epoch": 0.7285483000539665,
+      "grad_norm": 10.262605667114258,
+      "learning_rate": 1e-05,
+      "loss": 0.2038,
+      "step": 1350
+    },
+    {
+      "epoch": 0.7339449541284404,
+      "grad_norm": 7.239202499389648,
+      "learning_rate": 1e-05,
+      "loss": 0.2468,
+      "step": 1360
+    },
+    {
+      "epoch": 0.7393416082029142,
+      "grad_norm": 4.406205177307129,
+      "learning_rate": 1e-05,
+      "loss": 0.2068,
+      "step": 1370
+    },
+    {
+      "epoch": 0.744738262277388,
+      "grad_norm": 6.728589057922363,
+      "learning_rate": 1e-05,
+      "loss": 0.2275,
+      "step": 1380
+    },
+    {
+      "epoch": 0.7501349163518618,
+      "grad_norm": 10.06982421875,
+      "learning_rate": 1e-05,
+      "loss": 0.2351,
+      "step": 1390
+    },
+    {
+      "epoch": 0.7555315704263357,
+      "grad_norm": 3.351484537124634,
+      "learning_rate": 1e-05,
+      "loss": 0.1853,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7609282245008095,
+      "grad_norm": 7.834474563598633,
+      "learning_rate": 1e-05,
+      "loss": 0.201,
+      "step": 1410
+    },
+    {
+      "epoch": 0.7663248785752833,
+      "grad_norm": 1.604831576347351,
+      "learning_rate": 1e-05,
+      "loss": 0.1967,
+      "step": 1420
+    },
+    {
+      "epoch": 0.7717215326497572,
+      "grad_norm": 8.6753511428833,
+      "learning_rate": 1e-05,
+      "loss": 0.1707,
+      "step": 1430
+    },
+    {
+      "epoch": 0.7771181867242309,
+      "grad_norm": 14.741216659545898,
+      "learning_rate": 1e-05,
+      "loss": 0.228,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7825148407987048,
+      "grad_norm": 11.765339851379395,
+      "learning_rate": 1e-05,
+      "loss": 0.2225,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7879114948731786,
+      "grad_norm": 4.842400550842285,
+      "learning_rate": 1e-05,
+      "loss": 0.1578,
+      "step": 1460
+    },
+    {
+      "epoch": 0.7933081489476524,
+      "grad_norm": 4.625942707061768,
+      "learning_rate": 1e-05,
+      "loss": 0.1773,
+      "step": 1470
+    },
+    {
+      "epoch": 0.7987048030221263,
+      "grad_norm": 5.874000072479248,
+      "learning_rate": 1e-05,
+      "loss": 0.2121,
+      "step": 1480
+    },
+    {
+      "epoch": 0.8041014570966001,
+      "grad_norm": 8.645938873291016,
+      "learning_rate": 1e-05,
+      "loss": 0.1781,
+      "step": 1490
+    },
+    {
+      "epoch": 0.809498111171074,
+      "grad_norm": 9.911633491516113,
+      "learning_rate": 1e-05,
+      "loss": 0.193,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8148947652455477,
+      "grad_norm": 10.095293998718262,
+      "learning_rate": 1e-05,
+      "loss": 0.2153,
+      "step": 1510
+    },
+    {
+      "epoch": 0.8202914193200216,
+      "grad_norm": 7.327795505523682,
+      "learning_rate": 1e-05,
+      "loss": 0.1971,
+      "step": 1520
+    },
+    {
+      "epoch": 0.8256880733944955,
+      "grad_norm": 8.179699897766113,
+      "learning_rate": 1e-05,
+      "loss": 0.2281,
+      "step": 1530
+    },
+    {
+      "epoch": 0.8310847274689692,
+      "grad_norm": 8.069372177124023,
+      "learning_rate": 1e-05,
+      "loss": 0.1693,
+      "step": 1540
+    },
+    {
+      "epoch": 0.8364813815434431,
+      "grad_norm": 4.130002975463867,
+      "learning_rate": 1e-05,
+      "loss": 0.2075,
+      "step": 1550
+    },
+    {
+      "epoch": 0.8418780356179169,
+      "grad_norm": 5.865467548370361,
+      "learning_rate": 1e-05,
+      "loss": 0.1454,
+      "step": 1560
+    },
+    {
+      "epoch": 0.8472746896923907,
+      "grad_norm": 7.074893474578857,
+      "learning_rate": 1e-05,
+      "loss": 0.225,
+      "step": 1570
+    },
+    {
+      "epoch": 0.8526713437668646,
+      "grad_norm": 7.433347225189209,
+      "learning_rate": 1e-05,
+      "loss": 0.2137,
+      "step": 1580
+    },
+    {
+      "epoch": 0.8580679978413384,
+      "grad_norm": 4.781975746154785,
+      "learning_rate": 1e-05,
+      "loss": 0.1458,
+      "step": 1590
+    },
+    {
+      "epoch": 0.8634646519158122,
+      "grad_norm": 4.815838813781738,
+      "learning_rate": 1e-05,
+      "loss": 0.1881,
+      "step": 1600
+    },
+    {
+      "epoch": 0.868861305990286,
+      "grad_norm": 5.3275146484375,
+      "learning_rate": 1e-05,
+      "loss": 0.1683,
+      "step": 1610
+    },
+    {
+      "epoch": 0.8742579600647599,
+      "grad_norm": 4.237251281738281,
+      "learning_rate": 1e-05,
+      "loss": 0.204,
+      "step": 1620
+    },
+    {
+      "epoch": 0.8796546141392336,
+      "grad_norm": 4.050580978393555,
+      "learning_rate": 1e-05,
+      "loss": 0.1707,
+      "step": 1630
+    },
+    {
+      "epoch": 0.8850512682137075,
+      "grad_norm": 10.195475578308105,
+      "learning_rate": 1e-05,
+      "loss": 0.1637,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8904479222881814,
+      "grad_norm": 7.7511091232299805,
+      "learning_rate": 1e-05,
+      "loss": 0.2098,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8958445763626551,
+      "grad_norm": 5.1113715171813965,
+      "learning_rate": 1e-05,
+      "loss": 0.1749,
+      "step": 1660
+    },
+    {
+      "epoch": 0.901241230437129,
+      "grad_norm": 4.634021282196045,
+      "learning_rate": 1e-05,
+      "loss": 0.2138,
+      "step": 1670
+    },
+    {
+      "epoch": 0.9066378845116028,
+      "grad_norm": 9.203325271606445,
+      "learning_rate": 1e-05,
+      "loss": 0.2056,
+      "step": 1680
+    },
+    {
+      "epoch": 0.9120345385860766,
+      "grad_norm": 9.506570816040039,
+      "learning_rate": 1e-05,
+      "loss": 0.2172,
+      "step": 1690
+    },
+    {
+      "epoch": 0.9174311926605505,
+      "grad_norm": 7.978335857391357,
+      "learning_rate": 1e-05,
+      "loss": 0.1842,
+      "step": 1700
+    },
+    {
+      "epoch": 0.9228278467350243,
+      "grad_norm": 5.630960941314697,
+      "learning_rate": 1e-05,
+      "loss": 0.1644,
+      "step": 1710
+    },
+    {
+      "epoch": 0.9282245008094981,
+      "grad_norm": 4.95536470413208,
+      "learning_rate": 1e-05,
+      "loss": 0.2139,
+      "step": 1720
+    },
+    {
+      "epoch": 0.9336211548839719,
+      "grad_norm": 5.746067047119141,
+      "learning_rate": 1e-05,
+      "loss": 0.175,
+      "step": 1730
+    },
+    {
+      "epoch": 0.9390178089584458,
+      "grad_norm": 7.568691253662109,
+      "learning_rate": 1e-05,
+      "loss": 0.173,
+      "step": 1740
+    },
+    {
+      "epoch": 0.9444144630329195,
+      "grad_norm": 1.8593629598617554,
+      "learning_rate": 1e-05,
+      "loss": 0.2013,
+      "step": 1750
+    },
+    {
+      "epoch": 0.9498111171073934,
+      "grad_norm": 5.8079962730407715,
+      "learning_rate": 1e-05,
+      "loss": 0.1986,
+      "step": 1760
+    },
+    {
+      "epoch": 0.9552077711818673,
+      "grad_norm": 4.595200061798096,
+      "learning_rate": 1e-05,
+      "loss": 0.1582,
+      "step": 1770
+    },
+    {
+      "epoch": 0.960604425256341,
+      "grad_norm": 4.077558994293213,
+      "learning_rate": 1e-05,
+      "loss": 0.1965,
+      "step": 1780
+    },
+    {
+      "epoch": 0.9660010793308149,
+      "grad_norm": 5.77232551574707,
+      "learning_rate": 1e-05,
+      "loss": 0.1555,
+      "step": 1790
+    },
+    {
+      "epoch": 0.9713977334052887,
+      "grad_norm": 6.829488754272461,
+      "learning_rate": 1e-05,
+      "loss": 0.194,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9767943874797625,
+      "grad_norm": 7.6999897956848145,
+      "learning_rate": 1e-05,
+      "loss": 0.1901,
+      "step": 1810
+    },
+    {
+      "epoch": 0.9821910415542364,
+      "grad_norm": 5.529928207397461,
+      "learning_rate": 1e-05,
+      "loss": 0.2215,
+      "step": 1820
+    },
+    {
+      "epoch": 0.9875876956287102,
+      "grad_norm": 6.4435811042785645,
+      "learning_rate": 1e-05,
+      "loss": 0.1744,
+      "step": 1830
+    },
+    {
+      "epoch": 0.992984349703184,
+      "grad_norm": 5.611225605010986,
+      "learning_rate": 1e-05,
+      "loss": 0.1787,
+      "step": 1840
+    },
+    {
+      "epoch": 0.9983810037776578,
+      "grad_norm": 3.3860135078430176,
+      "learning_rate": 1e-05,
+      "loss": 0.2011,
+      "step": 1850
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 37060,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1853/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5700588298a783e95c1ce2b2e3e984a108dafdc83314148b0e8703b669b1c239
+size 5777

checkpoint-1853/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff