LamaDiab commited on Jan 5

Commit

3768758

verified ·

1 Parent(s): 850a867

Training checkpoint - Epoch 2, Step 57042

Browse files

Files changed (17) hide show

checkpoint-57042/1_Pooling/config.json +10 -0
checkpoint-57042/config.json +25 -0
checkpoint-57042/config_sentence_transformers.json +14 -0
checkpoint-57042/model.safetensors +3 -0
checkpoint-57042/modules.json +20 -0
checkpoint-57042/optimizer.pt +3 -0
checkpoint-57042/rng_state.pth +3 -0
checkpoint-57042/scaler.pt +3 -0
checkpoint-57042/scheduler.pt +3 -0
checkpoint-57042/sentence_bert_config.json +4 -0
checkpoint-57042/special_tokens_map.json +37 -0
checkpoint-57042/tokenizer.json +0 -0
checkpoint-57042/tokenizer_config.json +65 -0
checkpoint-57042/trainer_state.json +1865 -0
checkpoint-57042/training_args.bin +3 -0
checkpoint-57042/training_metrics.json +690 -0
checkpoint-57042/vocab.txt +0 -0

checkpoint-57042/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "word_embedding_dimension": 384,
+    "pooling_mode_cls_token": false,
+    "pooling_mode_mean_tokens": true,
+    "pooling_mode_max_tokens": false,
+    "pooling_mode_mean_sqrt_len_tokens": false,
+    "pooling_mode_weightedmean_tokens": false,
+    "pooling_mode_lasttoken": false,
+    "include_prompt": true
+}

checkpoint-57042/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-57042/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "__version__": {
+    "sentence_transformers": "5.2.0",
+    "transformers": "4.53.3",
+    "pytorch": "2.6.0+cu124"
+  },
+  "model_type": "SentenceTransformer",
+  "prompts": {
+    "query": "",
+    "document": ""
+  },
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

checkpoint-57042/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fa4dd5e5ab58a0ce773dec39f759f8ff139c6b50c44beaf16703ec6c795a758
+size 90864192

checkpoint-57042/modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

checkpoint-57042/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd99288d94d2f78e5a9a216377148413a9e295d669dec896120b1e7506ef0ad6
+size 180607738

checkpoint-57042/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:700fead5c89801a559d151a1cea19ed26b88519f691c5cfd529302092e558fc3
+size 14244

checkpoint-57042/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba0c521ea971aa39030ac11278b6703a0ece08ef82b003502b2c8e0190c8d51c
+size 988

checkpoint-57042/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07d9e8080fec39842ebaec88e69ae07e33a43214c8e33825c558a3c743194bed
+size 1064

checkpoint-57042/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "max_seq_length": 256,
+    "do_lower_case": false
+}

checkpoint-57042/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-57042/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-57042/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 128,
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

checkpoint-57042/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1865 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 57042,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 3.5061884225658285e-05,
+      "grad_norm": Infinity,
+      "learning_rate": 0.0,
+      "loss": 14.1655,
+      "step": 1
+    },
+    {
+      "epoch": 0.017530942112829143,
+      "grad_norm": 46.11793899536133,
+      "learning_rate": 8.695652173913044e-07,
+      "loss": 15.3746,
+      "step": 500
+    },
+    {
+      "epoch": 0.017530942112829143,
+      "eval_cosine_accuracy": 0.9304001331329346,
+      "eval_loss": 10.808653831481934,
+      "eval_runtime": 50.0101,
+      "eval_samples_per_second": 378.244,
+      "eval_steps_per_second": 1.48,
+      "step": 500
+    },
+    {
+      "epoch": 0.035061884225658285,
+      "grad_norm": 6.935111045837402,
+      "learning_rate": 1.7461430575035066e-06,
+      "loss": 11.7216,
+      "step": 1000
+    },
+    {
+      "epoch": 0.035061884225658285,
+      "eval_cosine_accuracy": 0.9219266772270203,
+      "eval_loss": 9.035820007324219,
+      "eval_runtime": 51.3273,
+      "eval_samples_per_second": 368.537,
+      "eval_steps_per_second": 1.442,
+      "step": 1000
+    },
+    {
+      "epoch": 0.05259282633848743,
+      "grad_norm": 4.2704758644104,
+      "learning_rate": 2.622720897615709e-06,
+      "loss": 10.0701,
+      "step": 1500
+    },
+    {
+      "epoch": 0.05259282633848743,
+      "eval_cosine_accuracy": 0.9366985559463501,
+      "eval_loss": 8.834137916564941,
+      "eval_runtime": 50.3538,
+      "eval_samples_per_second": 375.662,
+      "eval_steps_per_second": 1.47,
+      "step": 1500
+    },
+    {
+      "epoch": 0.07012376845131657,
+      "grad_norm": 3.6294240951538086,
+      "learning_rate": 3.49929873772791e-06,
+      "loss": 9.9787,
+      "step": 2000
+    },
+    {
+      "epoch": 0.07012376845131657,
+      "eval_cosine_accuracy": 0.9407313466072083,
+      "eval_loss": 8.768850326538086,
+      "eval_runtime": 50.9215,
+      "eval_samples_per_second": 371.474,
+      "eval_steps_per_second": 1.453,
+      "step": 2000
+    },
+    {
+      "epoch": 0.08765471056414571,
+      "grad_norm": 2.800403356552124,
+      "learning_rate": 4.375876577840113e-06,
+      "loss": 9.9256,
+      "step": 2500
+    },
+    {
+      "epoch": 0.08765471056414571,
+      "eval_cosine_accuracy": 0.9402782320976257,
+      "eval_loss": 8.751864433288574,
+      "eval_runtime": 50.75,
+      "eval_samples_per_second": 372.729,
+      "eval_steps_per_second": 1.458,
+      "step": 2500
+    },
+    {
+      "epoch": 0.10518565267697486,
+      "grad_norm": 2.86800217628479,
+      "learning_rate": 5.252454417952315e-06,
+      "loss": 9.8971,
+      "step": 3000
+    },
+    {
+      "epoch": 0.10518565267697486,
+      "eval_cosine_accuracy": 0.9425438642501831,
+      "eval_loss": 8.732973098754883,
+      "eval_runtime": 51.0941,
+      "eval_samples_per_second": 370.219,
+      "eval_steps_per_second": 1.448,
+      "step": 3000
+    },
+    {
+      "epoch": 0.122716594789804,
+      "grad_norm": 2.924982786178589,
+      "learning_rate": 6.129032258064517e-06,
+      "loss": 9.8627,
+      "step": 3500
+    },
+    {
+      "epoch": 0.122716594789804,
+      "eval_cosine_accuracy": 0.9468938112258911,
+      "eval_loss": 8.691949844360352,
+      "eval_runtime": 49.4971,
+      "eval_samples_per_second": 382.164,
+      "eval_steps_per_second": 1.495,
+      "step": 3500
+    },
+    {
+      "epoch": 0.14024753690263314,
+      "grad_norm": 3.102349281311035,
+      "learning_rate": 7.0056100981767185e-06,
+      "loss": 9.8413,
+      "step": 4000
+    },
+    {
+      "epoch": 0.14024753690263314,
+      "eval_cosine_accuracy": 0.9477094411849976,
+      "eval_loss": 8.692930221557617,
+      "eval_runtime": 50.0327,
+      "eval_samples_per_second": 378.073,
+      "eval_steps_per_second": 1.479,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1577784790154623,
+      "grad_norm": 3.3259987831115723,
+      "learning_rate": 7.882187938288921e-06,
+      "loss": 9.8187,
+      "step": 4500
+    },
+    {
+      "epoch": 0.1577784790154623,
+      "eval_cosine_accuracy": 0.9502469301223755,
+      "eval_loss": 8.666604995727539,
+      "eval_runtime": 49.5796,
+      "eval_samples_per_second": 381.528,
+      "eval_steps_per_second": 1.493,
+      "step": 4500
+    },
+    {
+      "epoch": 0.17530942112829143,
+      "grad_norm": 3.461524248123169,
+      "learning_rate": 8.758765778401123e-06,
+      "loss": 9.797,
+      "step": 5000
+    },
+    {
+      "epoch": 0.17530942112829143,
+      "eval_cosine_accuracy": 0.9490235447883606,
+      "eval_loss": 8.687457084655762,
+      "eval_runtime": 50.1782,
+      "eval_samples_per_second": 376.977,
+      "eval_steps_per_second": 1.475,
+      "step": 5000
+    },
+    {
+      "epoch": 0.19284036324112058,
+      "grad_norm": 3.2629499435424805,
+      "learning_rate": 9.635343618513324e-06,
+      "loss": 9.7789,
+      "step": 5500
+    },
+    {
+      "epoch": 0.19284036324112058,
+      "eval_cosine_accuracy": 0.9515156745910645,
+      "eval_loss": 8.682653427124023,
+      "eval_runtime": 49.9304,
+      "eval_samples_per_second": 378.847,
+      "eval_steps_per_second": 1.482,
+      "step": 5500
+    },
+    {
+      "epoch": 0.2103713053539497,
+      "grad_norm": 2.80902361869812,
+      "learning_rate": 1.0511921458625528e-05,
+      "loss": 9.7601,
+      "step": 6000
+    },
+    {
+      "epoch": 0.2103713053539497,
+      "eval_cosine_accuracy": 0.9527844190597534,
+      "eval_loss": 8.673870086669922,
+      "eval_runtime": 49.5168,
+      "eval_samples_per_second": 382.012,
+      "eval_steps_per_second": 1.494,
+      "step": 6000
+    },
+    {
+      "epoch": 0.22790224746677887,
+      "grad_norm": 3.6036148071289062,
+      "learning_rate": 1.138849929873773e-05,
+      "loss": 9.7449,
+      "step": 6500
+    },
+    {
+      "epoch": 0.22790224746677887,
+      "eval_cosine_accuracy": 0.9525125622749329,
+      "eval_loss": 8.690710067749023,
+      "eval_runtime": 51.4523,
+      "eval_samples_per_second": 367.641,
+      "eval_steps_per_second": 1.438,
+      "step": 6500
+    },
+    {
+      "epoch": 0.245433189579608,
+      "grad_norm": 3.008776903152466,
+      "learning_rate": 1.226507713884993e-05,
+      "loss": 9.7281,
+      "step": 7000
+    },
+    {
+      "epoch": 0.245433189579608,
+      "eval_cosine_accuracy": 0.9523313045501709,
+      "eval_loss": 8.720589637756348,
+      "eval_runtime": 50.4169,
+      "eval_samples_per_second": 375.192,
+      "eval_steps_per_second": 1.468,
+      "step": 7000
+    },
+    {
+      "epoch": 0.26296413169243715,
+      "grad_norm": 3.2251088619232178,
+      "learning_rate": 1.3141654978962133e-05,
+      "loss": 9.7162,
+      "step": 7500
+    },
+    {
+      "epoch": 0.26296413169243715,
+      "eval_cosine_accuracy": 0.9521500468254089,
+      "eval_loss": 8.7124662399292,
+      "eval_runtime": 49.9244,
+      "eval_samples_per_second": 378.893,
+      "eval_steps_per_second": 1.482,
+      "step": 7500
+    },
+    {
+      "epoch": 0.2804950738052663,
+      "grad_norm": 3.34848690032959,
+      "learning_rate": 1.4018232819074336e-05,
+      "loss": 9.6994,
+      "step": 8000
+    },
+    {
+      "epoch": 0.2804950738052663,
+      "eval_cosine_accuracy": 0.9511532187461853,
+      "eval_loss": 8.740606307983398,
+      "eval_runtime": 51.2616,
+      "eval_samples_per_second": 369.009,
+      "eval_steps_per_second": 1.444,
+      "step": 8000
+    },
+    {
+      "epoch": 0.29802601591809547,
+      "grad_norm": 3.3112778663635254,
+      "learning_rate": 1.4894810659186536e-05,
+      "loss": 9.6911,
+      "step": 8500
+    },
+    {
+      "epoch": 0.29802601591809547,
+      "eval_cosine_accuracy": 0.9524672627449036,
+      "eval_loss": 8.709793090820312,
+      "eval_runtime": 50.3388,
+      "eval_samples_per_second": 375.774,
+      "eval_steps_per_second": 1.47,
+      "step": 8500
+    },
+    {
+      "epoch": 0.3155569580309246,
+      "grad_norm": 3.034113883972168,
+      "learning_rate": 1.577138849929874e-05,
+      "loss": 9.6785,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3155569580309246,
+      "eval_cosine_accuracy": 0.9522860050201416,
+      "eval_loss": 8.736331939697266,
+      "eval_runtime": 49.8153,
+      "eval_samples_per_second": 379.722,
+      "eval_steps_per_second": 1.485,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3330879001437537,
+      "grad_norm": 3.5567679405212402,
+      "learning_rate": 1.664621318373072e-05,
+      "loss": 9.6627,
+      "step": 9500
+    },
+    {
+      "epoch": 0.3330879001437537,
+      "eval_cosine_accuracy": 0.9511532187461853,
+      "eval_loss": 8.755115509033203,
+      "eval_runtime": 50.7728,
+      "eval_samples_per_second": 372.562,
+      "eval_steps_per_second": 1.457,
+      "step": 9500
+    },
+    {
+      "epoch": 0.35061884225658285,
+      "grad_norm": 3.8073484897613525,
+      "learning_rate": 1.7522791023842917e-05,
+      "loss": 9.6493,
+      "step": 10000
+    },
+    {
+      "epoch": 0.35061884225658285,
+      "eval_cosine_accuracy": 0.9495219588279724,
+      "eval_loss": 8.82080078125,
+      "eval_runtime": 49.6151,
+      "eval_samples_per_second": 381.255,
+      "eval_steps_per_second": 1.491,
+      "step": 10000
+    },
+    {
+      "epoch": 0.36814978436941204,
+      "grad_norm": 3.8539516925811768,
+      "learning_rate": 1.8399368863955122e-05,
+      "loss": 9.6422,
+      "step": 10500
+    },
+    {
+      "epoch": 0.36814978436941204,
+      "eval_cosine_accuracy": 0.9494766592979431,
+      "eval_loss": 8.80677318572998,
+      "eval_runtime": 51.2555,
+      "eval_samples_per_second": 369.053,
+      "eval_steps_per_second": 1.444,
+      "step": 10500
+    },
+    {
+      "epoch": 0.38568072648224117,
+      "grad_norm": 3.997718334197998,
+      "learning_rate": 1.9275946704067323e-05,
+      "loss": 9.6288,
+      "step": 11000
+    },
+    {
+      "epoch": 0.38568072648224117,
+      "eval_cosine_accuracy": 0.948706328868866,
+      "eval_loss": 8.862730026245117,
+      "eval_runtime": 50.5188,
+      "eval_samples_per_second": 374.435,
+      "eval_steps_per_second": 1.465,
+      "step": 11000
+    },
+    {
+      "epoch": 0.4032116685950703,
+      "grad_norm": 4.089541435241699,
+      "learning_rate": 1.9999964570084554e-05,
+      "loss": 9.6166,
+      "step": 11500
+    },
+    {
+      "epoch": 0.4032116685950703,
+      "eval_cosine_accuracy": 0.9495672583580017,
+      "eval_loss": 8.826420783996582,
+      "eval_runtime": 49.7378,
+      "eval_samples_per_second": 380.314,
+      "eval_steps_per_second": 1.488,
+      "step": 11500
+    },
+    {
+      "epoch": 0.4207426107078994,
+      "grad_norm": 3.3106064796447754,
+      "learning_rate": 1.9998387141025913e-05,
+      "loss": 9.6089,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4207426107078994,
+      "eval_cosine_accuracy": 0.9481625556945801,
+      "eval_loss": 8.905811309814453,
+      "eval_runtime": 50.5979,
+      "eval_samples_per_second": 373.849,
+      "eval_steps_per_second": 1.463,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4382735528207286,
+      "grad_norm": 3.426849603652954,
+      "learning_rate": 1.99944696715976e-05,
+      "loss": 9.5992,
+      "step": 12500
+    },
+    {
+      "epoch": 0.4382735528207286,
+      "eval_cosine_accuracy": 0.9498844742774963,
+      "eval_loss": 8.883400917053223,
+      "eval_runtime": 50.1249,
+      "eval_samples_per_second": 377.377,
+      "eval_steps_per_second": 1.476,
+      "step": 12500
+    },
+    {
+      "epoch": 0.45580449493355774,
+      "grad_norm": 2.942359209060669,
+      "learning_rate": 1.9988213078651134e-05,
+      "loss": 9.5968,
+      "step": 13000
+    },
+    {
+      "epoch": 0.45580449493355774,
+      "eval_cosine_accuracy": 0.9498391151428223,
+      "eval_loss": 8.826370239257812,
+      "eval_runtime": 50.4882,
+      "eval_samples_per_second": 374.662,
+      "eval_steps_per_second": 1.466,
+      "step": 13000
+    },
+    {
+      "epoch": 0.47333543704638686,
+      "grad_norm": 3.6883912086486816,
+      "learning_rate": 1.997961882649071e-05,
+      "loss": 9.5859,
+      "step": 13500
+    },
+    {
+      "epoch": 0.47333543704638686,
+      "eval_cosine_accuracy": 0.947437584400177,
+      "eval_loss": 8.92893123626709,
+      "eval_runtime": 49.8701,
+      "eval_samples_per_second": 379.305,
+      "eval_steps_per_second": 1.484,
+      "step": 13500
+    },
+    {
+      "epoch": 0.490866379159216,
+      "grad_norm": 3.4566166400909424,
+      "learning_rate": 1.996871311569756e-05,
+      "loss": 9.5771,
+      "step": 14000
+    },
+    {
+      "epoch": 0.490866379159216,
+      "eval_cosine_accuracy": 0.9474828839302063,
+      "eval_loss": 8.924897193908691,
+      "eval_runtime": 49.7604,
+      "eval_samples_per_second": 380.142,
+      "eval_steps_per_second": 1.487,
+      "step": 14000
+    },
+    {
+      "epoch": 0.5083973212720452,
+      "grad_norm": 4.192228317260742,
+      "learning_rate": 1.9955454789254234e-05,
+      "loss": 9.5657,
+      "step": 14500
+    },
+    {
+      "epoch": 0.5083973212720452,
+      "eval_cosine_accuracy": 0.9468938112258911,
+      "eval_loss": 8.962514877319336,
+      "eval_runtime": 51.4762,
+      "eval_samples_per_second": 367.47,
+      "eval_steps_per_second": 1.438,
+      "step": 14500
+    },
+    {
+      "epoch": 0.5259282633848743,
+      "grad_norm": 4.109299659729004,
+      "learning_rate": 1.9939866470405452e-05,
+      "loss": 9.5571,
+      "step": 15000
+    },
+    {
+      "epoch": 0.5259282633848743,
+      "eval_cosine_accuracy": 0.9458969831466675,
+      "eval_loss": 8.966425895690918,
+      "eval_runtime": 50.6672,
+      "eval_samples_per_second": 373.338,
+      "eval_steps_per_second": 1.461,
+      "step": 15000
+    },
+    {
+      "epoch": 0.5434592054977034,
+      "grad_norm": 3.5839483737945557,
+      "learning_rate": 1.9921951807469183e-05,
+      "loss": 9.5559,
+      "step": 15500
+    },
+    {
+      "epoch": 0.5434592054977034,
+      "eval_cosine_accuracy": 0.9465766549110413,
+      "eval_loss": 8.933329582214355,
+      "eval_runtime": 50.2462,
+      "eval_samples_per_second": 376.466,
+      "eval_steps_per_second": 1.473,
+      "step": 15500
+    },
+    {
+      "epoch": 0.5609901476105326,
+      "grad_norm": 3.516906499862671,
+      "learning_rate": 1.9901800560110894e-05,
+      "loss": 9.5514,
+      "step": 16000
+    },
+    {
+      "epoch": 0.5609901476105326,
+      "eval_cosine_accuracy": 0.9477094411849976,
+      "eval_loss": 8.930047988891602,
+      "eval_runtime": 51.0181,
+      "eval_samples_per_second": 370.771,
+      "eval_steps_per_second": 1.45,
+      "step": 16000
+    },
+    {
+      "epoch": 0.5785210897233617,
+      "grad_norm": 3.535010576248169,
+      "learning_rate": 1.9879255590325465e-05,
+      "loss": 9.5429,
+      "step": 16500
+    },
+    {
+      "epoch": 0.5785210897233617,
+      "eval_cosine_accuracy": 0.9487969279289246,
+      "eval_loss": 8.990011215209961,
+      "eval_runtime": 50.1912,
+      "eval_samples_per_second": 376.879,
+      "eval_steps_per_second": 1.474,
+      "step": 16500
+    },
+    {
+      "epoch": 0.5960520318361909,
+      "grad_norm": 3.881448268890381,
+      "learning_rate": 1.9854398461931087e-05,
+      "loss": 9.5319,
+      "step": 17000
+    },
+    {
+      "epoch": 0.5960520318361909,
+      "eval_cosine_accuracy": 0.943993866443634,
+      "eval_loss": 8.999488830566406,
+      "eval_runtime": 50.1438,
+      "eval_samples_per_second": 377.235,
+      "eval_steps_per_second": 1.476,
+      "step": 17000
+    },
+    {
+      "epoch": 0.6135829739490201,
+      "grad_norm": 3.682716131210327,
+      "learning_rate": 1.982723499253445e-05,
+      "loss": 9.5303,
+      "step": 17500
+    },
+    {
+      "epoch": 0.6135829739490201,
+      "eval_cosine_accuracy": 0.9459422826766968,
+      "eval_loss": 8.963994026184082,
+      "eval_runtime": 51.271,
+      "eval_samples_per_second": 368.941,
+      "eval_steps_per_second": 1.443,
+      "step": 17500
+    },
+    {
+      "epoch": 0.6311139160618492,
+      "grad_norm": 3.4688053131103516,
+      "learning_rate": 1.9797771539522402e-05,
+      "loss": 9.5292,
+      "step": 18000
+    },
+    {
+      "epoch": 0.6311139160618492,
+      "eval_cosine_accuracy": 0.9459422826766968,
+      "eval_loss": 8.978798866271973,
+      "eval_runtime": 51.1172,
+      "eval_samples_per_second": 370.051,
+      "eval_steps_per_second": 1.448,
+      "step": 18000
+    },
+    {
+      "epoch": 0.6486448581746783,
+      "grad_norm": 4.622004985809326,
+      "learning_rate": 1.9766014998574075e-05,
+      "loss": 9.5179,
+      "step": 18500
+    },
+    {
+      "epoch": 0.6486448581746783,
+      "eval_cosine_accuracy": 0.9446282386779785,
+      "eval_loss": 9.016169548034668,
+      "eval_runtime": 50.2418,
+      "eval_samples_per_second": 376.499,
+      "eval_steps_per_second": 1.473,
+      "step": 18500
+    },
+    {
+      "epoch": 0.6661758002875074,
+      "grad_norm": 3.7142796516418457,
+      "learning_rate": 1.973197280204698e-05,
+      "loss": 9.5171,
+      "step": 19000
+    },
+    {
+      "epoch": 0.6661758002875074,
+      "eval_cosine_accuracy": 0.9446282386779785,
+      "eval_loss": 9.053177833557129,
+      "eval_runtime": 51.5419,
+      "eval_samples_per_second": 367.002,
+      "eval_steps_per_second": 1.436,
+      "step": 19000
+    },
+    {
+      "epoch": 0.6837067424003366,
+      "grad_norm": 3.596008539199829,
+      "learning_rate": 1.969565291723755e-05,
+      "loss": 9.509,
+      "step": 19500
+    },
+    {
+      "epoch": 0.6837067424003366,
+      "eval_cosine_accuracy": 0.9444922804832458,
+      "eval_loss": 9.100041389465332,
+      "eval_runtime": 50.8331,
+      "eval_samples_per_second": 372.12,
+      "eval_steps_per_second": 1.456,
+      "step": 19500
+    },
+    {
+      "epoch": 0.7012376845131657,
+      "grad_norm": 3.7148385047912598,
+      "learning_rate": 1.965706384451643e-05,
+      "loss": 9.4974,
+      "step": 20000
+    },
+    {
+      "epoch": 0.7012376845131657,
+      "eval_cosine_accuracy": 0.9441297650337219,
+      "eval_loss": 9.080968856811523,
+      "eval_runtime": 51.7342,
+      "eval_samples_per_second": 365.638,
+      "eval_steps_per_second": 1.43,
+      "step": 20000
+    },
+    {
+      "epoch": 0.7187686266259948,
+      "grad_norm": 4.166687965393066,
+      "learning_rate": 1.9616298563166923e-05,
+      "loss": 9.4997,
+      "step": 20500
+    },
+    {
+      "epoch": 0.7187686266259948,
+      "eval_cosine_accuracy": 0.9448094367980957,
+      "eval_loss": 9.160306930541992,
+      "eval_runtime": 50.2386,
+      "eval_samples_per_second": 376.523,
+      "eval_steps_per_second": 1.473,
+      "step": 20500
+    },
+    {
+      "epoch": 0.7362995687388241,
+      "grad_norm": 3.890392541885376,
+      "learning_rate": 1.9573203229260095e-05,
+      "loss": 9.4949,
+      "step": 21000
+    },
+    {
+      "epoch": 0.7362995687388241,
+      "eval_cosine_accuracy": 0.9433141350746155,
+      "eval_loss": 9.170744895935059,
+      "eval_runtime": 50.2779,
+      "eval_samples_per_second": 376.229,
+      "eval_steps_per_second": 1.472,
+      "step": 21000
+    },
+    {
+      "epoch": 0.7538305108516532,
+      "grad_norm": 4.466862678527832,
+      "learning_rate": 1.9527867365785086e-05,
+      "loss": 9.4909,
+      "step": 21500
+    },
+    {
+      "epoch": 0.7538305108516532,
+      "eval_cosine_accuracy": 0.942679762840271,
+      "eval_loss": 9.167838096618652,
+      "eval_runtime": 51.5157,
+      "eval_samples_per_second": 367.189,
+      "eval_steps_per_second": 1.436,
+      "step": 21500
+    },
+    {
+      "epoch": 0.7713614529644823,
+      "grad_norm": 3.551948308944702,
+      "learning_rate": 1.9480301583228286e-05,
+      "loss": 9.4909,
+      "step": 22000
+    },
+    {
+      "epoch": 0.7713614529644823,
+      "eval_cosine_accuracy": 0.9448094367980957,
+      "eval_loss": 9.07791519165039,
+      "eval_runtime": 50.9951,
+      "eval_samples_per_second": 370.938,
+      "eval_steps_per_second": 1.451,
+      "step": 22000
+    },
+    {
+      "epoch": 0.7888923950773115,
+      "grad_norm": 4.436821460723877,
+      "learning_rate": 1.943061878979968e-05,
+      "loss": 9.4826,
+      "step": 22500
+    },
+    {
+      "epoch": 0.7888923950773115,
+      "eval_cosine_accuracy": 0.9433594346046448,
+      "eval_loss": 9.1586275100708,
+      "eval_runtime": 50.3731,
+      "eval_samples_per_second": 375.518,
+      "eval_steps_per_second": 1.469,
+      "step": 22500
+    },
+    {
+      "epoch": 0.8064233371901406,
+      "grad_norm": 4.032012939453125,
+      "learning_rate": 1.9378631487807903e-05,
+      "loss": 9.4739,
+      "step": 23000
+    },
+    {
+      "epoch": 0.8064233371901406,
+      "eval_cosine_accuracy": 0.9438126087188721,
+      "eval_loss": 9.108503341674805,
+      "eval_runtime": 51.2155,
+      "eval_samples_per_second": 369.341,
+      "eval_steps_per_second": 1.445,
+      "step": 23000
+    },
+    {
+      "epoch": 0.8239542793029697,
+      "grad_norm": 3.9402658939361572,
+      "learning_rate": 1.932444919416554e-05,
+      "loss": 9.4761,
+      "step": 23500
+    },
+    {
+      "epoch": 0.8239542793029697,
+      "eval_cosine_accuracy": 0.9426344633102417,
+      "eval_loss": 9.16297721862793,
+      "eval_runtime": 50.324,
+      "eval_samples_per_second": 375.884,
+      "eval_steps_per_second": 1.47,
+      "step": 23500
+    },
+    {
+      "epoch": 0.8414852214157988,
+      "grad_norm": 4.0512261390686035,
+      "learning_rate": 1.9268199488264804e-05,
+      "loss": 9.4678,
+      "step": 24000
+    },
+    {
+      "epoch": 0.8414852214157988,
+      "eval_cosine_accuracy": 0.9408219456672668,
+      "eval_loss": 9.143158912658691,
+      "eval_runtime": 50.9267,
+      "eval_samples_per_second": 371.436,
+      "eval_steps_per_second": 1.453,
+      "step": 24000
+    },
+    {
+      "epoch": 0.859016163528628,
+      "grad_norm": 4.608471393585205,
+      "learning_rate": 1.920967008957015e-05,
+      "loss": 9.4634,
+      "step": 24500
+    },
+    {
+      "epoch": 0.859016163528628,
+      "eval_cosine_accuracy": 0.9429516792297363,
+      "eval_loss": 9.19399642944336,
+      "eval_runtime": 50.1418,
+      "eval_samples_per_second": 377.25,
+      "eval_steps_per_second": 1.476,
+      "step": 24500
+    },
+    {
+      "epoch": 0.8765471056414572,
+      "grad_norm": 3.4046618938446045,
+      "learning_rate": 1.914898524325209e-05,
+      "loss": 9.4592,
+      "step": 25000
+    },
+    {
+      "epoch": 0.8765471056414572,
+      "eval_cosine_accuracy": 0.942498505115509,
+      "eval_loss": 9.171710014343262,
+      "eval_runtime": 50.5114,
+      "eval_samples_per_second": 374.49,
+      "eval_steps_per_second": 1.465,
+      "step": 25000
+    },
+    {
+      "epoch": 0.8940780477542863,
+      "grad_norm": 4.221813678741455,
+      "learning_rate": 1.908615915210035e-05,
+      "loss": 9.458,
+      "step": 25500
+    },
+    {
+      "epoch": 0.8940780477542863,
+      "eval_cosine_accuracy": 0.9407313466072083,
+      "eval_loss": 9.206527709960938,
+      "eval_runtime": 51.7106,
+      "eval_samples_per_second": 365.805,
+      "eval_steps_per_second": 1.431,
+      "step": 25500
+    },
+    {
+      "epoch": 0.9116089898671155,
+      "grad_norm": 4.586436748504639,
+      "learning_rate": 1.902120652004543e-05,
+      "loss": 9.449,
+      "step": 26000
+    },
+    {
+      "epoch": 0.9116089898671155,
+      "eval_cosine_accuracy": 0.940504789352417,
+      "eval_loss": 9.243682861328125,
+      "eval_runtime": 50.8955,
+      "eval_samples_per_second": 371.664,
+      "eval_steps_per_second": 1.454,
+      "step": 26000
+    },
+    {
+      "epoch": 0.9291399319799446,
+      "grad_norm": 4.309023380279541,
+      "learning_rate": 1.895414254871725e-05,
+      "loss": 9.4469,
+      "step": 26500
+    },
+    {
+      "epoch": 0.9291399319799446,
+      "eval_cosine_accuracy": 0.9420906901359558,
+      "eval_loss": 9.203714370727539,
+      "eval_runtime": 49.9746,
+      "eval_samples_per_second": 378.512,
+      "eval_steps_per_second": 1.481,
+      "step": 26500
+    },
+    {
+      "epoch": 0.9466708740927737,
+      "grad_norm": 3.725597858428955,
+      "learning_rate": 1.8884982933887337e-05,
+      "loss": 9.4501,
+      "step": 27000
+    },
+    {
+      "epoch": 0.9466708740927737,
+      "eval_cosine_accuracy": 0.9427704215049744,
+      "eval_loss": 9.19096565246582,
+      "eval_runtime": 51.4072,
+      "eval_samples_per_second": 367.964,
+      "eval_steps_per_second": 1.439,
+      "step": 27000
+    },
+    {
+      "epoch": 0.9642018162056029,
+      "grad_norm": 4.729601860046387,
+      "learning_rate": 1.8813743861795376e-05,
+      "loss": 9.4492,
+      "step": 27500
+    },
+    {
+      "epoch": 0.9642018162056029,
+      "eval_cosine_accuracy": 0.9398251175880432,
+      "eval_loss": 9.26838493347168,
+      "eval_runtime": 50.8114,
+      "eval_samples_per_second": 372.279,
+      "eval_steps_per_second": 1.456,
+      "step": 27500
+    },
+    {
+      "epoch": 0.981732758318432,
+      "grad_norm": 3.041431188583374,
+      "learning_rate": 1.8740590656409715e-05,
+      "loss": 9.445,
+      "step": 28000
+    },
+    {
+      "epoch": 0.981732758318432,
+      "eval_cosine_accuracy": 0.9418188333511353,
+      "eval_loss": 9.160036087036133,
+      "eval_runtime": 50.8238,
+      "eval_samples_per_second": 372.188,
+      "eval_steps_per_second": 1.456,
+      "step": 28000
+    },
+    {
+      "epoch": 0.9992637004312612,
+      "grad_norm": 3.983847141265869,
+      "learning_rate": 1.8665247245147084e-05,
+      "loss": 9.4356,
+      "step": 28500
+    },
+    {
+      "epoch": 0.9992637004312612,
+      "eval_cosine_accuracy": 0.9409579038619995,
+      "eval_loss": 9.164313316345215,
+      "eval_runtime": 50.3081,
+      "eval_samples_per_second": 376.003,
+      "eval_steps_per_second": 1.471,
+      "step": 28500
+    },
+    {
+      "epoch": 1.0167946425440904,
+      "grad_norm": 4.640812873840332,
+      "learning_rate": 1.8588032558854093e-05,
+      "loss": 9.4184,
+      "step": 29000
+    },
+    {
+      "epoch": 1.0167946425440904,
+      "eval_cosine_accuracy": 0.9420906901359558,
+      "eval_loss": 9.223180770874023,
+      "eval_runtime": 51.2132,
+      "eval_samples_per_second": 369.358,
+      "eval_steps_per_second": 1.445,
+      "step": 29000
+    },
+    {
+      "epoch": 1.0343255846569195,
+      "grad_norm": 4.3706278800964355,
+      "learning_rate": 1.8508655197341246e-05,
+      "loss": 9.4144,
+      "step": 29500
+    },
+    {
+      "epoch": 1.0343255846569195,
+      "eval_cosine_accuracy": 0.9394626021385193,
+      "eval_loss": 9.316435813903809,
+      "eval_runtime": 50.3418,
+      "eval_samples_per_second": 375.752,
+      "eval_steps_per_second": 1.47,
+      "step": 29500
+    },
+    {
+      "epoch": 1.0518565267697486,
+      "grad_norm": 3.948193073272705,
+      "learning_rate": 1.842728645498141e-05,
+      "loss": 9.4131,
+      "step": 30000
+    },
+    {
+      "epoch": 1.0518565267697486,
+      "eval_cosine_accuracy": 0.9401422739028931,
+      "eval_loss": 9.309089660644531,
+      "eval_runtime": 51.3612,
+      "eval_samples_per_second": 368.294,
+      "eval_steps_per_second": 1.441,
+      "step": 30000
+    },
+    {
+      "epoch": 1.0693874688825777,
+      "grad_norm": 5.29146671295166,
+      "learning_rate": 1.834394537546025e-05,
+      "loss": 9.4118,
+      "step": 30500
+    },
+    {
+      "epoch": 1.0693874688825777,
+      "eval_cosine_accuracy": 0.9416828751564026,
+      "eval_loss": 9.266592025756836,
+      "eval_runtime": 50.3878,
+      "eval_samples_per_second": 375.408,
+      "eval_steps_per_second": 1.469,
+      "step": 30500
+    },
+    {
+      "epoch": 1.0869184109954069,
+      "grad_norm": 4.25240421295166,
+      "learning_rate": 1.8258651464072758e-05,
+      "loss": 9.4104,
+      "step": 31000
+    },
+    {
+      "epoch": 1.0869184109954069,
+      "eval_cosine_accuracy": 0.9401422739028931,
+      "eval_loss": 9.272114753723145,
+      "eval_runtime": 51.7763,
+      "eval_samples_per_second": 365.341,
+      "eval_steps_per_second": 1.429,
+      "step": 31000
+    },
+    {
+      "epoch": 1.104449353108236,
+      "grad_norm": 5.2350311279296875,
+      "learning_rate": 1.817142468315816e-05,
+      "loss": 9.4056,
+      "step": 31500
+    },
+    {
+      "epoch": 1.104449353108236,
+      "eval_cosine_accuracy": 0.9388735294342041,
+      "eval_loss": 9.314387321472168,
+      "eval_runtime": 50.6506,
+      "eval_samples_per_second": 373.461,
+      "eval_steps_per_second": 1.461,
+      "step": 31500
+    },
+    {
+      "epoch": 1.1219802952210651,
+      "grad_norm": 4.285799503326416,
+      "learning_rate": 1.8082285447427933e-05,
+      "loss": 9.4055,
+      "step": 32000
+    },
+    {
+      "epoch": 1.1219802952210651,
+      "eval_cosine_accuracy": 0.9386016726493835,
+      "eval_loss": 9.282620429992676,
+      "eval_runtime": 51.0124,
+      "eval_samples_per_second": 370.812,
+      "eval_steps_per_second": 1.451,
+      "step": 32000
+    },
+    {
+      "epoch": 1.1395112373338943,
+      "grad_norm": 4.84486722946167,
+      "learning_rate": 1.7991438554566148e-05,
+      "loss": 9.4042,
+      "step": 32500
+    },
+    {
+      "epoch": 1.1395112373338943,
+      "eval_cosine_accuracy": 0.9377407431602478,
+      "eval_loss": 9.319416046142578,
+      "eval_runtime": 50.2012,
+      "eval_samples_per_second": 376.804,
+      "eval_steps_per_second": 1.474,
+      "step": 32500
+    },
+    {
+      "epoch": 1.1570421794467234,
+      "grad_norm": 3.767106533050537,
+      "learning_rate": 1.789854115785457e-05,
+      "loss": 9.4035,
+      "step": 33000
+    },
+    {
+      "epoch": 1.1570421794467234,
+      "eval_cosine_accuracy": 0.9393266439437866,
+      "eval_loss": 9.259844779968262,
+      "eval_runtime": 50.4864,
+      "eval_samples_per_second": 374.675,
+      "eval_steps_per_second": 1.466,
+      "step": 33000
+    },
+    {
+      "epoch": 1.1745731215595527,
+      "grad_norm": 5.839101791381836,
+      "learning_rate": 1.7803795172474618e-05,
+      "loss": 9.3958,
+      "step": 33500
+    },
+    {
+      "epoch": 1.1745731215595527,
+      "eval_cosine_accuracy": 0.9382844567298889,
+      "eval_loss": 9.356642723083496,
+      "eval_runtime": 52.1548,
+      "eval_samples_per_second": 362.69,
+      "eval_steps_per_second": 1.419,
+      "step": 33500
+    },
+    {
+      "epoch": 1.1921040636723816,
+      "grad_norm": 4.048542022705078,
+      "learning_rate": 1.7707222772945786e-05,
+      "loss": 9.3962,
+      "step": 34000
+    },
+    {
+      "epoch": 1.1921040636723816,
+      "eval_cosine_accuracy": 0.9371063709259033,
+      "eval_loss": 9.368973731994629,
+      "eval_runtime": 51.3806,
+      "eval_samples_per_second": 368.154,
+      "eval_steps_per_second": 1.44,
+      "step": 34000
+    },
+    {
+      "epoch": 1.209635005785211,
+      "grad_norm": 4.300061225891113,
+      "learning_rate": 1.7609045098639108e-05,
+      "loss": 9.3973,
+      "step": 34500
+    },
+    {
+      "epoch": 1.209635005785211,
+      "eval_cosine_accuracy": 0.9370610117912292,
+      "eval_loss": 9.36530876159668,
+      "eval_runtime": 50.7281,
+      "eval_samples_per_second": 372.89,
+      "eval_steps_per_second": 1.459,
+      "step": 34500
+    },
+    {
+      "epoch": 1.2271659478980401,
+      "grad_norm": 5.508227348327637,
+      "learning_rate": 1.750889163723017e-05,
+      "loss": 9.395,
+      "step": 35000
+    },
+    {
+      "epoch": 1.2271659478980401,
+      "eval_cosine_accuracy": 0.9367891550064087,
+      "eval_loss": 9.298746109008789,
+      "eval_runtime": 51.1857,
+      "eval_samples_per_second": 369.557,
+      "eval_steps_per_second": 1.446,
+      "step": 35000
+    },
+    {
+      "epoch": 1.2446968900108693,
+      "grad_norm": 3.7528862953186035,
+      "learning_rate": 1.7406980781422036e-05,
+      "loss": 9.3872,
+      "step": 35500
+    },
+    {
+      "epoch": 1.2446968900108693,
+      "eval_cosine_accuracy": 0.9366078972816467,
+      "eval_loss": 9.427058219909668,
+      "eval_runtime": 50.8986,
+      "eval_samples_per_second": 371.641,
+      "eval_steps_per_second": 1.454,
+      "step": 35500
+    },
+    {
+      "epoch": 1.2622278321236984,
+      "grad_norm": 5.674192905426025,
+      "learning_rate": 1.7303336382613265e-05,
+      "loss": 9.3857,
+      "step": 36000
+    },
+    {
+      "epoch": 1.2622278321236984,
+      "eval_cosine_accuracy": 0.9400516748428345,
+      "eval_loss": 9.360187530517578,
+      "eval_runtime": 51.4823,
+      "eval_samples_per_second": 367.427,
+      "eval_steps_per_second": 1.437,
+      "step": 36000
+    },
+    {
+      "epoch": 1.2797587742365275,
+      "grad_norm": 4.7365241050720215,
+      "learning_rate": 1.719798269792392e-05,
+      "loss": 9.3904,
+      "step": 36500
+    },
+    {
+      "epoch": 1.2797587742365275,
+      "eval_cosine_accuracy": 0.9380578994750977,
+      "eval_loss": 9.40904426574707,
+      "eval_runtime": 50.6761,
+      "eval_samples_per_second": 373.273,
+      "eval_steps_per_second": 1.46,
+      "step": 36500
+    },
+    {
+      "epoch": 1.2972897163493566,
+      "grad_norm": 4.287518501281738,
+      "learning_rate": 1.7090944384518385e-05,
+      "loss": 9.3838,
+      "step": 37000
+    },
+    {
+      "epoch": 1.2972897163493566,
+      "eval_cosine_accuracy": 0.9371063709259033,
+      "eval_loss": 9.43030071258545,
+      "eval_runtime": 51.2054,
+      "eval_samples_per_second": 369.414,
+      "eval_steps_per_second": 1.445,
+      "step": 37000
+    },
+    {
+      "epoch": 1.3148206584621858,
+      "grad_norm": 5.627056121826172,
+      "learning_rate": 1.698246552902906e-05,
+      "loss": 9.375,
+      "step": 37500
+    },
+    {
+      "epoch": 1.3148206584621858,
+      "eval_cosine_accuracy": 0.9366078972816467,
+      "eval_loss": 9.414908409118652,
+      "eval_runtime": 50.5873,
+      "eval_samples_per_second": 373.928,
+      "eval_steps_per_second": 1.463,
+      "step": 37500
+    },
+    {
+      "epoch": 1.332351600575015,
+      "grad_norm": 3.8458166122436523,
+      "learning_rate": 1.687213674354592e-05,
+      "loss": 9.3814,
+      "step": 38000
+    },
+    {
+      "epoch": 1.332351600575015,
+      "eval_cosine_accuracy": 0.9362907409667969,
+      "eval_loss": 9.302230834960938,
+      "eval_runtime": 51.3911,
+      "eval_samples_per_second": 368.079,
+      "eval_steps_per_second": 1.44,
+      "step": 38000
+    },
+    {
+      "epoch": 1.349882542687844,
+      "grad_norm": 4.458573818206787,
+      "learning_rate": 1.6760199590915256e-05,
+      "loss": 9.38,
+      "step": 38500
+    },
+    {
+      "epoch": 1.349882542687844,
+      "eval_cosine_accuracy": 0.9334813356399536,
+      "eval_loss": 9.464284896850586,
+      "eval_runtime": 50.6868,
+      "eval_samples_per_second": 373.194,
+      "eval_steps_per_second": 1.46,
+      "step": 38500
+    },
+    {
+      "epoch": 1.3674134848006732,
+      "grad_norm": 5.627968788146973,
+      "learning_rate": 1.6646680269108032e-05,
+      "loss": 9.3712,
+      "step": 39000
+    },
+    {
+      "epoch": 1.3674134848006732,
+      "eval_cosine_accuracy": 0.9354298114776611,
+      "eval_loss": 9.414664268493652,
+      "eval_runtime": 51.2376,
+      "eval_samples_per_second": 369.182,
+      "eval_steps_per_second": 1.444,
+      "step": 39000
+    },
+    {
+      "epoch": 1.3849444269135023,
+      "grad_norm": 4.634047508239746,
+      "learning_rate": 1.6531837030882992e-05,
+      "loss": 9.3687,
+      "step": 39500
+    },
+    {
+      "epoch": 1.3849444269135023,
+      "eval_cosine_accuracy": 0.9389641284942627,
+      "eval_loss": 9.37267017364502,
+      "eval_runtime": 50.5135,
+      "eval_samples_per_second": 374.474,
+      "eval_steps_per_second": 1.465,
+      "step": 39500
+    },
+    {
+      "epoch": 1.4024753690263314,
+      "grad_norm": 5.698931694030762,
+      "learning_rate": 1.6415236469812062e-05,
+      "loss": 9.3721,
+      "step": 40000
+    },
+    {
+      "epoch": 1.4024753690263314,
+      "eval_cosine_accuracy": 0.9327563643455505,
+      "eval_loss": 9.466745376586914,
+      "eval_runtime": 51.109,
+      "eval_samples_per_second": 370.111,
+      "eval_steps_per_second": 1.448,
+      "step": 40000
+    },
+    {
+      "epoch": 1.4200063111391605,
+      "grad_norm": 5.904776096343994,
+      "learning_rate": 1.6297134475349062e-05,
+      "loss": 9.3665,
+      "step": 40500
+    },
+    {
+      "epoch": 1.4200063111391605,
+      "eval_cosine_accuracy": 0.936834454536438,
+      "eval_loss": 9.418221473693848,
+      "eval_runtime": 50.641,
+      "eval_samples_per_second": 373.531,
+      "eval_steps_per_second": 1.461,
+      "step": 40500
+    },
+    {
+      "epoch": 1.4375372532519899,
+      "grad_norm": 4.435075283050537,
+      "learning_rate": 1.617755868829554e-05,
+      "loss": 9.3679,
+      "step": 41000
+    },
+    {
+      "epoch": 1.4375372532519899,
+      "eval_cosine_accuracy": 0.9358376264572144,
+      "eval_loss": 9.410283088684082,
+      "eval_runtime": 51.0045,
+      "eval_samples_per_second": 370.869,
+      "eval_steps_per_second": 1.451,
+      "step": 41000
+    },
+    {
+      "epoch": 1.4550681953648188,
+      "grad_norm": 3.6580729484558105,
+      "learning_rate": 1.60565370943821e-05,
+      "loss": 9.367,
+      "step": 41500
+    },
+    {
+      "epoch": 1.4550681953648188,
+      "eval_cosine_accuracy": 0.934840738773346,
+      "eval_loss": 9.38784408569336,
+      "eval_runtime": 50.4355,
+      "eval_samples_per_second": 375.053,
+      "eval_steps_per_second": 1.467,
+      "step": 41500
+    },
+    {
+      "epoch": 1.4725991374776481,
+      "grad_norm": 5.021347522735596,
+      "learning_rate": 1.593434429152759e-05,
+      "loss": 9.3629,
+      "step": 42000
+    },
+    {
+      "epoch": 1.4725991374776481,
+      "eval_cosine_accuracy": 0.9335266947746277,
+      "eval_loss": 9.44973373413086,
+      "eval_runtime": 51.1238,
+      "eval_samples_per_second": 370.003,
+      "eval_steps_per_second": 1.447,
+      "step": 42000
+    },
+    {
+      "epoch": 1.4901300795904773,
+      "grad_norm": 4.628762722015381,
+      "learning_rate": 1.5810519136812e-05,
+      "loss": 9.3608,
+      "step": 42500
+    },
+    {
+      "epoch": 1.4901300795904773,
+      "eval_cosine_accuracy": 0.9351578950881958,
+      "eval_loss": 9.441567420959473,
+      "eval_runtime": 51.2421,
+      "eval_samples_per_second": 369.15,
+      "eval_steps_per_second": 1.444,
+      "step": 42500
+    },
+    {
+      "epoch": 1.5076610217033064,
+      "grad_norm": 5.742382526397705,
+      "learning_rate": 1.568533407782813e-05,
+      "loss": 9.3566,
+      "step": 43000
+    },
+    {
+      "epoch": 1.5076610217033064,
+      "eval_cosine_accuracy": 0.9342516660690308,
+      "eval_loss": 9.518505096435547,
+      "eval_runtime": 51.2382,
+      "eval_samples_per_second": 369.178,
+      "eval_steps_per_second": 1.444,
+      "step": 43000
+    },
+    {
+      "epoch": 1.5251919638161355,
+      "grad_norm": 3.848411798477173,
+      "learning_rate": 1.5558818413110603e-05,
+      "loss": 9.3529,
+      "step": 43500
+    },
+    {
+      "epoch": 1.5251919638161355,
+      "eval_cosine_accuracy": 0.9349766373634338,
+      "eval_loss": 9.524738311767578,
+      "eval_runtime": 50.4912,
+      "eval_samples_per_second": 374.64,
+      "eval_steps_per_second": 1.466,
+      "step": 43500
+    },
+    {
+      "epoch": 1.5427229059289647,
+      "grad_norm": 6.790402889251709,
+      "learning_rate": 1.543100175261136e-05,
+      "loss": 9.3562,
+      "step": 44000
+    },
+    {
+      "epoch": 1.5427229059289647,
+      "eval_cosine_accuracy": 0.9335266947746277,
+      "eval_loss": 9.521926879882812,
+      "eval_runtime": 51.1456,
+      "eval_samples_per_second": 369.846,
+      "eval_steps_per_second": 1.447,
+      "step": 44000
+    },
+    {
+      "epoch": 1.5602538480417938,
+      "grad_norm": 6.224915504455566,
+      "learning_rate": 1.5302173434760524e-05,
+      "loss": 9.348,
+      "step": 44500
+    },
+    {
+      "epoch": 1.5602538480417938,
+      "eval_cosine_accuracy": 0.9317141771316528,
+      "eval_loss": 9.596720695495605,
+      "eval_runtime": 50.4506,
+      "eval_samples_per_second": 374.941,
+      "eval_steps_per_second": 1.467,
+      "step": 44500
+    },
+    {
+      "epoch": 1.577784790154623,
+      "grad_norm": 4.383378505706787,
+      "learning_rate": 1.51718472748951e-05,
+      "loss": 9.351,
+      "step": 45000
+    },
+    {
+      "epoch": 1.577784790154623,
+      "eval_cosine_accuracy": 0.9352032542228699,
+      "eval_loss": 9.493390083312988,
+      "eval_runtime": 51.2184,
+      "eval_samples_per_second": 369.32,
+      "eval_steps_per_second": 1.445,
+      "step": 45000
+    },
+    {
+      "epoch": 1.595315732267452,
+      "grad_norm": 3.945154905319214,
+      "learning_rate": 1.5040310686663743e-05,
+      "loss": 9.3453,
+      "step": 45500
+    },
+    {
+      "epoch": 1.595315732267452,
+      "eval_cosine_accuracy": 0.9343876242637634,
+      "eval_loss": 9.535852432250977,
+      "eval_runtime": 50.2244,
+      "eval_samples_per_second": 376.63,
+      "eval_steps_per_second": 1.473,
+      "step": 45500
+    },
+    {
+      "epoch": 1.6128466743802812,
+      "grad_norm": 5.017545223236084,
+      "learning_rate": 1.4907594455124307e-05,
+      "loss": 9.3495,
+      "step": 46000
+    },
+    {
+      "epoch": 1.6128466743802812,
+      "eval_cosine_accuracy": 0.9350672960281372,
+      "eval_loss": 9.474373817443848,
+      "eval_runtime": 50.8725,
+      "eval_samples_per_second": 371.831,
+      "eval_steps_per_second": 1.455,
+      "step": 46000
+    },
+    {
+      "epoch": 1.6303776164931103,
+      "grad_norm": 4.84283447265625,
+      "learning_rate": 1.4773729641420465e-05,
+      "loss": 9.3431,
+      "step": 46500
+    },
+    {
+      "epoch": 1.6303776164931103,
+      "eval_cosine_accuracy": 0.9334360361099243,
+      "eval_loss": 9.547622680664062,
+      "eval_runtime": 50.1008,
+      "eval_samples_per_second": 377.559,
+      "eval_steps_per_second": 1.477,
+      "step": 46500
+    },
+    {
+      "epoch": 1.6479085586059394,
+      "grad_norm": 3.5967538356781006,
+      "learning_rate": 1.4639018633706608e-05,
+      "loss": 9.3469,
+      "step": 47000
+    },
+    {
+      "epoch": 1.6479085586059394,
+      "eval_cosine_accuracy": 0.9349313378334045,
+      "eval_loss": 9.48145866394043,
+      "eval_runtime": 50.9794,
+      "eval_samples_per_second": 371.052,
+      "eval_steps_per_second": 1.452,
+      "step": 47000
+    },
+    {
+      "epoch": 1.6654395007187688,
+      "grad_norm": 5.372916221618652,
+      "learning_rate": 1.450295304666048e-05,
+      "loss": 9.344,
+      "step": 47500
+    },
+    {
+      "epoch": 1.6654395007187688,
+      "eval_cosine_accuracy": 0.9335266947746277,
+      "eval_loss": 9.521085739135742,
+      "eval_runtime": 50.4516,
+      "eval_samples_per_second": 374.934,
+      "eval_steps_per_second": 1.467,
+      "step": 47500
+    },
+    {
+      "epoch": 1.6829704428315977,
+      "grad_norm": 4.620992183685303,
+      "learning_rate": 1.4365833580447305e-05,
+      "loss": 9.3379,
+      "step": 48000
+    },
+    {
+      "epoch": 1.6829704428315977,
+      "eval_cosine_accuracy": 0.934840738773346,
+      "eval_loss": 9.54494857788086,
+      "eval_runtime": 50.8349,
+      "eval_samples_per_second": 372.107,
+      "eval_steps_per_second": 1.456,
+      "step": 48000
+    },
+    {
+      "epoch": 1.700501384944427,
+      "grad_norm": 4.837863922119141,
+      "learning_rate": 1.422769232675167e-05,
+      "loss": 9.3387,
+      "step": 48500
+    },
+    {
+      "epoch": 1.700501384944427,
+      "eval_cosine_accuracy": 0.935928225517273,
+      "eval_loss": 9.489590644836426,
+      "eval_runtime": 50.4729,
+      "eval_samples_per_second": 374.775,
+      "eval_steps_per_second": 1.466,
+      "step": 48500
+    },
+    {
+      "epoch": 1.718032327057256,
+      "grad_norm": 3.820568323135376,
+      "learning_rate": 1.408856161639911e-05,
+      "loss": 9.3345,
+      "step": 49000
+    },
+    {
+      "epoch": 1.718032327057256,
+      "eval_cosine_accuracy": 0.933753252029419,
+      "eval_loss": 9.51984977722168,
+      "eval_runtime": 51.0265,
+      "eval_samples_per_second": 370.709,
+      "eval_steps_per_second": 1.45,
+      "step": 49000
+    },
+    {
+      "epoch": 1.7355632691700853,
+      "grad_norm": 5.366570949554443,
+      "learning_rate": 1.3948755120223541e-05,
+      "loss": 9.3392,
+      "step": 49500
+    },
+    {
+      "epoch": 1.7355632691700853,
+      "eval_cosine_accuracy": 0.9317141771316528,
+      "eval_loss": 9.579914093017578,
+      "eval_runtime": 50.1951,
+      "eval_samples_per_second": 376.849,
+      "eval_steps_per_second": 1.474,
+      "step": 49500
+    },
+    {
+      "epoch": 1.7530942112829142,
+      "grad_norm": 4.166445732116699,
+      "learning_rate": 1.3807745223059599e-05,
+      "loss": 9.3285,
+      "step": 50000
+    },
+    {
+      "epoch": 1.7530942112829142,
+      "eval_cosine_accuracy": 0.9311251044273376,
+      "eval_loss": 9.662346839904785,
+      "eval_runtime": 50.7663,
+      "eval_samples_per_second": 372.609,
+      "eval_steps_per_second": 1.458,
+      "step": 50000
+    },
+    {
+      "epoch": 1.7706251533957436,
+      "grad_norm": 3.8759758472442627,
+      "learning_rate": 1.3665844154408324e-05,
+      "loss": 9.332,
+      "step": 50500
+    },
+    {
+      "epoch": 1.7706251533957436,
+      "eval_cosine_accuracy": 0.933390736579895,
+      "eval_loss": 9.592278480529785,
+      "eval_runtime": 50.1417,
+      "eval_samples_per_second": 377.251,
+      "eval_steps_per_second": 1.476,
+      "step": 50500
+    },
+    {
+      "epoch": 1.7881560955085727,
+      "grad_norm": 6.290439128875732,
+      "learning_rate": 1.3523085125049056e-05,
+      "loss": 9.3293,
+      "step": 51000
+    },
+    {
+      "epoch": 1.7881560955085727,
+      "eval_cosine_accuracy": 0.932257890701294,
+      "eval_loss": 9.621561050415039,
+      "eval_runtime": 51.075,
+      "eval_samples_per_second": 370.357,
+      "eval_steps_per_second": 1.449,
+      "step": 51000
+    },
+    {
+      "epoch": 1.8056870376214018,
+      "grad_norm": 4.655262470245361,
+      "learning_rate": 1.3379789514312285e-05,
+      "loss": 9.3262,
+      "step": 51500
+    },
+    {
+      "epoch": 1.8056870376214018,
+      "eval_cosine_accuracy": 0.9350219964981079,
+      "eval_loss": 9.6589937210083,
+      "eval_runtime": 50.2239,
+      "eval_samples_per_second": 376.634,
+      "eval_steps_per_second": 1.473,
+      "step": 51500
+    },
+    {
+      "epoch": 1.823217979734231,
+      "grad_norm": 3.824714422225952,
+      "learning_rate": 1.3235416539477435e-05,
+      "loss": 9.3275,
+      "step": 52000
+    },
+    {
+      "epoch": 1.823217979734231,
+      "eval_cosine_accuracy": 0.9330735206604004,
+      "eval_loss": 9.576985359191895,
+      "eval_runtime": 51.6017,
+      "eval_samples_per_second": 366.577,
+      "eval_steps_per_second": 1.434,
+      "step": 52000
+    },
+    {
+      "epoch": 1.84074892184706,
+      "grad_norm": 6.556931018829346,
+      "learning_rate": 1.3090286341981737e-05,
+      "loss": 9.3303,
+      "step": 52500
+    },
+    {
+      "epoch": 1.84074892184706,
+      "eval_cosine_accuracy": 0.931034505367279,
+      "eval_loss": 9.682831764221191,
+      "eval_runtime": 50.4378,
+      "eval_samples_per_second": 375.036,
+      "eval_steps_per_second": 1.467,
+      "step": 52500
+    },
+    {
+      "epoch": 1.8582798639598892,
+      "grad_norm": 4.34053897857666,
+      "learning_rate": 1.2944432888355614e-05,
+      "loss": 9.3303,
+      "step": 53000
+    },
+    {
+      "epoch": 1.8582798639598892,
+      "eval_cosine_accuracy": 0.9347047805786133,
+      "eval_loss": 9.639060974121094,
+      "eval_runtime": 51.2836,
+      "eval_samples_per_second": 368.851,
+      "eval_steps_per_second": 1.443,
+      "step": 53000
+    },
+    {
+      "epoch": 1.8758108060727183,
+      "grad_norm": 3.9927992820739746,
+      "learning_rate": 1.2797890314401645e-05,
+      "loss": 9.3301,
+      "step": 53500
+    },
+    {
+      "epoch": 1.8758108060727183,
+      "eval_cosine_accuracy": 0.9314423203468323,
+      "eval_loss": 9.678288459777832,
+      "eval_runtime": 50.7061,
+      "eval_samples_per_second": 373.052,
+      "eval_steps_per_second": 1.459,
+      "step": 53500
+    },
+    {
+      "epoch": 1.8933417481855475,
+      "grad_norm": 4.368465423583984,
+      "learning_rate": 1.2650692917205358e-05,
+      "loss": 9.3216,
+      "step": 54000
+    },
+    {
+      "epoch": 1.8933417481855475,
+      "eval_cosine_accuracy": 0.9313969612121582,
+      "eval_loss": 9.642071723937988,
+      "eval_runtime": 51.1254,
+      "eval_samples_per_second": 369.993,
+      "eval_steps_per_second": 1.447,
+      "step": 54000
+    },
+    {
+      "epoch": 1.9108726902983766,
+      "grad_norm": 5.101983547210693,
+      "learning_rate": 1.2503171378809456e-05,
+      "loss": 9.3219,
+      "step": 54500
+    },
+    {
+      "epoch": 1.9108726902983766,
+      "eval_cosine_accuracy": 0.9311704039573669,
+      "eval_loss": 9.62327766418457,
+      "eval_runtime": 50.236,
+      "eval_samples_per_second": 376.542,
+      "eval_steps_per_second": 1.473,
+      "step": 54500
+    },
+    {
+      "epoch": 1.928403632411206,
+      "grad_norm": 3.6307313442230225,
+      "learning_rate": 1.2354768968282219e-05,
+      "loss": 9.3197,
+      "step": 55000
+    },
+    {
+      "epoch": 1.928403632411206,
+      "eval_cosine_accuracy": 0.9341157078742981,
+      "eval_loss": 9.659159660339355,
+      "eval_runtime": 51.3646,
+      "eval_samples_per_second": 368.269,
+      "eval_steps_per_second": 1.441,
+      "step": 55000
+    },
+    {
+      "epoch": 1.9459345745240348,
+      "grad_norm": 3.93852162361145,
+      "learning_rate": 1.2206113877334564e-05,
+      "loss": 9.3179,
+      "step": 55500
+    },
+    {
+      "epoch": 1.9459345745240348,
+      "eval_cosine_accuracy": 0.93248450756073,
+      "eval_loss": 9.677461624145508,
+      "eval_runtime": 51.2076,
+      "eval_samples_per_second": 369.398,
+      "eval_steps_per_second": 1.445,
+      "step": 55500
+    },
+    {
+      "epoch": 1.9634655166368642,
+      "grad_norm": 5.185349464416504,
+      "learning_rate": 1.2056645097125428e-05,
+      "loss": 9.3176,
+      "step": 56000
+    },
+    {
+      "epoch": 1.9634655166368642,
+      "eval_cosine_accuracy": 0.9333454370498657,
+      "eval_loss": 9.626531600952148,
+      "eval_runtime": 50.8668,
+      "eval_samples_per_second": 371.873,
+      "eval_steps_per_second": 1.455,
+      "step": 56000
+    },
+    {
+      "epoch": 1.980996458749693,
+      "grad_norm": 5.199561595916748,
+      "learning_rate": 1.1906694976027455e-05,
+      "loss": 9.3139,
+      "step": 56500
+    },
+    {
+      "epoch": 1.980996458749693,
+      "eval_cosine_accuracy": 0.932121992111206,
+      "eval_loss": 9.674995422363281,
+      "eval_runtime": 50.0197,
+      "eval_samples_per_second": 378.171,
+      "eval_steps_per_second": 1.479,
+      "step": 56500
+    },
+    {
+      "epoch": 1.9985274008625225,
+      "grad_norm": 4.581361770629883,
+      "learning_rate": 1.1756298608634592e-05,
+      "loss": 9.3101,
+      "step": 57000
+    },
+    {
+      "epoch": 1.9985274008625225,
+      "eval_cosine_accuracy": 0.9318501353263855,
+      "eval_loss": 9.694042205810547,
+      "eval_runtime": 50.6442,
+      "eval_samples_per_second": 373.508,
+      "eval_steps_per_second": 1.461,
+      "step": 57000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 114084,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 256,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-57042/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff251d0259f667a93594ea1efe197ff3b0827f9a1ffe30b0b91001733ac6ff94
+size 5624

checkpoint-57042/training_metrics.json ADDED Viewed

	@@ -0,0 +1,690 @@

+{
+  "metrics_history": [
+    {
+      "epoch": 0.017530942112829143,
+      "global_step": 500,
+      "eval_loss": 10.808653831481934,
+      "eval_cosine_accuracy": 0.9304001331329346
+    },
+    {
+      "epoch": 0.035061884225658285,
+      "global_step": 1000,
+      "eval_loss": 9.035820007324219,
+      "eval_cosine_accuracy": 0.9219266772270203
+    },
+    {
+      "epoch": 0.05259282633848743,
+      "global_step": 1500,
+      "eval_loss": 8.834137916564941,
+      "eval_cosine_accuracy": 0.9366985559463501
+    },
+    {
+      "epoch": 0.07012376845131657,
+      "global_step": 2000,
+      "eval_loss": 8.768850326538086,
+      "eval_cosine_accuracy": 0.9407313466072083
+    },
+    {
+      "epoch": 0.08765471056414571,
+      "global_step": 2500,
+      "eval_loss": 8.751864433288574,
+      "eval_cosine_accuracy": 0.9402782320976257
+    },
+    {
+      "epoch": 0.10518565267697486,
+      "global_step": 3000,
+      "eval_loss": 8.732973098754883,
+      "eval_cosine_accuracy": 0.9425438642501831
+    },
+    {
+      "epoch": 0.122716594789804,
+      "global_step": 3500,
+      "eval_loss": 8.691949844360352,
+      "eval_cosine_accuracy": 0.9468938112258911
+    },
+    {
+      "epoch": 0.14024753690263314,
+      "global_step": 4000,
+      "eval_loss": 8.692930221557617,
+      "eval_cosine_accuracy": 0.9477094411849976
+    },
+    {
+      "epoch": 0.1577784790154623,
+      "global_step": 4500,
+      "eval_loss": 8.666604995727539,
+      "eval_cosine_accuracy": 0.9502469301223755
+    },
+    {
+      "epoch": 0.17530942112829143,
+      "global_step": 5000,
+      "eval_loss": 8.687457084655762,
+      "eval_cosine_accuracy": 0.9490235447883606
+    },
+    {
+      "epoch": 0.19284036324112058,
+      "global_step": 5500,
+      "eval_loss": 8.682653427124023,
+      "eval_cosine_accuracy": 0.9515156745910645
+    },
+    {
+      "epoch": 0.2103713053539497,
+      "global_step": 6000,
+      "eval_loss": 8.673870086669922,
+      "eval_cosine_accuracy": 0.9527844190597534
+    },
+    {
+      "epoch": 0.22790224746677887,
+      "global_step": 6500,
+      "eval_loss": 8.690710067749023,
+      "eval_cosine_accuracy": 0.9525125622749329
+    },
+    {
+      "epoch": 0.245433189579608,
+      "global_step": 7000,
+      "eval_loss": 8.720589637756348,
+      "eval_cosine_accuracy": 0.9523313045501709
+    },
+    {
+      "epoch": 0.26296413169243715,
+      "global_step": 7500,
+      "eval_loss": 8.7124662399292,
+      "eval_cosine_accuracy": 0.9521500468254089
+    },
+    {
+      "epoch": 0.2804950738052663,
+      "global_step": 8000,
+      "eval_loss": 8.740606307983398,
+      "eval_cosine_accuracy": 0.9511532187461853
+    },
+    {
+      "epoch": 0.29802601591809547,
+      "global_step": 8500,
+      "eval_loss": 8.709793090820312,
+      "eval_cosine_accuracy": 0.9524672627449036
+    },
+    {
+      "epoch": 0.3155569580309246,
+      "global_step": 9000,
+      "eval_loss": 8.736331939697266,
+      "eval_cosine_accuracy": 0.9522860050201416
+    },
+    {
+      "epoch": 0.3330879001437537,
+      "global_step": 9500,
+      "eval_loss": 8.755115509033203,
+      "eval_cosine_accuracy": 0.9511532187461853
+    },
+    {
+      "epoch": 0.35061884225658285,
+      "global_step": 10000,
+      "eval_loss": 8.82080078125,
+      "eval_cosine_accuracy": 0.9495219588279724
+    },
+    {
+      "epoch": 0.36814978436941204,
+      "global_step": 10500,
+      "eval_loss": 8.80677318572998,
+      "eval_cosine_accuracy": 0.9494766592979431
+    },
+    {
+      "epoch": 0.38568072648224117,
+      "global_step": 11000,
+      "eval_loss": 8.862730026245117,
+      "eval_cosine_accuracy": 0.948706328868866
+    },
+    {
+      "epoch": 0.4032116685950703,
+      "global_step": 11500,
+      "eval_loss": 8.826420783996582,
+      "eval_cosine_accuracy": 0.9495672583580017
+    },
+    {
+      "epoch": 0.4207426107078994,
+      "global_step": 12000,
+      "eval_loss": 8.905811309814453,
+      "eval_cosine_accuracy": 0.9481625556945801
+    },
+    {
+      "epoch": 0.4382735528207286,
+      "global_step": 12500,
+      "eval_loss": 8.883400917053223,
+      "eval_cosine_accuracy": 0.9498844742774963
+    },
+    {
+      "epoch": 0.45580449493355774,
+      "global_step": 13000,
+      "eval_loss": 8.826370239257812,
+      "eval_cosine_accuracy": 0.9498391151428223
+    },
+    {
+      "epoch": 0.47333543704638686,
+      "global_step": 13500,
+      "eval_loss": 8.92893123626709,
+      "eval_cosine_accuracy": 0.947437584400177
+    },
+    {
+      "epoch": 0.490866379159216,
+      "global_step": 14000,
+      "eval_loss": 8.924897193908691,
+      "eval_cosine_accuracy": 0.9474828839302063
+    },
+    {
+      "epoch": 0.5083973212720452,
+      "global_step": 14500,
+      "eval_loss": 8.962514877319336,
+      "eval_cosine_accuracy": 0.9468938112258911
+    },
+    {
+      "epoch": 0.5259282633848743,
+      "global_step": 15000,
+      "eval_loss": 8.966425895690918,
+      "eval_cosine_accuracy": 0.9458969831466675
+    },
+    {
+      "epoch": 0.5434592054977034,
+      "global_step": 15500,
+      "eval_loss": 8.933329582214355,
+      "eval_cosine_accuracy": 0.9465766549110413
+    },
+    {
+      "epoch": 0.5609901476105326,
+      "global_step": 16000,
+      "eval_loss": 8.930047988891602,
+      "eval_cosine_accuracy": 0.9477094411849976
+    },
+    {
+      "epoch": 0.5785210897233617,
+      "global_step": 16500,
+      "eval_loss": 8.990011215209961,
+      "eval_cosine_accuracy": 0.9487969279289246
+    },
+    {
+      "epoch": 0.5960520318361909,
+      "global_step": 17000,
+      "eval_loss": 8.999488830566406,
+      "eval_cosine_accuracy": 0.943993866443634
+    },
+    {
+      "epoch": 0.6135829739490201,
+      "global_step": 17500,
+      "eval_loss": 8.963994026184082,
+      "eval_cosine_accuracy": 0.9459422826766968
+    },
+    {
+      "epoch": 0.6311139160618492,
+      "global_step": 18000,
+      "eval_loss": 8.978798866271973,
+      "eval_cosine_accuracy": 0.9459422826766968
+    },
+    {
+      "epoch": 0.6486448581746783,
+      "global_step": 18500,
+      "eval_loss": 9.016169548034668,
+      "eval_cosine_accuracy": 0.9446282386779785
+    },
+    {
+      "epoch": 0.6661758002875074,
+      "global_step": 19000,
+      "eval_loss": 9.053177833557129,
+      "eval_cosine_accuracy": 0.9446282386779785
+    },
+    {
+      "epoch": 0.6837067424003366,
+      "global_step": 19500,
+      "eval_loss": 9.100041389465332,
+      "eval_cosine_accuracy": 0.9444922804832458
+    },
+    {
+      "epoch": 0.7012376845131657,
+      "global_step": 20000,
+      "eval_loss": 9.080968856811523,
+      "eval_cosine_accuracy": 0.9441297650337219
+    },
+    {
+      "epoch": 0.7187686266259948,
+      "global_step": 20500,
+      "eval_loss": 9.160306930541992,
+      "eval_cosine_accuracy": 0.9448094367980957
+    },
+    {
+      "epoch": 0.7362995687388241,
+      "global_step": 21000,
+      "eval_loss": 9.170744895935059,
+      "eval_cosine_accuracy": 0.9433141350746155
+    },
+    {
+      "epoch": 0.7538305108516532,
+      "global_step": 21500,
+      "eval_loss": 9.167838096618652,
+      "eval_cosine_accuracy": 0.942679762840271
+    },
+    {
+      "epoch": 0.7713614529644823,
+      "global_step": 22000,
+      "eval_loss": 9.07791519165039,
+      "eval_cosine_accuracy": 0.9448094367980957
+    },
+    {
+      "epoch": 0.7888923950773115,
+      "global_step": 22500,
+      "eval_loss": 9.1586275100708,
+      "eval_cosine_accuracy": 0.9433594346046448
+    },
+    {
+      "epoch": 0.8064233371901406,
+      "global_step": 23000,
+      "eval_loss": 9.108503341674805,
+      "eval_cosine_accuracy": 0.9438126087188721
+    },
+    {
+      "epoch": 0.8239542793029697,
+      "global_step": 23500,
+      "eval_loss": 9.16297721862793,
+      "eval_cosine_accuracy": 0.9426344633102417
+    },
+    {
+      "epoch": 0.8414852214157988,
+      "global_step": 24000,
+      "eval_loss": 9.143158912658691,
+      "eval_cosine_accuracy": 0.9408219456672668
+    },
+    {
+      "epoch": 0.859016163528628,
+      "global_step": 24500,
+      "eval_loss": 9.19399642944336,
+      "eval_cosine_accuracy": 0.9429516792297363
+    },
+    {
+      "epoch": 0.8765471056414572,
+      "global_step": 25000,
+      "eval_loss": 9.171710014343262,
+      "eval_cosine_accuracy": 0.942498505115509
+    },
+    {
+      "epoch": 0.8940780477542863,
+      "global_step": 25500,
+      "eval_loss": 9.206527709960938,
+      "eval_cosine_accuracy": 0.9407313466072083
+    },
+    {
+      "epoch": 0.9116089898671155,
+      "global_step": 26000,
+      "eval_loss": 9.243682861328125,
+      "eval_cosine_accuracy": 0.940504789352417
+    },
+    {
+      "epoch": 0.9291399319799446,
+      "global_step": 26500,
+      "eval_loss": 9.203714370727539,
+      "eval_cosine_accuracy": 0.9420906901359558
+    },
+    {
+      "epoch": 0.9466708740927737,
+      "global_step": 27000,
+      "eval_loss": 9.19096565246582,
+      "eval_cosine_accuracy": 0.9427704215049744
+    },
+    {
+      "epoch": 0.9642018162056029,
+      "global_step": 27500,
+      "eval_loss": 9.26838493347168,
+      "eval_cosine_accuracy": 0.9398251175880432
+    },
+    {
+      "epoch": 0.981732758318432,
+      "global_step": 28000,
+      "eval_loss": 9.160036087036133,
+      "eval_cosine_accuracy": 0.9418188333511353
+    },
+    {
+      "epoch": 0.9992637004312612,
+      "global_step": 28500,
+      "eval_loss": 9.164313316345215,
+      "eval_cosine_accuracy": 0.9409579038619995
+    },
+    {
+      "epoch": 1.0167946425440904,
+      "global_step": 29000,
+      "eval_loss": 9.223180770874023,
+      "eval_cosine_accuracy": 0.9420906901359558
+    },
+    {
+      "epoch": 1.0343255846569195,
+      "global_step": 29500,
+      "eval_loss": 9.316435813903809,
+      "eval_cosine_accuracy": 0.9394626021385193
+    },
+    {
+      "epoch": 1.0518565267697486,
+      "global_step": 30000,
+      "eval_loss": 9.309089660644531,
+      "eval_cosine_accuracy": 0.9401422739028931
+    },
+    {
+      "epoch": 1.0693874688825777,
+      "global_step": 30500,
+      "eval_loss": 9.266592025756836,
+      "eval_cosine_accuracy": 0.9416828751564026
+    },
+    {
+      "epoch": 1.0869184109954069,
+      "global_step": 31000,
+      "eval_loss": 9.272114753723145,
+      "eval_cosine_accuracy": 0.9401422739028931
+    },
+    {
+      "epoch": 1.104449353108236,
+      "global_step": 31500,
+      "eval_loss": 9.314387321472168,
+      "eval_cosine_accuracy": 0.9388735294342041
+    },
+    {
+      "epoch": 1.1219802952210651,
+      "global_step": 32000,
+      "eval_loss": 9.282620429992676,
+      "eval_cosine_accuracy": 0.9386016726493835
+    },
+    {
+      "epoch": 1.1395112373338943,
+      "global_step": 32500,
+      "eval_loss": 9.319416046142578,
+      "eval_cosine_accuracy": 0.9377407431602478
+    },
+    {
+      "epoch": 1.1570421794467234,
+      "global_step": 33000,
+      "eval_loss": 9.259844779968262,
+      "eval_cosine_accuracy": 0.9393266439437866
+    },
+    {
+      "epoch": 1.1745731215595527,
+      "global_step": 33500,
+      "eval_loss": 9.356642723083496,
+      "eval_cosine_accuracy": 0.9382844567298889
+    },
+    {
+      "epoch": 1.1921040636723816,
+      "global_step": 34000,
+      "eval_loss": 9.368973731994629,
+      "eval_cosine_accuracy": 0.9371063709259033
+    },
+    {
+      "epoch": 1.209635005785211,
+      "global_step": 34500,
+      "eval_loss": 9.36530876159668,
+      "eval_cosine_accuracy": 0.9370610117912292
+    },
+    {
+      "epoch": 1.2271659478980401,
+      "global_step": 35000,
+      "eval_loss": 9.298746109008789,
+      "eval_cosine_accuracy": 0.9367891550064087
+    },
+    {
+      "epoch": 1.2446968900108693,
+      "global_step": 35500,
+      "eval_loss": 9.427058219909668,
+      "eval_cosine_accuracy": 0.9366078972816467
+    },
+    {
+      "epoch": 1.2622278321236984,
+      "global_step": 36000,
+      "eval_loss": 9.360187530517578,
+      "eval_cosine_accuracy": 0.9400516748428345
+    },
+    {
+      "epoch": 1.2797587742365275,
+      "global_step": 36500,
+      "eval_loss": 9.40904426574707,
+      "eval_cosine_accuracy": 0.9380578994750977
+    },
+    {
+      "epoch": 1.2972897163493566,
+      "global_step": 37000,
+      "eval_loss": 9.43030071258545,
+      "eval_cosine_accuracy": 0.9371063709259033
+    },
+    {
+      "epoch": 1.3148206584621858,
+      "global_step": 37500,
+      "eval_loss": 9.414908409118652,
+      "eval_cosine_accuracy": 0.9366078972816467
+    },
+    {
+      "epoch": 1.332351600575015,
+      "global_step": 38000,
+      "eval_loss": 9.302230834960938,
+      "eval_cosine_accuracy": 0.9362907409667969
+    },
+    {
+      "epoch": 1.349882542687844,
+      "global_step": 38500,
+      "eval_loss": 9.464284896850586,
+      "eval_cosine_accuracy": 0.9334813356399536
+    },
+    {
+      "epoch": 1.3674134848006732,
+      "global_step": 39000,
+      "eval_loss": 9.414664268493652,
+      "eval_cosine_accuracy": 0.9354298114776611
+    },
+    {
+      "epoch": 1.3849444269135023,
+      "global_step": 39500,
+      "eval_loss": 9.37267017364502,
+      "eval_cosine_accuracy": 0.9389641284942627
+    },
+    {
+      "epoch": 1.4024753690263314,
+      "global_step": 40000,
+      "eval_loss": 9.466745376586914,
+      "eval_cosine_accuracy": 0.9327563643455505
+    },
+    {
+      "epoch": 1.4200063111391605,
+      "global_step": 40500,
+      "eval_loss": 9.418221473693848,
+      "eval_cosine_accuracy": 0.936834454536438
+    },
+    {
+      "epoch": 1.4375372532519899,
+      "global_step": 41000,
+      "eval_loss": 9.410283088684082,
+      "eval_cosine_accuracy": 0.9358376264572144
+    },
+    {
+      "epoch": 1.4550681953648188,
+      "global_step": 41500,
+      "eval_loss": 9.38784408569336,
+      "eval_cosine_accuracy": 0.934840738773346
+    },
+    {
+      "epoch": 1.4725991374776481,
+      "global_step": 42000,
+      "eval_loss": 9.44973373413086,
+      "eval_cosine_accuracy": 0.9335266947746277
+    },
+    {
+      "epoch": 1.4901300795904773,
+      "global_step": 42500,
+      "eval_loss": 9.441567420959473,
+      "eval_cosine_accuracy": 0.9351578950881958
+    },
+    {
+      "epoch": 1.5076610217033064,
+      "global_step": 43000,
+      "eval_loss": 9.518505096435547,
+      "eval_cosine_accuracy": 0.9342516660690308
+    },
+    {
+      "epoch": 1.5251919638161355,
+      "global_step": 43500,
+      "eval_loss": 9.524738311767578,
+      "eval_cosine_accuracy": 0.9349766373634338
+    },
+    {
+      "epoch": 1.5427229059289647,
+      "global_step": 44000,
+      "eval_loss": 9.521926879882812,
+      "eval_cosine_accuracy": 0.9335266947746277
+    },
+    {
+      "epoch": 1.5602538480417938,
+      "global_step": 44500,
+      "eval_loss": 9.596720695495605,
+      "eval_cosine_accuracy": 0.9317141771316528
+    },
+    {
+      "epoch": 1.577784790154623,
+      "global_step": 45000,
+      "eval_loss": 9.493390083312988,
+      "eval_cosine_accuracy": 0.9352032542228699
+    },
+    {
+      "epoch": 1.595315732267452,
+      "global_step": 45500,
+      "eval_loss": 9.535852432250977,
+      "eval_cosine_accuracy": 0.9343876242637634
+    },
+    {
+      "epoch": 1.6128466743802812,
+      "global_step": 46000,
+      "eval_loss": 9.474373817443848,
+      "eval_cosine_accuracy": 0.9350672960281372
+    },
+    {
+      "epoch": 1.6303776164931103,
+      "global_step": 46500,
+      "eval_loss": 9.547622680664062,
+      "eval_cosine_accuracy": 0.9334360361099243
+    },
+    {
+      "epoch": 1.6479085586059394,
+      "global_step": 47000,
+      "eval_loss": 9.48145866394043,
+      "eval_cosine_accuracy": 0.9349313378334045
+    },
+    {
+      "epoch": 1.6654395007187688,
+      "global_step": 47500,
+      "eval_loss": 9.521085739135742,
+      "eval_cosine_accuracy": 0.9335266947746277
+    },
+    {
+      "epoch": 1.6829704428315977,
+      "global_step": 48000,
+      "eval_loss": 9.54494857788086,
+      "eval_cosine_accuracy": 0.934840738773346
+    },
+    {
+      "epoch": 1.700501384944427,
+      "global_step": 48500,
+      "eval_loss": 9.489590644836426,
+      "eval_cosine_accuracy": 0.935928225517273
+    },
+    {
+      "epoch": 1.718032327057256,
+      "global_step": 49000,
+      "eval_loss": 9.51984977722168,
+      "eval_cosine_accuracy": 0.933753252029419
+    },
+    {
+      "epoch": 1.7355632691700853,
+      "global_step": 49500,
+      "eval_loss": 9.579914093017578,
+      "eval_cosine_accuracy": 0.9317141771316528
+    },
+    {
+      "epoch": 1.7530942112829142,
+      "global_step": 50000,
+      "eval_loss": 9.662346839904785,
+      "eval_cosine_accuracy": 0.9311251044273376
+    },
+    {
+      "epoch": 1.7706251533957436,
+      "global_step": 50500,
+      "eval_loss": 9.592278480529785,
+      "eval_cosine_accuracy": 0.933390736579895
+    },
+    {
+      "epoch": 1.7881560955085727,
+      "global_step": 51000,
+      "eval_loss": 9.621561050415039,
+      "eval_cosine_accuracy": 0.932257890701294
+    },
+    {
+      "epoch": 1.8056870376214018,
+      "global_step": 51500,
+      "eval_loss": 9.6589937210083,
+      "eval_cosine_accuracy": 0.9350219964981079
+    },
+    {
+      "epoch": 1.823217979734231,
+      "global_step": 52000,
+      "eval_loss": 9.576985359191895,
+      "eval_cosine_accuracy": 0.9330735206604004
+    },
+    {
+      "epoch": 1.84074892184706,
+      "global_step": 52500,
+      "eval_loss": 9.682831764221191,
+      "eval_cosine_accuracy": 0.931034505367279
+    },
+    {
+      "epoch": 1.8582798639598892,
+      "global_step": 53000,
+      "eval_loss": 9.639060974121094,
+      "eval_cosine_accuracy": 0.9347047805786133
+    },
+    {
+      "epoch": 1.8758108060727183,
+      "global_step": 53500,
+      "eval_loss": 9.678288459777832,
+      "eval_cosine_accuracy": 0.9314423203468323
+    },
+    {
+      "epoch": 1.8933417481855475,
+      "global_step": 54000,
+      "eval_loss": 9.642071723937988,
+      "eval_cosine_accuracy": 0.9313969612121582
+    },
+    {
+      "epoch": 1.9108726902983766,
+      "global_step": 54500,
+      "eval_loss": 9.62327766418457,
+      "eval_cosine_accuracy": 0.9311704039573669
+    },
+    {
+      "epoch": 1.928403632411206,
+      "global_step": 55000,
+      "eval_loss": 9.659159660339355,
+      "eval_cosine_accuracy": 0.9341157078742981
+    },
+    {
+      "epoch": 1.9459345745240348,
+      "global_step": 55500,
+      "eval_loss": 9.677461624145508,
+      "eval_cosine_accuracy": 0.93248450756073
+    },
+    {
+      "epoch": 1.9634655166368642,
+      "global_step": 56000,
+      "eval_loss": 9.626531600952148,
+      "eval_cosine_accuracy": 0.9333454370498657
+    },
+    {
+      "epoch": 1.980996458749693,
+      "global_step": 56500,
+      "eval_loss": 9.674995422363281,
+      "eval_cosine_accuracy": 0.932121992111206
+    },
+    {
+      "epoch": 1.9985274008625225,
+      "global_step": 57000,
+      "eval_loss": 9.694042205810547,
+      "eval_cosine_accuracy": 0.9318501353263855
+    }
+  ],
+  "current_epoch": 2,
+  "global_step": 57042
+}

checkpoint-57042/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff