LamaDiab commited on Jan 5

Commit

850a867

verified ·

1 Parent(s): 9acb79d

Training checkpoint - Epoch 1, Step 28521

Browse files

Files changed (17) hide show

checkpoint-28521/1_Pooling/config.json +10 -0
checkpoint-28521/config.json +25 -0
checkpoint-28521/config_sentence_transformers.json +14 -0
checkpoint-28521/model.safetensors +3 -0
checkpoint-28521/modules.json +20 -0
checkpoint-28521/optimizer.pt +3 -0
checkpoint-28521/rng_state.pth +3 -0
checkpoint-28521/scaler.pt +3 -0
checkpoint-28521/scheduler.pt +3 -0
checkpoint-28521/sentence_bert_config.json +4 -0
checkpoint-28521/special_tokens_map.json +37 -0
checkpoint-28521/tokenizer.json +0 -0
checkpoint-28521/tokenizer_config.json +65 -0
checkpoint-28521/trainer_state.json +953 -0
checkpoint-28521/training_args.bin +3 -0
checkpoint-28521/training_metrics.json +348 -0
checkpoint-28521/vocab.txt +0 -0

checkpoint-28521/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "word_embedding_dimension": 384,
+    "pooling_mode_cls_token": false,
+    "pooling_mode_mean_tokens": true,
+    "pooling_mode_max_tokens": false,
+    "pooling_mode_mean_sqrt_len_tokens": false,
+    "pooling_mode_weightedmean_tokens": false,
+    "pooling_mode_lasttoken": false,
+    "include_prompt": true
+}

checkpoint-28521/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-28521/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "__version__": {
+    "sentence_transformers": "5.2.0",
+    "transformers": "4.53.3",
+    "pytorch": "2.6.0+cu124"
+  },
+  "model_type": "SentenceTransformer",
+  "prompts": {
+    "query": "",
+    "document": ""
+  },
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

checkpoint-28521/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a1f70654dc4ed88deb12af549aea3924a13419bcb51ffa3403925f399af5630
+size 90864192

checkpoint-28521/modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

checkpoint-28521/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e60991b876dda77c1db7ecc0e7c1085ef3a1f16294cdcf60ad5f36cb10afee71
+size 180607738

checkpoint-28521/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1afa585e790a0abd97974c842e7ec70ff0bfd673f8af06d3603037e6cb09a849
+size 14244

checkpoint-28521/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69b6545115ccd14f8d6eae6d9d5570039cf2edf6e315d6b5f105484412ec4c45
+size 988

checkpoint-28521/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf44ecedcba524181ee6be9b35a5b3bae43faa1ab687e8e390841fcd87480b89
+size 1064

checkpoint-28521/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "max_seq_length": 256,
+    "do_lower_case": false
+}

checkpoint-28521/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-28521/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-28521/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 128,
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

checkpoint-28521/trainer_state.json ADDED Viewed

	@@ -0,0 +1,953 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 28521,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 3.5061884225658285e-05,
+      "grad_norm": Infinity,
+      "learning_rate": 0.0,
+      "loss": 14.1655,
+      "step": 1
+    },
+    {
+      "epoch": 0.017530942112829143,
+      "grad_norm": 46.11793899536133,
+      "learning_rate": 8.695652173913044e-07,
+      "loss": 15.3746,
+      "step": 500
+    },
+    {
+      "epoch": 0.017530942112829143,
+      "eval_cosine_accuracy": 0.9304001331329346,
+      "eval_loss": 10.808653831481934,
+      "eval_runtime": 50.0101,
+      "eval_samples_per_second": 378.244,
+      "eval_steps_per_second": 1.48,
+      "step": 500
+    },
+    {
+      "epoch": 0.035061884225658285,
+      "grad_norm": 6.935111045837402,
+      "learning_rate": 1.7461430575035066e-06,
+      "loss": 11.7216,
+      "step": 1000
+    },
+    {
+      "epoch": 0.035061884225658285,
+      "eval_cosine_accuracy": 0.9219266772270203,
+      "eval_loss": 9.035820007324219,
+      "eval_runtime": 51.3273,
+      "eval_samples_per_second": 368.537,
+      "eval_steps_per_second": 1.442,
+      "step": 1000
+    },
+    {
+      "epoch": 0.05259282633848743,
+      "grad_norm": 4.2704758644104,
+      "learning_rate": 2.622720897615709e-06,
+      "loss": 10.0701,
+      "step": 1500
+    },
+    {
+      "epoch": 0.05259282633848743,
+      "eval_cosine_accuracy": 0.9366985559463501,
+      "eval_loss": 8.834137916564941,
+      "eval_runtime": 50.3538,
+      "eval_samples_per_second": 375.662,
+      "eval_steps_per_second": 1.47,
+      "step": 1500
+    },
+    {
+      "epoch": 0.07012376845131657,
+      "grad_norm": 3.6294240951538086,
+      "learning_rate": 3.49929873772791e-06,
+      "loss": 9.9787,
+      "step": 2000
+    },
+    {
+      "epoch": 0.07012376845131657,
+      "eval_cosine_accuracy": 0.9407313466072083,
+      "eval_loss": 8.768850326538086,
+      "eval_runtime": 50.9215,
+      "eval_samples_per_second": 371.474,
+      "eval_steps_per_second": 1.453,
+      "step": 2000
+    },
+    {
+      "epoch": 0.08765471056414571,
+      "grad_norm": 2.800403356552124,
+      "learning_rate": 4.375876577840113e-06,
+      "loss": 9.9256,
+      "step": 2500
+    },
+    {
+      "epoch": 0.08765471056414571,
+      "eval_cosine_accuracy": 0.9402782320976257,
+      "eval_loss": 8.751864433288574,
+      "eval_runtime": 50.75,
+      "eval_samples_per_second": 372.729,
+      "eval_steps_per_second": 1.458,
+      "step": 2500
+    },
+    {
+      "epoch": 0.10518565267697486,
+      "grad_norm": 2.86800217628479,
+      "learning_rate": 5.252454417952315e-06,
+      "loss": 9.8971,
+      "step": 3000
+    },
+    {
+      "epoch": 0.10518565267697486,
+      "eval_cosine_accuracy": 0.9425438642501831,
+      "eval_loss": 8.732973098754883,
+      "eval_runtime": 51.0941,
+      "eval_samples_per_second": 370.219,
+      "eval_steps_per_second": 1.448,
+      "step": 3000
+    },
+    {
+      "epoch": 0.122716594789804,
+      "grad_norm": 2.924982786178589,
+      "learning_rate": 6.129032258064517e-06,
+      "loss": 9.8627,
+      "step": 3500
+    },
+    {
+      "epoch": 0.122716594789804,
+      "eval_cosine_accuracy": 0.9468938112258911,
+      "eval_loss": 8.691949844360352,
+      "eval_runtime": 49.4971,
+      "eval_samples_per_second": 382.164,
+      "eval_steps_per_second": 1.495,
+      "step": 3500
+    },
+    {
+      "epoch": 0.14024753690263314,
+      "grad_norm": 3.102349281311035,
+      "learning_rate": 7.0056100981767185e-06,
+      "loss": 9.8413,
+      "step": 4000
+    },
+    {
+      "epoch": 0.14024753690263314,
+      "eval_cosine_accuracy": 0.9477094411849976,
+      "eval_loss": 8.692930221557617,
+      "eval_runtime": 50.0327,
+      "eval_samples_per_second": 378.073,
+      "eval_steps_per_second": 1.479,
+      "step": 4000
+    },
+    {
+      "epoch": 0.1577784790154623,
+      "grad_norm": 3.3259987831115723,
+      "learning_rate": 7.882187938288921e-06,
+      "loss": 9.8187,
+      "step": 4500
+    },
+    {
+      "epoch": 0.1577784790154623,
+      "eval_cosine_accuracy": 0.9502469301223755,
+      "eval_loss": 8.666604995727539,
+      "eval_runtime": 49.5796,
+      "eval_samples_per_second": 381.528,
+      "eval_steps_per_second": 1.493,
+      "step": 4500
+    },
+    {
+      "epoch": 0.17530942112829143,
+      "grad_norm": 3.461524248123169,
+      "learning_rate": 8.758765778401123e-06,
+      "loss": 9.797,
+      "step": 5000
+    },
+    {
+      "epoch": 0.17530942112829143,
+      "eval_cosine_accuracy": 0.9490235447883606,
+      "eval_loss": 8.687457084655762,
+      "eval_runtime": 50.1782,
+      "eval_samples_per_second": 376.977,
+      "eval_steps_per_second": 1.475,
+      "step": 5000
+    },
+    {
+      "epoch": 0.19284036324112058,
+      "grad_norm": 3.2629499435424805,
+      "learning_rate": 9.635343618513324e-06,
+      "loss": 9.7789,
+      "step": 5500
+    },
+    {
+      "epoch": 0.19284036324112058,
+      "eval_cosine_accuracy": 0.9515156745910645,
+      "eval_loss": 8.682653427124023,
+      "eval_runtime": 49.9304,
+      "eval_samples_per_second": 378.847,
+      "eval_steps_per_second": 1.482,
+      "step": 5500
+    },
+    {
+      "epoch": 0.2103713053539497,
+      "grad_norm": 2.80902361869812,
+      "learning_rate": 1.0511921458625528e-05,
+      "loss": 9.7601,
+      "step": 6000
+    },
+    {
+      "epoch": 0.2103713053539497,
+      "eval_cosine_accuracy": 0.9527844190597534,
+      "eval_loss": 8.673870086669922,
+      "eval_runtime": 49.5168,
+      "eval_samples_per_second": 382.012,
+      "eval_steps_per_second": 1.494,
+      "step": 6000
+    },
+    {
+      "epoch": 0.22790224746677887,
+      "grad_norm": 3.6036148071289062,
+      "learning_rate": 1.138849929873773e-05,
+      "loss": 9.7449,
+      "step": 6500
+    },
+    {
+      "epoch": 0.22790224746677887,
+      "eval_cosine_accuracy": 0.9525125622749329,
+      "eval_loss": 8.690710067749023,
+      "eval_runtime": 51.4523,
+      "eval_samples_per_second": 367.641,
+      "eval_steps_per_second": 1.438,
+      "step": 6500
+    },
+    {
+      "epoch": 0.245433189579608,
+      "grad_norm": 3.008776903152466,
+      "learning_rate": 1.226507713884993e-05,
+      "loss": 9.7281,
+      "step": 7000
+    },
+    {
+      "epoch": 0.245433189579608,
+      "eval_cosine_accuracy": 0.9523313045501709,
+      "eval_loss": 8.720589637756348,
+      "eval_runtime": 50.4169,
+      "eval_samples_per_second": 375.192,
+      "eval_steps_per_second": 1.468,
+      "step": 7000
+    },
+    {
+      "epoch": 0.26296413169243715,
+      "grad_norm": 3.2251088619232178,
+      "learning_rate": 1.3141654978962133e-05,
+      "loss": 9.7162,
+      "step": 7500
+    },
+    {
+      "epoch": 0.26296413169243715,
+      "eval_cosine_accuracy": 0.9521500468254089,
+      "eval_loss": 8.7124662399292,
+      "eval_runtime": 49.9244,
+      "eval_samples_per_second": 378.893,
+      "eval_steps_per_second": 1.482,
+      "step": 7500
+    },
+    {
+      "epoch": 0.2804950738052663,
+      "grad_norm": 3.34848690032959,
+      "learning_rate": 1.4018232819074336e-05,
+      "loss": 9.6994,
+      "step": 8000
+    },
+    {
+      "epoch": 0.2804950738052663,
+      "eval_cosine_accuracy": 0.9511532187461853,
+      "eval_loss": 8.740606307983398,
+      "eval_runtime": 51.2616,
+      "eval_samples_per_second": 369.009,
+      "eval_steps_per_second": 1.444,
+      "step": 8000
+    },
+    {
+      "epoch": 0.29802601591809547,
+      "grad_norm": 3.3112778663635254,
+      "learning_rate": 1.4894810659186536e-05,
+      "loss": 9.6911,
+      "step": 8500
+    },
+    {
+      "epoch": 0.29802601591809547,
+      "eval_cosine_accuracy": 0.9524672627449036,
+      "eval_loss": 8.709793090820312,
+      "eval_runtime": 50.3388,
+      "eval_samples_per_second": 375.774,
+      "eval_steps_per_second": 1.47,
+      "step": 8500
+    },
+    {
+      "epoch": 0.3155569580309246,
+      "grad_norm": 3.034113883972168,
+      "learning_rate": 1.577138849929874e-05,
+      "loss": 9.6785,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3155569580309246,
+      "eval_cosine_accuracy": 0.9522860050201416,
+      "eval_loss": 8.736331939697266,
+      "eval_runtime": 49.8153,
+      "eval_samples_per_second": 379.722,
+      "eval_steps_per_second": 1.485,
+      "step": 9000
+    },
+    {
+      "epoch": 0.3330879001437537,
+      "grad_norm": 3.5567679405212402,
+      "learning_rate": 1.664621318373072e-05,
+      "loss": 9.6627,
+      "step": 9500
+    },
+    {
+      "epoch": 0.3330879001437537,
+      "eval_cosine_accuracy": 0.9511532187461853,
+      "eval_loss": 8.755115509033203,
+      "eval_runtime": 50.7728,
+      "eval_samples_per_second": 372.562,
+      "eval_steps_per_second": 1.457,
+      "step": 9500
+    },
+    {
+      "epoch": 0.35061884225658285,
+      "grad_norm": 3.8073484897613525,
+      "learning_rate": 1.7522791023842917e-05,
+      "loss": 9.6493,
+      "step": 10000
+    },
+    {
+      "epoch": 0.35061884225658285,
+      "eval_cosine_accuracy": 0.9495219588279724,
+      "eval_loss": 8.82080078125,
+      "eval_runtime": 49.6151,
+      "eval_samples_per_second": 381.255,
+      "eval_steps_per_second": 1.491,
+      "step": 10000
+    },
+    {
+      "epoch": 0.36814978436941204,
+      "grad_norm": 3.8539516925811768,
+      "learning_rate": 1.8399368863955122e-05,
+      "loss": 9.6422,
+      "step": 10500
+    },
+    {
+      "epoch": 0.36814978436941204,
+      "eval_cosine_accuracy": 0.9494766592979431,
+      "eval_loss": 8.80677318572998,
+      "eval_runtime": 51.2555,
+      "eval_samples_per_second": 369.053,
+      "eval_steps_per_second": 1.444,
+      "step": 10500
+    },
+    {
+      "epoch": 0.38568072648224117,
+      "grad_norm": 3.997718334197998,
+      "learning_rate": 1.9275946704067323e-05,
+      "loss": 9.6288,
+      "step": 11000
+    },
+    {
+      "epoch": 0.38568072648224117,
+      "eval_cosine_accuracy": 0.948706328868866,
+      "eval_loss": 8.862730026245117,
+      "eval_runtime": 50.5188,
+      "eval_samples_per_second": 374.435,
+      "eval_steps_per_second": 1.465,
+      "step": 11000
+    },
+    {
+      "epoch": 0.4032116685950703,
+      "grad_norm": 4.089541435241699,
+      "learning_rate": 1.9999964570084554e-05,
+      "loss": 9.6166,
+      "step": 11500
+    },
+    {
+      "epoch": 0.4032116685950703,
+      "eval_cosine_accuracy": 0.9495672583580017,
+      "eval_loss": 8.826420783996582,
+      "eval_runtime": 49.7378,
+      "eval_samples_per_second": 380.314,
+      "eval_steps_per_second": 1.488,
+      "step": 11500
+    },
+    {
+      "epoch": 0.4207426107078994,
+      "grad_norm": 3.3106064796447754,
+      "learning_rate": 1.9998387141025913e-05,
+      "loss": 9.6089,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4207426107078994,
+      "eval_cosine_accuracy": 0.9481625556945801,
+      "eval_loss": 8.905811309814453,
+      "eval_runtime": 50.5979,
+      "eval_samples_per_second": 373.849,
+      "eval_steps_per_second": 1.463,
+      "step": 12000
+    },
+    {
+      "epoch": 0.4382735528207286,
+      "grad_norm": 3.426849603652954,
+      "learning_rate": 1.99944696715976e-05,
+      "loss": 9.5992,
+      "step": 12500
+    },
+    {
+      "epoch": 0.4382735528207286,
+      "eval_cosine_accuracy": 0.9498844742774963,
+      "eval_loss": 8.883400917053223,
+      "eval_runtime": 50.1249,
+      "eval_samples_per_second": 377.377,
+      "eval_steps_per_second": 1.476,
+      "step": 12500
+    },
+    {
+      "epoch": 0.45580449493355774,
+      "grad_norm": 2.942359209060669,
+      "learning_rate": 1.9988213078651134e-05,
+      "loss": 9.5968,
+      "step": 13000
+    },
+    {
+      "epoch": 0.45580449493355774,
+      "eval_cosine_accuracy": 0.9498391151428223,
+      "eval_loss": 8.826370239257812,
+      "eval_runtime": 50.4882,
+      "eval_samples_per_second": 374.662,
+      "eval_steps_per_second": 1.466,
+      "step": 13000
+    },
+    {
+      "epoch": 0.47333543704638686,
+      "grad_norm": 3.6883912086486816,
+      "learning_rate": 1.997961882649071e-05,
+      "loss": 9.5859,
+      "step": 13500
+    },
+    {
+      "epoch": 0.47333543704638686,
+      "eval_cosine_accuracy": 0.947437584400177,
+      "eval_loss": 8.92893123626709,
+      "eval_runtime": 49.8701,
+      "eval_samples_per_second": 379.305,
+      "eval_steps_per_second": 1.484,
+      "step": 13500
+    },
+    {
+      "epoch": 0.490866379159216,
+      "grad_norm": 3.4566166400909424,
+      "learning_rate": 1.996871311569756e-05,
+      "loss": 9.5771,
+      "step": 14000
+    },
+    {
+      "epoch": 0.490866379159216,
+      "eval_cosine_accuracy": 0.9474828839302063,
+      "eval_loss": 8.924897193908691,
+      "eval_runtime": 49.7604,
+      "eval_samples_per_second": 380.142,
+      "eval_steps_per_second": 1.487,
+      "step": 14000
+    },
+    {
+      "epoch": 0.5083973212720452,
+      "grad_norm": 4.192228317260742,
+      "learning_rate": 1.9955454789254234e-05,
+      "loss": 9.5657,
+      "step": 14500
+    },
+    {
+      "epoch": 0.5083973212720452,
+      "eval_cosine_accuracy": 0.9468938112258911,
+      "eval_loss": 8.962514877319336,
+      "eval_runtime": 51.4762,
+      "eval_samples_per_second": 367.47,
+      "eval_steps_per_second": 1.438,
+      "step": 14500
+    },
+    {
+      "epoch": 0.5259282633848743,
+      "grad_norm": 4.109299659729004,
+      "learning_rate": 1.9939866470405452e-05,
+      "loss": 9.5571,
+      "step": 15000
+    },
+    {
+      "epoch": 0.5259282633848743,
+      "eval_cosine_accuracy": 0.9458969831466675,
+      "eval_loss": 8.966425895690918,
+      "eval_runtime": 50.6672,
+      "eval_samples_per_second": 373.338,
+      "eval_steps_per_second": 1.461,
+      "step": 15000
+    },
+    {
+      "epoch": 0.5434592054977034,
+      "grad_norm": 3.5839483737945557,
+      "learning_rate": 1.9921951807469183e-05,
+      "loss": 9.5559,
+      "step": 15500
+    },
+    {
+      "epoch": 0.5434592054977034,
+      "eval_cosine_accuracy": 0.9465766549110413,
+      "eval_loss": 8.933329582214355,
+      "eval_runtime": 50.2462,
+      "eval_samples_per_second": 376.466,
+      "eval_steps_per_second": 1.473,
+      "step": 15500
+    },
+    {
+      "epoch": 0.5609901476105326,
+      "grad_norm": 3.516906499862671,
+      "learning_rate": 1.9901800560110894e-05,
+      "loss": 9.5514,
+      "step": 16000
+    },
+    {
+      "epoch": 0.5609901476105326,
+      "eval_cosine_accuracy": 0.9477094411849976,
+      "eval_loss": 8.930047988891602,
+      "eval_runtime": 51.0181,
+      "eval_samples_per_second": 370.771,
+      "eval_steps_per_second": 1.45,
+      "step": 16000
+    },
+    {
+      "epoch": 0.5785210897233617,
+      "grad_norm": 3.535010576248169,
+      "learning_rate": 1.9879255590325465e-05,
+      "loss": 9.5429,
+      "step": 16500
+    },
+    {
+      "epoch": 0.5785210897233617,
+      "eval_cosine_accuracy": 0.9487969279289246,
+      "eval_loss": 8.990011215209961,
+      "eval_runtime": 50.1912,
+      "eval_samples_per_second": 376.879,
+      "eval_steps_per_second": 1.474,
+      "step": 16500
+    },
+    {
+      "epoch": 0.5960520318361909,
+      "grad_norm": 3.881448268890381,
+      "learning_rate": 1.9854398461931087e-05,
+      "loss": 9.5319,
+      "step": 17000
+    },
+    {
+      "epoch": 0.5960520318361909,
+      "eval_cosine_accuracy": 0.943993866443634,
+      "eval_loss": 8.999488830566406,
+      "eval_runtime": 50.1438,
+      "eval_samples_per_second": 377.235,
+      "eval_steps_per_second": 1.476,
+      "step": 17000
+    },
+    {
+      "epoch": 0.6135829739490201,
+      "grad_norm": 3.682716131210327,
+      "learning_rate": 1.982723499253445e-05,
+      "loss": 9.5303,
+      "step": 17500
+    },
+    {
+      "epoch": 0.6135829739490201,
+      "eval_cosine_accuracy": 0.9459422826766968,
+      "eval_loss": 8.963994026184082,
+      "eval_runtime": 51.271,
+      "eval_samples_per_second": 368.941,
+      "eval_steps_per_second": 1.443,
+      "step": 17500
+    },
+    {
+      "epoch": 0.6311139160618492,
+      "grad_norm": 3.4688053131103516,
+      "learning_rate": 1.9797771539522402e-05,
+      "loss": 9.5292,
+      "step": 18000
+    },
+    {
+      "epoch": 0.6311139160618492,
+      "eval_cosine_accuracy": 0.9459422826766968,
+      "eval_loss": 8.978798866271973,
+      "eval_runtime": 51.1172,
+      "eval_samples_per_second": 370.051,
+      "eval_steps_per_second": 1.448,
+      "step": 18000
+    },
+    {
+      "epoch": 0.6486448581746783,
+      "grad_norm": 4.622004985809326,
+      "learning_rate": 1.9766014998574075e-05,
+      "loss": 9.5179,
+      "step": 18500
+    },
+    {
+      "epoch": 0.6486448581746783,
+      "eval_cosine_accuracy": 0.9446282386779785,
+      "eval_loss": 9.016169548034668,
+      "eval_runtime": 50.2418,
+      "eval_samples_per_second": 376.499,
+      "eval_steps_per_second": 1.473,
+      "step": 18500
+    },
+    {
+      "epoch": 0.6661758002875074,
+      "grad_norm": 3.7142796516418457,
+      "learning_rate": 1.973197280204698e-05,
+      "loss": 9.5171,
+      "step": 19000
+    },
+    {
+      "epoch": 0.6661758002875074,
+      "eval_cosine_accuracy": 0.9446282386779785,
+      "eval_loss": 9.053177833557129,
+      "eval_runtime": 51.5419,
+      "eval_samples_per_second": 367.002,
+      "eval_steps_per_second": 1.436,
+      "step": 19000
+    },
+    {
+      "epoch": 0.6837067424003366,
+      "grad_norm": 3.596008539199829,
+      "learning_rate": 1.969565291723755e-05,
+      "loss": 9.509,
+      "step": 19500
+    },
+    {
+      "epoch": 0.6837067424003366,
+      "eval_cosine_accuracy": 0.9444922804832458,
+      "eval_loss": 9.100041389465332,
+      "eval_runtime": 50.8331,
+      "eval_samples_per_second": 372.12,
+      "eval_steps_per_second": 1.456,
+      "step": 19500
+    },
+    {
+      "epoch": 0.7012376845131657,
+      "grad_norm": 3.7148385047912598,
+      "learning_rate": 1.965706384451643e-05,
+      "loss": 9.4974,
+      "step": 20000
+    },
+    {
+      "epoch": 0.7012376845131657,
+      "eval_cosine_accuracy": 0.9441297650337219,
+      "eval_loss": 9.080968856811523,
+      "eval_runtime": 51.7342,
+      "eval_samples_per_second": 365.638,
+      "eval_steps_per_second": 1.43,
+      "step": 20000
+    },
+    {
+      "epoch": 0.7187686266259948,
+      "grad_norm": 4.166687965393066,
+      "learning_rate": 1.9616298563166923e-05,
+      "loss": 9.4997,
+      "step": 20500
+    },
+    {
+      "epoch": 0.7187686266259948,
+      "eval_cosine_accuracy": 0.9448094367980957,
+      "eval_loss": 9.160306930541992,
+      "eval_runtime": 50.2386,
+      "eval_samples_per_second": 376.523,
+      "eval_steps_per_second": 1.473,
+      "step": 20500
+    },
+    {
+      "epoch": 0.7362995687388241,
+      "grad_norm": 3.890392541885376,
+      "learning_rate": 1.9573203229260095e-05,
+      "loss": 9.4949,
+      "step": 21000
+    },
+    {
+      "epoch": 0.7362995687388241,
+      "eval_cosine_accuracy": 0.9433141350746155,
+      "eval_loss": 9.170744895935059,
+      "eval_runtime": 50.2779,
+      "eval_samples_per_second": 376.229,
+      "eval_steps_per_second": 1.472,
+      "step": 21000
+    },
+    {
+      "epoch": 0.7538305108516532,
+      "grad_norm": 4.466862678527832,
+      "learning_rate": 1.9527867365785086e-05,
+      "loss": 9.4909,
+      "step": 21500
+    },
+    {
+      "epoch": 0.7538305108516532,
+      "eval_cosine_accuracy": 0.942679762840271,
+      "eval_loss": 9.167838096618652,
+      "eval_runtime": 51.5157,
+      "eval_samples_per_second": 367.189,
+      "eval_steps_per_second": 1.436,
+      "step": 21500
+    },
+    {
+      "epoch": 0.7713614529644823,
+      "grad_norm": 3.551948308944702,
+      "learning_rate": 1.9480301583228286e-05,
+      "loss": 9.4909,
+      "step": 22000
+    },
+    {
+      "epoch": 0.7713614529644823,
+      "eval_cosine_accuracy": 0.9448094367980957,
+      "eval_loss": 9.07791519165039,
+      "eval_runtime": 50.9951,
+      "eval_samples_per_second": 370.938,
+      "eval_steps_per_second": 1.451,
+      "step": 22000
+    },
+    {
+      "epoch": 0.7888923950773115,
+      "grad_norm": 4.436821460723877,
+      "learning_rate": 1.943061878979968e-05,
+      "loss": 9.4826,
+      "step": 22500
+    },
+    {
+      "epoch": 0.7888923950773115,
+      "eval_cosine_accuracy": 0.9433594346046448,
+      "eval_loss": 9.1586275100708,
+      "eval_runtime": 50.3731,
+      "eval_samples_per_second": 375.518,
+      "eval_steps_per_second": 1.469,
+      "step": 22500
+    },
+    {
+      "epoch": 0.8064233371901406,
+      "grad_norm": 4.032012939453125,
+      "learning_rate": 1.9378631487807903e-05,
+      "loss": 9.4739,
+      "step": 23000
+    },
+    {
+      "epoch": 0.8064233371901406,
+      "eval_cosine_accuracy": 0.9438126087188721,
+      "eval_loss": 9.108503341674805,
+      "eval_runtime": 51.2155,
+      "eval_samples_per_second": 369.341,
+      "eval_steps_per_second": 1.445,
+      "step": 23000
+    },
+    {
+      "epoch": 0.8239542793029697,
+      "grad_norm": 3.9402658939361572,
+      "learning_rate": 1.932444919416554e-05,
+      "loss": 9.4761,
+      "step": 23500
+    },
+    {
+      "epoch": 0.8239542793029697,
+      "eval_cosine_accuracy": 0.9426344633102417,
+      "eval_loss": 9.16297721862793,
+      "eval_runtime": 50.324,
+      "eval_samples_per_second": 375.884,
+      "eval_steps_per_second": 1.47,
+      "step": 23500
+    },
+    {
+      "epoch": 0.8414852214157988,
+      "grad_norm": 4.0512261390686035,
+      "learning_rate": 1.9268199488264804e-05,
+      "loss": 9.4678,
+      "step": 24000
+    },
+    {
+      "epoch": 0.8414852214157988,
+      "eval_cosine_accuracy": 0.9408219456672668,
+      "eval_loss": 9.143158912658691,
+      "eval_runtime": 50.9267,
+      "eval_samples_per_second": 371.436,
+      "eval_steps_per_second": 1.453,
+      "step": 24000
+    },
+    {
+      "epoch": 0.859016163528628,
+      "grad_norm": 4.608471393585205,
+      "learning_rate": 1.920967008957015e-05,
+      "loss": 9.4634,
+      "step": 24500
+    },
+    {
+      "epoch": 0.859016163528628,
+      "eval_cosine_accuracy": 0.9429516792297363,
+      "eval_loss": 9.19399642944336,
+      "eval_runtime": 50.1418,
+      "eval_samples_per_second": 377.25,
+      "eval_steps_per_second": 1.476,
+      "step": 24500
+    },
+    {
+      "epoch": 0.8765471056414572,
+      "grad_norm": 3.4046618938446045,
+      "learning_rate": 1.914898524325209e-05,
+      "loss": 9.4592,
+      "step": 25000
+    },
+    {
+      "epoch": 0.8765471056414572,
+      "eval_cosine_accuracy": 0.942498505115509,
+      "eval_loss": 9.171710014343262,
+      "eval_runtime": 50.5114,
+      "eval_samples_per_second": 374.49,
+      "eval_steps_per_second": 1.465,
+      "step": 25000
+    },
+    {
+      "epoch": 0.8940780477542863,
+      "grad_norm": 4.221813678741455,
+      "learning_rate": 1.908615915210035e-05,
+      "loss": 9.458,
+      "step": 25500
+    },
+    {
+      "epoch": 0.8940780477542863,
+      "eval_cosine_accuracy": 0.9407313466072083,
+      "eval_loss": 9.206527709960938,
+      "eval_runtime": 51.7106,
+      "eval_samples_per_second": 365.805,
+      "eval_steps_per_second": 1.431,
+      "step": 25500
+    },
+    {
+      "epoch": 0.9116089898671155,
+      "grad_norm": 4.586436748504639,
+      "learning_rate": 1.902120652004543e-05,
+      "loss": 9.449,
+      "step": 26000
+    },
+    {
+      "epoch": 0.9116089898671155,
+      "eval_cosine_accuracy": 0.940504789352417,
+      "eval_loss": 9.243682861328125,
+      "eval_runtime": 50.8955,
+      "eval_samples_per_second": 371.664,
+      "eval_steps_per_second": 1.454,
+      "step": 26000
+    },
+    {
+      "epoch": 0.9291399319799446,
+      "grad_norm": 4.309023380279541,
+      "learning_rate": 1.895414254871725e-05,
+      "loss": 9.4469,
+      "step": 26500
+    },
+    {
+      "epoch": 0.9291399319799446,
+      "eval_cosine_accuracy": 0.9420906901359558,
+      "eval_loss": 9.203714370727539,
+      "eval_runtime": 49.9746,
+      "eval_samples_per_second": 378.512,
+      "eval_steps_per_second": 1.481,
+      "step": 26500
+    },
+    {
+      "epoch": 0.9466708740927737,
+      "grad_norm": 3.725597858428955,
+      "learning_rate": 1.8884982933887337e-05,
+      "loss": 9.4501,
+      "step": 27000
+    },
+    {
+      "epoch": 0.9466708740927737,
+      "eval_cosine_accuracy": 0.9427704215049744,
+      "eval_loss": 9.19096565246582,
+      "eval_runtime": 51.4072,
+      "eval_samples_per_second": 367.964,
+      "eval_steps_per_second": 1.439,
+      "step": 27000
+    },
+    {
+      "epoch": 0.9642018162056029,
+      "grad_norm": 4.729601860046387,
+      "learning_rate": 1.8813743861795376e-05,
+      "loss": 9.4492,
+      "step": 27500
+    },
+    {
+      "epoch": 0.9642018162056029,
+      "eval_cosine_accuracy": 0.9398251175880432,
+      "eval_loss": 9.26838493347168,
+      "eval_runtime": 50.8114,
+      "eval_samples_per_second": 372.279,
+      "eval_steps_per_second": 1.456,
+      "step": 27500
+    },
+    {
+      "epoch": 0.981732758318432,
+      "grad_norm": 3.041431188583374,
+      "learning_rate": 1.8740590656409715e-05,
+      "loss": 9.445,
+      "step": 28000
+    },
+    {
+      "epoch": 0.981732758318432,
+      "eval_cosine_accuracy": 0.9418188333511353,
+      "eval_loss": 9.160036087036133,
+      "eval_runtime": 50.8238,
+      "eval_samples_per_second": 372.188,
+      "eval_steps_per_second": 1.456,
+      "step": 28000
+    },
+    {
+      "epoch": 0.9992637004312612,
+      "grad_norm": 3.983847141265869,
+      "learning_rate": 1.8665247245147084e-05,
+      "loss": 9.4356,
+      "step": 28500
+    },
+    {
+      "epoch": 0.9992637004312612,
+      "eval_cosine_accuracy": 0.9409579038619995,
+      "eval_loss": 9.164313316345215,
+      "eval_runtime": 50.3081,
+      "eval_samples_per_second": 376.003,
+      "eval_steps_per_second": 1.471,
+      "step": 28500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 114084,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 256,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-28521/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff251d0259f667a93594ea1efe197ff3b0827f9a1ffe30b0b91001733ac6ff94
+size 5624

checkpoint-28521/training_metrics.json ADDED Viewed

	@@ -0,0 +1,348 @@

+{
+  "metrics_history": [
+    {
+      "epoch": 0.017530942112829143,
+      "global_step": 500,
+      "eval_loss": 10.808653831481934,
+      "eval_cosine_accuracy": 0.9304001331329346
+    },
+    {
+      "epoch": 0.035061884225658285,
+      "global_step": 1000,
+      "eval_loss": 9.035820007324219,
+      "eval_cosine_accuracy": 0.9219266772270203
+    },
+    {
+      "epoch": 0.05259282633848743,
+      "global_step": 1500,
+      "eval_loss": 8.834137916564941,
+      "eval_cosine_accuracy": 0.9366985559463501
+    },
+    {
+      "epoch": 0.07012376845131657,
+      "global_step": 2000,
+      "eval_loss": 8.768850326538086,
+      "eval_cosine_accuracy": 0.9407313466072083
+    },
+    {
+      "epoch": 0.08765471056414571,
+      "global_step": 2500,
+      "eval_loss": 8.751864433288574,
+      "eval_cosine_accuracy": 0.9402782320976257
+    },
+    {
+      "epoch": 0.10518565267697486,
+      "global_step": 3000,
+      "eval_loss": 8.732973098754883,
+      "eval_cosine_accuracy": 0.9425438642501831
+    },
+    {
+      "epoch": 0.122716594789804,
+      "global_step": 3500,
+      "eval_loss": 8.691949844360352,
+      "eval_cosine_accuracy": 0.9468938112258911
+    },
+    {
+      "epoch": 0.14024753690263314,
+      "global_step": 4000,
+      "eval_loss": 8.692930221557617,
+      "eval_cosine_accuracy": 0.9477094411849976
+    },
+    {
+      "epoch": 0.1577784790154623,
+      "global_step": 4500,
+      "eval_loss": 8.666604995727539,
+      "eval_cosine_accuracy": 0.9502469301223755
+    },
+    {
+      "epoch": 0.17530942112829143,
+      "global_step": 5000,
+      "eval_loss": 8.687457084655762,
+      "eval_cosine_accuracy": 0.9490235447883606
+    },
+    {
+      "epoch": 0.19284036324112058,
+      "global_step": 5500,
+      "eval_loss": 8.682653427124023,
+      "eval_cosine_accuracy": 0.9515156745910645
+    },
+    {
+      "epoch": 0.2103713053539497,
+      "global_step": 6000,
+      "eval_loss": 8.673870086669922,
+      "eval_cosine_accuracy": 0.9527844190597534
+    },
+    {
+      "epoch": 0.22790224746677887,
+      "global_step": 6500,
+      "eval_loss": 8.690710067749023,
+      "eval_cosine_accuracy": 0.9525125622749329
+    },
+    {
+      "epoch": 0.245433189579608,
+      "global_step": 7000,
+      "eval_loss": 8.720589637756348,
+      "eval_cosine_accuracy": 0.9523313045501709
+    },
+    {
+      "epoch": 0.26296413169243715,
+      "global_step": 7500,
+      "eval_loss": 8.7124662399292,
+      "eval_cosine_accuracy": 0.9521500468254089
+    },
+    {
+      "epoch": 0.2804950738052663,
+      "global_step": 8000,
+      "eval_loss": 8.740606307983398,
+      "eval_cosine_accuracy": 0.9511532187461853
+    },
+    {
+      "epoch": 0.29802601591809547,
+      "global_step": 8500,
+      "eval_loss": 8.709793090820312,
+      "eval_cosine_accuracy": 0.9524672627449036
+    },
+    {
+      "epoch": 0.3155569580309246,
+      "global_step": 9000,
+      "eval_loss": 8.736331939697266,
+      "eval_cosine_accuracy": 0.9522860050201416
+    },
+    {
+      "epoch": 0.3330879001437537,
+      "global_step": 9500,
+      "eval_loss": 8.755115509033203,
+      "eval_cosine_accuracy": 0.9511532187461853
+    },
+    {
+      "epoch": 0.35061884225658285,
+      "global_step": 10000,
+      "eval_loss": 8.82080078125,
+      "eval_cosine_accuracy": 0.9495219588279724
+    },
+    {
+      "epoch": 0.36814978436941204,
+      "global_step": 10500,
+      "eval_loss": 8.80677318572998,
+      "eval_cosine_accuracy": 0.9494766592979431
+    },
+    {
+      "epoch": 0.38568072648224117,
+      "global_step": 11000,
+      "eval_loss": 8.862730026245117,
+      "eval_cosine_accuracy": 0.948706328868866
+    },
+    {
+      "epoch": 0.4032116685950703,
+      "global_step": 11500,
+      "eval_loss": 8.826420783996582,
+      "eval_cosine_accuracy": 0.9495672583580017
+    },
+    {
+      "epoch": 0.4207426107078994,
+      "global_step": 12000,
+      "eval_loss": 8.905811309814453,
+      "eval_cosine_accuracy": 0.9481625556945801
+    },
+    {
+      "epoch": 0.4382735528207286,
+      "global_step": 12500,
+      "eval_loss": 8.883400917053223,
+      "eval_cosine_accuracy": 0.9498844742774963
+    },
+    {
+      "epoch": 0.45580449493355774,
+      "global_step": 13000,
+      "eval_loss": 8.826370239257812,
+      "eval_cosine_accuracy": 0.9498391151428223
+    },
+    {
+      "epoch": 0.47333543704638686,
+      "global_step": 13500,
+      "eval_loss": 8.92893123626709,
+      "eval_cosine_accuracy": 0.947437584400177
+    },
+    {
+      "epoch": 0.490866379159216,
+      "global_step": 14000,
+      "eval_loss": 8.924897193908691,
+      "eval_cosine_accuracy": 0.9474828839302063
+    },
+    {
+      "epoch": 0.5083973212720452,
+      "global_step": 14500,
+      "eval_loss": 8.962514877319336,
+      "eval_cosine_accuracy": 0.9468938112258911
+    },
+    {
+      "epoch": 0.5259282633848743,
+      "global_step": 15000,
+      "eval_loss": 8.966425895690918,
+      "eval_cosine_accuracy": 0.9458969831466675
+    },
+    {
+      "epoch": 0.5434592054977034,
+      "global_step": 15500,
+      "eval_loss": 8.933329582214355,
+      "eval_cosine_accuracy": 0.9465766549110413
+    },
+    {
+      "epoch": 0.5609901476105326,
+      "global_step": 16000,
+      "eval_loss": 8.930047988891602,
+      "eval_cosine_accuracy": 0.9477094411849976
+    },
+    {
+      "epoch": 0.5785210897233617,
+      "global_step": 16500,
+      "eval_loss": 8.990011215209961,
+      "eval_cosine_accuracy": 0.9487969279289246
+    },
+    {
+      "epoch": 0.5960520318361909,
+      "global_step": 17000,
+      "eval_loss": 8.999488830566406,
+      "eval_cosine_accuracy": 0.943993866443634
+    },
+    {
+      "epoch": 0.6135829739490201,
+      "global_step": 17500,
+      "eval_loss": 8.963994026184082,
+      "eval_cosine_accuracy": 0.9459422826766968
+    },
+    {
+      "epoch": 0.6311139160618492,
+      "global_step": 18000,
+      "eval_loss": 8.978798866271973,
+      "eval_cosine_accuracy": 0.9459422826766968
+    },
+    {
+      "epoch": 0.6486448581746783,
+      "global_step": 18500,
+      "eval_loss": 9.016169548034668,
+      "eval_cosine_accuracy": 0.9446282386779785
+    },
+    {
+      "epoch": 0.6661758002875074,
+      "global_step": 19000,
+      "eval_loss": 9.053177833557129,
+      "eval_cosine_accuracy": 0.9446282386779785
+    },
+    {
+      "epoch": 0.6837067424003366,
+      "global_step": 19500,
+      "eval_loss": 9.100041389465332,
+      "eval_cosine_accuracy": 0.9444922804832458
+    },
+    {
+      "epoch": 0.7012376845131657,
+      "global_step": 20000,
+      "eval_loss": 9.080968856811523,
+      "eval_cosine_accuracy": 0.9441297650337219
+    },
+    {
+      "epoch": 0.7187686266259948,
+      "global_step": 20500,
+      "eval_loss": 9.160306930541992,
+      "eval_cosine_accuracy": 0.9448094367980957
+    },
+    {
+      "epoch": 0.7362995687388241,
+      "global_step": 21000,
+      "eval_loss": 9.170744895935059,
+      "eval_cosine_accuracy": 0.9433141350746155
+    },
+    {
+      "epoch": 0.7538305108516532,
+      "global_step": 21500,
+      "eval_loss": 9.167838096618652,
+      "eval_cosine_accuracy": 0.942679762840271
+    },
+    {
+      "epoch": 0.7713614529644823,
+      "global_step": 22000,
+      "eval_loss": 9.07791519165039,
+      "eval_cosine_accuracy": 0.9448094367980957
+    },
+    {
+      "epoch": 0.7888923950773115,
+      "global_step": 22500,
+      "eval_loss": 9.1586275100708,
+      "eval_cosine_accuracy": 0.9433594346046448
+    },
+    {
+      "epoch": 0.8064233371901406,
+      "global_step": 23000,
+      "eval_loss": 9.108503341674805,
+      "eval_cosine_accuracy": 0.9438126087188721
+    },
+    {
+      "epoch": 0.8239542793029697,
+      "global_step": 23500,
+      "eval_loss": 9.16297721862793,
+      "eval_cosine_accuracy": 0.9426344633102417
+    },
+    {
+      "epoch": 0.8414852214157988,
+      "global_step": 24000,
+      "eval_loss": 9.143158912658691,
+      "eval_cosine_accuracy": 0.9408219456672668
+    },
+    {
+      "epoch": 0.859016163528628,
+      "global_step": 24500,
+      "eval_loss": 9.19399642944336,
+      "eval_cosine_accuracy": 0.9429516792297363
+    },
+    {
+      "epoch": 0.8765471056414572,
+      "global_step": 25000,
+      "eval_loss": 9.171710014343262,
+      "eval_cosine_accuracy": 0.942498505115509
+    },
+    {
+      "epoch": 0.8940780477542863,
+      "global_step": 25500,
+      "eval_loss": 9.206527709960938,
+      "eval_cosine_accuracy": 0.9407313466072083
+    },
+    {
+      "epoch": 0.9116089898671155,
+      "global_step": 26000,
+      "eval_loss": 9.243682861328125,
+      "eval_cosine_accuracy": 0.940504789352417
+    },
+    {
+      "epoch": 0.9291399319799446,
+      "global_step": 26500,
+      "eval_loss": 9.203714370727539,
+      "eval_cosine_accuracy": 0.9420906901359558
+    },
+    {
+      "epoch": 0.9466708740927737,
+      "global_step": 27000,
+      "eval_loss": 9.19096565246582,
+      "eval_cosine_accuracy": 0.9427704215049744
+    },
+    {
+      "epoch": 0.9642018162056029,
+      "global_step": 27500,
+      "eval_loss": 9.26838493347168,
+      "eval_cosine_accuracy": 0.9398251175880432
+    },
+    {
+      "epoch": 0.981732758318432,
+      "global_step": 28000,
+      "eval_loss": 9.160036087036133,
+      "eval_cosine_accuracy": 0.9418188333511353
+    },
+    {
+      "epoch": 0.9992637004312612,
+      "global_step": 28500,
+      "eval_loss": 9.164313316345215,
+      "eval_cosine_accuracy": 0.9409579038619995
+    }
+  ],
+  "current_epoch": 1,
+  "global_step": 28521
+}

checkpoint-28521/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff