Upload 15 files

Browse files

Files changed (16) hide show

.gitattributes +1 -0
config.json +28 -0
config_sentence_transformers.json +10 -0
model.safetensors +3 -0
modules.json +14 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
scheduler.pt +3 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +15 -0
tokenizer.json +3 -0
tokenizer_config.json +54 -0
trainer_state.json +808 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "xlm-roberta-large",
+  "architectures": [
+    "XLMRobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.3.1",
+    "transformers": "4.46.3",
+    "pytorch": "2.5.1+cu121"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f29e5eff32af3a7475105b07bb3ab35f91bc5f26b396e6c0054ae215a2d80934
+size 2239607176

modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64913fc7cf76e57473f1f3dc7fcb428bfff02ced7fac9575421f95b18356f17a
+size 14960

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f9b522c44df741b94051d80458d3b917419d0a5b17ffb0d72bc5ecd64b46af5
+size 15024

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7a2eea9880115fd39e7d18dd8cfc56a010ca6c0afae3228c7b5338323b2f33d
+size 15024

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c67727acaaaca27d55b3d840273b4d3cff0c9ff7202c37ecf11f259482d03bc
+size 15024

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3642978a9acbeda084134473869c983a3152a357cc28cd346ff0a5d3373e6435
+size 1064

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
+size 17082987

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,808 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 600,
+  "global_step": 19724,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03041979314540661,
+      "grad_norm": 18.901899337768555,
+      "learning_rate": 7.602635580334516e-06,
+      "loss": 6.9711,
+      "step": 300
+    },
+    {
+      "epoch": 0.06083958629081322,
+      "grad_norm": 10.027973175048828,
+      "learning_rate": 1.5205271160669032e-05,
+      "loss": 6.6782,
+      "step": 600
+    },
+    {
+      "epoch": 0.06083958629081322,
+      "eval_loss": 6.566777229309082,
+      "eval_runtime": 137.8826,
+      "eval_samples_per_second": 722.803,
+      "eval_steps_per_second": 3.771,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8221966547977905,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.8553459588247386,
+      "step": 600
+    },
+    {
+      "epoch": 0.09125937943621984,
+      "grad_norm": 7.943920612335205,
+      "learning_rate": 2.2807906741003547e-05,
+      "loss": 6.5629,
+      "step": 900
+    },
+    {
+      "epoch": 0.12167917258162644,
+      "grad_norm": 14.02817440032959,
+      "learning_rate": 3.0410542321338064e-05,
+      "loss": 6.5257,
+      "step": 1200
+    },
+    {
+      "epoch": 0.12167917258162644,
+      "eval_loss": 6.480606555938721,
+      "eval_runtime": 137.5885,
+      "eval_samples_per_second": 724.348,
+      "eval_steps_per_second": 3.779,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8389107234301584,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.8806960493934014,
+      "step": 1200
+    },
+    {
+      "epoch": 0.15209896572703305,
+      "grad_norm": 6.915318489074707,
+      "learning_rate": 3.8013177901672584e-05,
+      "loss": 6.5118,
+      "step": 1500
+    },
+    {
+      "epoch": 0.18251875887243968,
+      "grad_norm": 8.075170516967773,
+      "learning_rate": 4.5615813482007094e-05,
+      "loss": 6.5113,
+      "step": 1800
+    },
+    {
+      "epoch": 0.18251875887243968,
+      "eval_loss": 6.4504618644714355,
+      "eval_runtime": 137.6975,
+      "eval_samples_per_second": 723.775,
+      "eval_steps_per_second": 3.776,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8409337903166615,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.8860494474021995,
+      "step": 1800
+    },
+    {
+      "epoch": 0.21293855201784628,
+      "grad_norm": 7.645256996154785,
+      "learning_rate": 4.9642273674722556e-05,
+      "loss": 6.4985,
+      "step": 2100
+    },
+    {
+      "epoch": 0.2433583451632529,
+      "grad_norm": 9.04224681854248,
+      "learning_rate": 4.879725085910653e-05,
+      "loss": 6.4647,
+      "step": 2400
+    },
+    {
+      "epoch": 0.2433583451632529,
+      "eval_loss": 6.431312084197998,
+      "eval_runtime": 138.1086,
+      "eval_samples_per_second": 721.621,
+      "eval_steps_per_second": 3.765,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8624197414681364,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.8930269904775303,
+      "step": 2400
+    },
+    {
+      "epoch": 0.2737781383086595,
+      "grad_norm": 8.209064483642578,
+      "learning_rate": 4.795222804349051e-05,
+      "loss": 6.4521,
+      "step": 2700
+    },
+    {
+      "epoch": 0.3041979314540661,
+      "grad_norm": 9.494904518127441,
+      "learning_rate": 4.710720522787449e-05,
+      "loss": 6.433,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3041979314540661,
+      "eval_loss": 6.395111083984375,
+      "eval_runtime": 137.451,
+      "eval_samples_per_second": 725.073,
+      "eval_steps_per_second": 3.783,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8646640222074062,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9000406008439981,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3346177245994727,
+      "grad_norm": 47.823909759521484,
+      "learning_rate": 4.626218241225847e-05,
+      "loss": 6.425,
+      "step": 3300
+    },
+    {
+      "epoch": 0.36503751774487936,
+      "grad_norm": 7.535511493682861,
+      "learning_rate": 4.541715959664244e-05,
+      "loss": 6.4997,
+      "step": 3600
+    },
+    {
+      "epoch": 0.36503751774487936,
+      "eval_loss": 6.358321666717529,
+      "eval_runtime": 137.1665,
+      "eval_samples_per_second": 726.577,
+      "eval_steps_per_second": 3.791,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8730759198834104,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9086688126662049,
+      "step": 3600
+    },
+    {
+      "epoch": 0.39545731089028596,
+      "grad_norm": 10.910676956176758,
+      "learning_rate": 4.4572136781026426e-05,
+      "loss": 6.4025,
+      "step": 3900
+    },
+    {
+      "epoch": 0.42587710403569257,
+      "grad_norm": 10.022330284118652,
+      "learning_rate": 4.37271139654104e-05,
+      "loss": 6.3871,
+      "step": 4200
+    },
+    {
+      "epoch": 0.42587710403569257,
+      "eval_loss": 6.344127655029297,
+      "eval_runtime": 138.1255,
+      "eval_samples_per_second": 721.532,
+      "eval_steps_per_second": 3.765,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8825601723202625,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9130197347529897,
+      "step": 4200
+    },
+    {
+      "epoch": 0.45629689718109917,
+      "grad_norm": 9.585289001464844,
+      "learning_rate": 4.288209114979438e-05,
+      "loss": 6.3839,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4867166903265058,
+      "grad_norm": 10.677062034606934,
+      "learning_rate": 4.203706833417836e-05,
+      "loss": 6.3572,
+      "step": 4800
+    },
+    {
+      "epoch": 0.4867166903265058,
+      "eval_loss": 6.322529315948486,
+      "eval_runtime": 138.9975,
+      "eval_samples_per_second": 717.006,
+      "eval_steps_per_second": 3.741,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8822280482311033,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9164128582462162,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5171364834719124,
+      "grad_norm": 7.5291948318481445,
+      "learning_rate": 4.1192045518562337e-05,
+      "loss": 6.3551,
+      "step": 5100
+    },
+    {
+      "epoch": 0.547556276617319,
+      "grad_norm": 110.76056671142578,
+      "learning_rate": 4.034702270294631e-05,
+      "loss": 6.3389,
+      "step": 5400
+    },
+    {
+      "epoch": 0.547556276617319,
+      "eval_loss": 6.453874111175537,
+      "eval_runtime": 138.6084,
+      "eval_samples_per_second": 719.018,
+      "eval_steps_per_second": 3.752,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8527196112195143,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.8865816143700719,
+      "step": 5400
+    },
+    {
+      "epoch": 0.5779760697627256,
+      "grad_norm": 7.72743034362793,
+      "learning_rate": 3.9501999887330295e-05,
+      "loss": 6.342,
+      "step": 5700
+    },
+    {
+      "epoch": 0.6083958629081322,
+      "grad_norm": 7.7697434425354,
+      "learning_rate": 3.865697707171427e-05,
+      "loss": 6.3264,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6083958629081322,
+      "eval_loss": 6.28953218460083,
+      "eval_runtime": 138.8082,
+      "eval_samples_per_second": 717.984,
+      "eval_steps_per_second": 3.746,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.886832364356628,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9225845620423561,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6388156560535388,
+      "grad_norm": 10.513375282287598,
+      "learning_rate": 3.781195425609825e-05,
+      "loss": 6.3174,
+      "step": 6300
+    },
+    {
+      "epoch": 0.6692354491989454,
+      "grad_norm": 8.724417686462402,
+      "learning_rate": 3.696693144048223e-05,
+      "loss": 6.3053,
+      "step": 6600
+    },
+    {
+      "epoch": 0.6692354491989454,
+      "eval_loss": 6.261702060699463,
+      "eval_runtime": 138.9377,
+      "eval_samples_per_second": 717.314,
+      "eval_steps_per_second": 3.743,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.8988111510184248,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9276381690737614,
+      "step": 6600
+    },
+    {
+      "epoch": 0.6996552423443521,
+      "grad_norm": 7.966050148010254,
+      "learning_rate": 3.6121908624866206e-05,
+      "loss": 6.2845,
+      "step": 6900
+    },
+    {
+      "epoch": 0.7300750354897587,
+      "grad_norm": 9.207416534423828,
+      "learning_rate": 3.527688580925019e-05,
+      "loss": 6.2682,
+      "step": 7200
+    },
+    {
+      "epoch": 0.7300750354897587,
+      "eval_loss": 6.230149745941162,
+      "eval_runtime": 138.8391,
+      "eval_samples_per_second": 717.824,
+      "eval_steps_per_second": 3.745,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9008172441807218,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.931930159250373,
+      "step": 7200
+    },
+    {
+      "epoch": 0.7604948286351653,
+      "grad_norm": 9.360489845275879,
+      "learning_rate": 3.4431862993634165e-05,
+      "loss": 6.2636,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7909146217805719,
+      "grad_norm": 7.827134609222412,
+      "learning_rate": 3.358684017801814e-05,
+      "loss": 6.2583,
+      "step": 7800
+    },
+    {
+      "epoch": 0.7909146217805719,
+      "eval_loss": 6.21486234664917,
+      "eval_runtime": 138.9559,
+      "eval_samples_per_second": 717.22,
+      "eval_steps_per_second": 3.742,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9026087567445202,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9353704768738569,
+      "step": 7800
+    },
+    {
+      "epoch": 0.8213344149259785,
+      "grad_norm": 30.614959716796875,
+      "learning_rate": 3.2741817362402124e-05,
+      "loss": 6.2444,
+      "step": 8100
+    },
+    {
+      "epoch": 0.8517542080713851,
+      "grad_norm": 31.50200843811035,
+      "learning_rate": 3.18967945467861e-05,
+      "loss": 6.2486,
+      "step": 8400
+    },
+    {
+      "epoch": 0.8517542080713851,
+      "eval_loss": 6.202221870422363,
+      "eval_runtime": 138.5186,
+      "eval_samples_per_second": 719.484,
+      "eval_steps_per_second": 3.754,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9057294515964277,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9369235606209017,
+      "step": 8400
+    },
+    {
+      "epoch": 0.8821740012167917,
+      "grad_norm": 14.758610725402832,
+      "learning_rate": 3.1051771731170076e-05,
+      "loss": 6.2403,
+      "step": 8700
+    },
+    {
+      "epoch": 0.9125937943621983,
+      "grad_norm": 10.743316650390625,
+      "learning_rate": 3.0206748915554055e-05,
+      "loss": 6.2264,
+      "step": 9000
+    },
+    {
+      "epoch": 0.9125937943621983,
+      "eval_loss": 6.1864914894104,
+      "eval_runtime": 137.8506,
+      "eval_samples_per_second": 722.971,
+      "eval_steps_per_second": 3.772,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9103090365593022,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9399249329773943,
+      "step": 9000
+    },
+    {
+      "epoch": 0.943013587507605,
+      "grad_norm": 10.912450790405273,
+      "learning_rate": 2.936172609993803e-05,
+      "loss": 6.228,
+      "step": 9300
+    },
+    {
+      "epoch": 0.9734333806530115,
+      "grad_norm": 10.816086769104004,
+      "learning_rate": 2.851670328432201e-05,
+      "loss": 6.2183,
+      "step": 9600
+    },
+    {
+      "epoch": 0.9734333806530115,
+      "eval_loss": 6.168646812438965,
+      "eval_runtime": 138.3732,
+      "eval_samples_per_second": 720.241,
+      "eval_steps_per_second": 3.758,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9120469924143964,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9418643543713353,
+      "step": 9600
+    },
+    {
+      "epoch": 1.0038531737984182,
+      "grad_norm": 7.334249496459961,
+      "learning_rate": 2.767168046870599e-05,
+      "loss": 6.1942,
+      "step": 9900
+    },
+    {
+      "epoch": 1.0342729669438249,
+      "grad_norm": 11.221212387084961,
+      "learning_rate": 2.682665765308997e-05,
+      "loss": 6.1156,
+      "step": 10200
+    },
+    {
+      "epoch": 1.0342729669438249,
+      "eval_loss": 6.172195911407471,
+      "eval_runtime": 140.5272,
+      "eval_samples_per_second": 709.201,
+      "eval_steps_per_second": 3.7,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9150733613138559,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.944458159317982,
+      "step": 10200
+    },
+    {
+      "epoch": 1.0646927600892313,
+      "grad_norm": 10.197308540344238,
+      "learning_rate": 2.5981634837473945e-05,
+      "loss": 6.1092,
+      "step": 10500
+    },
+    {
+      "epoch": 1.095112553234638,
+      "grad_norm": 10.895206451416016,
+      "learning_rate": 2.5136612021857924e-05,
+      "loss": 6.115,
+      "step": 10800
+    },
+    {
+      "epoch": 1.095112553234638,
+      "eval_loss": 6.155474662780762,
+      "eval_runtime": 138.8551,
+      "eval_samples_per_second": 717.741,
+      "eval_steps_per_second": 3.745,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9189361970149964,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9454253136066088,
+      "step": 10800
+    },
+    {
+      "epoch": 1.1255323463800446,
+      "grad_norm": 7.99360466003418,
+      "learning_rate": 2.42915892062419e-05,
+      "loss": 6.1073,
+      "step": 11100
+    },
+    {
+      "epoch": 1.1559521395254513,
+      "grad_norm": 8.214856147766113,
+      "learning_rate": 2.3446566390625883e-05,
+      "loss": 6.0948,
+      "step": 11400
+    },
+    {
+      "epoch": 1.1559521395254513,
+      "eval_loss": 6.126833915710449,
+      "eval_runtime": 138.2296,
+      "eval_samples_per_second": 720.989,
+      "eval_steps_per_second": 3.762,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.920760214361107,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9479362714648124,
+      "step": 11400
+    },
+    {
+      "epoch": 1.1863719326708577,
+      "grad_norm": 8.69244384765625,
+      "learning_rate": 2.260154357500986e-05,
+      "loss": 6.0847,
+      "step": 11700
+    },
+    {
+      "epoch": 1.2167917258162644,
+      "grad_norm": 8.387072563171387,
+      "learning_rate": 2.175652075939384e-05,
+      "loss": 6.0847,
+      "step": 12000
+    },
+    {
+      "epoch": 1.2167917258162644,
+      "eval_loss": 6.112495422363281,
+      "eval_runtime": 138.8912,
+      "eval_samples_per_second": 717.554,
+      "eval_steps_per_second": 3.744,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9210961226847519,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9499128638631187,
+      "step": 12000
+    },
+    {
+      "epoch": 1.247211518961671,
+      "grad_norm": 10.032007217407227,
+      "learning_rate": 2.0911497943777818e-05,
+      "loss": 6.0651,
+      "step": 12300
+    },
+    {
+      "epoch": 1.2776313121070777,
+      "grad_norm": 8.070867538452148,
+      "learning_rate": 2.0066475128161794e-05,
+      "loss": 6.0627,
+      "step": 12600
+    },
+    {
+      "epoch": 1.2776313121070777,
+      "eval_loss": 6.100788116455078,
+      "eval_runtime": 138.237,
+      "eval_samples_per_second": 720.95,
+      "eval_steps_per_second": 3.762,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9255270604770037,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9513841835406814,
+      "step": 12600
+    },
+    {
+      "epoch": 1.3080511052524844,
+      "grad_norm": 7.968441486358643,
+      "learning_rate": 1.9221452312545773e-05,
+      "loss": 6.0581,
+      "step": 12900
+    },
+    {
+      "epoch": 1.3384708983978908,
+      "grad_norm": 9.402104377746582,
+      "learning_rate": 1.837642949692975e-05,
+      "loss": 6.0487,
+      "step": 13200
+    },
+    {
+      "epoch": 1.3384708983978908,
+      "eval_loss": 6.084331512451172,
+      "eval_runtime": 138.9347,
+      "eval_samples_per_second": 717.33,
+      "eval_steps_per_second": 3.743,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9269253835940942,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9532928235476991,
+      "step": 13200
+    },
+    {
+      "epoch": 1.3688906915432975,
+      "grad_norm": 12.24899959564209,
+      "learning_rate": 1.7531406681313732e-05,
+      "loss": 6.0484,
+      "step": 13500
+    },
+    {
+      "epoch": 1.3993104846887041,
+      "grad_norm": 8.195536613464355,
+      "learning_rate": 1.6686383865697708e-05,
+      "loss": 6.0383,
+      "step": 13800
+    },
+    {
+      "epoch": 1.3993104846887041,
+      "eval_loss": 6.066676616668701,
+      "eval_runtime": 138.9021,
+      "eval_samples_per_second": 717.498,
+      "eval_steps_per_second": 3.744,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9270862709285299,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9549725220671897,
+      "step": 13800
+    },
+    {
+      "epoch": 1.4297302778341108,
+      "grad_norm": 8.008993148803711,
+      "learning_rate": 1.5841361050081684e-05,
+      "loss": 6.0207,
+      "step": 14100
+    },
+    {
+      "epoch": 1.4601500709795174,
+      "grad_norm": 8.773452758789062,
+      "learning_rate": 1.4996338234465665e-05,
+      "loss": 6.0266,
+      "step": 14400
+    },
+    {
+      "epoch": 1.4601500709795174,
+      "eval_loss": 6.052004337310791,
+      "eval_runtime": 137.7528,
+      "eval_samples_per_second": 723.484,
+      "eval_steps_per_second": 3.775,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9299243076337231,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.956161573137467,
+      "step": 14400
+    },
+    {
+      "epoch": 1.4905698641249239,
+      "grad_norm": 10.285622596740723,
+      "learning_rate": 1.4151315418849643e-05,
+      "loss": 6.0048,
+      "step": 14700
+    },
+    {
+      "epoch": 1.5209896572703305,
+      "grad_norm": 9.126446723937988,
+      "learning_rate": 1.3306292603233622e-05,
+      "loss": 6.0105,
+      "step": 15000
+    },
+    {
+      "epoch": 1.5209896572703305,
+      "eval_loss": 6.039182662963867,
+      "eval_runtime": 139.7353,
+      "eval_samples_per_second": 713.22,
+      "eval_steps_per_second": 3.721,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9320725619273144,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9572253199644789,
+      "step": 15000
+    },
+    {
+      "epoch": 1.5514094504157372,
+      "grad_norm": 17.142406463623047,
+      "learning_rate": 1.24612697876176e-05,
+      "loss": 6.0073,
+      "step": 15300
+    },
+    {
+      "epoch": 1.5818292435611436,
+      "grad_norm": 11.44053840637207,
+      "learning_rate": 1.1616246972001578e-05,
+      "loss": 5.9958,
+      "step": 15600
+    },
+    {
+      "epoch": 1.5818292435611436,
+      "eval_loss": 6.031214237213135,
+      "eval_runtime": 137.8568,
+      "eval_samples_per_second": 722.939,
+      "eval_steps_per_second": 3.772,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9330012427722795,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9585095917055348,
+      "step": 15600
+    },
+    {
+      "epoch": 1.6122490367065505,
+      "grad_norm": 12.4039945602417,
+      "learning_rate": 1.0771224156385557e-05,
+      "loss": 5.9887,
+      "step": 15900
+    },
+    {
+      "epoch": 1.642668829851957,
+      "grad_norm": 12.85715103149414,
+      "learning_rate": 9.926201340769535e-06,
+      "loss": 5.9864,
+      "step": 16200
+    },
+    {
+      "epoch": 1.642668829851957,
+      "eval_loss": 6.028384685516357,
+      "eval_runtime": 138.0256,
+      "eval_samples_per_second": 722.054,
+      "eval_steps_per_second": 3.767,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.933956647989009,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9594050626313877,
+      "step": 16200
+    },
+    {
+      "epoch": 1.6730886229973636,
+      "grad_norm": 15.63290023803711,
+      "learning_rate": 9.081178525153512e-06,
+      "loss": 5.9755,
+      "step": 16500
+    },
+    {
+      "epoch": 1.7035084161427703,
+      "grad_norm": 10.594440460205078,
+      "learning_rate": 8.23615570953749e-06,
+      "loss": 5.9698,
+      "step": 16800
+    },
+    {
+      "epoch": 1.7035084161427703,
+      "eval_loss": 6.011093616485596,
+      "eval_runtime": 137.6709,
+      "eval_samples_per_second": 723.915,
+      "eval_steps_per_second": 3.777,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9355989385835076,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.960712740224626,
+      "step": 16800
+    },
+    {
+      "epoch": 1.7339282092881767,
+      "grad_norm": 11.96275806427002,
+      "learning_rate": 7.391132893921469e-06,
+      "loss": 5.9602,
+      "step": 17100
+    },
+    {
+      "epoch": 1.7643480024335836,
+      "grad_norm": 12.022747993469238,
+      "learning_rate": 6.546110078305448e-06,
+      "loss": 5.9629,
+      "step": 17400
+    },
+    {
+      "epoch": 1.7643480024335836,
+      "eval_loss": 5.9960408210754395,
+      "eval_runtime": 136.7186,
+      "eval_samples_per_second": 728.957,
+      "eval_steps_per_second": 3.803,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9376654138281357,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9618521782819777,
+      "step": 17400
+    },
+    {
+      "epoch": 1.79476779557899,
+      "grad_norm": 10.690680503845215,
+      "learning_rate": 5.7010872626894265e-06,
+      "loss": 5.9538,
+      "step": 17700
+    },
+    {
+      "epoch": 1.8251875887243967,
+      "grad_norm": 10.452280044555664,
+      "learning_rate": 4.856064447073404e-06,
+      "loss": 5.9488,
+      "step": 18000
+    },
+    {
+      "epoch": 1.8251875887243967,
+      "eval_loss": 5.988218307495117,
+      "eval_runtime": 137.709,
+      "eval_samples_per_second": 723.715,
+      "eval_steps_per_second": 3.776,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9396191760822983,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9621528925529551,
+      "step": 18000
+    },
+    {
+      "epoch": 1.8556073818698033,
+      "grad_norm": 9.798408508300781,
+      "learning_rate": 4.011041631457383e-06,
+      "loss": 5.9453,
+      "step": 18300
+    },
+    {
+      "epoch": 1.8860271750152098,
+      "grad_norm": 14.103642463684082,
+      "learning_rate": 3.166018815841361e-06,
+      "loss": 5.9436,
+      "step": 18600
+    },
+    {
+      "epoch": 1.8860271750152098,
+      "eval_loss": 5.973294258117676,
+      "eval_runtime": 138.3639,
+      "eval_samples_per_second": 720.289,
+      "eval_steps_per_second": 3.758,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9397452670967106,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9633766022074037,
+      "step": 18600
+    },
+    {
+      "epoch": 1.9164469681606167,
+      "grad_norm": 13.882421493530273,
+      "learning_rate": 2.3209960002253393e-06,
+      "loss": 5.9432,
+      "step": 18900
+    },
+    {
+      "epoch": 1.946866761306023,
+      "grad_norm": 9.432927131652832,
+      "learning_rate": 1.4759731846093179e-06,
+      "loss": 5.9362,
+      "step": 19200
+    },
+    {
+      "epoch": 1.946866761306023,
+      "eval_loss": 5.966466426849365,
+      "eval_runtime": 137.9485,
+      "eval_samples_per_second": 722.458,
+      "eval_steps_per_second": 3.77,
+      "eval_xlm-roberta-large-msmarco-eval_pearson_cosine": 0.9399553483988181,
+      "eval_xlm-roberta-large-msmarco-eval_spearman_cosine": 0.9639025708580746,
+      "step": 19200
+    },
+    {
+      "epoch": 1.9772865544514298,
+      "grad_norm": 9.866859436035156,
+      "learning_rate": 6.309503689932962e-07,
+      "loss": 5.9272,
+      "step": 19500
+    }
+  ],
+  "logging_steps": 300,
+  "max_steps": 19724,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 600,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b665f0c03c0d25c36fb0929e203d6dfbabb0607973cc5bc3bec385d5c009438e
+size 5624