Training in progress, step 1500, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +37 -0
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +945 -0
last-checkpoint/trainer_state.json +1323 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c4b3264d8426687f4b50168cdca6241441dfbc285a4c51940c82f0dd3b7d88c
+size 735217848

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45522e2d95b727a7794c89784a8dbeb658a6e8d547dd1f60be95776967ef24f6
+size 1470521978

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5672d4a2bab2f5ec1b202aa86f336deecf9ade33ecc3e9f1ae101d08c2403c85
+size 14244

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dea0aba72f700814d776f8926ad184d76b3c510f754b334a94c0cd38ed47ebbb
+size 1000

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

last-checkpoint/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,945 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "|||IP_ADDRESS|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "|||EMAIL_ADDRESS|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50278": {
+      "content": "|||PHONE_NUMBER|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50279": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50280": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50281": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50282": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50283": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50284": {
+      "content": "[MASK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "95580": {
+      "content": "[unused0]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95581": {
+      "content": "[unused1]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95582": {
+      "content": "[unused2]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95583": {
+      "content": "[unused3]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95584": {
+      "content": "[unused4]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95585": {
+      "content": "[unused5]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95586": {
+      "content": "[unused6]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95587": {
+      "content": "[unused7]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95588": {
+      "content": "[unused8]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95589": {
+      "content": "[unused9]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95590": {
+      "content": "[unused10]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95591": {
+      "content": "[unused11]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95592": {
+      "content": "[unused12]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95593": {
+      "content": "[unused13]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95594": {
+      "content": "[unused14]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95595": {
+      "content": "[unused15]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95596": {
+      "content": "[unused16]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95597": {
+      "content": "[unused17]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95598": {
+      "content": "[unused18]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95599": {
+      "content": "[unused19]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95600": {
+      "content": "[unused20]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95601": {
+      "content": "[unused21]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95602": {
+      "content": "[unused22]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95603": {
+      "content": "[unused23]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95604": {
+      "content": "[unused24]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95605": {
+      "content": "[unused25]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95606": {
+      "content": "[unused26]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95607": {
+      "content": "[unused27]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95608": {
+      "content": "[unused28]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95609": {
+      "content": "[unused29]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95610": {
+      "content": "[unused30]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95611": {
+      "content": "[unused31]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95612": {
+      "content": "[unused32]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95613": {
+      "content": "[unused33]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95614": {
+      "content": "[unused34]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95615": {
+      "content": "[unused35]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95616": {
+      "content": "[unused36]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95617": {
+      "content": "[unused37]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95618": {
+      "content": "[unused38]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95619": {
+      "content": "[unused39]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95620": {
+      "content": "[unused40]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95621": {
+      "content": "[unused41]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95622": {
+      "content": "[unused42]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95623": {
+      "content": "[unused43]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95624": {
+      "content": "[unused44]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95625": {
+      "content": "[unused45]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95626": {
+      "content": "[unused46]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95627": {
+      "content": "[unused47]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95628": {
+      "content": "[unused48]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95629": {
+      "content": "[unused49]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95630": {
+      "content": "[unused50]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95631": {
+      "content": "[unused51]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95632": {
+      "content": "[unused52]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95633": {
+      "content": "[unused53]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95634": {
+      "content": "[unused54]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95635": {
+      "content": "[unused55]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95636": {
+      "content": "[unused56]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95637": {
+      "content": "[unused57]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95638": {
+      "content": "[unused58]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95639": {
+      "content": "[unused59]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95640": {
+      "content": "[unused60]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95641": {
+      "content": "[unused61]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95642": {
+      "content": "[unused62]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95643": {
+      "content": "[unused63]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95644": {
+      "content": "[unused64]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95645": {
+      "content": "[unused65]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95646": {
+      "content": "[unused66]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95647": {
+      "content": "[unused67]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95648": {
+      "content": "[unused68]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95649": {
+      "content": "[unused69]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95650": {
+      "content": "[unused70]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95651": {
+      "content": "[unused71]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95652": {
+      "content": "[unused72]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95653": {
+      "content": "[unused73]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95654": {
+      "content": "[unused74]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95655": {
+      "content": "[unused75]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95656": {
+      "content": "[unused76]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95657": {
+      "content": "[unused77]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95658": {
+      "content": "[unused78]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95659": {
+      "content": "[unused79]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95660": {
+      "content": "[unused80]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95661": {
+      "content": "[unused81]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95662": {
+      "content": "[unused82]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "[UNK]"
+}

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1323 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.7029053420805998,
+  "eval_steps": 100,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004686035613870665,
+      "grad_norm": 30.10508155822754,
+      "learning_rate": 9.994142455482662e-05,
+      "loss": 3.8567,
+      "step": 10
+    },
+    {
+      "epoch": 0.00937207122774133,
+      "grad_norm": 8.754369735717773,
+      "learning_rate": 9.988284910965324e-05,
+      "loss": 1.8518,
+      "step": 20
+    },
+    {
+      "epoch": 0.014058106841611996,
+      "grad_norm": 6.94720458984375,
+      "learning_rate": 9.982427366447986e-05,
+      "loss": 1.0621,
+      "step": 30
+    },
+    {
+      "epoch": 0.01874414245548266,
+      "grad_norm": 7.401930809020996,
+      "learning_rate": 9.976569821930647e-05,
+      "loss": 0.8079,
+      "step": 40
+    },
+    {
+      "epoch": 0.023430178069353328,
+      "grad_norm": 4.625001430511475,
+      "learning_rate": 9.970712277413309e-05,
+      "loss": 0.7732,
+      "step": 50
+    },
+    {
+      "epoch": 0.028116213683223992,
+      "grad_norm": 5.161655426025391,
+      "learning_rate": 9.964854732895971e-05,
+      "loss": 0.6538,
+      "step": 60
+    },
+    {
+      "epoch": 0.03280224929709466,
+      "grad_norm": 4.755752086639404,
+      "learning_rate": 9.958997188378632e-05,
+      "loss": 0.5888,
+      "step": 70
+    },
+    {
+      "epoch": 0.03748828491096532,
+      "grad_norm": 5.150806903839111,
+      "learning_rate": 9.953139643861293e-05,
+      "loss": 0.6152,
+      "step": 80
+    },
+    {
+      "epoch": 0.04217432052483599,
+      "grad_norm": 4.075490951538086,
+      "learning_rate": 9.947282099343956e-05,
+      "loss": 0.5545,
+      "step": 90
+    },
+    {
+      "epoch": 0.046860356138706656,
+      "grad_norm": 4.118444442749023,
+      "learning_rate": 9.941424554826618e-05,
+      "loss": 0.6139,
+      "step": 100
+    },
+    {
+      "epoch": 0.046860356138706656,
+      "eval_loss": 0.08172167092561722,
+      "eval_pearson_cosine": 0.7774916057538377,
+      "eval_pearson_dot": 0.7673975678531928,
+      "eval_pearson_euclidean": 0.7739600680365157,
+      "eval_pearson_manhattan": 0.7732699847297653,
+      "eval_runtime": 4.6785,
+      "eval_samples_per_second": 320.614,
+      "eval_spearman_cosine": 0.7788712392049503,
+      "eval_spearman_dot": 0.7662758145209008,
+      "eval_spearman_euclidean": 0.779851450790825,
+      "eval_spearman_manhattan": 0.7790465578192005,
+      "eval_steps_per_second": 20.092,
+      "step": 100
+    },
+    {
+      "epoch": 0.05154639175257732,
+      "grad_norm": 4.516867160797119,
+      "learning_rate": 9.935567010309279e-05,
+      "loss": 0.5911,
+      "step": 110
+    },
+    {
+      "epoch": 0.056232427366447985,
+      "grad_norm": 3.0860955715179443,
+      "learning_rate": 9.929709465791941e-05,
+      "loss": 0.5118,
+      "step": 120
+    },
+    {
+      "epoch": 0.06091846298031865,
+      "grad_norm": 4.2761616706848145,
+      "learning_rate": 9.923851921274601e-05,
+      "loss": 0.5347,
+      "step": 130
+    },
+    {
+      "epoch": 0.06560449859418932,
+      "grad_norm": 3.3774375915527344,
+      "learning_rate": 9.917994376757263e-05,
+      "loss": 0.516,
+      "step": 140
+    },
+    {
+      "epoch": 0.07029053420805999,
+      "grad_norm": 3.043034315109253,
+      "learning_rate": 9.912136832239926e-05,
+      "loss": 0.5583,
+      "step": 150
+    },
+    {
+      "epoch": 0.07497656982193064,
+      "grad_norm": 3.3026859760284424,
+      "learning_rate": 9.906279287722588e-05,
+      "loss": 0.5691,
+      "step": 160
+    },
+    {
+      "epoch": 0.07966260543580131,
+      "grad_norm": 3.694498062133789,
+      "learning_rate": 9.90042174320525e-05,
+      "loss": 0.5126,
+      "step": 170
+    },
+    {
+      "epoch": 0.08434864104967198,
+      "grad_norm": 2.7696762084960938,
+      "learning_rate": 9.89456419868791e-05,
+      "loss": 0.4945,
+      "step": 180
+    },
+    {
+      "epoch": 0.08903467666354264,
+      "grad_norm": 2.7977497577667236,
+      "learning_rate": 9.888706654170572e-05,
+      "loss": 0.5133,
+      "step": 190
+    },
+    {
+      "epoch": 0.09372071227741331,
+      "grad_norm": 4.13506555557251,
+      "learning_rate": 9.882849109653233e-05,
+      "loss": 0.4496,
+      "step": 200
+    },
+    {
+      "epoch": 0.09372071227741331,
+      "eval_loss": 0.06149223446846008,
+      "eval_pearson_cosine": 0.7878806911951841,
+      "eval_pearson_dot": 0.7892236854270749,
+      "eval_pearson_euclidean": 0.7815123592368103,
+      "eval_pearson_manhattan": 0.7802018326188076,
+      "eval_runtime": 4.629,
+      "eval_samples_per_second": 324.041,
+      "eval_spearman_cosine": 0.7881602244285756,
+      "eval_spearman_dot": 0.7890157817002775,
+      "eval_spearman_euclidean": 0.7853020907543472,
+      "eval_spearman_manhattan": 0.7841560791576906,
+      "eval_steps_per_second": 20.307,
+      "step": 200
+    },
+    {
+      "epoch": 0.09840674789128398,
+      "grad_norm": 3.0135467052459717,
+      "learning_rate": 9.876991565135896e-05,
+      "loss": 0.5474,
+      "step": 210
+    },
+    {
+      "epoch": 0.10309278350515463,
+      "grad_norm": 2.703244924545288,
+      "learning_rate": 9.871134020618558e-05,
+      "loss": 0.4499,
+      "step": 220
+    },
+    {
+      "epoch": 0.1077788191190253,
+      "grad_norm": 3.320786714553833,
+      "learning_rate": 9.865276476101218e-05,
+      "loss": 0.5042,
+      "step": 230
+    },
+    {
+      "epoch": 0.11246485473289597,
+      "grad_norm": 3.642885684967041,
+      "learning_rate": 9.85941893158388e-05,
+      "loss": 0.4496,
+      "step": 240
+    },
+    {
+      "epoch": 0.11715089034676664,
+      "grad_norm": 2.59848952293396,
+      "learning_rate": 9.853561387066542e-05,
+      "loss": 0.467,
+      "step": 250
+    },
+    {
+      "epoch": 0.1218369259606373,
+      "grad_norm": 2.8087403774261475,
+      "learning_rate": 9.847703842549204e-05,
+      "loss": 0.4818,
+      "step": 260
+    },
+    {
+      "epoch": 0.12652296157450796,
+      "grad_norm": 3.655815362930298,
+      "learning_rate": 9.841846298031867e-05,
+      "loss": 0.4195,
+      "step": 270
+    },
+    {
+      "epoch": 0.13120899718837864,
+      "grad_norm": 2.4474446773529053,
+      "learning_rate": 9.835988753514527e-05,
+      "loss": 0.4295,
+      "step": 280
+    },
+    {
+      "epoch": 0.1358950328022493,
+      "grad_norm": 4.437081336975098,
+      "learning_rate": 9.830131208997189e-05,
+      "loss": 0.4783,
+      "step": 290
+    },
+    {
+      "epoch": 0.14058106841611998,
+      "grad_norm": 2.853497266769409,
+      "learning_rate": 9.82427366447985e-05,
+      "loss": 0.445,
+      "step": 300
+    },
+    {
+      "epoch": 0.14058106841611998,
+      "eval_loss": 0.06087055429816246,
+      "eval_pearson_cosine": 0.8085847462809284,
+      "eval_pearson_dot": 0.8099837052074292,
+      "eval_pearson_euclidean": 0.797235616826157,
+      "eval_pearson_manhattan": 0.796084644837677,
+      "eval_runtime": 4.8442,
+      "eval_samples_per_second": 309.65,
+      "eval_spearman_cosine": 0.8087098487869666,
+      "eval_spearman_dot": 0.8088350013000529,
+      "eval_spearman_euclidean": 0.8038077082663364,
+      "eval_spearman_manhattan": 0.8027157437095755,
+      "eval_steps_per_second": 19.405,
+      "step": 300
+    },
+    {
+      "epoch": 0.14526710402999063,
+      "grad_norm": 3.850320339202881,
+      "learning_rate": 9.818416119962512e-05,
+      "loss": 0.4192,
+      "step": 310
+    },
+    {
+      "epoch": 0.14995313964386128,
+      "grad_norm": 3.8749234676361084,
+      "learning_rate": 9.812558575445174e-05,
+      "loss": 0.4282,
+      "step": 320
+    },
+    {
+      "epoch": 0.15463917525773196,
+      "grad_norm": 2.7373576164245605,
+      "learning_rate": 9.806701030927836e-05,
+      "loss": 0.5132,
+      "step": 330
+    },
+    {
+      "epoch": 0.15932521087160262,
+      "grad_norm": 2.587904691696167,
+      "learning_rate": 9.800843486410497e-05,
+      "loss": 0.4452,
+      "step": 340
+    },
+    {
+      "epoch": 0.1640112464854733,
+      "grad_norm": 2.770646333694458,
+      "learning_rate": 9.794985941893159e-05,
+      "loss": 0.5072,
+      "step": 350
+    },
+    {
+      "epoch": 0.16869728209934395,
+      "grad_norm": 3.2103078365325928,
+      "learning_rate": 9.78912839737582e-05,
+      "loss": 0.4488,
+      "step": 360
+    },
+    {
+      "epoch": 0.1733833177132146,
+      "grad_norm": 2.8420042991638184,
+      "learning_rate": 9.783270852858482e-05,
+      "loss": 0.4132,
+      "step": 370
+    },
+    {
+      "epoch": 0.1780693533270853,
+      "grad_norm": 2.8594541549682617,
+      "learning_rate": 9.777413308341144e-05,
+      "loss": 0.4217,
+      "step": 380
+    },
+    {
+      "epoch": 0.18275538894095594,
+      "grad_norm": 2.6843366622924805,
+      "learning_rate": 9.771555763823806e-05,
+      "loss": 0.423,
+      "step": 390
+    },
+    {
+      "epoch": 0.18744142455482662,
+      "grad_norm": 2.808396339416504,
+      "learning_rate": 9.765698219306467e-05,
+      "loss": 0.4398,
+      "step": 400
+    },
+    {
+      "epoch": 0.18744142455482662,
+      "eval_loss": 0.06297692656517029,
+      "eval_pearson_cosine": 0.7991067883059557,
+      "eval_pearson_dot": 0.8028010593184547,
+      "eval_pearson_euclidean": 0.7880801281434806,
+      "eval_pearson_manhattan": 0.7862328250693538,
+      "eval_runtime": 5.1278,
+      "eval_samples_per_second": 292.522,
+      "eval_spearman_cosine": 0.8008051119507676,
+      "eval_spearman_dot": 0.8028962103300248,
+      "eval_spearman_euclidean": 0.7941679469832046,
+      "eval_spearman_manhattan": 0.7922002625333209,
+      "eval_steps_per_second": 18.331,
+      "step": 400
+    },
+    {
+      "epoch": 0.19212746016869728,
+      "grad_norm": 3.4171650409698486,
+      "learning_rate": 9.759840674789129e-05,
+      "loss": 0.472,
+      "step": 410
+    },
+    {
+      "epoch": 0.19681349578256796,
+      "grad_norm": 2.304884433746338,
+      "learning_rate": 9.753983130271791e-05,
+      "loss": 0.4269,
+      "step": 420
+    },
+    {
+      "epoch": 0.2014995313964386,
+      "grad_norm": 3.582045793533325,
+      "learning_rate": 9.748125585754451e-05,
+      "loss": 0.4709,
+      "step": 430
+    },
+    {
+      "epoch": 0.20618556701030927,
+      "grad_norm": 2.555410623550415,
+      "learning_rate": 9.742268041237114e-05,
+      "loss": 0.428,
+      "step": 440
+    },
+    {
+      "epoch": 0.21087160262417995,
+      "grad_norm": 3.291259288787842,
+      "learning_rate": 9.736410496719776e-05,
+      "loss": 0.3884,
+      "step": 450
+    },
+    {
+      "epoch": 0.2155576382380506,
+      "grad_norm": 2.4803812503814697,
+      "learning_rate": 9.730552952202438e-05,
+      "loss": 0.4434,
+      "step": 460
+    },
+    {
+      "epoch": 0.22024367385192128,
+      "grad_norm": 2.9194233417510986,
+      "learning_rate": 9.7246954076851e-05,
+      "loss": 0.3969,
+      "step": 470
+    },
+    {
+      "epoch": 0.22492970946579194,
+      "grad_norm": 2.5176608562469482,
+      "learning_rate": 9.71883786316776e-05,
+      "loss": 0.3668,
+      "step": 480
+    },
+    {
+      "epoch": 0.2296157450796626,
+      "grad_norm": 3.111013412475586,
+      "learning_rate": 9.712980318650421e-05,
+      "loss": 0.4047,
+      "step": 490
+    },
+    {
+      "epoch": 0.23430178069353327,
+      "grad_norm": 2.3099541664123535,
+      "learning_rate": 9.707122774133085e-05,
+      "loss": 0.4509,
+      "step": 500
+    },
+    {
+      "epoch": 0.23430178069353327,
+      "eval_loss": 0.06479576230049133,
+      "eval_pearson_cosine": 0.7937691374860236,
+      "eval_pearson_dot": 0.8037986869849263,
+      "eval_pearson_euclidean": 0.7796252574393066,
+      "eval_pearson_manhattan": 0.7788957424132832,
+      "eval_runtime": 5.1806,
+      "eval_samples_per_second": 289.541,
+      "eval_spearman_cosine": 0.7968672368227576,
+      "eval_spearman_dot": 0.8062882580483537,
+      "eval_spearman_euclidean": 0.785478492768414,
+      "eval_spearman_manhattan": 0.7846800638460941,
+      "eval_steps_per_second": 18.145,
+      "step": 500
+    },
+    {
+      "epoch": 0.23898781630740393,
+      "grad_norm": 2.587941884994507,
+      "learning_rate": 9.701265229615746e-05,
+      "loss": 0.4402,
+      "step": 510
+    },
+    {
+      "epoch": 0.2436738519212746,
+      "grad_norm": 2.8946237564086914,
+      "learning_rate": 9.695407685098408e-05,
+      "loss": 0.4303,
+      "step": 520
+    },
+    {
+      "epoch": 0.24835988753514526,
+      "grad_norm": 2.144695997238159,
+      "learning_rate": 9.689550140581068e-05,
+      "loss": 0.3955,
+      "step": 530
+    },
+    {
+      "epoch": 0.2530459231490159,
+      "grad_norm": 2.310426712036133,
+      "learning_rate": 9.68369259606373e-05,
+      "loss": 0.4027,
+      "step": 540
+    },
+    {
+      "epoch": 0.25773195876288657,
+      "grad_norm": 1.9948300123214722,
+      "learning_rate": 9.677835051546392e-05,
+      "loss": 0.3806,
+      "step": 550
+    },
+    {
+      "epoch": 0.2624179943767573,
+      "grad_norm": 2.4448132514953613,
+      "learning_rate": 9.671977507029055e-05,
+      "loss": 0.3917,
+      "step": 560
+    },
+    {
+      "epoch": 0.26710402999062793,
+      "grad_norm": 2.1171720027923584,
+      "learning_rate": 9.666119962511717e-05,
+      "loss": 0.4086,
+      "step": 570
+    },
+    {
+      "epoch": 0.2717900656044986,
+      "grad_norm": 3.1124324798583984,
+      "learning_rate": 9.660262417994377e-05,
+      "loss": 0.3754,
+      "step": 580
+    },
+    {
+      "epoch": 0.27647610121836924,
+      "grad_norm": 2.3518879413604736,
+      "learning_rate": 9.654404873477039e-05,
+      "loss": 0.4155,
+      "step": 590
+    },
+    {
+      "epoch": 0.28116213683223995,
+      "grad_norm": 2.3229143619537354,
+      "learning_rate": 9.6485473289597e-05,
+      "loss": 0.3899,
+      "step": 600
+    },
+    {
+      "epoch": 0.28116213683223995,
+      "eval_loss": 0.05898291990160942,
+      "eval_pearson_cosine": 0.8002203582671399,
+      "eval_pearson_dot": 0.8059872147596572,
+      "eval_pearson_euclidean": 0.7924462958823995,
+      "eval_pearson_manhattan": 0.7914827034937701,
+      "eval_runtime": 4.8482,
+      "eval_samples_per_second": 309.39,
+      "eval_spearman_cosine": 0.8056451862347204,
+      "eval_spearman_dot": 0.8090541661182976,
+      "eval_spearman_euclidean": 0.797456379085547,
+      "eval_spearman_manhattan": 0.796591059583954,
+      "eval_steps_per_second": 19.388,
+      "step": 600
+    },
+    {
+      "epoch": 0.2858481724461106,
+      "grad_norm": 2.2351458072662354,
+      "learning_rate": 9.642689784442362e-05,
+      "loss": 0.4096,
+      "step": 610
+    },
+    {
+      "epoch": 0.29053420805998126,
+      "grad_norm": 2.529383420944214,
+      "learning_rate": 9.636832239925024e-05,
+      "loss": 0.4094,
+      "step": 620
+    },
+    {
+      "epoch": 0.2952202436738519,
+      "grad_norm": 2.727684736251831,
+      "learning_rate": 9.630974695407685e-05,
+      "loss": 0.4017,
+      "step": 630
+    },
+    {
+      "epoch": 0.29990627928772257,
+      "grad_norm": 2.1631858348846436,
+      "learning_rate": 9.625117150890347e-05,
+      "loss": 0.3829,
+      "step": 640
+    },
+    {
+      "epoch": 0.3045923149015933,
+      "grad_norm": 2.08465838432312,
+      "learning_rate": 9.619259606373009e-05,
+      "loss": 0.3593,
+      "step": 650
+    },
+    {
+      "epoch": 0.30927835051546393,
+      "grad_norm": 2.7151734828948975,
+      "learning_rate": 9.61340206185567e-05,
+      "loss": 0.3575,
+      "step": 660
+    },
+    {
+      "epoch": 0.3139643861293346,
+      "grad_norm": 2.9916470050811768,
+      "learning_rate": 9.607544517338332e-05,
+      "loss": 0.4043,
+      "step": 670
+    },
+    {
+      "epoch": 0.31865042174320524,
+      "grad_norm": 2.2090351581573486,
+      "learning_rate": 9.601686972820994e-05,
+      "loss": 0.3969,
+      "step": 680
+    },
+    {
+      "epoch": 0.3233364573570759,
+      "grad_norm": 2.5505614280700684,
+      "learning_rate": 9.595829428303656e-05,
+      "loss": 0.4162,
+      "step": 690
+    },
+    {
+      "epoch": 0.3280224929709466,
+      "grad_norm": 1.9354357719421387,
+      "learning_rate": 9.589971883786317e-05,
+      "loss": 0.3944,
+      "step": 700
+    },
+    {
+      "epoch": 0.3280224929709466,
+      "eval_loss": 0.06544993817806244,
+      "eval_pearson_cosine": 0.7849690888771903,
+      "eval_pearson_dot": 0.7906563077972777,
+      "eval_pearson_euclidean": 0.7744169020961635,
+      "eval_pearson_manhattan": 0.773555246133725,
+      "eval_runtime": 4.7217,
+      "eval_samples_per_second": 317.682,
+      "eval_spearman_cosine": 0.7912145091954246,
+      "eval_spearman_dot": 0.795880260533099,
+      "eval_spearman_euclidean": 0.7788547557160983,
+      "eval_spearman_manhattan": 0.7778138343707646,
+      "eval_steps_per_second": 19.908,
+      "step": 700
+    },
+    {
+      "epoch": 0.33270852858481725,
+      "grad_norm": 2.754939317703247,
+      "learning_rate": 9.584114339268979e-05,
+      "loss": 0.3421,
+      "step": 710
+    },
+    {
+      "epoch": 0.3373945641986879,
+      "grad_norm": 2.395989418029785,
+      "learning_rate": 9.578256794751641e-05,
+      "loss": 0.4181,
+      "step": 720
+    },
+    {
+      "epoch": 0.34208059981255856,
+      "grad_norm": 1.9646469354629517,
+      "learning_rate": 9.572399250234303e-05,
+      "loss": 0.3604,
+      "step": 730
+    },
+    {
+      "epoch": 0.3467666354264292,
+      "grad_norm": 1.77524995803833,
+      "learning_rate": 9.566541705716964e-05,
+      "loss": 0.4152,
+      "step": 740
+    },
+    {
+      "epoch": 0.3514526710402999,
+      "grad_norm": 2.225848913192749,
+      "learning_rate": 9.560684161199626e-05,
+      "loss": 0.3582,
+      "step": 750
+    },
+    {
+      "epoch": 0.3561387066541706,
+      "grad_norm": 2.9699714183807373,
+      "learning_rate": 9.554826616682288e-05,
+      "loss": 0.3498,
+      "step": 760
+    },
+    {
+      "epoch": 0.36082474226804123,
+      "grad_norm": 2.2419025897979736,
+      "learning_rate": 9.54896907216495e-05,
+      "loss": 0.4014,
+      "step": 770
+    },
+    {
+      "epoch": 0.3655107778819119,
+      "grad_norm": 2.090801954269409,
+      "learning_rate": 9.54311152764761e-05,
+      "loss": 0.3788,
+      "step": 780
+    },
+    {
+      "epoch": 0.3701968134957826,
+      "grad_norm": 2.0521080493927,
+      "learning_rate": 9.537253983130271e-05,
+      "loss": 0.3381,
+      "step": 790
+    },
+    {
+      "epoch": 0.37488284910965325,
+      "grad_norm": 2.189819574356079,
+      "learning_rate": 9.531396438612934e-05,
+      "loss": 0.3866,
+      "step": 800
+    },
+    {
+      "epoch": 0.37488284910965325,
+      "eval_loss": 0.057871297001838684,
+      "eval_pearson_cosine": 0.8000694370275774,
+      "eval_pearson_dot": 0.808069225934787,
+      "eval_pearson_euclidean": 0.7859619382036129,
+      "eval_pearson_manhattan": 0.7850475265092101,
+      "eval_runtime": 4.9109,
+      "eval_samples_per_second": 305.445,
+      "eval_spearman_cosine": 0.802358950496682,
+      "eval_spearman_dot": 0.8096070418813107,
+      "eval_spearman_euclidean": 0.7916939807330186,
+      "eval_spearman_manhattan": 0.7908012039061529,
+      "eval_steps_per_second": 19.141,
+      "step": 800
+    },
+    {
+      "epoch": 0.3795688847235239,
+      "grad_norm": 2.161396026611328,
+      "learning_rate": 9.525538894095596e-05,
+      "loss": 0.411,
+      "step": 810
+    },
+    {
+      "epoch": 0.38425492033739456,
+      "grad_norm": 2.709839344024658,
+      "learning_rate": 9.519681349578258e-05,
+      "loss": 0.379,
+      "step": 820
+    },
+    {
+      "epoch": 0.3889409559512652,
+      "grad_norm": 2.1237142086029053,
+      "learning_rate": 9.513823805060918e-05,
+      "loss": 0.3333,
+      "step": 830
+    },
+    {
+      "epoch": 0.3936269915651359,
+      "grad_norm": 2.088275194168091,
+      "learning_rate": 9.50796626054358e-05,
+      "loss": 0.4006,
+      "step": 840
+    },
+    {
+      "epoch": 0.3983130271790066,
+      "grad_norm": 2.1435964107513428,
+      "learning_rate": 9.502108716026242e-05,
+      "loss": 0.3328,
+      "step": 850
+    },
+    {
+      "epoch": 0.4029990627928772,
+      "grad_norm": 2.671003580093384,
+      "learning_rate": 9.496251171508905e-05,
+      "loss": 0.3751,
+      "step": 860
+    },
+    {
+      "epoch": 0.4076850984067479,
+      "grad_norm": 2.3052737712860107,
+      "learning_rate": 9.490393626991566e-05,
+      "loss": 0.3988,
+      "step": 870
+    },
+    {
+      "epoch": 0.41237113402061853,
+      "grad_norm": 1.9277461767196655,
+      "learning_rate": 9.484536082474227e-05,
+      "loss": 0.3717,
+      "step": 880
+    },
+    {
+      "epoch": 0.41705716963448924,
+      "grad_norm": 2.213792324066162,
+      "learning_rate": 9.478678537956888e-05,
+      "loss": 0.3521,
+      "step": 890
+    },
+    {
+      "epoch": 0.4217432052483599,
+      "grad_norm": 2.0909924507141113,
+      "learning_rate": 9.47282099343955e-05,
+      "loss": 0.3292,
+      "step": 900
+    },
+    {
+      "epoch": 0.4217432052483599,
+      "eval_loss": 0.05752936750650406,
+      "eval_pearson_cosine": 0.7969533250152949,
+      "eval_pearson_dot": 0.8037643743757386,
+      "eval_pearson_euclidean": 0.7823638645148634,
+      "eval_pearson_manhattan": 0.7813551521507094,
+      "eval_runtime": 4.8299,
+      "eval_samples_per_second": 310.563,
+      "eval_spearman_cosine": 0.7992619351747234,
+      "eval_spearman_dot": 0.8055866654381859,
+      "eval_spearman_euclidean": 0.7873785407587978,
+      "eval_spearman_manhattan": 0.7866152504590422,
+      "eval_steps_per_second": 19.462,
+      "step": 900
+    },
+    {
+      "epoch": 0.42642924086223055,
+      "grad_norm": 2.122093915939331,
+      "learning_rate": 9.466963448922212e-05,
+      "loss": 0.3008,
+      "step": 910
+    },
+    {
+      "epoch": 0.4311152764761012,
+      "grad_norm": 2.1320900917053223,
+      "learning_rate": 9.461105904404875e-05,
+      "loss": 0.3691,
+      "step": 920
+    },
+    {
+      "epoch": 0.43580131208997186,
+      "grad_norm": 2.6174728870391846,
+      "learning_rate": 9.455248359887535e-05,
+      "loss": 0.3433,
+      "step": 930
+    },
+    {
+      "epoch": 0.44048734770384257,
+      "grad_norm": 1.940846562385559,
+      "learning_rate": 9.449390815370197e-05,
+      "loss": 0.3517,
+      "step": 940
+    },
+    {
+      "epoch": 0.4451733833177132,
+      "grad_norm": 2.081587791442871,
+      "learning_rate": 9.443533270852859e-05,
+      "loss": 0.3455,
+      "step": 950
+    },
+    {
+      "epoch": 0.4498594189315839,
+      "grad_norm": 2.1150238513946533,
+      "learning_rate": 9.43767572633552e-05,
+      "loss": 0.3791,
+      "step": 960
+    },
+    {
+      "epoch": 0.45454545454545453,
+      "grad_norm": 2.286648750305176,
+      "learning_rate": 9.431818181818182e-05,
+      "loss": 0.363,
+      "step": 970
+    },
+    {
+      "epoch": 0.4592314901593252,
+      "grad_norm": 2.0841028690338135,
+      "learning_rate": 9.425960637300844e-05,
+      "loss": 0.3541,
+      "step": 980
+    },
+    {
+      "epoch": 0.4639175257731959,
+      "grad_norm": 2.329029083251953,
+      "learning_rate": 9.420103092783506e-05,
+      "loss": 0.3635,
+      "step": 990
+    },
+    {
+      "epoch": 0.46860356138706655,
+      "grad_norm": 1.905613660812378,
+      "learning_rate": 9.414245548266167e-05,
+      "loss": 0.3714,
+      "step": 1000
+    },
+    {
+      "epoch": 0.46860356138706655,
+      "eval_loss": 0.05644960328936577,
+      "eval_pearson_cosine": 0.803875799789175,
+      "eval_pearson_dot": 0.8110916308252172,
+      "eval_pearson_euclidean": 0.7894191369326222,
+      "eval_pearson_manhattan": 0.7890558407124857,
+      "eval_runtime": 4.8648,
+      "eval_samples_per_second": 308.335,
+      "eval_spearman_cosine": 0.8060476875796366,
+      "eval_spearman_dot": 0.8116367057743546,
+      "eval_spearman_euclidean": 0.7952310888165739,
+      "eval_spearman_manhattan": 0.7948288092961023,
+      "eval_steps_per_second": 19.322,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4732895970009372,
+      "grad_norm": 2.0706255435943604,
+      "learning_rate": 9.408388003748829e-05,
+      "loss": 0.3365,
+      "step": 1010
+    },
+    {
+      "epoch": 0.47797563261480785,
+      "grad_norm": 1.9742926359176636,
+      "learning_rate": 9.402530459231491e-05,
+      "loss": 0.3723,
+      "step": 1020
+    },
+    {
+      "epoch": 0.48266166822867856,
+      "grad_norm": 2.0600244998931885,
+      "learning_rate": 9.396672914714152e-05,
+      "loss": 0.3605,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4873477038425492,
+      "grad_norm": 1.6684983968734741,
+      "learning_rate": 9.390815370196814e-05,
+      "loss": 0.346,
+      "step": 1040
+    },
+    {
+      "epoch": 0.49203373945641987,
+      "grad_norm": 2.3354814052581787,
+      "learning_rate": 9.384957825679476e-05,
+      "loss": 0.3657,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4967197750702905,
+      "grad_norm": 1.809728980064392,
+      "learning_rate": 9.379100281162138e-05,
+      "loss": 0.3579,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5014058106841612,
+      "grad_norm": 2.339686155319214,
+      "learning_rate": 9.373242736644799e-05,
+      "loss": 0.382,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5060918462980318,
+      "grad_norm": 2.170480966567993,
+      "learning_rate": 9.36738519212746e-05,
+      "loss": 0.3636,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5107778819119025,
+      "grad_norm": 2.4314892292022705,
+      "learning_rate": 9.361527647610123e-05,
+      "loss": 0.3638,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "grad_norm": 2.1810007095336914,
+      "learning_rate": 9.355670103092784e-05,
+      "loss": 0.3583,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "eval_loss": 0.057510774582624435,
+      "eval_pearson_cosine": 0.7969929903339477,
+      "eval_pearson_dot": 0.8054373741957335,
+      "eval_pearson_euclidean": 0.7808607374061509,
+      "eval_pearson_manhattan": 0.7798589297759975,
+      "eval_runtime": 4.7384,
+      "eval_samples_per_second": 316.564,
+      "eval_spearman_cosine": 0.7973557927542151,
+      "eval_spearman_dot": 0.8047121394369887,
+      "eval_spearman_euclidean": 0.7843951879137491,
+      "eval_spearman_manhattan": 0.783835500667981,
+      "eval_steps_per_second": 19.838,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5201499531396439,
+      "grad_norm": 2.1650052070617676,
+      "learning_rate": 9.349812558575446e-05,
+      "loss": 0.3565,
+      "step": 1110
+    },
+    {
+      "epoch": 0.5248359887535146,
+      "grad_norm": 1.9347268342971802,
+      "learning_rate": 9.343955014058108e-05,
+      "loss": 0.3732,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5295220243673852,
+      "grad_norm": 2.7452573776245117,
+      "learning_rate": 9.338097469540768e-05,
+      "loss": 0.4022,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5342080599812559,
+      "grad_norm": 2.7319650650024414,
+      "learning_rate": 9.33223992502343e-05,
+      "loss": 0.4039,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5388940955951266,
+      "grad_norm": 1.8111310005187988,
+      "learning_rate": 9.326382380506093e-05,
+      "loss": 0.3445,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5435801312089972,
+      "grad_norm": 2.470259189605713,
+      "learning_rate": 9.320524835988755e-05,
+      "loss": 0.329,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5482661668228679,
+      "grad_norm": 2.465682029724121,
+      "learning_rate": 9.314667291471416e-05,
+      "loss": 0.3621,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5529522024367385,
+      "grad_norm": 1.7908481359481812,
+      "learning_rate": 9.308809746954077e-05,
+      "loss": 0.3657,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5576382380506092,
+      "grad_norm": 2.1389901638031006,
+      "learning_rate": 9.302952202436738e-05,
+      "loss": 0.3388,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5623242736644799,
+      "grad_norm": 2.2106475830078125,
+      "learning_rate": 9.2970946579194e-05,
+      "loss": 0.3913,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5623242736644799,
+      "eval_loss": 0.06687228381633759,
+      "eval_pearson_cosine": 0.7966150240375356,
+      "eval_pearson_dot": 0.8042618343582149,
+      "eval_pearson_euclidean": 0.7828267973995509,
+      "eval_pearson_manhattan": 0.7833213095644886,
+      "eval_runtime": 4.9951,
+      "eval_samples_per_second": 300.291,
+      "eval_spearman_cosine": 0.8000396168871208,
+      "eval_spearman_dot": 0.8048980184574105,
+      "eval_spearman_euclidean": 0.7859538030557693,
+      "eval_spearman_manhattan": 0.7864758987006061,
+      "eval_steps_per_second": 18.818,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5670103092783505,
+      "grad_norm": 1.9803818464279175,
+      "learning_rate": 9.291237113402063e-05,
+      "loss": 0.3435,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5716963448922212,
+      "grad_norm": 1.7664510011672974,
+      "learning_rate": 9.285379568884725e-05,
+      "loss": 0.3798,
+      "step": 1220
+    },
+    {
+      "epoch": 0.5763823805060918,
+      "grad_norm": 1.8455970287322998,
+      "learning_rate": 9.279522024367385e-05,
+      "loss": 0.3612,
+      "step": 1230
+    },
+    {
+      "epoch": 0.5810684161199625,
+      "grad_norm": 1.92662513256073,
+      "learning_rate": 9.273664479850047e-05,
+      "loss": 0.3214,
+      "step": 1240
+    },
+    {
+      "epoch": 0.5857544517338332,
+      "grad_norm": 1.968152403831482,
+      "learning_rate": 9.267806935332709e-05,
+      "loss": 0.3362,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5904404873477038,
+      "grad_norm": 2.589308261871338,
+      "learning_rate": 9.26194939081537e-05,
+      "loss": 0.3742,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5951265229615745,
+      "grad_norm": 1.9938191175460815,
+      "learning_rate": 9.256091846298033e-05,
+      "loss": 0.3507,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5998125585754451,
+      "grad_norm": 2.208752155303955,
+      "learning_rate": 9.250234301780694e-05,
+      "loss": 0.3396,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6044985941893158,
+      "grad_norm": 1.8320244550704956,
+      "learning_rate": 9.244376757263355e-05,
+      "loss": 0.3242,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6091846298031866,
+      "grad_norm": 2.33010196685791,
+      "learning_rate": 9.238519212746017e-05,
+      "loss": 0.3208,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6091846298031866,
+      "eval_loss": 0.045637644827365875,
+      "eval_pearson_cosine": 0.8113760130294838,
+      "eval_pearson_dot": 0.8168668534470953,
+      "eval_pearson_euclidean": 0.7946685783976477,
+      "eval_pearson_manhattan": 0.7948391219509574,
+      "eval_runtime": 4.6512,
+      "eval_samples_per_second": 322.5,
+      "eval_spearman_cosine": 0.8117070589902026,
+      "eval_spearman_dot": 0.8166875703437103,
+      "eval_spearman_euclidean": 0.8003786649119463,
+      "eval_spearman_manhattan": 0.8005194055765069,
+      "eval_steps_per_second": 20.21,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6138706654170571,
+      "grad_norm": 1.4652146100997925,
+      "learning_rate": 9.232661668228679e-05,
+      "loss": 0.3707,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6185567010309279,
+      "grad_norm": 2.13409161567688,
+      "learning_rate": 9.22680412371134e-05,
+      "loss": 0.3617,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6232427366447985,
+      "grad_norm": 1.738176941871643,
+      "learning_rate": 9.220946579194002e-05,
+      "loss": 0.3376,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6279287722586692,
+      "grad_norm": 1.750163197517395,
+      "learning_rate": 9.215089034676664e-05,
+      "loss": 0.3404,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6326148078725399,
+      "grad_norm": 2.1063754558563232,
+      "learning_rate": 9.209231490159326e-05,
+      "loss": 0.3752,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6373008434864105,
+      "grad_norm": 1.4449872970581055,
+      "learning_rate": 9.203373945641987e-05,
+      "loss": 0.2979,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6419868791002812,
+      "grad_norm": 2.006011724472046,
+      "learning_rate": 9.197516401124649e-05,
+      "loss": 0.3501,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6466729147141518,
+      "grad_norm": 2.036403179168701,
+      "learning_rate": 9.191658856607311e-05,
+      "loss": 0.3557,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6513589503280225,
+      "grad_norm": 2.405442237854004,
+      "learning_rate": 9.185801312089973e-05,
+      "loss": 0.3584,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6560449859418932,
+      "grad_norm": 1.8007841110229492,
+      "learning_rate": 9.179943767572634e-05,
+      "loss": 0.3247,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6560449859418932,
+      "eval_loss": 0.053980741649866104,
+      "eval_pearson_cosine": 0.8086150300067487,
+      "eval_pearson_dot": 0.8174400112152469,
+      "eval_pearson_euclidean": 0.7907082515140829,
+      "eval_pearson_manhattan": 0.7906201840168094,
+      "eval_runtime": 4.7766,
+      "eval_samples_per_second": 314.029,
+      "eval_spearman_cosine": 0.8111256668964958,
+      "eval_spearman_dot": 0.8195298336175879,
+      "eval_spearman_euclidean": 0.7970481482249502,
+      "eval_spearman_manhattan": 0.7967056753253113,
+      "eval_steps_per_second": 19.679,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6607310215557638,
+      "grad_norm": 1.750858187675476,
+      "learning_rate": 9.174086223055296e-05,
+      "loss": 0.3304,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6654170571696345,
+      "grad_norm": 1.7640630006790161,
+      "learning_rate": 9.168228678537958e-05,
+      "loss": 0.3282,
+      "step": 1420
+    },
+    {
+      "epoch": 0.6701030927835051,
+      "grad_norm": 1.7033814191818237,
+      "learning_rate": 9.162371134020618e-05,
+      "loss": 0.3544,
+      "step": 1430
+    },
+    {
+      "epoch": 0.6747891283973758,
+      "grad_norm": 2.1169116497039795,
+      "learning_rate": 9.156513589503281e-05,
+      "loss": 0.3599,
+      "step": 1440
+    },
+    {
+      "epoch": 0.6794751640112465,
+      "grad_norm": 1.8890944719314575,
+      "learning_rate": 9.150656044985943e-05,
+      "loss": 0.3097,
+      "step": 1450
+    },
+    {
+      "epoch": 0.6841611996251171,
+      "grad_norm": 1.9908314943313599,
+      "learning_rate": 9.144798500468605e-05,
+      "loss": 0.3187,
+      "step": 1460
+    },
+    {
+      "epoch": 0.6888472352389878,
+      "grad_norm": 2.442484140396118,
+      "learning_rate": 9.138940955951266e-05,
+      "loss": 0.3184,
+      "step": 1470
+    },
+    {
+      "epoch": 0.6935332708528584,
+      "grad_norm": 2.19154953956604,
+      "learning_rate": 9.133083411433927e-05,
+      "loss": 0.3585,
+      "step": 1480
+    },
+    {
+      "epoch": 0.6982193064667291,
+      "grad_norm": 1.869988203048706,
+      "learning_rate": 9.127225866916588e-05,
+      "loss": 0.3149,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7029053420805998,
+      "grad_norm": 2.1679623126983643,
+      "learning_rate": 9.121368322399251e-05,
+      "loss": 0.3269,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7029053420805998,
+      "eval_loss": 0.04739663749933243,
+      "eval_pearson_cosine": 0.8141597203524853,
+      "eval_pearson_dot": 0.8207163609193167,
+      "eval_pearson_euclidean": 0.796674853711913,
+      "eval_pearson_manhattan": 0.7960896801887358,
+      "eval_runtime": 4.6642,
+      "eval_samples_per_second": 321.601,
+      "eval_spearman_cosine": 0.8154525852016754,
+      "eval_spearman_dot": 0.8205176794102382,
+      "eval_spearman_euclidean": 0.8031080794349076,
+      "eval_spearman_manhattan": 0.8025975518083548,
+      "eval_steps_per_second": 20.154,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2134,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8245ad8d07ebb1dbf31b5bb701c7b6a12ad4c1449de419861b6ec4b0360c92b
+size 5368