Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

README.md +38 -3
config.json +32 -0
generation_config.json +5 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
requirements.txt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +37 -0
tokenizer.json +0 -0
tokenizer_config.json +53 -0
trainer_state.json +1122 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,38 @@
----
-license: mit
----

+# BerTELEO
+A bert model pre-trained on short DNA sequence the teleo marker from zhihan1996/DNABERT-2-117M
+use this model for teleo sequence emmebdding
+Paper not already release.
+How use :
+```python
+from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
+import torch
+model_id = "gustoudu81/BerTeleo"
+tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
+model = AutoModelForMaskedLM.from_pretrained(model_id, trust_remote_code=True)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model = model.to(device).eval()
+inputs = tokenizer("ACGTACGTACGT", return_tensors="pt")
+inputs = {k: v.to(device) for k, v in inputs.items()}
+with torch.no_grad():
+    hidden_states = model(**inputs)[0]
+# embedding with mean pooling
+embedding_mean = torch.mean(hidden_states[0], dim=0)
+print(embedding_mean.shape) # expect to be 768
+# embedding with max pooling
+embedding_max = torch.max(hidden_states[0], dim=0)[0]
+print(embedding_max.shape) # expect to be 768
+```

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alibi_starting_size": 512,
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "auto_map": {
+    "AutoConfig": "gustoudu81/DNABERT-2-117M-tritonfix--configuration_bert.BertConfig",
+    "AutoModel": "gustoudu81/DNABERT-2-117M-tritonfix--bert_layers.BertModel",
+    "AutoModelForMaskedLM": "gustoudu81/DNABERT-2-117M-tritonfix-2-117M--bert_layers.BertForMaskedLM",
+    "AutoModelForSequenceClassification": "gustoudu81/DNABERT-2-117M-tritonfix--bert_layers.BertForSequenceClassification"
+  },
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 4096
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:021362bcea4fcb6ffd4d39a71b75cc6e7a0b2b8c9f9a3e592a1155cd27f3effc
+size 936711947

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8556c570222ca9bfb38ddcfacd463dc6f7e7e6920228ad95c5de80e366a2f54
+size 468345303

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+torch
+transformers
+einops

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c974aa6e6f13f300b7ec93fe25ab0069903d684b1fb3bbb8a54b0173af962d2d
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88ae2ad01e8731312f091eddfc4ec4e31d4cd78d95e717f33bff72c55a9c1dd0
+size 1465

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1122 @@

+{
+  "best_global_step": 67000,
+  "best_metric": 1.3910651206970215,
+  "best_model_checkpoint": "/home/auguste/Desktop/eDNA/TeleoClassification/scripts/DNABert2/experiments/masking_training/outputs/masking_teleo/checkpoints/checkpoint-67000",
+  "epoch": 108.06451612903226,
+  "eval_steps": 1000,
+  "global_step": 67000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0016129032258064516,
+      "grad_norm": 107.56168365478516,
+      "learning_rate": 2e-05,
+      "loss": 7.9233,
+      "step": 1
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 16.32627296447754,
+      "learning_rate": 1.9785161290322584e-05,
+      "loss": 3.0779,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "eval_loss": 2.738837718963623,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.2955,
+      "eval_samples_per_second": 1766.611,
+      "eval_steps_per_second": 111.682,
+      "step": 1000
+    },
+    {
+      "epoch": 3.225806451612903,
+      "grad_norm": 12.881124496459961,
+      "learning_rate": 1.9570107526881724e-05,
+      "loss": 2.506,
+      "step": 2000
+    },
+    {
+      "epoch": 3.225806451612903,
+      "eval_loss": 2.4902684688568115,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.2968,
+      "eval_samples_per_second": 1758.892,
+      "eval_steps_per_second": 111.194,
+      "step": 2000
+    },
+    {
+      "epoch": 4.838709677419355,
+      "grad_norm": 12.914713859558105,
+      "learning_rate": 1.935505376344086e-05,
+      "loss": 2.734,
+      "step": 3000
+    },
+    {
+      "epoch": 4.838709677419355,
+      "eval_loss": 2.305058479309082,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3006,
+      "eval_samples_per_second": 1736.761,
+      "eval_steps_per_second": 109.795,
+      "step": 3000
+    },
+    {
+      "epoch": 6.451612903225806,
+      "grad_norm": 13.617836952209473,
+      "learning_rate": 1.914e-05,
+      "loss": 2.2267,
+      "step": 4000
+    },
+    {
+      "epoch": 6.451612903225806,
+      "eval_loss": 2.3899621963500977,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3004,
+      "eval_samples_per_second": 1737.628,
+      "eval_steps_per_second": 109.85,
+      "step": 4000
+    },
+    {
+      "epoch": 8.064516129032258,
+      "grad_norm": 11.493875503540039,
+      "learning_rate": 1.892494623655914e-05,
+      "loss": 2.1095,
+      "step": 5000
+    },
+    {
+      "epoch": 8.064516129032258,
+      "eval_loss": 2.1791865825653076,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.2998,
+      "eval_samples_per_second": 1740.976,
+      "eval_steps_per_second": 110.062,
+      "step": 5000
+    },
+    {
+      "epoch": 9.67741935483871,
+      "grad_norm": 16.104379653930664,
+      "learning_rate": 1.870989247311828e-05,
+      "loss": 1.9622,
+      "step": 6000
+    },
+    {
+      "epoch": 9.67741935483871,
+      "eval_loss": 2.0534751415252686,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3144,
+      "eval_samples_per_second": 1660.314,
+      "eval_steps_per_second": 104.962,
+      "step": 6000
+    },
+    {
+      "epoch": 11.290322580645162,
+      "grad_norm": 15.933501243591309,
+      "learning_rate": 1.8494838709677422e-05,
+      "loss": 1.8713,
+      "step": 7000
+    },
+    {
+      "epoch": 11.290322580645162,
+      "eval_loss": 2.1255111694335938,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.31,
+      "eval_samples_per_second": 1684.034,
+      "eval_steps_per_second": 106.462,
+      "step": 7000
+    },
+    {
+      "epoch": 12.903225806451612,
+      "grad_norm": 9.397466659545898,
+      "learning_rate": 1.8279784946236562e-05,
+      "loss": 1.7906,
+      "step": 8000
+    },
+    {
+      "epoch": 12.903225806451612,
+      "eval_loss": 1.9397249221801758,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3026,
+      "eval_samples_per_second": 1724.803,
+      "eval_steps_per_second": 109.039,
+      "step": 8000
+    },
+    {
+      "epoch": 14.516129032258064,
+      "grad_norm": 14.291478157043457,
+      "learning_rate": 1.8064731182795702e-05,
+      "loss": 1.7149,
+      "step": 9000
+    },
+    {
+      "epoch": 14.516129032258064,
+      "eval_loss": 1.8910889625549316,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3013,
+      "eval_samples_per_second": 1732.385,
+      "eval_steps_per_second": 109.519,
+      "step": 9000
+    },
+    {
+      "epoch": 16.129032258064516,
+      "grad_norm": 15.776030540466309,
+      "learning_rate": 1.784967741935484e-05,
+      "loss": 1.634,
+      "step": 10000
+    },
+    {
+      "epoch": 16.129032258064516,
+      "eval_loss": 1.893878698348999,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3023,
+      "eval_samples_per_second": 1726.506,
+      "eval_steps_per_second": 109.147,
+      "step": 10000
+    },
+    {
+      "epoch": 17.741935483870968,
+      "grad_norm": 12.53177547454834,
+      "learning_rate": 1.763462365591398e-05,
+      "loss": 1.5991,
+      "step": 11000
+    },
+    {
+      "epoch": 17.741935483870968,
+      "eval_loss": 1.8701565265655518,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3035,
+      "eval_samples_per_second": 1720.089,
+      "eval_steps_per_second": 108.741,
+      "step": 11000
+    },
+    {
+      "epoch": 19.35483870967742,
+      "grad_norm": 13.62909984588623,
+      "learning_rate": 1.741956989247312e-05,
+      "loss": 1.5008,
+      "step": 12000
+    },
+    {
+      "epoch": 19.35483870967742,
+      "eval_loss": 1.7572582960128784,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3051,
+      "eval_samples_per_second": 1710.701,
+      "eval_steps_per_second": 108.148,
+      "step": 12000
+    },
+    {
+      "epoch": 20.967741935483872,
+      "grad_norm": 13.886764526367188,
+      "learning_rate": 1.720451612903226e-05,
+      "loss": 1.4469,
+      "step": 13000
+    },
+    {
+      "epoch": 20.967741935483872,
+      "eval_loss": 1.7456613779067993,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3048,
+      "eval_samples_per_second": 1712.389,
+      "eval_steps_per_second": 108.254,
+      "step": 13000
+    },
+    {
+      "epoch": 22.580645161290324,
+      "grad_norm": 16.04749870300293,
+      "learning_rate": 1.6989462365591397e-05,
+      "loss": 1.404,
+      "step": 14000
+    },
+    {
+      "epoch": 22.580645161290324,
+      "eval_loss": 1.7826714515686035,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3034,
+      "eval_samples_per_second": 1720.509,
+      "eval_steps_per_second": 108.768,
+      "step": 14000
+    },
+    {
+      "epoch": 24.193548387096776,
+      "grad_norm": 14.932185173034668,
+      "learning_rate": 1.6774408602150537e-05,
+      "loss": 1.3552,
+      "step": 15000
+    },
+    {
+      "epoch": 24.193548387096776,
+      "eval_loss": 1.7234201431274414,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3061,
+      "eval_samples_per_second": 1705.173,
+      "eval_steps_per_second": 107.798,
+      "step": 15000
+    },
+    {
+      "epoch": 25.806451612903224,
+      "grad_norm": 8.178566932678223,
+      "learning_rate": 1.6559354838709676e-05,
+      "loss": 1.313,
+      "step": 16000
+    },
+    {
+      "epoch": 25.806451612903224,
+      "eval_loss": 1.8201613426208496,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3194,
+      "eval_samples_per_second": 1634.314,
+      "eval_steps_per_second": 103.319,
+      "step": 16000
+    },
+    {
+      "epoch": 27.419354838709676,
+      "grad_norm": 16.086894989013672,
+      "learning_rate": 1.634430107526882e-05,
+      "loss": 1.2751,
+      "step": 17000
+    },
+    {
+      "epoch": 27.419354838709676,
+      "eval_loss": 1.6344752311706543,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3053,
+      "eval_samples_per_second": 1709.792,
+      "eval_steps_per_second": 108.09,
+      "step": 17000
+    },
+    {
+      "epoch": 29.032258064516128,
+      "grad_norm": 9.854013442993164,
+      "learning_rate": 1.612924731182796e-05,
+      "loss": 1.2377,
+      "step": 18000
+    },
+    {
+      "epoch": 29.032258064516128,
+      "eval_loss": 1.6381661891937256,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.343,
+      "eval_samples_per_second": 1521.702,
+      "eval_steps_per_second": 96.2,
+      "step": 18000
+    },
+    {
+      "epoch": 30.64516129032258,
+      "grad_norm": 13.270648956298828,
+      "learning_rate": 1.59141935483871e-05,
+      "loss": 1.1772,
+      "step": 19000
+    },
+    {
+      "epoch": 30.64516129032258,
+      "eval_loss": 1.6601710319519043,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3037,
+      "eval_samples_per_second": 1718.661,
+      "eval_steps_per_second": 108.651,
+      "step": 19000
+    },
+    {
+      "epoch": 32.25806451612903,
+      "grad_norm": 20.389537811279297,
+      "learning_rate": 1.569913978494624e-05,
+      "loss": 1.176,
+      "step": 20000
+    },
+    {
+      "epoch": 32.25806451612903,
+      "eval_loss": 1.6632287502288818,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3045,
+      "eval_samples_per_second": 1714.128,
+      "eval_steps_per_second": 108.364,
+      "step": 20000
+    },
+    {
+      "epoch": 33.87096774193548,
+      "grad_norm": 11.229137420654297,
+      "learning_rate": 1.548408602150538e-05,
+      "loss": 1.1184,
+      "step": 21000
+    },
+    {
+      "epoch": 33.87096774193548,
+      "eval_loss": 1.7555991411209106,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3043,
+      "eval_samples_per_second": 1715.561,
+      "eval_steps_per_second": 108.455,
+      "step": 21000
+    },
+    {
+      "epoch": 35.483870967741936,
+      "grad_norm": 10.823155403137207,
+      "learning_rate": 1.5269032258064518e-05,
+      "loss": 1.0793,
+      "step": 22000
+    },
+    {
+      "epoch": 35.483870967741936,
+      "eval_loss": 1.6087384223937988,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3059,
+      "eval_samples_per_second": 1706.414,
+      "eval_steps_per_second": 107.877,
+      "step": 22000
+    },
+    {
+      "epoch": 37.096774193548384,
+      "grad_norm": 6.54916524887085,
+      "learning_rate": 1.5053978494623658e-05,
+      "loss": 1.0632,
+      "step": 23000
+    },
+    {
+      "epoch": 37.096774193548384,
+      "eval_loss": 1.6815119981765747,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3044,
+      "eval_samples_per_second": 1714.683,
+      "eval_steps_per_second": 108.399,
+      "step": 23000
+    },
+    {
+      "epoch": 38.70967741935484,
+      "grad_norm": 14.550293922424316,
+      "learning_rate": 1.4838924731182798e-05,
+      "loss": 1.0185,
+      "step": 24000
+    },
+    {
+      "epoch": 38.70967741935484,
+      "eval_loss": 1.6611889600753784,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3028,
+      "eval_samples_per_second": 1724.12,
+      "eval_steps_per_second": 108.996,
+      "step": 24000
+    },
+    {
+      "epoch": 40.32258064516129,
+      "grad_norm": 14.825828552246094,
+      "learning_rate": 1.4623870967741937e-05,
+      "loss": 1.0148,
+      "step": 25000
+    },
+    {
+      "epoch": 40.32258064516129,
+      "eval_loss": 1.5314302444458008,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3061,
+      "eval_samples_per_second": 1705.416,
+      "eval_steps_per_second": 107.814,
+      "step": 25000
+    },
+    {
+      "epoch": 41.935483870967744,
+      "grad_norm": 15.808582305908203,
+      "learning_rate": 1.4408817204301075e-05,
+      "loss": 0.9492,
+      "step": 26000
+    },
+    {
+      "epoch": 41.935483870967744,
+      "eval_loss": 1.717032790184021,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3131,
+      "eval_samples_per_second": 1667.386,
+      "eval_steps_per_second": 105.409,
+      "step": 26000
+    },
+    {
+      "epoch": 43.54838709677419,
+      "grad_norm": 13.56778621673584,
+      "learning_rate": 1.4193763440860215e-05,
+      "loss": 0.9352,
+      "step": 27000
+    },
+    {
+      "epoch": 43.54838709677419,
+      "eval_loss": 1.631635069847107,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3065,
+      "eval_samples_per_second": 1703.186,
+      "eval_steps_per_second": 107.673,
+      "step": 27000
+    },
+    {
+      "epoch": 45.16129032258065,
+      "grad_norm": 14.375411987304688,
+      "learning_rate": 1.3978709677419355e-05,
+      "loss": 0.9287,
+      "step": 28000
+    },
+    {
+      "epoch": 45.16129032258065,
+      "eval_loss": 1.643862247467041,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3075,
+      "eval_samples_per_second": 1697.381,
+      "eval_steps_per_second": 107.306,
+      "step": 28000
+    },
+    {
+      "epoch": 46.774193548387096,
+      "grad_norm": 12.451338768005371,
+      "learning_rate": 1.3763655913978495e-05,
+      "loss": 0.9052,
+      "step": 29000
+    },
+    {
+      "epoch": 46.774193548387096,
+      "eval_loss": 1.4976590871810913,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3151,
+      "eval_samples_per_second": 1656.651,
+      "eval_steps_per_second": 104.731,
+      "step": 29000
+    },
+    {
+      "epoch": 48.38709677419355,
+      "grad_norm": 15.790621757507324,
+      "learning_rate": 1.3548602150537636e-05,
+      "loss": 0.8897,
+      "step": 30000
+    },
+    {
+      "epoch": 48.38709677419355,
+      "eval_loss": 1.544758915901184,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3045,
+      "eval_samples_per_second": 1714.222,
+      "eval_steps_per_second": 108.37,
+      "step": 30000
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 15.337139129638672,
+      "learning_rate": 1.3333548387096776e-05,
+      "loss": 0.9353,
+      "step": 31000
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 1.7019206285476685,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3181,
+      "eval_samples_per_second": 1640.743,
+      "eval_steps_per_second": 103.725,
+      "step": 31000
+    },
+    {
+      "epoch": 51.61290322580645,
+      "grad_norm": 17.48087501525879,
+      "learning_rate": 1.3118494623655916e-05,
+      "loss": 0.8976,
+      "step": 32000
+    },
+    {
+      "epoch": 51.61290322580645,
+      "eval_loss": 1.6256884336471558,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3131,
+      "eval_samples_per_second": 1667.367,
+      "eval_steps_per_second": 105.408,
+      "step": 32000
+    },
+    {
+      "epoch": 53.225806451612904,
+      "grad_norm": 15.387638092041016,
+      "learning_rate": 1.2903440860215055e-05,
+      "loss": 0.8414,
+      "step": 33000
+    },
+    {
+      "epoch": 53.225806451612904,
+      "eval_loss": 1.5139249563217163,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3191,
+      "eval_samples_per_second": 1635.972,
+      "eval_steps_per_second": 103.424,
+      "step": 33000
+    },
+    {
+      "epoch": 54.83870967741935,
+      "grad_norm": 15.2994384765625,
+      "learning_rate": 1.2688387096774195e-05,
+      "loss": 0.7897,
+      "step": 34000
+    },
+    {
+      "epoch": 54.83870967741935,
+      "eval_loss": 1.7013849020004272,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3268,
+      "eval_samples_per_second": 1597.145,
+      "eval_steps_per_second": 100.969,
+      "step": 34000
+    },
+    {
+      "epoch": 56.45161290322581,
+      "grad_norm": 14.40909481048584,
+      "learning_rate": 1.2473333333333335e-05,
+      "loss": 0.8627,
+      "step": 35000
+    },
+    {
+      "epoch": 56.45161290322581,
+      "eval_loss": 1.7141073942184448,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3089,
+      "eval_samples_per_second": 1689.899,
+      "eval_steps_per_second": 106.833,
+      "step": 35000
+    },
+    {
+      "epoch": 58.064516129032256,
+      "grad_norm": 19.243818283081055,
+      "learning_rate": 1.2258279569892474e-05,
+      "loss": 0.9135,
+      "step": 36000
+    },
+    {
+      "epoch": 58.064516129032256,
+      "eval_loss": 1.678747296333313,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3278,
+      "eval_samples_per_second": 1592.41,
+      "eval_steps_per_second": 100.67,
+      "step": 36000
+    },
+    {
+      "epoch": 59.67741935483871,
+      "grad_norm": 14.35431957244873,
+      "learning_rate": 1.2043225806451614e-05,
+      "loss": 0.9226,
+      "step": 37000
+    },
+    {
+      "epoch": 59.67741935483871,
+      "eval_loss": 1.9941015243530273,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3066,
+      "eval_samples_per_second": 1702.667,
+      "eval_steps_per_second": 107.64,
+      "step": 37000
+    },
+    {
+      "epoch": 61.29032258064516,
+      "grad_norm": 16.02369499206543,
+      "learning_rate": 1.1828172043010752e-05,
+      "loss": 0.8849,
+      "step": 38000
+    },
+    {
+      "epoch": 61.29032258064516,
+      "eval_loss": 1.5911988019943237,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3059,
+      "eval_samples_per_second": 1706.321,
+      "eval_steps_per_second": 107.871,
+      "step": 38000
+    },
+    {
+      "epoch": 62.903225806451616,
+      "grad_norm": 24.164094924926758,
+      "learning_rate": 1.1613118279569892e-05,
+      "loss": 0.7974,
+      "step": 39000
+    },
+    {
+      "epoch": 62.903225806451616,
+      "eval_loss": 1.5700287818908691,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3059,
+      "eval_samples_per_second": 1706.437,
+      "eval_steps_per_second": 107.878,
+      "step": 39000
+    },
+    {
+      "epoch": 64.51612903225806,
+      "grad_norm": 10.7676420211792,
+      "learning_rate": 1.1398064516129033e-05,
+      "loss": 0.7892,
+      "step": 40000
+    },
+    {
+      "epoch": 64.51612903225806,
+      "eval_loss": 1.6208666563034058,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3135,
+      "eval_samples_per_second": 1665.325,
+      "eval_steps_per_second": 105.279,
+      "step": 40000
+    },
+    {
+      "epoch": 66.12903225806451,
+      "grad_norm": 8.90040111541748,
+      "learning_rate": 1.1183010752688173e-05,
+      "loss": 0.7728,
+      "step": 41000
+    },
+    {
+      "epoch": 66.12903225806451,
+      "eval_loss": 1.5275108814239502,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3064,
+      "eval_samples_per_second": 1703.395,
+      "eval_steps_per_second": 107.686,
+      "step": 41000
+    },
+    {
+      "epoch": 67.74193548387096,
+      "grad_norm": 16.836742401123047,
+      "learning_rate": 1.0967956989247313e-05,
+      "loss": 0.7309,
+      "step": 42000
+    },
+    {
+      "epoch": 67.74193548387096,
+      "eval_loss": 1.6568617820739746,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3052,
+      "eval_samples_per_second": 1710.328,
+      "eval_steps_per_second": 108.124,
+      "step": 42000
+    },
+    {
+      "epoch": 69.35483870967742,
+      "grad_norm": 16.19956398010254,
+      "learning_rate": 1.0752903225806453e-05,
+      "loss": 0.6891,
+      "step": 43000
+    },
+    {
+      "epoch": 69.35483870967742,
+      "eval_loss": 1.4376003742218018,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3272,
+      "eval_samples_per_second": 1595.464,
+      "eval_steps_per_second": 100.863,
+      "step": 43000
+    },
+    {
+      "epoch": 70.96774193548387,
+      "grad_norm": 19.571664810180664,
+      "learning_rate": 1.0537849462365592e-05,
+      "loss": 0.6732,
+      "step": 44000
+    },
+    {
+      "epoch": 70.96774193548387,
+      "eval_loss": 1.6094655990600586,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3144,
+      "eval_samples_per_second": 1660.491,
+      "eval_steps_per_second": 104.974,
+      "step": 44000
+    },
+    {
+      "epoch": 72.58064516129032,
+      "grad_norm": 11.60450267791748,
+      "learning_rate": 1.0322795698924732e-05,
+      "loss": 0.6475,
+      "step": 45000
+    },
+    {
+      "epoch": 72.58064516129032,
+      "eval_loss": 1.569161295890808,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3241,
+      "eval_samples_per_second": 1610.77,
+      "eval_steps_per_second": 101.83,
+      "step": 45000
+    },
+    {
+      "epoch": 74.19354838709677,
+      "grad_norm": 14.973388671875,
+      "learning_rate": 1.0107741935483872e-05,
+      "loss": 0.674,
+      "step": 46000
+    },
+    {
+      "epoch": 74.19354838709677,
+      "eval_loss": 1.4532381296157837,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3117,
+      "eval_samples_per_second": 1674.469,
+      "eval_steps_per_second": 105.857,
+      "step": 46000
+    },
+    {
+      "epoch": 75.80645161290323,
+      "grad_norm": 19.416486740112305,
+      "learning_rate": 9.892688172043012e-06,
+      "loss": 0.6339,
+      "step": 47000
+    },
+    {
+      "epoch": 75.80645161290323,
+      "eval_loss": 1.5601801872253418,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3055,
+      "eval_samples_per_second": 1708.783,
+      "eval_steps_per_second": 108.027,
+      "step": 47000
+    },
+    {
+      "epoch": 77.41935483870968,
+      "grad_norm": 12.237533569335938,
+      "learning_rate": 9.677634408602151e-06,
+      "loss": 0.628,
+      "step": 48000
+    },
+    {
+      "epoch": 77.41935483870968,
+      "eval_loss": 1.5352447032928467,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3243,
+      "eval_samples_per_second": 1609.448,
+      "eval_steps_per_second": 101.747,
+      "step": 48000
+    },
+    {
+      "epoch": 79.03225806451613,
+      "grad_norm": 8.90131664276123,
+      "learning_rate": 9.462580645161291e-06,
+      "loss": 0.6123,
+      "step": 49000
+    },
+    {
+      "epoch": 79.03225806451613,
+      "eval_loss": 1.6023005247116089,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3064,
+      "eval_samples_per_second": 1703.925,
+      "eval_steps_per_second": 107.719,
+      "step": 49000
+    },
+    {
+      "epoch": 80.64516129032258,
+      "grad_norm": 19.542125701904297,
+      "learning_rate": 9.24752688172043e-06,
+      "loss": 0.5913,
+      "step": 50000
+    },
+    {
+      "epoch": 80.64516129032258,
+      "eval_loss": 1.4985138177871704,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3143,
+      "eval_samples_per_second": 1660.843,
+      "eval_steps_per_second": 104.996,
+      "step": 50000
+    },
+    {
+      "epoch": 82.25806451612904,
+      "grad_norm": 15.9403715133667,
+      "learning_rate": 9.03247311827957e-06,
+      "loss": 0.5919,
+      "step": 51000
+    },
+    {
+      "epoch": 82.25806451612904,
+      "eval_loss": 1.557279109954834,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3138,
+      "eval_samples_per_second": 1663.684,
+      "eval_steps_per_second": 105.175,
+      "step": 51000
+    },
+    {
+      "epoch": 83.87096774193549,
+      "grad_norm": 16.341463088989258,
+      "learning_rate": 8.81741935483871e-06,
+      "loss": 0.5849,
+      "step": 52000
+    },
+    {
+      "epoch": 83.87096774193549,
+      "eval_loss": 1.744088888168335,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3074,
+      "eval_samples_per_second": 1698.241,
+      "eval_steps_per_second": 107.36,
+      "step": 52000
+    },
+    {
+      "epoch": 85.48387096774194,
+      "grad_norm": 17.496572494506836,
+      "learning_rate": 8.60236559139785e-06,
+      "loss": 0.5798,
+      "step": 53000
+    },
+    {
+      "epoch": 85.48387096774194,
+      "eval_loss": 1.5605759620666504,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3312,
+      "eval_samples_per_second": 1576.078,
+      "eval_steps_per_second": 99.637,
+      "step": 53000
+    },
+    {
+      "epoch": 87.09677419354838,
+      "grad_norm": 22.154132843017578,
+      "learning_rate": 8.38731182795699e-06,
+      "loss": 0.5627,
+      "step": 54000
+    },
+    {
+      "epoch": 87.09677419354838,
+      "eval_loss": 1.486401081085205,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3046,
+      "eval_samples_per_second": 1713.463,
+      "eval_steps_per_second": 108.322,
+      "step": 54000
+    },
+    {
+      "epoch": 88.70967741935483,
+      "grad_norm": 12.007641792297363,
+      "learning_rate": 8.17225806451613e-06,
+      "loss": 0.5926,
+      "step": 55000
+    },
+    {
+      "epoch": 88.70967741935483,
+      "eval_loss": 1.533622145652771,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3189,
+      "eval_samples_per_second": 1636.753,
+      "eval_steps_per_second": 103.473,
+      "step": 55000
+    },
+    {
+      "epoch": 90.3225806451613,
+      "grad_norm": 16.921255111694336,
+      "learning_rate": 7.957204301075269e-06,
+      "loss": 0.5737,
+      "step": 56000
+    },
+    {
+      "epoch": 90.3225806451613,
+      "eval_loss": 1.595588207244873,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3248,
+      "eval_samples_per_second": 1607.001,
+      "eval_steps_per_second": 101.592,
+      "step": 56000
+    },
+    {
+      "epoch": 91.93548387096774,
+      "grad_norm": 14.567840576171875,
+      "learning_rate": 7.74215053763441e-06,
+      "loss": 0.5521,
+      "step": 57000
+    },
+    {
+      "epoch": 91.93548387096774,
+      "eval_loss": 1.6286988258361816,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.308,
+      "eval_samples_per_second": 1694.658,
+      "eval_steps_per_second": 107.134,
+      "step": 57000
+    },
+    {
+      "epoch": 93.54838709677419,
+      "grad_norm": 7.83158016204834,
+      "learning_rate": 7.5270967741935486e-06,
+      "loss": 0.5672,
+      "step": 58000
+    },
+    {
+      "epoch": 93.54838709677419,
+      "eval_loss": 1.6612709760665894,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3047,
+      "eval_samples_per_second": 1713.282,
+      "eval_steps_per_second": 108.311,
+      "step": 58000
+    },
+    {
+      "epoch": 95.16129032258064,
+      "grad_norm": 20.766202926635742,
+      "learning_rate": 7.312043010752688e-06,
+      "loss": 0.5685,
+      "step": 59000
+    },
+    {
+      "epoch": 95.16129032258064,
+      "eval_loss": 1.5319266319274902,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3061,
+      "eval_samples_per_second": 1705.367,
+      "eval_steps_per_second": 107.811,
+      "step": 59000
+    },
+    {
+      "epoch": 96.7741935483871,
+      "grad_norm": 13.834534645080566,
+      "learning_rate": 7.096989247311829e-06,
+      "loss": 0.5394,
+      "step": 60000
+    },
+    {
+      "epoch": 96.7741935483871,
+      "eval_loss": 1.5068557262420654,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3061,
+      "eval_samples_per_second": 1705.255,
+      "eval_steps_per_second": 107.803,
+      "step": 60000
+    },
+    {
+      "epoch": 98.38709677419355,
+      "grad_norm": 9.130626678466797,
+      "learning_rate": 6.881935483870969e-06,
+      "loss": 0.5095,
+      "step": 61000
+    },
+    {
+      "epoch": 98.38709677419355,
+      "eval_loss": 1.4926313161849976,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3074,
+      "eval_samples_per_second": 1698.19,
+      "eval_steps_per_second": 107.357,
+      "step": 61000
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 18.79903793334961,
+      "learning_rate": 6.666881720430108e-06,
+      "loss": 0.5327,
+      "step": 62000
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 1.4378135204315186,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3146,
+      "eval_samples_per_second": 1659.02,
+      "eval_steps_per_second": 104.881,
+      "step": 62000
+    },
+    {
+      "epoch": 101.61290322580645,
+      "grad_norm": 17.528038024902344,
+      "learning_rate": 6.451827956989248e-06,
+      "loss": 0.5108,
+      "step": 63000
+    },
+    {
+      "epoch": 101.61290322580645,
+      "eval_loss": 1.4716895818710327,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3118,
+      "eval_samples_per_second": 1673.899,
+      "eval_steps_per_second": 105.821,
+      "step": 63000
+    },
+    {
+      "epoch": 103.2258064516129,
+      "grad_norm": 9.862174034118652,
+      "learning_rate": 6.236774193548387e-06,
+      "loss": 0.4874,
+      "step": 64000
+    },
+    {
+      "epoch": 103.2258064516129,
+      "eval_loss": 1.519917368888855,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3105,
+      "eval_samples_per_second": 1681.31,
+      "eval_steps_per_second": 106.29,
+      "step": 64000
+    },
+    {
+      "epoch": 104.83870967741936,
+      "grad_norm": 11.85350513458252,
+      "learning_rate": 6.0217204301075275e-06,
+      "loss": 0.4856,
+      "step": 65000
+    },
+    {
+      "epoch": 104.83870967741936,
+      "eval_loss": 1.5175796747207642,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3143,
+      "eval_samples_per_second": 1661.035,
+      "eval_steps_per_second": 105.008,
+      "step": 65000
+    },
+    {
+      "epoch": 106.45161290322581,
+      "grad_norm": 21.145742416381836,
+      "learning_rate": 5.806666666666667e-06,
+      "loss": 0.4665,
+      "step": 66000
+    },
+    {
+      "epoch": 106.45161290322581,
+      "eval_loss": 1.5837030410766602,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3108,
+      "eval_samples_per_second": 1679.611,
+      "eval_steps_per_second": 106.182,
+      "step": 66000
+    },
+    {
+      "epoch": 108.06451612903226,
+      "grad_norm": 8.358002662658691,
+      "learning_rate": 5.591612903225807e-06,
+      "loss": 0.4846,
+      "step": 67000
+    },
+    {
+      "epoch": 108.06451612903226,
+      "eval_loss": 1.3910651206970215,
+      "eval_model_preparation_time": 0.0012,
+      "eval_runtime": 0.3115,
+      "eval_samples_per_second": 1676.029,
+      "eval_steps_per_second": 105.956,
+      "step": 67000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 93000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 80,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1978332035428352e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:015f7697b0ed907e67af5984ad66287dbd7e699787c9cb3398b8db4208a469cb
+size 5905