Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

.gitattributes +1 -0
README.md +56 -0
all_results.json +15 -0
config.json +42 -0
eval_nbest_predictions.json +3 -0
eval_predictions.json +0 -0
eval_results.json +9 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +86 -0
train_results.json +9 -0
trainer_state.json +607 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+eval_nbest_predictions.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,56 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: llm-jp/llm-jp-modernbert-base
+tags:
+- generated_from_trainer
+datasets:
+- sbintuitions/JSQuAD
+model-index:
+- name: output
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# output
+This model is a fine-tuned version of [llm-jp/llm-jp-modernbert-base](https://huggingface.co/llm-jp/llm-jp-modernbert-base) on the sbintuitions/JSQuAD dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 16
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 2.0
+### Training results
+### Framework versions
+- Transformers 4.52.4
+- Pytorch 2.10.0.dev20251211+cu128
+- Datasets 4.4.1
+- Tokenizers 0.21.4

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 2.0,
+    "eval_exact_match": 87.9783881134624,
+    "eval_f1": 88.03091700435239,
+    "eval_runtime": 19.8311,
+    "eval_samples": 4442,
+    "eval_samples_per_second": 223.991,
+    "eval_steps_per_second": 28.037,
+    "total_flos": 4.284348397959168e+16,
+    "train_loss": 0.5882660921596692,
+    "train_runtime": 1480.7732,
+    "train_samples": 62865,
+    "train_samples_per_second": 84.908,
+    "train_steps_per_second": 5.308
+}

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "architectures": [
+    "ModernBertForQuestionAnswering"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 5,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "cls",
+  "cls_token_id": 5,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "embedding_dropout": 0.0,
+  "eos_token_id": 6,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 10000.0,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 4,
+  "repad_logits_with_grad": false,
+  "sep_token_id": 6,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "vocab_size": 99574
+}

eval_nbest_predictions.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e5ea5570d46ab43aa4b55dbcdef4e5c46cc6b5f03bdebd3ce17da6f63f0f6a0
+size 21926555

eval_predictions.json ADDED Viewed

The diff for this file is too large to render. See raw diff

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.0,
+    "eval_exact_match": 87.9783881134624,
+    "eval_f1": 88.03091700435239,
+    "eval_runtime": 19.8311,
+    "eval_samples": 4442,
+    "eval_samples_per_second": 223.991,
+    "eval_steps_per_second": 28.037
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2aee8f70682f9064c2325273a3b27b272b196c9b1a2e217ba2625ec70c6fb65e
+size 749600616

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<CLS|LLM-jp>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<MASK|LLM-jp>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<PAD|LLM-jp>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<SEP|LLM-jp>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,86 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<MASK|LLM-jp>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<PAD|LLM-jp>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<CLS|LLM-jp>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<SEP|LLM-jp>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<EOD|LLM-jp>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<CLS|LLM-jp>",
+  "eod_token": "</s>",
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "extra_special_tokens": {},
+  "mask_token": "<MASK|LLM-jp>",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<PAD|LLM-jp>",
+  "sep_token": "<SEP|LLM-jp>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.0,
+    "total_flos": 4.284348397959168e+16,
+    "train_loss": 0.5882660921596692,
+    "train_runtime": 1480.7732,
+    "train_samples": 62865,
+    "train_samples_per_second": 84.908,
+    "train_steps_per_second": 5.308
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,607 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 7860,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02544529262086514,
+      "grad_norm": 14.018085479736328,
+      "learning_rate": 5.038167938931297e-06,
+      "loss": 5.495,
+      "step": 100
+    },
+    {
+      "epoch": 0.05089058524173028,
+      "grad_norm": 17.718544006347656,
+      "learning_rate": 1.0127226463104327e-05,
+      "loss": 3.2381,
+      "step": 200
+    },
+    {
+      "epoch": 0.07633587786259542,
+      "grad_norm": 34.95506286621094,
+      "learning_rate": 1.5216284987277354e-05,
+      "loss": 2.3499,
+      "step": 300
+    },
+    {
+      "epoch": 0.10178117048346055,
+      "grad_norm": 18.550844192504883,
+      "learning_rate": 2.0305343511450384e-05,
+      "loss": 1.6151,
+      "step": 400
+    },
+    {
+      "epoch": 0.1272264631043257,
+      "grad_norm": 19.01876449584961,
+      "learning_rate": 2.5394402035623415e-05,
+      "loss": 1.2363,
+      "step": 500
+    },
+    {
+      "epoch": 0.15267175572519084,
+      "grad_norm": 10.618987083435059,
+      "learning_rate": 3.048346055979644e-05,
+      "loss": 1.1415,
+      "step": 600
+    },
+    {
+      "epoch": 0.178117048346056,
+      "grad_norm": 15.46481990814209,
+      "learning_rate": 3.557251908396947e-05,
+      "loss": 0.9468,
+      "step": 700
+    },
+    {
+      "epoch": 0.2035623409669211,
+      "grad_norm": 11.06924057006836,
+      "learning_rate": 3.9999666684789474e-05,
+      "loss": 0.8361,
+      "step": 800
+    },
+    {
+      "epoch": 0.22900763358778625,
+      "grad_norm": 53.707664489746094,
+      "learning_rate": 3.997482117988182e-05,
+      "loss": 0.7264,
+      "step": 900
+    },
+    {
+      "epoch": 0.2544529262086514,
+      "grad_norm": 9.740643501281738,
+      "learning_rate": 3.99105861127605e-05,
+      "loss": 0.7597,
+      "step": 1000
+    },
+    {
+      "epoch": 0.27989821882951654,
+      "grad_norm": 16.776819229125977,
+      "learning_rate": 3.980708815245299e-05,
+      "loss": 0.7007,
+      "step": 1100
+    },
+    {
+      "epoch": 0.3053435114503817,
+      "grad_norm": 8.06242847442627,
+      "learning_rate": 3.9664531392868807e-05,
+      "loss": 0.6887,
+      "step": 1200
+    },
+    {
+      "epoch": 0.33078880407124683,
+      "grad_norm": 12.792263984680176,
+      "learning_rate": 3.9483196950334345e-05,
+      "loss": 0.6555,
+      "step": 1300
+    },
+    {
+      "epoch": 0.356234096692112,
+      "grad_norm": 24.67995834350586,
+      "learning_rate": 3.9263442409242555e-05,
+      "loss": 0.6284,
+      "step": 1400
+    },
+    {
+      "epoch": 0.3816793893129771,
+      "grad_norm": 10.594704627990723,
+      "learning_rate": 3.9005701116910544e-05,
+      "loss": 0.66,
+      "step": 1500
+    },
+    {
+      "epoch": 0.4071246819338422,
+      "grad_norm": 16.927017211914062,
+      "learning_rate": 3.871048132903571e-05,
+      "loss": 0.6219,
+      "step": 1600
+    },
+    {
+      "epoch": 0.43256997455470736,
+      "grad_norm": 11.569594383239746,
+      "learning_rate": 3.8378365207435505e-05,
+      "loss": 0.5795,
+      "step": 1700
+    },
+    {
+      "epoch": 0.4580152671755725,
+      "grad_norm": 7.332423210144043,
+      "learning_rate": 3.801000767204719e-05,
+      "loss": 0.602,
+      "step": 1800
+    },
+    {
+      "epoch": 0.48346055979643765,
+      "grad_norm": 15.542613983154297,
+      "learning_rate": 3.7606135109451464e-05,
+      "loss": 0.5607,
+      "step": 1900
+    },
+    {
+      "epoch": 0.5089058524173028,
+      "grad_norm": 4.43936824798584,
+      "learning_rate": 3.7167543940466696e-05,
+      "loss": 0.6086,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5343511450381679,
+      "grad_norm": 12.216741561889648,
+      "learning_rate": 3.6695099049638365e-05,
+      "loss": 0.5765,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5597964376590331,
+      "grad_norm": 10.111679077148438,
+      "learning_rate": 3.618973207972071e-05,
+      "loss": 0.5982,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5852417302798982,
+      "grad_norm": 11.400161743164062,
+      "learning_rate": 3.5652439594513904e-05,
+      "loss": 0.5568,
+      "step": 2300
+    },
+    {
+      "epoch": 0.6106870229007634,
+      "grad_norm": 5.88036584854126,
+      "learning_rate": 3.508428111367932e-05,
+      "loss": 0.5134,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6361323155216285,
+      "grad_norm": 5.014535903930664,
+      "learning_rate": 3.44863770234085e-05,
+      "loss": 0.4753,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6615776081424937,
+      "grad_norm": 7.856019496917725,
+      "learning_rate": 3.385990636706554e-05,
+      "loss": 0.5562,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6870229007633588,
+      "grad_norm": 2.1098134517669678,
+      "learning_rate": 3.3206104520160004e-05,
+      "loss": 0.5474,
+      "step": 2700
+    },
+    {
+      "epoch": 0.712468193384224,
+      "grad_norm": 6.840382099151611,
+      "learning_rate": 3.252626075423488e-05,
+      "loss": 0.4687,
+      "step": 2800
+    },
+    {
+      "epoch": 0.7379134860050891,
+      "grad_norm": 11.738897323608398,
+      "learning_rate": 3.1821715694473885e-05,
+      "loss": 0.548,
+      "step": 2900
+    },
+    {
+      "epoch": 0.7633587786259542,
+      "grad_norm": 9.473503112792969,
+      "learning_rate": 3.10938586760412e-05,
+      "loss": 0.4915,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7888040712468194,
+      "grad_norm": 6.523691177368164,
+      "learning_rate": 3.0344125004367205e-05,
+      "loss": 0.4947,
+      "step": 3100
+    },
+    {
+      "epoch": 0.8142493638676844,
+      "grad_norm": 5.054864883422852,
+      "learning_rate": 2.9573993124782555e-05,
+      "loss": 0.5223,
+      "step": 3200
+    },
+    {
+      "epoch": 0.8396946564885496,
+      "grad_norm": 9.77381420135498,
+      "learning_rate": 2.8784981707082113e-05,
+      "loss": 0.4955,
+      "step": 3300
+    },
+    {
+      "epoch": 0.8651399491094147,
+      "grad_norm": 4.1154584884643555,
+      "learning_rate": 2.7978646650767803e-05,
+      "loss": 0.4927,
+      "step": 3400
+    },
+    {
+      "epoch": 0.8905852417302799,
+      "grad_norm": 16.85251235961914,
+      "learning_rate": 2.7156578016875935e-05,
+      "loss": 0.5009,
+      "step": 3500
+    },
+    {
+      "epoch": 0.916030534351145,
+      "grad_norm": 10.117000579833984,
+      "learning_rate": 2.632039689243941e-05,
+      "loss": 0.4807,
+      "step": 3600
+    },
+    {
+      "epoch": 0.9414758269720102,
+      "grad_norm": 6.332391262054443,
+      "learning_rate": 2.5471752193767702e-05,
+      "loss": 0.5069,
+      "step": 3700
+    },
+    {
+      "epoch": 0.9669211195928753,
+      "grad_norm": 10.722579956054688,
+      "learning_rate": 2.4612317414848804e-05,
+      "loss": 0.5103,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9923664122137404,
+      "grad_norm": 3.0242695808410645,
+      "learning_rate": 2.374378732728483e-05,
+      "loss": 0.4559,
+      "step": 3900
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 86.28995947771274,
+      "eval_f1": 86.33873630496772,
+      "eval_runtime": 19.9463,
+      "eval_samples_per_second": 222.698,
+      "eval_steps_per_second": 27.875,
+      "step": 3930
+    },
+    {
+      "epoch": 1.0178117048346056,
+      "grad_norm": 9.833579063415527,
+      "learning_rate": 2.2867874638269023e-05,
+      "loss": 0.3774,
+      "step": 4000
+    },
+    {
+      "epoch": 1.0432569974554706,
+      "grad_norm": 3.0543391704559326,
+      "learning_rate": 2.1986306613194482e-05,
+      "loss": 0.3241,
+      "step": 4100
+    },
+    {
+      "epoch": 1.0687022900763359,
+      "grad_norm": 1.1584059000015259,
+      "learning_rate": 2.1100821669554764e-05,
+      "loss": 0.3121,
+      "step": 4200
+    },
+    {
+      "epoch": 1.094147582697201,
+      "grad_norm": 2.015965461730957,
+      "learning_rate": 2.0213165948852832e-05,
+      "loss": 0.3262,
+      "step": 4300
+    },
+    {
+      "epoch": 1.1195928753180662,
+      "grad_norm": 2.360656499862671,
+      "learning_rate": 1.9325089873278702e-05,
+      "loss": 0.2852,
+      "step": 4400
+    },
+    {
+      "epoch": 1.1450381679389312,
+      "grad_norm": 11.277798652648926,
+      "learning_rate": 1.8438344693945684e-05,
+      "loss": 0.2839,
+      "step": 4500
+    },
+    {
+      "epoch": 1.1704834605597965,
+      "grad_norm": 14.375648498535156,
+      "learning_rate": 1.7554679037491995e-05,
+      "loss": 0.3317,
+      "step": 4600
+    },
+    {
+      "epoch": 1.1959287531806615,
+      "grad_norm": 6.140357494354248,
+      "learning_rate": 1.667583545785781e-05,
+      "loss": 0.3063,
+      "step": 4700
+    },
+    {
+      "epoch": 1.2213740458015268,
+      "grad_norm": 9.926220893859863,
+      "learning_rate": 1.5803547000037324e-05,
+      "loss": 0.3466,
+      "step": 4800
+    },
+    {
+      "epoch": 1.2468193384223918,
+      "grad_norm": 1.1600242853164673,
+      "learning_rate": 1.493953378258222e-05,
+      "loss": 0.3031,
+      "step": 4900
+    },
+    {
+      "epoch": 1.272264631043257,
+      "grad_norm": 8.765625953674316,
+      "learning_rate": 1.4085499605595403e-05,
+      "loss": 0.2756,
+      "step": 5000
+    },
+    {
+      "epoch": 1.297709923664122,
+      "grad_norm": 10.345256805419922,
+      "learning_rate": 1.3243128590904269e-05,
+      "loss": 0.3013,
+      "step": 5100
+    },
+    {
+      "epoch": 1.3231552162849873,
+      "grad_norm": 3.349202871322632,
+      "learning_rate": 1.2414081861038584e-05,
+      "loss": 0.2554,
+      "step": 5200
+    },
+    {
+      "epoch": 1.3486005089058524,
+      "grad_norm": 7.207827091217041,
+      "learning_rate": 1.1599994263562202e-05,
+      "loss": 0.2758,
+      "step": 5300
+    },
+    {
+      "epoch": 1.3740458015267176,
+      "grad_norm": 3.8416330814361572,
+      "learning_rate": 1.0802471147217876e-05,
+      "loss": 0.3062,
+      "step": 5400
+    },
+    {
+      "epoch": 1.3994910941475827,
+      "grad_norm": 3.0882201194763184,
+      "learning_rate": 1.0023085196242704e-05,
+      "loss": 0.3213,
+      "step": 5500
+    },
+    {
+      "epoch": 1.424936386768448,
+      "grad_norm": 3.281527280807495,
+      "learning_rate": 9.263373329096565e-06,
+      "loss": 0.2757,
+      "step": 5600
+    },
+    {
+      "epoch": 1.450381679389313,
+      "grad_norm": 4.6003217697143555,
+      "learning_rate": 8.524833667719368e-06,
+      "loss": 0.2978,
+      "step": 5700
+    },
+    {
+      "epoch": 1.4758269720101782,
+      "grad_norm": 2.5000410079956055,
+      "learning_rate": 7.808922583293472e-06,
+      "loss": 0.2816,
+      "step": 5800
+    },
+    {
+      "epoch": 1.5012722646310432,
+      "grad_norm": 2.911534309387207,
+      "learning_rate": 7.117051824336958e-06,
+      "loss": 0.2674,
+      "step": 5900
+    },
+    {
+      "epoch": 1.5267175572519083,
+      "grad_norm": 9.231036186218262,
+      "learning_rate": 6.450585732791013e-06,
+      "loss": 0.3186,
+      "step": 6000
+    },
+    {
+      "epoch": 1.5521628498727735,
+      "grad_norm": 4.873745918273926,
+      "learning_rate": 5.810838553591298e-06,
+      "loss": 0.2834,
+      "step": 6100
+    },
+    {
+      "epoch": 1.5776081424936388,
+      "grad_norm": 5.407022953033447,
+      "learning_rate": 5.199071843028569e-06,
+      "loss": 0.2999,
+      "step": 6200
+    },
+    {
+      "epoch": 1.6030534351145038,
+      "grad_norm": 3.650712728500366,
+      "learning_rate": 4.616491981009243e-06,
+      "loss": 0.2596,
+      "step": 6300
+    },
+    {
+      "epoch": 1.6284987277353689,
+      "grad_norm": 3.6443347930908203,
+      "learning_rate": 4.064247792121691e-06,
+      "loss": 0.3064,
+      "step": 6400
+    },
+    {
+      "epoch": 1.6539440203562341,
+      "grad_norm": 7.009209156036377,
+      "learning_rate": 3.5434282801992483e-06,
+      "loss": 0.3195,
+      "step": 6500
+    },
+    {
+      "epoch": 1.6793893129770994,
+      "grad_norm": 5.872575759887695,
+      "learning_rate": 3.0550604808475073e-06,
+      "loss": 0.2682,
+      "step": 6600
+    },
+    {
+      "epoch": 1.7048346055979644,
+      "grad_norm": 4.577968120574951,
+      "learning_rate": 2.6001074361704427e-06,
+      "loss": 0.3039,
+      "step": 6700
+    },
+    {
+      "epoch": 1.7302798982188294,
+      "grad_norm": 9.756656646728516,
+      "learning_rate": 2.1794662956892585e-06,
+      "loss": 0.2726,
+      "step": 6800
+    },
+    {
+      "epoch": 1.7557251908396947,
+      "grad_norm": 11.115859985351562,
+      "learning_rate": 1.7939665471987844e-06,
+      "loss": 0.2947,
+      "step": 6900
+    },
+    {
+      "epoch": 1.78117048346056,
+      "grad_norm": 3.8502421379089355,
+      "learning_rate": 1.4443683810501563e-06,
+      "loss": 0.2809,
+      "step": 7000
+    },
+    {
+      "epoch": 1.806615776081425,
+      "grad_norm": 11.346807479858398,
+      "learning_rate": 1.1313611910853096e-06,
+      "loss": 0.3048,
+      "step": 7100
+    },
+    {
+      "epoch": 1.83206106870229,
+      "grad_norm": 10.86630916595459,
+      "learning_rate": 8.555622151794352e-07,
+      "loss": 0.286,
+      "step": 7200
+    },
+    {
+      "epoch": 1.8575063613231553,
+      "grad_norm": 4.079004287719727,
+      "learning_rate": 6.175153180721571e-07,
+      "loss": 0.2853,
+      "step": 7300
+    },
+    {
+      "epoch": 1.8829516539440203,
+      "grad_norm": 18.409320831298828,
+      "learning_rate": 4.176899188876271e-07,
+      "loss": 0.2629,
+      "step": 7400
+    },
+    {
+      "epoch": 1.9083969465648853,
+      "grad_norm": 0.5087906718254089,
+      "learning_rate": 2.564800654584687e-07,
+      "loss": 0.2831,
+      "step": 7500
+    },
+    {
+      "epoch": 1.9338422391857506,
+      "grad_norm": 6.566995620727539,
+      "learning_rate": 1.342036572789507e-07,
+      "loss": 0.3214,
+      "step": 7600
+    },
+    {
+      "epoch": 1.9592875318066159,
+      "grad_norm": 11.18786334991455,
+      "learning_rate": 5.1101818619667677e-08,
+      "loss": 0.3245,
+      "step": 7700
+    },
+    {
+      "epoch": 1.984732824427481,
+      "grad_norm": 1.765227198600769,
+      "learning_rate": 7.338423039955356e-09,
+      "loss": 0.2703,
+      "step": 7800
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 87.9783881134624,
+      "eval_f1": 88.03091700435239,
+      "eval_runtime": 20.4577,
+      "eval_samples_per_second": 217.131,
+      "eval_steps_per_second": 27.178,
+      "step": 7860
+    },
+    {
+      "epoch": 2.0,
+      "step": 7860,
+      "total_flos": 4.284348397959168e+16,
+      "train_loss": 0.5882660921596692,
+      "train_runtime": 1480.7732,
+      "train_samples_per_second": 84.908,
+      "train_steps_per_second": 5.308
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 7860,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.284348397959168e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef43baae43e94d2eb73cc7449719748b90a41b8bf04c08301b05f12f4f685d7b
+size 5713