cagrigungor commited on Dec 13, 2025

Commit

5210858

verified ·

1 Parent(s): 61ad595

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +6 -0
checkpoint-1464/config.json +32 -0
checkpoint-1464/generation_config.json +9 -0
checkpoint-1464/model.safetensors +3 -0
checkpoint-1464/optimizer.pt +3 -0
checkpoint-1464/rng_state.pth +3 -0
checkpoint-1464/scheduler.pt +3 -0
checkpoint-1464/special_tokens_map.json +23 -0
checkpoint-1464/spiece.model +3 -0
checkpoint-1464/tokenizer.json +3 -0
checkpoint-1464/tokenizer_config.json +39 -0
checkpoint-1464/trainer_state.json +72 -0
checkpoint-1464/training_args.bin +3 -0
checkpoint-1952/config.json +32 -0
checkpoint-1952/generation_config.json +9 -0
checkpoint-1952/model.safetensors +3 -0
checkpoint-1952/optimizer.pt +3 -0
checkpoint-1952/rng_state.pth +3 -0
checkpoint-1952/scheduler.pt +3 -0
checkpoint-1952/special_tokens_map.json +23 -0
checkpoint-1952/spiece.model +3 -0
checkpoint-1952/tokenizer.json +3 -0
checkpoint-1952/tokenizer_config.json +39 -0
checkpoint-1952/trainer_state.json +87 -0
checkpoint-1952/training_args.bin +3 -0
checkpoint-2440/config.json +32 -0
checkpoint-2440/generation_config.json +9 -0
checkpoint-2440/model.safetensors +3 -0
checkpoint-2440/optimizer.pt +3 -0
checkpoint-2440/rng_state.pth +3 -0
checkpoint-2440/scheduler.pt +3 -0
checkpoint-2440/special_tokens_map.json +23 -0
checkpoint-2440/spiece.model +3 -0
checkpoint-2440/tokenizer.json +3 -0
checkpoint-2440/tokenizer_config.json +39 -0
checkpoint-2440/trainer_state.json +102 -0
checkpoint-2440/training_args.bin +3 -0
checkpoint-488/config.json +32 -0
checkpoint-488/generation_config.json +9 -0
checkpoint-488/model.safetensors +3 -0
checkpoint-488/optimizer.pt +3 -0
checkpoint-488/rng_state.pth +3 -0
checkpoint-488/scheduler.pt +3 -0
checkpoint-488/special_tokens_map.json +23 -0
checkpoint-488/spiece.model +3 -0
checkpoint-488/tokenizer.json +3 -0
checkpoint-488/tokenizer_config.json +39 -0
checkpoint-488/trainer_state.json +42 -0
checkpoint-488/training_args.bin +3 -0
checkpoint-976/config.json +32 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,9 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-1464/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-1952/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-2440/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-488/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-976/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-1464/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "dtype": "float32",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-1464/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": [
+    1
+  ],
+  "pad_token_id": 0,
+  "transformers_version": "4.57.3"
+}

checkpoint-1464/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17e5dbf209582bbc423fb5a5c64f561e5120f44d596ae8ffcc3a1146ab3ba3f8
+size 4918393736

checkpoint-1464/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f48f80ff7d610859426809d5076e377e14254aaa4fa923519a40fd9350bdcc0
+size 9837144773

checkpoint-1464/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec2e48fdef59fa424ab4115a1f31fc06ffd46a7921c5a59b049338e878926652
+size 14645

checkpoint-1464/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14e33b0696093a82d59a6b127c20fa68bd129297a52484f0e6cb84faff6e1698
+size 1465

checkpoint-1464/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1464/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-1464/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2172c2b5ca792ef398c3357421498eca5b0ae7e5deb50f00f8515316e1fd8f3
+size 15998308

checkpoint-1464/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-1464/trainer_state.json ADDED Viewed

	@@ -0,0 +1,72 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1464,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.06042954698204994,
+      "eval_runtime": 10.063,
+      "eval_samples_per_second": 688.86,
+      "eval_steps_per_second": 5.466,
+      "step": 488
+    },
+    {
+      "epoch": 1.0245901639344261,
+      "grad_norm": 0.09357130527496338,
+      "learning_rate": 0.001590983606557377,
+      "loss": 0.225,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.025667887181043625,
+      "eval_runtime": 10.0911,
+      "eval_samples_per_second": 686.939,
+      "eval_steps_per_second": 5.45,
+      "step": 976
+    },
+    {
+      "epoch": 2.0491803278688523,
+      "grad_norm": 0.0897439494729042,
+      "learning_rate": 0.0011811475409836064,
+      "loss": 0.0442,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.019025476649403572,
+      "eval_runtime": 10.0796,
+      "eval_samples_per_second": 687.727,
+      "eval_steps_per_second": 5.457,
+      "step": 1464
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2440,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.8634769700864e+16,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1464/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3a5d2402b146148a8cfae628d87d12f831be6c1b6520063a29e602f61aa29fb
+size 5969

checkpoint-1952/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "dtype": "float32",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-1952/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": [
+    1
+  ],
+  "pad_token_id": 0,
+  "transformers_version": "4.57.3"
+}

checkpoint-1952/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c9de8decdc6d1ce9ba2768a6037002fb87cdae8f43730df1cfe549cffc170c5
+size 4918393736

checkpoint-1952/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28619e9dff96ac422fbcb57b959f64b2b461583b30ff66f9301b39c1a7f1997a
+size 9837144773

checkpoint-1952/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9c053db2a6c0fbf439270a4e66ca38d969c061f9853a6bd5693094cf5238660
+size 14645

checkpoint-1952/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa774ee297e24df97fe1a164ba2b251a10808fd8c9a8b85f0e1e00dac18920a6
+size 1465

checkpoint-1952/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1952/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-1952/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2172c2b5ca792ef398c3357421498eca5b0ae7e5deb50f00f8515316e1fd8f3
+size 15998308

checkpoint-1952/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-1952/trainer_state.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 1952,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.06042954698204994,
+      "eval_runtime": 10.063,
+      "eval_samples_per_second": 688.86,
+      "eval_steps_per_second": 5.466,
+      "step": 488
+    },
+    {
+      "epoch": 1.0245901639344261,
+      "grad_norm": 0.09357130527496338,
+      "learning_rate": 0.001590983606557377,
+      "loss": 0.225,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.025667887181043625,
+      "eval_runtime": 10.0911,
+      "eval_samples_per_second": 686.939,
+      "eval_steps_per_second": 5.45,
+      "step": 976
+    },
+    {
+      "epoch": 2.0491803278688523,
+      "grad_norm": 0.0897439494729042,
+      "learning_rate": 0.0011811475409836064,
+      "loss": 0.0442,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.019025476649403572,
+      "eval_runtime": 10.0796,
+      "eval_samples_per_second": 687.727,
+      "eval_steps_per_second": 5.457,
+      "step": 1464
+    },
+    {
+      "epoch": 3.0737704918032787,
+      "grad_norm": 0.0849112719297409,
+      "learning_rate": 0.0007713114754098361,
+      "loss": 0.0156,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.01647171936929226,
+      "eval_runtime": 10.1303,
+      "eval_samples_per_second": 684.284,
+      "eval_steps_per_second": 5.429,
+      "step": 1952
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2440,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.48170329764864e+16,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1952/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3a5d2402b146148a8cfae628d87d12f831be6c1b6520063a29e602f61aa29fb
+size 5969

checkpoint-2440/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "dtype": "float32",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-2440/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": [
+    1
+  ],
+  "pad_token_id": 0,
+  "transformers_version": "4.57.3"
+}

checkpoint-2440/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:726447629d0530500262ad0e155f899feaa07f25fe62f257facb2d60af4cdc89
+size 4918393736

checkpoint-2440/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4751fc82c43849abb7796deb3c6acdd453bfde95155523982f8af42e592cf664
+size 9837144773

checkpoint-2440/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f16247903338e1066458ab38d04958c959e7a57ff7c209a53e01ee6b454e3dcb
+size 14645

checkpoint-2440/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5457d07c41a49fcaaedc3e20d6b4f102efd664698b52007623f016a1412e0111
+size 1465

checkpoint-2440/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2440/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-2440/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2172c2b5ca792ef398c3357421498eca5b0ae7e5deb50f00f8515316e1fd8f3
+size 15998308

checkpoint-2440/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-2440/trainer_state.json ADDED Viewed

	@@ -0,0 +1,102 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 2440,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.06042954698204994,
+      "eval_runtime": 10.063,
+      "eval_samples_per_second": 688.86,
+      "eval_steps_per_second": 5.466,
+      "step": 488
+    },
+    {
+      "epoch": 1.0245901639344261,
+      "grad_norm": 0.09357130527496338,
+      "learning_rate": 0.001590983606557377,
+      "loss": 0.225,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.025667887181043625,
+      "eval_runtime": 10.0911,
+      "eval_samples_per_second": 686.939,
+      "eval_steps_per_second": 5.45,
+      "step": 976
+    },
+    {
+      "epoch": 2.0491803278688523,
+      "grad_norm": 0.0897439494729042,
+      "learning_rate": 0.0011811475409836064,
+      "loss": 0.0442,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.019025476649403572,
+      "eval_runtime": 10.0796,
+      "eval_samples_per_second": 687.727,
+      "eval_steps_per_second": 5.457,
+      "step": 1464
+    },
+    {
+      "epoch": 3.0737704918032787,
+      "grad_norm": 0.0849112719297409,
+      "learning_rate": 0.0007713114754098361,
+      "loss": 0.0156,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.01647171936929226,
+      "eval_runtime": 10.1303,
+      "eval_samples_per_second": 684.284,
+      "eval_steps_per_second": 5.429,
+      "step": 1952
+    },
+    {
+      "epoch": 4.098360655737705,
+      "grad_norm": 0.012470896355807781,
+      "learning_rate": 0.0003614754098360656,
+      "loss": 0.0055,
+      "step": 2000
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.018309397622942924,
+      "eval_runtime": 10.0913,
+      "eval_samples_per_second": 686.926,
+      "eval_steps_per_second": 5.45,
+      "step": 2440
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2440,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.10375476093952e+16,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2440/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3a5d2402b146148a8cfae628d87d12f831be6c1b6520063a29e602f61aa29fb
+size 5969

checkpoint-488/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "dtype": "float32",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-488/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": [
+    1
+  ],
+  "pad_token_id": 0,
+  "transformers_version": "4.57.3"
+}

checkpoint-488/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3c3cb82efd0a48e8b6eade1b01a29c47a41a8d06589501a7a5d11466ea16df9
+size 4918393736

checkpoint-488/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb4df4fc7ed44c6a74ddeae554490586d61683b5742f29ccaba03654590e415b
+size 9837144773

checkpoint-488/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8b8c15f920d9c62c0c04649564c403ad0810336c8a50c12fc596eafb3a62b80
+size 14645

checkpoint-488/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91df1dd2dbd60145e7136cace4a1c835b853e066b101a2f07a83164b66abda9a
+size 1465

checkpoint-488/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-488/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-488/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2172c2b5ca792ef398c3357421498eca5b0ae7e5deb50f00f8515316e1fd8f3
+size 15998308

checkpoint-488/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-488/trainer_state.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 488,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.06042954698204994,
+      "eval_runtime": 10.063,
+      "eval_samples_per_second": 688.86,
+      "eval_steps_per_second": 5.466,
+      "step": 488
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2440,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.61884136312832e+16,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-488/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3a5d2402b146148a8cfae628d87d12f831be6c1b6520063a29e602f61aa29fb
+size 5969

checkpoint-976/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "dtype": "float32",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "vocab_size": 250112
+}