Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/config.json +39 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/generation_config.json +6 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/lr_scheduler.pt +3 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/merges.txt +0 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/model.safetensors +3 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/optimizer.pt +3 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/special_tokens_map.json +6 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/tokenizer.json +0 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/tokenizer_config.json +21 -0
experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/vocab.json +0 -0
experiments/sft_gpt2-120m/20251209_070038/sft_gpt2-120m.log +54 -0
experiments/sft_gpt2-120m/20251209_070038/sft_gpt2-120m_metrics.jsonl +0 -0

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.56.0"
+}

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/lr_scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c31f813ce39e2274fa22f25c097f1cc39f1e4d536cbdd13d13c70c1a50611df
+size 1483

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d7985c191bc5a3a339bfa87c8e65473b71342ec086da6c94be7cbe70c49a4a0
+size 497774208

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd23ae57e99a6fdc828cb826841cb2970f6bb4b3a25401cba73dc573c431f929
+size 995642763

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

experiments/sft_gpt2-120m/20251209_070038/checkpoints/epoch_15/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/sft_gpt2-120m/20251209_070038/sft_gpt2-120m.log CHANGED Viewed

@@ -800,3 +800,57 @@
 2025-12-09 07:52:20,370 - root - [32m[1mINFO[0m - Step 21633/28600 train rougeL: 0.9489695747408912
 2025-12-09 07:52:20,436 - root - [32m[1mINFO[0m - Step 21633/28600 loss: 0.05737420544028282, nll_loss: 0.05737420544028282
 2025-12-09 07:52:31,618 - absl - [32m[1mINFO[0m - Using default tokenizer.

 2025-12-09 07:52:20,370 - root - [32m[1mINFO[0m - Step 21633/28600 train rougeL: 0.9489695747408912
 2025-12-09 07:52:20,436 - root - [32m[1mINFO[0m - Step 21633/28600 loss: 0.05737420544028282, nll_loss: 0.05737420544028282
 2025-12-09 07:52:31,618 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:52:33,225 - root - [32m[1mINFO[0m - Step 21761/28600 train rougeL: 0.9880952380952381
+2025-12-09 07:52:33,282 - root - [32m[1mINFO[0m - Step 21761/28600 loss: 0.028945179656147957, nll_loss: 0.028945179656147957
+2025-12-09 07:52:44,383 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:52:46,632 - root - [32m[1mINFO[0m - Step 21889/28600 train rougeL: 0.9605263157894737
+2025-12-09 07:52:46,696 - root - [32m[1mINFO[0m - Step 21889/28600 loss: 0.05335050821304321, nll_loss: 0.05335050821304321
+2025-12-09 07:52:57,787 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:53:00,397 - root - [32m[1mINFO[0m - Step 22017/28600 train rougeL: 0.798895914819469
+2025-12-09 07:53:00,460 - root - [32m[1mINFO[0m - Step 22017/28600 loss: 0.047433000057935715, nll_loss: 0.047433000057935715
+2025-12-09 07:53:11,554 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:53:14,661 - root - [32m[1mINFO[0m - Step 22145/28600 train rougeL: 0.9652647369850268
+2025-12-09 07:53:14,725 - root - [32m[1mINFO[0m - Step 22145/28600 loss: 0.043389417231082916, nll_loss: 0.043389417231082916
+2025-12-09 07:53:25,812 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:53:28,380 - root - [32m[1mINFO[0m - Step 22273/28600 train rougeL: 1.0
+2025-12-09 07:53:28,443 - root - [32m[1mINFO[0m - Step 22273/28600 loss: 0.039842940866947174, nll_loss: 0.039842940866947174
+2025-12-09 07:53:39,501 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:53:42,573 - root - [32m[1mINFO[0m - Step 22401/28600 train rougeL: 0.9713541666666666
+2025-12-09 07:53:42,636 - root - [32m[1mINFO[0m - Step 22401/28600 loss: 0.021895578131079674, nll_loss: 0.021895578131079674
+2025-12-09 07:53:53,695 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:53:56,791 - root - [32m[1mINFO[0m - Step 22529/28600 train rougeL: 0.9427278401997503
+2025-12-09 07:53:56,854 - root - [32m[1mINFO[0m - Step 22529/28600 loss: 0.020404642447829247, nll_loss: 0.020404642447829247
+2025-12-09 07:54:07,915 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:10,315 - root - [32m[1mINFO[0m - Step 22657/28600 train rougeL: 0.9157062672367521
+2025-12-09 07:54:10,378 - root - [32m[1mINFO[0m - Step 22657/28600 loss: 0.019845489412546158, nll_loss: 0.019845489412546158
+2025-12-09 07:54:21,429 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:23,401 - root - [32m[1mINFO[0m - Step 22785/28600 train rougeL: 0.9723895582329317
+2025-12-09 07:54:23,464 - root - [32m[1mINFO[0m - Step 22785/28600 loss: 0.06588123738765717, nll_loss: 0.06588123738765717
+2025-12-09 07:54:31,682 - root - [32m[1mINFO[0m - Epoch 16/20 finished
+2025-12-09 07:54:31,713 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:35,083 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:38,466 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:41,546 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:44,875 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:48,242 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:51,597 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:54,956 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:54:58,381 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:01,028 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:04,356 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:07,723 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:10,619 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:13,983 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:17,312 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:20,959 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:24,124 - root - [32m[1mINFO[0m - Epoch 16/20 eval rougeL: 0.24059569246404464
+2025-12-09 07:55:26,146 - root - [32m[1mINFO[0m - Epoch 17/20
+2025-12-09 07:55:28,972 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:31,511 - root - [32m[1mINFO[0m - Step 22913/28600 train rougeL: 0.9788781163434903
+2025-12-09 07:55:31,574 - root - [32m[1mINFO[0m - Step 22913/28600 loss: 0.04002169147133827, nll_loss: 0.04002169147133827
+2025-12-09 07:55:42,626 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:45,222 - root - [32m[1mINFO[0m - Step 23041/28600 train rougeL: 0.9503865979381443
+2025-12-09 07:55:45,285 - root - [32m[1mINFO[0m - Step 23041/28600 loss: 0.025748349726200104, nll_loss: 0.025748349726200104
+2025-12-09 07:55:56,448 - absl - [32m[1mINFO[0m - Using default tokenizer.
+2025-12-09 07:55:57,754 - root - [32m[1mINFO[0m - Step 23169/28600 train rougeL: 0.979368932038835
+2025-12-09 07:55:57,810 - root - [32m[1mINFO[0m - Step 23169/28600 loss: 0.017524462193250656, nll_loss: 0.017524462193250656

experiments/sft_gpt2-120m/20251209_070038/sft_gpt2-120m_metrics.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff