mllm-dev commited on Mar 30, 2024

Commit

245201c

verified ·

1 Parent(s): d731d7b

Upload folder using huggingface_hub

Browse files

Files changed (39) hide show

checkpoint-1240/config.json +39 -0
checkpoint-1240/generation_config.json +5 -0
checkpoint-1240/merges.txt +0 -0
checkpoint-1240/model.safetensors +3 -0
checkpoint-1240/optimizer.pt +3 -0
checkpoint-1240/rng_state.pth +3 -0
checkpoint-1240/scheduler.pt +3 -0
checkpoint-1240/special_tokens_map.json +6 -0
checkpoint-1240/tokenizer.json +0 -0
checkpoint-1240/tokenizer_config.json +21 -0
checkpoint-1240/trainer_state.json +100 -0
checkpoint-1240/training_args.bin +3 -0
checkpoint-1240/vocab.json +0 -0
checkpoint-496/config.json +39 -0
checkpoint-496/generation_config.json +5 -0
checkpoint-496/merges.txt +0 -0
checkpoint-496/model.safetensors +3 -0
checkpoint-496/optimizer.pt +3 -0
checkpoint-496/rng_state.pth +3 -0
checkpoint-496/scheduler.pt +3 -0
checkpoint-496/special_tokens_map.json +6 -0
checkpoint-496/tokenizer.json +0 -0
checkpoint-496/tokenizer_config.json +21 -0
checkpoint-496/trainer_state.json +47 -0
checkpoint-496/training_args.bin +3 -0
checkpoint-496/vocab.json +0 -0
checkpoint-992/config.json +39 -0
checkpoint-992/generation_config.json +5 -0
checkpoint-992/merges.txt +0 -0
checkpoint-992/model.safetensors +3 -0
checkpoint-992/optimizer.pt +3 -0
checkpoint-992/rng_state.pth +3 -0
checkpoint-992/scheduler.pt +3 -0
checkpoint-992/special_tokens_map.json +6 -0
checkpoint-992/tokenizer.json +0 -0
checkpoint-992/tokenizer_config.json +21 -0
checkpoint-992/trainer_state.json +80 -0
checkpoint-992/training_args.bin +3 -0
checkpoint-992/vocab.json +0 -0

checkpoint-1240/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "openai-community/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-1240/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.40.0.dev0"
+}

checkpoint-1240/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f00f7d905caae3db5a4658614e8462e59a14d10a3b645e0816ff02663e7a050d
+size 497774208

checkpoint-1240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12d4d234a45feb900bb322acda566345fae2dc886a73e635afc097536e03d523
+size 995641861

checkpoint-1240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71a5011585a447b6ae3855a9f622af5bf659cdcd458755132024f2840d9d0fd2
+size 14575

checkpoint-1240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee8969ce733a27aaa14f3a07ad328d6ff83e779c0eb2b8d332e21e28100e3ea7
+size 627

checkpoint-1240/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-1240/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1240/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-1240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,100 @@

+{
+  "best_metric": 5.6794586181640625,
+  "best_model_checkpoint": "bill_sum_finetune_test_gpt2_3/checkpoint-496",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 1240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.72403621673584,
+      "eval_rouge1": 0.1624,
+      "eval_rouge2": 0.0178,
+      "eval_rougeL": 0.1416,
+      "eval_rougeLsum": 0.1514,
+      "eval_runtime": 5.8118,
+      "eval_samples_per_second": 42.672,
+      "eval_steps_per_second": 10.668,
+      "step": 248
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.6794586181640625,
+      "eval_rouge1": 0.1736,
+      "eval_rouge2": 0.0188,
+      "eval_rougeL": 0.1512,
+      "eval_rougeLsum": 0.1618,
+      "eval_runtime": 5.905,
+      "eval_samples_per_second": 41.998,
+      "eval_steps_per_second": 10.499,
+      "step": 496
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 1349184.375,
+      "learning_rate": 3.580645161290323e-05,
+      "loss": 5.8134,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.689182281494141,
+      "eval_rouge1": 0.1636,
+      "eval_rouge2": 0.0174,
+      "eval_rougeL": 0.1451,
+      "eval_rougeLsum": 0.156,
+      "eval_runtime": 6.059,
+      "eval_samples_per_second": 40.931,
+      "eval_steps_per_second": 10.233,
+      "step": 744
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.705079078674316,
+      "eval_rouge1": 0.1625,
+      "eval_rouge2": 0.0178,
+      "eval_rougeL": 0.1444,
+      "eval_rougeLsum": 0.1549,
+      "eval_runtime": 5.7853,
+      "eval_samples_per_second": 42.868,
+      "eval_steps_per_second": 10.717,
+      "step": 992
+    },
+    {
+      "epoch": 4.03,
+      "grad_norm": 1369836.5,
+      "learning_rate": 1.1612903225806451e-05,
+      "loss": 5.3454,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.706656455993652,
+      "eval_rouge1": 0.1625,
+      "eval_rouge2": 0.0178,
+      "eval_rougeL": 0.1444,
+      "eval_rougeLsum": 0.1549,
+      "eval_runtime": 5.7722,
+      "eval_samples_per_second": 42.965,
+      "eval_steps_per_second": 10.741,
+      "step": 1240
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 50472230400000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:091658d7b0b7435f21557e101ac1b5c52bb0268d57417626332a8488d3d185c9
+size 4795

checkpoint-1240/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-496/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "openai-community/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-496/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.40.0.dev0"
+}

checkpoint-496/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-496/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8ced7ace1db6d903afa32427a70c58c4258798f27921a09922147a64b746e32
+size 497774208

checkpoint-496/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e017cf8f0c9de82cb80fb21273e525d12bbc57daf3bb73b2dbf025e2af4d29a8
+size 995641861

checkpoint-496/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad0581ed48902907f0f3fdc04acacb678e2ada9451c7c08f7af3b65d47aa9356
+size 14575

checkpoint-496/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf4754391dc4166c4434f493e5670dfe2485abfd70a0ca812d8f9c16664b7e97
+size 627

checkpoint-496/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-496/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-496/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-496/trainer_state.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "best_metric": 5.6794586181640625,
+  "best_model_checkpoint": "bill_sum_finetune_test_gpt2_3/checkpoint-496",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 496,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.72403621673584,
+      "eval_rouge1": 0.1624,
+      "eval_rouge2": 0.0178,
+      "eval_rougeL": 0.1416,
+      "eval_rougeLsum": 0.1514,
+      "eval_runtime": 5.8118,
+      "eval_samples_per_second": 42.672,
+      "eval_steps_per_second": 10.668,
+      "step": 248
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.6794586181640625,
+      "eval_rouge1": 0.1736,
+      "eval_rouge2": 0.0188,
+      "eval_rougeL": 0.1512,
+      "eval_rougeLsum": 0.1618,
+      "eval_runtime": 5.905,
+      "eval_samples_per_second": 41.998,
+      "eval_steps_per_second": 10.499,
+      "step": 496
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 20188892160000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-496/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:091658d7b0b7435f21557e101ac1b5c52bb0268d57417626332a8488d3d185c9
+size 4795

checkpoint-496/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-992/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "openai-community/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-992/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.40.0.dev0"
+}

checkpoint-992/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-992/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:449a5427d1b891e64a84fbdb288d708dd2b7c21e99c4064aa3a628bf3eafd386
+size 497774208

checkpoint-992/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1595432495d587d855287eb81c5c39c1b97ef406cac3b3316267678262d7ee49
+size 995641861

checkpoint-992/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3454b806249938d46c59ab21db23c34d64f21485a32e805780fc8734681b3198
+size 14575

checkpoint-992/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c57b116427d0f2260458083634536dd885f3c688293a7d7d21ed73fdacd607a9
+size 627

checkpoint-992/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-992/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-992/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-992/trainer_state.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "best_metric": 5.6794586181640625,
+  "best_model_checkpoint": "bill_sum_finetune_test_gpt2_3/checkpoint-496",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 992,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.72403621673584,
+      "eval_rouge1": 0.1624,
+      "eval_rouge2": 0.0178,
+      "eval_rougeL": 0.1416,
+      "eval_rougeLsum": 0.1514,
+      "eval_runtime": 5.8118,
+      "eval_samples_per_second": 42.672,
+      "eval_steps_per_second": 10.668,
+      "step": 248
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.6794586181640625,
+      "eval_rouge1": 0.1736,
+      "eval_rouge2": 0.0188,
+      "eval_rougeL": 0.1512,
+      "eval_rougeLsum": 0.1618,
+      "eval_runtime": 5.905,
+      "eval_samples_per_second": 41.998,
+      "eval_steps_per_second": 10.499,
+      "step": 496
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 1349184.375,
+      "learning_rate": 3.580645161290323e-05,
+      "loss": 5.8134,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.689182281494141,
+      "eval_rouge1": 0.1636,
+      "eval_rouge2": 0.0174,
+      "eval_rougeL": 0.1451,
+      "eval_rougeLsum": 0.156,
+      "eval_runtime": 6.059,
+      "eval_samples_per_second": 40.931,
+      "eval_steps_per_second": 10.233,
+      "step": 744
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 25.0,
+      "eval_loss": 5.705079078674316,
+      "eval_rouge1": 0.1625,
+      "eval_rouge2": 0.0178,
+      "eval_rougeL": 0.1444,
+      "eval_rougeLsum": 0.1549,
+      "eval_runtime": 5.7853,
+      "eval_samples_per_second": 42.868,
+      "eval_steps_per_second": 10.717,
+      "step": 992
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 40377784320000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-992/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:091658d7b0b7435f21557e101ac1b5c52bb0268d57417626332a8488d3d185c9
+size 4795

checkpoint-992/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff