Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints/checkpoint-2126/config.json +30 -0
checkpoints/checkpoint-2126/generation_config.json +7 -0
checkpoints/checkpoint-2126/model.safetensors +3 -0
checkpoints/checkpoint-2126/optimizer.pt +3 -0
checkpoints/checkpoint-2126/rng_state.pth +3 -0
checkpoints/checkpoint-2126/scheduler.pt +3 -0
checkpoints/checkpoint-2126/trainer_state.json +367 -0
checkpoints/checkpoint-2126/training_args.bin +3 -0

checkpoints/checkpoint-2126/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "max_position_embeddings": 256,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "pad_token_id": 1,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
+  "use_cache": true,
+  "vocab_size": 16000
+}

checkpoints/checkpoint-2126/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.47.0"
+}

checkpoints/checkpoint-2126/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bef1ce5ddc8ac0e10f8c70cb68970a83e1098e2f6d2a4a3d9acd6330c40aae60
+size 388979624

checkpoints/checkpoint-2126/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53432d77cdf2f82d29db4b7d5cb9ee2cafc8c8ee526b6ff0ddd446b488affdb0
+size 778027770

checkpoints/checkpoint-2126/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ab4163c79d02a2b1cd5e87832e03656d66b051535f06b7e0f0faade52cd7bd7
+size 14244

checkpoints/checkpoint-2126/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de4c480b1ad91c9a646c0f73668a7c419e355f528f9b6b3828c3775ea342d430
+size 1064

checkpoints/checkpoint-2126/trainer_state.json ADDED Viewed

	@@ -0,0 +1,367 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.847590099869735,
+  "eval_steps": 500,
+  "global_step": 2126,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08684324793747286,
+      "grad_norm": 31.347537994384766,
+      "learning_rate": 0.00011666666666666667,
+      "loss": 94.1908,
+      "step": 50
+    },
+    {
+      "epoch": 0.17368649587494572,
+      "grad_norm": 17.979413986206055,
+      "learning_rate": 0.00023333333333333333,
+      "loss": 56.4907,
+      "step": 100
+    },
+    {
+      "epoch": 0.26052974381241856,
+      "grad_norm": 8.942031860351562,
+      "learning_rate": 0.00035,
+      "loss": 48.4783,
+      "step": 150
+    },
+    {
+      "epoch": 0.34737299174989145,
+      "grad_norm": 6.502614974975586,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 45.3011,
+      "step": 200
+    },
+    {
+      "epoch": 0.4342162396873643,
+      "grad_norm": 6.777210235595703,
+      "learning_rate": 0.0005833333333333334,
+      "loss": 43.6152,
+      "step": 250
+    },
+    {
+      "epoch": 0.5210594876248371,
+      "grad_norm": 6.147511959075928,
+      "learning_rate": 0.0007,
+      "loss": 42.3483,
+      "step": 300
+    },
+    {
+      "epoch": 0.60790273556231,
+      "grad_norm": 5.621304988861084,
+      "learning_rate": 0.0006998546367133479,
+      "loss": 41.3118,
+      "step": 350
+    },
+    {
+      "epoch": 0.6947459834997829,
+      "grad_norm": 5.471296787261963,
+      "learning_rate": 0.0006994186675990208,
+      "loss": 40.7393,
+      "step": 400
+    },
+    {
+      "epoch": 0.7815892314372558,
+      "grad_norm": 7.381715774536133,
+      "learning_rate": 0.0006986924547936092,
+      "loss": 40.1379,
+      "step": 450
+    },
+    {
+      "epoch": 0.8684324793747286,
+      "grad_norm": 4.7940192222595215,
+      "learning_rate": 0.000697676601523857,
+      "loss": 39.8433,
+      "step": 500
+    },
+    {
+      "epoch": 0.9552757273122015,
+      "grad_norm": 4.409699440002441,
+      "learning_rate": 0.0006963719516055934,
+      "loss": 39.5783,
+      "step": 550
+    },
+    {
+      "epoch": 0.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.713693618774414,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.6974,
+      "eval_samples_per_second": 509.519,
+      "eval_steps_per_second": 1.003,
+      "step": 575
+    },
+    {
+      "epoch": 1.0434216239687364,
+      "grad_norm": 4.693251609802246,
+      "learning_rate": 0.0006947795887428181,
+      "loss": 38.3627,
+      "step": 600
+    },
+    {
+      "epoch": 1.1302648719062094,
+      "grad_norm": 5.077625274658203,
+      "learning_rate": 0.0006929008356275276,
+      "loss": 37.544,
+      "step": 650
+    },
+    {
+      "epoch": 1.2171081198436822,
+      "grad_norm": 4.627607345581055,
+      "learning_rate": 0.0006907372528410224,
+      "loss": 37.5222,
+      "step": 700
+    },
+    {
+      "epoch": 1.303951367781155,
+      "grad_norm": 4.705991744995117,
+      "learning_rate": 0.0006882906375576155,
+      "loss": 36.4945,
+      "step": 750
+    },
+    {
+      "epoch": 1.390794615718628,
+      "grad_norm": 4.745748996734619,
+      "learning_rate": 0.0006855630220518143,
+      "loss": 36.3402,
+      "step": 800
+    },
+    {
+      "epoch": 1.4776378636561007,
+      "grad_norm": 4.541324138641357,
+      "learning_rate": 0.0006825566720102167,
+      "loss": 36.423,
+      "step": 850
+    },
+    {
+      "epoch": 1.5644811115935737,
+      "grad_norm": 4.555329322814941,
+      "learning_rate": 0.0006792740846495249,
+      "loss": 36.4842,
+      "step": 900
+    },
+    {
+      "epoch": 1.6513243595310465,
+      "grad_norm": 4.505599021911621,
+      "learning_rate": 0.0006757179866422389,
+      "loss": 36.5019,
+      "step": 950
+    },
+    {
+      "epoch": 1.7381676074685193,
+      "grad_norm": 4.661733627319336,
+      "learning_rate": 0.0006718913318517527,
+      "loss": 36.0491,
+      "step": 1000
+    },
+    {
+      "epoch": 1.825010855405992,
+      "grad_norm": 4.7356438636779785,
+      "learning_rate": 0.0006677972988787362,
+      "loss": 33.5704,
+      "step": 1050
+    },
+    {
+      "epoch": 1.911854103343465,
+      "grad_norm": 4.665255069732666,
+      "learning_rate": 0.0006634392884208387,
+      "loss": 33.8845,
+      "step": 1100
+    },
+    {
+      "epoch": 1.998697351280938,
+      "grad_norm": 5.151551246643066,
+      "learning_rate": 0.0006588209204479085,
+      "loss": 34.1235,
+      "step": 1150
+    },
+    {
+      "epoch": 1.998697351280938,
+      "eval_accuracy": 0.0,
+      "eval_loss": 5.946074962615967,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.8973,
+      "eval_samples_per_second": 508.64,
+      "eval_steps_per_second": 1.001,
+      "step": 1150
+    },
+    {
+      "epoch": 2.086843247937473,
+      "grad_norm": 7.160614490509033,
+      "learning_rate": 0.0006539460311950741,
+      "loss": 75.2515,
+      "step": 1200
+    },
+    {
+      "epoch": 2.1736864958749456,
+      "grad_norm": 6.339908123016357,
+      "learning_rate": 0.000648818669976186,
+      "loss": 63.1052,
+      "step": 1250
+    },
+    {
+      "epoch": 2.260529743812419,
+      "grad_norm": 6.869708061218262,
+      "learning_rate": 0.0006434430958202652,
+      "loss": 55.7262,
+      "step": 1300
+    },
+    {
+      "epoch": 2.3473729917498916,
+      "grad_norm": 8.690558433532715,
+      "learning_rate": 0.0006378237739337511,
+      "loss": 46.9368,
+      "step": 1350
+    },
+    {
+      "epoch": 2.4342162396873643,
+      "grad_norm": 10.8461275100708,
+      "learning_rate": 0.0006319653719914907,
+      "loss": 36.8508,
+      "step": 1400
+    },
+    {
+      "epoch": 2.521059487624837,
+      "grad_norm": 11.691084861755371,
+      "learning_rate": 0.000625872756259546,
+      "loss": 27.586,
+      "step": 1450
+    },
+    {
+      "epoch": 2.60790273556231,
+      "grad_norm": 11.534943580627441,
+      "learning_rate": 0.0006195509875530431,
+      "loss": 20.8625,
+      "step": 1500
+    },
+    {
+      "epoch": 2.694745983499783,
+      "grad_norm": 10.615392684936523,
+      "learning_rate": 0.0006130053170324202,
+      "loss": 16.9027,
+      "step": 1550
+    },
+    {
+      "epoch": 2.781589231437256,
+      "grad_norm": 9.750032424926758,
+      "learning_rate": 0.000606241181841564,
+      "loss": 14.6911,
+      "step": 1600
+    },
+    {
+      "epoch": 2.847590099869735,
+      "eval_accuracy": 0.0,
+      "eval_loss": 7.1964263916015625,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.2002,
+      "eval_samples_per_second": 511.718,
+      "eval_steps_per_second": 1.007,
+      "step": 1638
+    },
+    {
+      "epoch": 3.0208423795049937,
+      "grad_norm": 9.399425506591797,
+      "learning_rate": 0.0005992642005914615,
+      "loss": 13.6775,
+      "step": 1650
+    },
+    {
+      "epoch": 3.1076856274424665,
+      "grad_norm": 8.75631046295166,
+      "learning_rate": 0.0005920801686931151,
+      "loss": 12.8369,
+      "step": 1700
+    },
+    {
+      "epoch": 3.1945288753799392,
+      "grad_norm": 8.309281349182129,
+      "learning_rate": 0.0005846950535436001,
+      "loss": 12.3939,
+      "step": 1750
+    },
+    {
+      "epoch": 3.281372123317412,
+      "grad_norm": 7.948273658752441,
+      "learning_rate": 0.0005771149895692616,
+      "loss": 12.1119,
+      "step": 1800
+    },
+    {
+      "epoch": 3.368215371254885,
+      "grad_norm": 7.4247727394104,
+      "learning_rate": 0.0005693462731301704,
+      "loss": 11.759,
+      "step": 1850
+    },
+    {
+      "epoch": 3.455058619192358,
+      "grad_norm": 7.026332378387451,
+      "learning_rate": 0.0005613953572900671,
+      "loss": 11.5219,
+      "step": 1900
+    },
+    {
+      "epoch": 3.541901867129831,
+      "grad_norm": 6.633806228637695,
+      "learning_rate": 0.0005532688464561429,
+      "loss": 11.3874,
+      "step": 1950
+    },
+    {
+      "epoch": 3.6287451150673036,
+      "grad_norm": 6.791120529174805,
+      "learning_rate": 0.0005449734908931053,
+      "loss": 11.2119,
+      "step": 2000
+    },
+    {
+      "epoch": 3.7155883630047764,
+      "grad_norm": 5.996912002563477,
+      "learning_rate": 0.0005365161811160892,
+      "loss": 11.0684,
+      "step": 2050
+    },
+    {
+      "epoch": 3.802431610942249,
+      "grad_norm": 5.432217121124268,
+      "learning_rate": 0.0005279039421670681,
+      "loss": 10.9551,
+      "step": 2100
+    },
+    {
+      "epoch": 3.847590099869735,
+      "eval_accuracy": 0.0,
+      "eval_loss": 8.056244850158691,
+      "eval_normalizer": 966112.0,
+      "eval_runtime": 115.2236,
+      "eval_samples_per_second": 511.614,
+      "eval_steps_per_second": 1.007,
+      "step": 2126
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5750,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6549240745091226e+17,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-2126/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa9a830de5c611a0b03c8b33ab915cf89010e60abaf6d5647f96cb57e683f0b5
+size 5432