Training in progress, step 2500, checkpoint

Browse files

Files changed (8) hide show

checkpoint-2500/config.json +39 -0
checkpoint-2500/generation_config.json +12 -0
checkpoint-2500/model.safetensors +3 -0
checkpoint-2500/optimizer.pt +3 -0
checkpoint-2500/rng_state.pth +3 -0
checkpoint-2500/scheduler.pt +3 -0
checkpoint-2500/trainer_state.json +209 -0
checkpoint-2500/training_args.bin +3 -0

checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 128256
+}

checkpoint-2500/generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.51.3"
+}

checkpoint-2500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1032751e7686ea0c3cd5a6289c37798b371ca12e7933125bc599ba93b25165d
+size 4943274328

checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6d4144a6d018f47324c168bcc24e7f5849380131d772a3c869f3fb4c5a1da65
+size 3724602

checkpoint-2500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-2500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3d944f5855dedd93de5810fb83351c896ba8bcf8ae6abf8ac51fb2013da8b6d
+size 1064

checkpoint-2500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.2549069589599796,
+  "eval_steps": 500,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.010196278358399185,
+      "grad_norm": 1.1759141683578491,
+      "learning_rate": 7.92e-06,
+      "loss": 0.3385,
+      "step": 100
+    },
+    {
+      "epoch": 0.02039255671679837,
+      "grad_norm": 1.3591718673706055,
+      "learning_rate": 1.5920000000000003e-05,
+      "loss": 0.3167,
+      "step": 200
+    },
+    {
+      "epoch": 0.03058883507519755,
+      "grad_norm": 1.2509454488754272,
+      "learning_rate": 1.99766047623841e-05,
+      "loss": 0.3416,
+      "step": 300
+    },
+    {
+      "epoch": 0.04078511343359674,
+      "grad_norm": 1.1023796796798706,
+      "learning_rate": 1.9784369466497333e-05,
+      "loss": 0.3261,
+      "step": 400
+    },
+    {
+      "epoch": 0.05098139179199592,
+      "grad_norm": 1.183990478515625,
+      "learning_rate": 1.9401692548500504e-05,
+      "loss": 0.3256,
+      "step": 500
+    },
+    {
+      "epoch": 0.0611776701503951,
+      "grad_norm": 1.0320123434066772,
+      "learning_rate": 1.8836022379313884e-05,
+      "loss": 0.3236,
+      "step": 600
+    },
+    {
+      "epoch": 0.07137394850879429,
+      "grad_norm": 1.1899309158325195,
+      "learning_rate": 1.80983690853404e-05,
+      "loss": 0.3193,
+      "step": 700
+    },
+    {
+      "epoch": 0.08157022686719348,
+      "grad_norm": 1.0387673377990723,
+      "learning_rate": 1.720309024887907e-05,
+      "loss": 0.3132,
+      "step": 800
+    },
+    {
+      "epoch": 0.09176650522559265,
+      "grad_norm": 0.9880208373069763,
+      "learning_rate": 1.6167611454117027e-05,
+      "loss": 0.3112,
+      "step": 900
+    },
+    {
+      "epoch": 0.10196278358399184,
+      "grad_norm": 1.0552009344100952,
+      "learning_rate": 1.5012087117954643e-05,
+      "loss": 0.3079,
+      "step": 1000
+    },
+    {
+      "epoch": 0.11215906194239103,
+      "grad_norm": 1.041740894317627,
+      "learning_rate": 1.3759008207205869e-05,
+      "loss": 0.3056,
+      "step": 1100
+    },
+    {
+      "epoch": 0.1223553403007902,
+      "grad_norm": 0.9673735499382019,
+      "learning_rate": 1.2432764477512294e-05,
+      "loss": 0.305,
+      "step": 1200
+    },
+    {
+      "epoch": 0.1325516186591894,
+      "grad_norm": 0.963103175163269,
+      "learning_rate": 1.105916975449252e-05,
+      "loss": 0.2965,
+      "step": 1300
+    },
+    {
+      "epoch": 0.14274789701758858,
+      "grad_norm": 0.95938640832901,
+      "learning_rate": 9.664959496989286e-06,
+      "loss": 0.2959,
+      "step": 1400
+    },
+    {
+      "epoch": 0.15294417537598776,
+      "grad_norm": 0.9473143219947815,
+      "learning_rate": 8.277270421774234e-06,
+      "loss": 0.2923,
+      "step": 1500
+    },
+    {
+      "epoch": 0.16314045373438696,
+      "grad_norm": 1.0508524179458618,
+      "learning_rate": 6.923112318223497e-06,
+      "loss": 0.2873,
+      "step": 1600
+    },
+    {
+      "epoch": 0.17333673209278613,
+      "grad_norm": 0.9978645443916321,
+      "learning_rate": 5.628842333490674e-06,
+      "loss": 0.2822,
+      "step": 1700
+    },
+    {
+      "epoch": 0.1835330104511853,
+      "grad_norm": 0.9824979305267334,
+      "learning_rate": 4.419651960618302e-06,
+      "loss": 0.2802,
+      "step": 1800
+    },
+    {
+      "epoch": 0.1937292888095845,
+      "grad_norm": 0.9645527601242065,
+      "learning_rate": 3.3190767147806825e-06,
+      "loss": 0.2806,
+      "step": 1900
+    },
+    {
+      "epoch": 0.20392556716798368,
+      "grad_norm": 0.9751474261283875,
+      "learning_rate": 2.3485380412522586e-06,
+      "loss": 0.2746,
+      "step": 2000
+    },
+    {
+      "epoch": 0.21412184552638286,
+      "grad_norm": 0.9676462411880493,
+      "learning_rate": 1.526926371341878e-06,
+      "loss": 0.2754,
+      "step": 2100
+    },
+    {
+      "epoch": 0.22431812388478206,
+      "grad_norm": 0.9681694507598877,
+      "learning_rate": 8.702334416349279e-07,
+      "loss": 0.2739,
+      "step": 2200
+    },
+    {
+      "epoch": 0.23451440224318124,
+      "grad_norm": 0.8769409656524658,
+      "learning_rate": 3.912410330310157e-07,
+      "loss": 0.2731,
+      "step": 2300
+    },
+    {
+      "epoch": 0.2447106806015804,
+      "grad_norm": 1.0199872255325317,
+      "learning_rate": 9.9272187917826e-08,
+      "loss": 0.2716,
+      "step": 2400
+    },
+    {
+      "epoch": 0.2549069589599796,
+      "grad_norm": 1.0771580934524536,
+      "learning_rate": 9.74775584916543e-12,
+      "loss": 0.2712,
+      "step": 2500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 2500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3916038848512e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddc9d948d0736d1849f3b0dbe3105ccea0572a28fcda6382a9f91ddf08d935d1
+size 5368