Training in progress, step 500, checkpoint

Browse files

Files changed (8) hide show

checkpoint-500/config.json +35 -0
checkpoint-500/generation_config.json +9 -0
checkpoint-500/model.safetensors +3 -0
checkpoint-500/optimizer.pt +3 -0
checkpoint-500/rng_state.pth +3 -0
checkpoint-500/scheduler.pt +3 -0
checkpoint-500/trainer_state.json +384 -0
checkpoint-500/training_args.bin +3 -0

checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 128256
+}

checkpoint-500/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": 128001,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.51.3"
+}

checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78da6001b47d391c055a5818b828948ffc98a54a7db85b35fb23fde2847bb04f
+size 2471645608

checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad0f56f0c7cc6823787f88f2dbd2271210bc923111bc246032b3a35eb5a421ff
+size 3724602

checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed756641eefe71867a63e333dcdc6966062a1e1ec00d402455186493e7261e86
+size 1064

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,384 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5,
+  "eval_steps": 500,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 2416.0,
+      "learning_rate": 9.000000000000001e-07,
+      "loss": 14.5271,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 2624.0,
+      "learning_rate": 1.9000000000000002e-06,
+      "loss": 10.9556,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 9.0,
+      "learning_rate": 2.9e-06,
+      "loss": 1.4421,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.900000000000001e-06,
+      "loss": 0.6727,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 0.6174,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 8.75,
+      "learning_rate": 5.9e-06,
+      "loss": 0.6219,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.859375,
+      "learning_rate": 6.9e-06,
+      "loss": 0.5935,
+      "step": 70
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.9765625,
+      "learning_rate": 7.9e-06,
+      "loss": 0.6067,
+      "step": 80
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.9765625,
+      "learning_rate": 8.900000000000001e-06,
+      "loss": 0.5768,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 2.0,
+      "learning_rate": 9.9e-06,
+      "loss": 0.57,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.828125,
+      "learning_rate": 9.997532801828659e-06,
+      "loss": 0.5519,
+      "step": 110
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.796875,
+      "learning_rate": 9.989007341460251e-06,
+      "loss": 0.5569,
+      "step": 120
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.6171875,
+      "learning_rate": 9.974403544143942e-06,
+      "loss": 0.5436,
+      "step": 130
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.546875,
+      "learning_rate": 9.953739202357219e-06,
+      "loss": 0.5502,
+      "step": 140
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.6640625,
+      "learning_rate": 9.927039492417452e-06,
+      "loss": 0.5441,
+      "step": 150
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.578125,
+      "learning_rate": 9.894336943808426e-06,
+      "loss": 0.5649,
+      "step": 160
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.5546875,
+      "learning_rate": 9.85567139954818e-06,
+      "loss": 0.5599,
+      "step": 170
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.71875,
+      "learning_rate": 9.811089967646427e-06,
+      "loss": 0.5816,
+      "step": 180
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.6796875,
+      "learning_rate": 9.760646963710694e-06,
+      "loss": 0.5367,
+      "step": 190
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.6484375,
+      "learning_rate": 9.704403844771128e-06,
+      "loss": 0.5808,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.6015625,
+      "learning_rate": 9.642429134404568e-06,
+      "loss": 0.5369,
+      "step": 210
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.75,
+      "learning_rate": 9.574798339249124e-06,
+      "loss": 0.5587,
+      "step": 220
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.6640625,
+      "learning_rate": 9.501593857010968e-06,
+      "loss": 0.5843,
+      "step": 230
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.6875,
+      "learning_rate": 9.42290487607542e-06,
+      "loss": 0.573,
+      "step": 240
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.6953125,
+      "learning_rate": 9.338827266844643e-06,
+      "loss": 0.5658,
+      "step": 250
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.796875,
+      "learning_rate": 9.24946346493432e-06,
+      "loss": 0.5526,
+      "step": 260
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.5390625,
+      "learning_rate": 9.154922346371641e-06,
+      "loss": 0.5527,
+      "step": 270
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.671875,
+      "learning_rate": 9.055319094946633e-06,
+      "loss": 0.5505,
+      "step": 280
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.578125,
+      "learning_rate": 8.950775061878453e-06,
+      "loss": 0.5642,
+      "step": 290
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.7578125,
+      "learning_rate": 8.841417617967618e-06,
+      "loss": 0.5479,
+      "step": 300
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.546875,
+      "learning_rate": 8.727379998414311e-06,
+      "loss": 0.5347,
+      "step": 310
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.6015625,
+      "learning_rate": 8.608801140491811e-06,
+      "loss": 0.5488,
+      "step": 320
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.75,
+      "learning_rate": 8.485825514272824e-06,
+      "loss": 0.5565,
+      "step": 330
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.6328125,
+      "learning_rate": 8.358602946614952e-06,
+      "loss": 0.5399,
+      "step": 340
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.5546875,
+      "learning_rate": 8.227288438619754e-06,
+      "loss": 0.5388,
+      "step": 350
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.5546875,
+      "learning_rate": 8.092041976787772e-06,
+      "loss": 0.5432,
+      "step": 360
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.6328125,
+      "learning_rate": 7.953028338099628e-06,
+      "loss": 0.5681,
+      "step": 370
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.8515625,
+      "learning_rate": 7.810416889260653e-06,
+      "loss": 0.5573,
+      "step": 380
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.59375,
+      "learning_rate": 7.66438138035365e-06,
+      "loss": 0.5602,
+      "step": 390
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.609375,
+      "learning_rate": 7.515099733151177e-06,
+      "loss": 0.561,
+      "step": 400
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.640625,
+      "learning_rate": 7.362753824345271e-06,
+      "loss": 0.5423,
+      "step": 410
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.484375,
+      "learning_rate": 7.207529263958727e-06,
+      "loss": 0.5475,
+      "step": 420
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.6640625,
+      "learning_rate": 7.049615169207864e-06,
+      "loss": 0.5531,
+      "step": 430
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.5390625,
+      "learning_rate": 6.889203934092337e-06,
+      "loss": 0.557,
+      "step": 440
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.6953125,
+      "learning_rate": 6.7264909949926735e-06,
+      "loss": 0.5688,
+      "step": 450
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.5,
+      "learning_rate": 6.561674592561164e-06,
+      "loss": 0.5524,
+      "step": 460
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.6171875,
+      "learning_rate": 6.3949555301961474e-06,
+      "loss": 0.5625,
+      "step": 470
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.5859375,
+      "learning_rate": 6.2265369293940135e-06,
+      "loss": 0.5302,
+      "step": 480
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.7578125,
+      "learning_rate": 6.056623982276945e-06,
+      "loss": 0.5375,
+      "step": 490
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.6796875,
+      "learning_rate": 5.885423701597918e-06,
+      "loss": 0.5344,
+      "step": 500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.91328310788096e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8d9759becb77ac102a67be27839f1ea17c0f5678241b4fb13ecf5637fb79622
+size 5304