update slot resume pointers for step 45

Files changed (9) hide show

slots/0/checkpoint-42/config.json DELETED Viewed

@@ -1,36 +0,0 @@
-{
-  "architectures": [
-    "LlamaForCausalLM"
-  ],
-  "attention_bias": false,
-  "attention_dropout": 0.0,
-  "bos_token_id": 1,
-  "dtype": "float32",
-  "eos_token_id": 2,
-  "head_dim": 64,
-  "hidden_act": "silu",
-  "hidden_dropout": 0.0,
-  "hidden_size": 960,
-  "initializer_range": 0.02,
-  "intermediate_size": 2560,
-  "max_position_embeddings": 1024,
-  "mlp_bias": false,
-  "model_type": "llama",
-  "neftune_alpha": 0.0,
-  "num_attention_heads": 15,
-  "num_hidden_layers": 34,
-  "num_key_value_heads": 5,
-  "pad_token_id": null,
-  "pretraining_tp": 1,
-  "qk_norm": true,
-  "rezero_init": 1.0,
-  "rms_norm_eps": 1e-06,
-  "rope_parameters": {
-    "rope_theta": 100000.0,
-    "rope_type": "default"
-  },
-  "tie_word_embeddings": false,
-  "transformers_version": "5.0.0",
-  "use_cache": false,
-  "vocab_size": 49152
-}

slots/0/checkpoint-42/generation_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 1,
-  "eos_token_id": 2,
-  "output_attentions": false,
-  "output_hidden_states": false,
-  "transformers_version": "5.0.0",
-  "use_cache": false
-}

slots/0/checkpoint-42/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9ea1ff2e568f9dcaed3fc5c55262d03e77f149db0723475a721ec256dfc493e2
-size 1714721544

slots/0/checkpoint-42/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9ea99e421d4a4f28e9c713137c202fededfb61902826551a78447f79fd36e768
-size 175903435

slots/0/checkpoint-42/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:73724ecbb293c433e222e4ddd1118f0e5a681c1a3d5f69c3dce9929e331ed56a
-size 1383

slots/0/checkpoint-42/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:635ca6592eeca73857d83634649bd4b0175d13502975eda520dd7e1d931f902d
-size 1465

slots/0/checkpoint-42/trainer_state.json DELETED Viewed

@@ -1,55 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.49203734211971445,
-  "eval_steps": 500,
-  "global_step": 42,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.003905296558457408,
-      "grad_norm": 2.961405038833618,
-      "learning_rate": 5e-05,
-      "loss": 11.042926788330078,
-      "step": 1
-    },
-    {
-      "epoch": 0.07810593116914816,
-      "grad_norm": 2.913111925125122,
-      "learning_rate": 4.994503670730125e-05,
-      "loss": 10.412632992393092,
-      "step": 20
-    },
-    {
-      "epoch": 0.4686069924949661,
-      "grad_norm": 3.2043919563293457,
-      "learning_rate": 4.795731611254473e-05,
-      "loss": 8.956547207302517,
-      "step": 40
-    }
-  ],
-  "logging_steps": 20,
-  "max_steps": 301,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
-  "save_steps": 1000000000,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 1.260052958674944e+16,
-  "train_batch_size": 1,
-  "trial_name": null,
-  "trial_params": null
-}

slots/0/checkpoint-42/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e69ada62714d958c25cca51829f8ea6cdd265294d59777b45e1eca279f136098
-size 5201

slots/0/latest.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"worker_id": "slot:0", "checkpoint": "slots/0/checkpoint-42", "step": 42, "updated_at": ~~1776838127~~}


1	+ {"worker_id": "slot:0", "checkpoint": "slots/0/checkpoint-45", "step": 45, "updated_at": 1776843653}