kiatkock commited on Oct 11, 2025

Commit

60c10e4

verified ·

1 Parent(s): b533f03

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

checkpoint-20/config.json +61 -0
checkpoint-20/generation_config.json +4 -0
checkpoint-20/model.safetensors +3 -0
checkpoint-20/optimizer.pt +3 -0
checkpoint-20/rng_state.pth +3 -0
checkpoint-20/scheduler.pt +3 -0
checkpoint-20/trainer_state.json +177 -0
checkpoint-20/training_args.bin +3 -0
checkpoint-40/config.json +61 -0
checkpoint-40/generation_config.json +4 -0
checkpoint-40/model.safetensors +3 -0
checkpoint-40/optimizer.pt +3 -0
checkpoint-40/rng_state.pth +3 -0
checkpoint-40/scheduler.pt +3 -0
checkpoint-40/trainer_state.json +333 -0
checkpoint-40/training_args.bin +3 -0
model.safetensors +1 -1
tb_logs/events.out.tfevents.1760155830.Kiat.34980.0 +3 -0

checkpoint-20/config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "time_moe_50m",
+  "apply_aux_loss": true,
+  "architectures": [
+    "TimeMoeForPrediction"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "Maple728/TimeMoE-50M--configuration_time_moe.TimeMoeConfig",
+    "AutoModelForCausalLM": "Maple728/TimeMoE-50M--modeling_time_moe.TimeMoeForPrediction"
+  },
+  "channel_configs": [
+    [
+      63,
+      1,
+      1
+    ],
+    [
+      6,
+      1,
+      4
+    ],
+    [
+      5,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      1
+    ]
+  ],
+  "embedding_hidden_size": 128,
+  "hidden_act": "silu",
+  "hidden_size": 384,
+  "horizon_lengths": [
+    1,
+    8,
+    32,
+    64
+  ],
+  "initializer_range": 0.02,
+  "input_size": 42,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 4096,
+  "model_type": "time_moe",
+  "num_attention_heads": 12,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000,
+  "router_aux_loss_factor": 0.02,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "use_dense": false
+}

checkpoint-20/generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.1"
+}

checkpoint-20/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1c12078447ee98547e56faad88559e765882ac7da469062736061810ce9b3a2
+size 484301192

checkpoint-20/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77b00521a0d9544854ff7ed31aa3b9ba5e26092e4298a16638fb4001baa40d5b
+size 968903096

checkpoint-20/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5373721d9a470ab26caf9e22d632c992bacafe2ec2814ebe07a78f261437d8e5
+size 14391

checkpoint-20/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a076ec7b5b7c2ad5f2da5df74c16e3cf45ecadac23b8bd64ca627a3ae91013b6
+size 1465

checkpoint-20/trainer_state.json ADDED Viewed

	@@ -0,0 +1,177 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9876543209876543,
+  "eval_steps": 10,
+  "global_step": 20,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04938271604938271,
+      "grad_norm": 1.3728221654891968,
+      "learning_rate": 9.992293334332821e-05,
+      "loss": 0.5092,
+      "step": 1
+    },
+    {
+      "epoch": 0.09876543209876543,
+      "grad_norm": 0.4933850169181824,
+      "learning_rate": 9.969220851487845e-05,
+      "loss": 0.4755,
+      "step": 2
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 1.8201042413711548,
+      "learning_rate": 9.930924800994192e-05,
+      "loss": 0.5033,
+      "step": 3
+    },
+    {
+      "epoch": 0.19753086419753085,
+      "grad_norm": 0.3733859360218048,
+      "learning_rate": 9.877641290737885e-05,
+      "loss": 0.4497,
+      "step": 4
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.5732631683349609,
+      "learning_rate": 9.809698831278218e-05,
+      "loss": 0.4617,
+      "step": 5
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 0.5703950524330139,
+      "learning_rate": 9.72751631047092e-05,
+      "loss": 0.4452,
+      "step": 6
+    },
+    {
+      "epoch": 0.345679012345679,
+      "grad_norm": 0.27186131477355957,
+      "learning_rate": 9.631600410885231e-05,
+      "loss": 0.4493,
+      "step": 7
+    },
+    {
+      "epoch": 0.3950617283950617,
+      "grad_norm": 0.42532485723495483,
+      "learning_rate": 9.522542485937369e-05,
+      "loss": 0.4452,
+      "step": 8
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.43852725625038147,
+      "learning_rate": 9.401014914000078e-05,
+      "loss": 0.4326,
+      "step": 9
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.28129202127456665,
+      "learning_rate": 9.267766952966369e-05,
+      "loss": 0.4344,
+      "step": 10
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "eval_loss": 0.43601080775260925,
+      "eval_runtime": 86.6474,
+      "eval_samples_per_second": 10.883,
+      "eval_steps_per_second": 0.681,
+      "step": 10
+    },
+    {
+      "epoch": 0.5432098765432098,
+      "grad_norm": 0.1692819446325302,
+      "learning_rate": 9.123620120825459e-05,
+      "loss": 0.4306,
+      "step": 11
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.3884420096874237,
+      "learning_rate": 8.969463130731183e-05,
+      "loss": 0.429,
+      "step": 12
+    },
+    {
+      "epoch": 0.6419753086419753,
+      "grad_norm": 0.3931941092014313,
+      "learning_rate": 8.806246411789872e-05,
+      "loss": 0.4224,
+      "step": 13
+    },
+    {
+      "epoch": 0.691358024691358,
+      "grad_norm": 0.14838409423828125,
+      "learning_rate": 8.634976249348867e-05,
+      "loss": 0.4411,
+      "step": 14
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.14195731282234192,
+      "learning_rate": 8.456708580912724e-05,
+      "loss": 0.4014,
+      "step": 15
+    },
+    {
+      "epoch": 0.7901234567901234,
+      "grad_norm": 0.31687867641448975,
+      "learning_rate": 8.27254248593737e-05,
+      "loss": 0.4185,
+      "step": 16
+    },
+    {
+      "epoch": 0.8395061728395061,
+      "grad_norm": 0.2713411748409271,
+      "learning_rate": 8.083613409639764e-05,
+      "loss": 0.4236,
+      "step": 17
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.12129750102758408,
+      "learning_rate": 7.891086162600579e-05,
+      "loss": 0.4118,
+      "step": 18
+    },
+    {
+      "epoch": 0.9382716049382716,
+      "grad_norm": 0.12624289095401764,
+      "learning_rate": 7.696147739319612e-05,
+      "loss": 0.4228,
+      "step": 19
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.19285239279270172,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3954,
+      "step": 20
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "eval_loss": 0.42280665040016174,
+      "eval_runtime": 84.8191,
+      "eval_samples_per_second": 11.118,
+      "eval_steps_per_second": 0.696,
+      "step": 20
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 40,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 59305762897920.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-20/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4f77884ddd41b5ba98022ed7940c5beac63484e3fee92ab74006e9bad8e19e3
+size 5585

checkpoint-40/config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "time_moe_50m",
+  "apply_aux_loss": true,
+  "architectures": [
+    "TimeMoeForPrediction"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "Maple728/TimeMoE-50M--configuration_time_moe.TimeMoeConfig",
+    "AutoModelForCausalLM": "Maple728/TimeMoE-50M--modeling_time_moe.TimeMoeForPrediction"
+  },
+  "channel_configs": [
+    [
+      63,
+      1,
+      1
+    ],
+    [
+      6,
+      1,
+      4
+    ],
+    [
+      5,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      1
+    ]
+  ],
+  "embedding_hidden_size": 128,
+  "hidden_act": "silu",
+  "hidden_size": 384,
+  "horizon_lengths": [
+    1,
+    8,
+    32,
+    64
+  ],
+  "initializer_range": 0.02,
+  "input_size": 42,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 4096,
+  "model_type": "time_moe",
+  "num_attention_heads": 12,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000,
+  "router_aux_loss_factor": 0.02,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "use_dense": false
+}

checkpoint-40/generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.1"
+}

checkpoint-40/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1270c0f0619d0adb8fa6573f5c1485fc3eb67167357e845c4a0a638512ffc4d
+size 484301192

checkpoint-40/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eb59b42b0a035b09eb28f12cb7f6cb5dfb0a484d6cff2ab1f72cb9f6a7069b8
+size 968903096

checkpoint-40/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b1fcb242e52a73ed5f8f4daef23a59696d5f4b7963226e7adfac0f95b9ddb94
+size 14391

checkpoint-40/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61a66f30d36945a615551c789574577fb691ccdc857f214a99bda842d314afc0
+size 1465

checkpoint-40/trainer_state.json ADDED Viewed

	@@ -0,0 +1,333 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9753086419753085,
+  "eval_steps": 10,
+  "global_step": 40,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04938271604938271,
+      "grad_norm": 1.3728221654891968,
+      "learning_rate": 9.992293334332821e-05,
+      "loss": 0.5092,
+      "step": 1
+    },
+    {
+      "epoch": 0.09876543209876543,
+      "grad_norm": 0.4933850169181824,
+      "learning_rate": 9.969220851487845e-05,
+      "loss": 0.4755,
+      "step": 2
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 1.8201042413711548,
+      "learning_rate": 9.930924800994192e-05,
+      "loss": 0.5033,
+      "step": 3
+    },
+    {
+      "epoch": 0.19753086419753085,
+      "grad_norm": 0.3733859360218048,
+      "learning_rate": 9.877641290737885e-05,
+      "loss": 0.4497,
+      "step": 4
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.5732631683349609,
+      "learning_rate": 9.809698831278218e-05,
+      "loss": 0.4617,
+      "step": 5
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 0.5703950524330139,
+      "learning_rate": 9.72751631047092e-05,
+      "loss": 0.4452,
+      "step": 6
+    },
+    {
+      "epoch": 0.345679012345679,
+      "grad_norm": 0.27186131477355957,
+      "learning_rate": 9.631600410885231e-05,
+      "loss": 0.4493,
+      "step": 7
+    },
+    {
+      "epoch": 0.3950617283950617,
+      "grad_norm": 0.42532485723495483,
+      "learning_rate": 9.522542485937369e-05,
+      "loss": 0.4452,
+      "step": 8
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.43852725625038147,
+      "learning_rate": 9.401014914000078e-05,
+      "loss": 0.4326,
+      "step": 9
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.28129202127456665,
+      "learning_rate": 9.267766952966369e-05,
+      "loss": 0.4344,
+      "step": 10
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "eval_loss": 0.43601080775260925,
+      "eval_runtime": 86.6474,
+      "eval_samples_per_second": 10.883,
+      "eval_steps_per_second": 0.681,
+      "step": 10
+    },
+    {
+      "epoch": 0.5432098765432098,
+      "grad_norm": 0.1692819446325302,
+      "learning_rate": 9.123620120825459e-05,
+      "loss": 0.4306,
+      "step": 11
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.3884420096874237,
+      "learning_rate": 8.969463130731183e-05,
+      "loss": 0.429,
+      "step": 12
+    },
+    {
+      "epoch": 0.6419753086419753,
+      "grad_norm": 0.3931941092014313,
+      "learning_rate": 8.806246411789872e-05,
+      "loss": 0.4224,
+      "step": 13
+    },
+    {
+      "epoch": 0.691358024691358,
+      "grad_norm": 0.14838409423828125,
+      "learning_rate": 8.634976249348867e-05,
+      "loss": 0.4411,
+      "step": 14
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.14195731282234192,
+      "learning_rate": 8.456708580912724e-05,
+      "loss": 0.4014,
+      "step": 15
+    },
+    {
+      "epoch": 0.7901234567901234,
+      "grad_norm": 0.31687867641448975,
+      "learning_rate": 8.27254248593737e-05,
+      "loss": 0.4185,
+      "step": 16
+    },
+    {
+      "epoch": 0.8395061728395061,
+      "grad_norm": 0.2713411748409271,
+      "learning_rate": 8.083613409639764e-05,
+      "loss": 0.4236,
+      "step": 17
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.12129750102758408,
+      "learning_rate": 7.891086162600579e-05,
+      "loss": 0.4118,
+      "step": 18
+    },
+    {
+      "epoch": 0.9382716049382716,
+      "grad_norm": 0.12624289095401764,
+      "learning_rate": 7.696147739319612e-05,
+      "loss": 0.4228,
+      "step": 19
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.19285239279270172,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3954,
+      "step": 20
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "eval_loss": 0.42280665040016174,
+      "eval_runtime": 84.8191,
+      "eval_samples_per_second": 11.118,
+      "eval_steps_per_second": 0.696,
+      "step": 20
+    },
+    {
+      "epoch": 1.037037037037037,
+      "grad_norm": 0.22232137620449066,
+      "learning_rate": 7.303852260680389e-05,
+      "loss": 0.4039,
+      "step": 21
+    },
+    {
+      "epoch": 1.0864197530864197,
+      "grad_norm": 0.17555947601795197,
+      "learning_rate": 7.108913837399423e-05,
+      "loss": 0.4044,
+      "step": 22
+    },
+    {
+      "epoch": 1.1358024691358024,
+      "grad_norm": 0.06463441997766495,
+      "learning_rate": 6.916386590360238e-05,
+      "loss": 0.4013,
+      "step": 23
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 0.18348956108093262,
+      "learning_rate": 6.727457514062632e-05,
+      "loss": 0.4213,
+      "step": 24
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.20464195311069489,
+      "learning_rate": 6.543291419087276e-05,
+      "loss": 0.4081,
+      "step": 25
+    },
+    {
+      "epoch": 1.2839506172839505,
+      "grad_norm": 0.1978413313627243,
+      "learning_rate": 6.365023750651134e-05,
+      "loss": 0.3962,
+      "step": 26
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.08643993735313416,
+      "learning_rate": 6.193753588210128e-05,
+      "loss": 0.4005,
+      "step": 27
+    },
+    {
+      "epoch": 1.382716049382716,
+      "grad_norm": 0.12691061198711395,
+      "learning_rate": 6.030536869268818e-05,
+      "loss": 0.4051,
+      "step": 28
+    },
+    {
+      "epoch": 1.4320987654320987,
+      "grad_norm": 0.1899513453245163,
+      "learning_rate": 5.8763798791745415e-05,
+      "loss": 0.4226,
+      "step": 29
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.16831448674201965,
+      "learning_rate": 5.7322330470336315e-05,
+      "loss": 0.4278,
+      "step": 30
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "eval_loss": 0.416827529668808,
+      "eval_runtime": 90.8316,
+      "eval_samples_per_second": 10.382,
+      "eval_steps_per_second": 0.65,
+      "step": 30
+    },
+    {
+      "epoch": 1.5308641975308643,
+      "grad_norm": 0.08136623352766037,
+      "learning_rate": 5.5989850859999227e-05,
+      "loss": 0.4267,
+      "step": 31
+    },
+    {
+      "epoch": 1.5802469135802468,
+      "grad_norm": 0.06590854376554489,
+      "learning_rate": 5.4774575140626315e-05,
+      "loss": 0.414,
+      "step": 32
+    },
+    {
+      "epoch": 1.6296296296296298,
+      "grad_norm": 0.1640368402004242,
+      "learning_rate": 5.36839958911477e-05,
+      "loss": 0.3984,
+      "step": 33
+    },
+    {
+      "epoch": 1.6790123456790123,
+      "grad_norm": 0.07538054138422012,
+      "learning_rate": 5.2724836895290805e-05,
+      "loss": 0.3977,
+      "step": 34
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.10800465941429138,
+      "learning_rate": 5.190301168721783e-05,
+      "loss": 0.3962,
+      "step": 35
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.05263437330722809,
+      "learning_rate": 5.122358709262116e-05,
+      "loss": 0.406,
+      "step": 36
+    },
+    {
+      "epoch": 1.8271604938271606,
+      "grad_norm": 0.10143052786588669,
+      "learning_rate": 5.0690751990058084e-05,
+      "loss": 0.4073,
+      "step": 37
+    },
+    {
+      "epoch": 1.876543209876543,
+      "grad_norm": 0.10162568092346191,
+      "learning_rate": 5.030779148512156e-05,
+      "loss": 0.3952,
+      "step": 38
+    },
+    {
+      "epoch": 1.925925925925926,
+      "grad_norm": 0.12134301662445068,
+      "learning_rate": 5.00770666566718e-05,
+      "loss": 0.3962,
+      "step": 39
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.09298070520162582,
+      "learning_rate": 5e-05,
+      "loss": 0.4101,
+      "step": 40
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "eval_loss": 0.4142439365386963,
+      "eval_runtime": 91.1081,
+      "eval_samples_per_second": 10.35,
+      "eval_steps_per_second": 0.648,
+      "step": 40
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 40,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 117147185971200.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-40/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4f77884ddd41b5ba98022ed7940c5beac63484e3fee92ab74006e9bad8e19e3
+size 5585

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b0f8d6a29a701a2e5f989864080355d3c8535d9fb4648d862d3c41cc38720ff
 size 484301192

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1270c0f0619d0adb8fa6573f5c1485fc3eb67167357e845c4a0a638512ffc4d
 size 484301192

tb_logs/events.out.tfevents.1760155830.Kiat.34980.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:778447207426355cc5d22aca433c7e96eb22fcd695619bda085bd7ac59bf9a13
+size 15054