kiatkock commited on Oct 14, 2025

Commit

015b6ca

verified ·

1 Parent(s): 60c10e4

Upload folder using huggingface_hub

Browse files

Files changed (21) hide show

checkpoint-1012/config.json +61 -0
checkpoint-1012/generation_config.json +4 -0
checkpoint-1012/model.safetensors +3 -0
checkpoint-1012/optimizer.pt +3 -0
checkpoint-1012/rng_state.pth +3 -0
checkpoint-1012/scheduler.pt +3 -0
checkpoint-1012/trainer_state.json +200 -0
checkpoint-1012/training_args.bin +3 -0
checkpoint-2024/config.json +61 -0
checkpoint-2024/generation_config.json +4 -0
checkpoint-2024/model.safetensors +3 -0
checkpoint-2024/optimizer.pt +3 -0
checkpoint-2024/rng_state.pth +3 -0
checkpoint-2024/scheduler.pt +3 -0
checkpoint-2024/trainer_state.json +372 -0
checkpoint-2024/training_args.bin +3 -0
config.json +61 -61
generation_config.json +4 -4
model.safetensors +1 -1
tb_logs/events.out.tfevents.1760423030.luyao1.2719331.0 +3 -0
training_args.bin +2 -2

checkpoint-1012/config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "time_moe_50m",
+  "apply_aux_loss": true,
+  "architectures": [
+    "TimeMoeForPrediction"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "Maple728/TimeMoE-50M--configuration_time_moe.TimeMoeConfig",
+    "AutoModelForCausalLM": "Maple728/TimeMoE-50M--modeling_time_moe.TimeMoeForPrediction"
+  },
+  "channel_configs": [
+    [
+      63,
+      1,
+      1
+    ],
+    [
+      6,
+      1,
+      4
+    ],
+    [
+      5,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      1
+    ]
+  ],
+  "embedding_hidden_size": 128,
+  "hidden_act": "silu",
+  "hidden_size": 384,
+  "horizon_lengths": [
+    1,
+    8,
+    32,
+    64
+  ],
+  "initializer_range": 0.02,
+  "input_size": 42,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 4096,
+  "model_type": "time_moe",
+  "num_attention_heads": 12,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000,
+  "router_aux_loss_factor": 0.02,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "use_dense": false
+}

checkpoint-1012/generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.1"
+}

checkpoint-1012/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6b88928e1afca14f30bdd89c066721d058297e625931a890a86e98f678b84e7
+size 484301192

checkpoint-1012/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7e79974ab08ca0fccbfb17cd4c57676c930d13a46445285f20686faf9d0409b
+size 968924920

checkpoint-1012/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cbe4833c475023cd0b15013740d375640598d423ffe268731c6a5fe33bce683
+size 14645

checkpoint-1012/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db999be284ba0abf1c609173979ea3f83c7c9b8cfb47a4d480f93d361d849447
+size 1465

checkpoint-1012/trainer_state.json ADDED Viewed

	@@ -0,0 +1,200 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9995061728395062,
+  "eval_steps": 250,
+  "global_step": 1012,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0009876543209876543,
+      "grad_norm": 1.221229910850525,
+      "learning_rate": 9.99999698845987e-05,
+      "loss": 0.4907,
+      "step": 1
+    },
+    {
+      "epoch": 0.04938271604938271,
+      "grad_norm": 0.05035819858312607,
+      "learning_rate": 9.99247492630919e-05,
+      "loss": 0.3903,
+      "step": 50
+    },
+    {
+      "epoch": 0.09876543209876543,
+      "grad_norm": 0.14429445564746857,
+      "learning_rate": 9.969945006624004e-05,
+      "loss": 0.3593,
+      "step": 100
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 0.15117663145065308,
+      "learning_rate": 9.932545872389141e-05,
+      "loss": 0.3437,
+      "step": 150
+    },
+    {
+      "epoch": 0.19753086419753085,
+      "grad_norm": 0.19646206498146057,
+      "learning_rate": 9.880502668597476e-05,
+      "loss": 0.3354,
+      "step": 200
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.25732266902923584,
+      "learning_rate": 9.814128698403919e-05,
+      "loss": 0.3283,
+      "step": 250
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "eval_loss": 0.3421019911766052,
+      "eval_runtime": 137.4213,
+      "eval_samples_per_second": 686.211,
+      "eval_steps_per_second": 21.445,
+      "step": 250
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 0.12474808096885681,
+      "learning_rate": 9.733823537021955e-05,
+      "loss": 0.3266,
+      "step": 300
+    },
+    {
+      "epoch": 0.345679012345679,
+      "grad_norm": 0.12876740097999573,
+      "learning_rate": 9.640070626257307e-05,
+      "loss": 0.3259,
+      "step": 350
+    },
+    {
+      "epoch": 0.3950617283950617,
+      "grad_norm": 0.20461653172969818,
+      "learning_rate": 9.533434364159762e-05,
+      "loss": 0.3248,
+      "step": 400
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.22041602432727814,
+      "learning_rate": 9.414556707313633e-05,
+      "loss": 0.3219,
+      "step": 450
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.27202293276786804,
+      "learning_rate": 9.284153306221289e-05,
+      "loss": 0.3178,
+      "step": 500
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "eval_loss": 0.33308419585227966,
+      "eval_runtime": 140.6684,
+      "eval_samples_per_second": 670.371,
+      "eval_steps_per_second": 20.95,
+      "step": 500
+    },
+    {
+      "epoch": 0.5432098765432098,
+      "grad_norm": 0.1661626547574997,
+      "learning_rate": 9.143009197044932e-05,
+      "loss": 0.3211,
+      "step": 550
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.14871230721473694,
+      "learning_rate": 8.991974075642621e-05,
+      "loss": 0.3207,
+      "step": 600
+    },
+    {
+      "epoch": 0.6419753086419753,
+      "grad_norm": 0.17097660899162292,
+      "learning_rate": 8.831957182349119e-05,
+      "loss": 0.3185,
+      "step": 650
+    },
+    {
+      "epoch": 0.691358024691358,
+      "grad_norm": 0.1582462042570114,
+      "learning_rate": 8.663921828295474e-05,
+      "loss": 0.3173,
+      "step": 700
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.25067687034606934,
+      "learning_rate": 8.488879596219216e-05,
+      "loss": 0.3191,
+      "step": 750
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "eval_loss": 0.33356761932373047,
+      "eval_runtime": 145.0159,
+      "eval_samples_per_second": 650.274,
+      "eval_steps_per_second": 20.322,
+      "step": 750
+    },
+    {
+      "epoch": 0.7901234567901234,
+      "grad_norm": 0.1577720046043396,
+      "learning_rate": 8.307884250676648e-05,
+      "loss": 0.3153,
+      "step": 800
+    },
+    {
+      "epoch": 0.8395061728395061,
+      "grad_norm": 0.166303813457489,
+      "learning_rate": 8.122025394318091e-05,
+      "loss": 0.3166,
+      "step": 850
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.17451900243759155,
+      "learning_rate": 7.932421908415695e-05,
+      "loss": 0.3156,
+      "step": 900
+    },
+    {
+      "epoch": 0.9382716049382716,
+      "grad_norm": 0.18235546350479126,
+      "learning_rate": 7.740215217132219e-05,
+      "loss": 0.3155,
+      "step": 950
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.22571995854377747,
+      "learning_rate": 7.546562416080285e-05,
+      "loss": 0.3185,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "eval_loss": 0.33335721492767334,
+      "eval_runtime": 144.7926,
+      "eval_samples_per_second": 651.276,
+      "eval_steps_per_second": 20.353,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2024,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 5930576289792000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1012/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8c0e5ae1d16b61cb0bbe6e1913a36d352f5b976b4d77e04f450f90733900582
+size 5521

checkpoint-2024/config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "time_moe_50m",
+  "apply_aux_loss": true,
+  "architectures": [
+    "TimeMoeForPrediction"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "Maple728/TimeMoE-50M--configuration_time_moe.TimeMoeConfig",
+    "AutoModelForCausalLM": "Maple728/TimeMoE-50M--modeling_time_moe.TimeMoeForPrediction"
+  },
+  "channel_configs": [
+    [
+      63,
+      1,
+      1
+    ],
+    [
+      6,
+      1,
+      4
+    ],
+    [
+      5,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      1
+    ]
+  ],
+  "embedding_hidden_size": 128,
+  "hidden_act": "silu",
+  "hidden_size": 384,
+  "horizon_lengths": [
+    1,
+    8,
+    32,
+    64
+  ],
+  "initializer_range": 0.02,
+  "input_size": 42,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 4096,
+  "model_type": "time_moe",
+  "num_attention_heads": 12,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000,
+  "router_aux_loss_factor": 0.02,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "use_dense": false
+}

checkpoint-2024/generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.1"
+}

checkpoint-2024/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b84220e3bd1ccdeaecfa9308850b05ee17de6761e6f83d061265fd0c1623007
+size 484301192

checkpoint-2024/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ef94c5e1a4f5e32ac50ddac26d38fd3f3641155ebfc964f641ab2f2c49ab201
+size 968924920

checkpoint-2024/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67a6938a14783e6890baf297362eece64c8df71219ffc210b560d0a690a4c99f
+size 14645

checkpoint-2024/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89efdf2689bb6790e533b3e51ce5908662bf122670c4e379468efd264d7232ac
+size 1465

checkpoint-2024/trainer_state.json ADDED Viewed

	@@ -0,0 +1,372 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9990123456790123,
+  "eval_steps": 250,
+  "global_step": 2024,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0009876543209876543,
+      "grad_norm": 1.221229910850525,
+      "learning_rate": 9.99999698845987e-05,
+      "loss": 0.4907,
+      "step": 1
+    },
+    {
+      "epoch": 0.04938271604938271,
+      "grad_norm": 0.05035819858312607,
+      "learning_rate": 9.99247492630919e-05,
+      "loss": 0.3903,
+      "step": 50
+    },
+    {
+      "epoch": 0.09876543209876543,
+      "grad_norm": 0.14429445564746857,
+      "learning_rate": 9.969945006624004e-05,
+      "loss": 0.3593,
+      "step": 100
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 0.15117663145065308,
+      "learning_rate": 9.932545872389141e-05,
+      "loss": 0.3437,
+      "step": 150
+    },
+    {
+      "epoch": 0.19753086419753085,
+      "grad_norm": 0.19646206498146057,
+      "learning_rate": 9.880502668597476e-05,
+      "loss": 0.3354,
+      "step": 200
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.25732266902923584,
+      "learning_rate": 9.814128698403919e-05,
+      "loss": 0.3283,
+      "step": 250
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "eval_loss": 0.3421019911766052,
+      "eval_runtime": 137.4213,
+      "eval_samples_per_second": 686.211,
+      "eval_steps_per_second": 21.445,
+      "step": 250
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 0.12474808096885681,
+      "learning_rate": 9.733823537021955e-05,
+      "loss": 0.3266,
+      "step": 300
+    },
+    {
+      "epoch": 0.345679012345679,
+      "grad_norm": 0.12876740097999573,
+      "learning_rate": 9.640070626257307e-05,
+      "loss": 0.3259,
+      "step": 350
+    },
+    {
+      "epoch": 0.3950617283950617,
+      "grad_norm": 0.20461653172969818,
+      "learning_rate": 9.533434364159762e-05,
+      "loss": 0.3248,
+      "step": 400
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.22041602432727814,
+      "learning_rate": 9.414556707313633e-05,
+      "loss": 0.3219,
+      "step": 450
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.27202293276786804,
+      "learning_rate": 9.284153306221289e-05,
+      "loss": 0.3178,
+      "step": 500
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "eval_loss": 0.33308419585227966,
+      "eval_runtime": 140.6684,
+      "eval_samples_per_second": 670.371,
+      "eval_steps_per_second": 20.95,
+      "step": 500
+    },
+    {
+      "epoch": 0.5432098765432098,
+      "grad_norm": 0.1661626547574997,
+      "learning_rate": 9.143009197044932e-05,
+      "loss": 0.3211,
+      "step": 550
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.14871230721473694,
+      "learning_rate": 8.991974075642621e-05,
+      "loss": 0.3207,
+      "step": 600
+    },
+    {
+      "epoch": 0.6419753086419753,
+      "grad_norm": 0.17097660899162292,
+      "learning_rate": 8.831957182349119e-05,
+      "loss": 0.3185,
+      "step": 650
+    },
+    {
+      "epoch": 0.691358024691358,
+      "grad_norm": 0.1582462042570114,
+      "learning_rate": 8.663921828295474e-05,
+      "loss": 0.3173,
+      "step": 700
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.25067687034606934,
+      "learning_rate": 8.488879596219216e-05,
+      "loss": 0.3191,
+      "step": 750
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "eval_loss": 0.33356761932373047,
+      "eval_runtime": 145.0159,
+      "eval_samples_per_second": 650.274,
+      "eval_steps_per_second": 20.322,
+      "step": 750
+    },
+    {
+      "epoch": 0.7901234567901234,
+      "grad_norm": 0.1577720046043396,
+      "learning_rate": 8.307884250676648e-05,
+      "loss": 0.3153,
+      "step": 800
+    },
+    {
+      "epoch": 0.8395061728395061,
+      "grad_norm": 0.166303813457489,
+      "learning_rate": 8.122025394318091e-05,
+      "loss": 0.3166,
+      "step": 850
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.17451900243759155,
+      "learning_rate": 7.932421908415695e-05,
+      "loss": 0.3156,
+      "step": 900
+    },
+    {
+      "epoch": 0.9382716049382716,
+      "grad_norm": 0.18235546350479126,
+      "learning_rate": 7.740215217132219e-05,
+      "loss": 0.3155,
+      "step": 950
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.22571995854377747,
+      "learning_rate": 7.546562416080285e-05,
+      "loss": 0.3185,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "eval_loss": 0.33335721492767334,
+      "eval_runtime": 144.7926,
+      "eval_samples_per_second": 651.276,
+      "eval_steps_per_second": 20.353,
+      "step": 1000
+    },
+    {
+      "epoch": 1.037037037037037,
+      "grad_norm": 0.3201523721218109,
+      "learning_rate": 7.35262930653857e-05,
+      "loss": 0.3183,
+      "step": 1050
+    },
+    {
+      "epoch": 1.0864197530864197,
+      "grad_norm": 0.3311742842197418,
+      "learning_rate": 7.159583377259385e-05,
+      "loss": 0.3172,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1358024691358024,
+      "grad_norm": 0.2752295434474945,
+      "learning_rate": 6.968586776117559e-05,
+      "loss": 0.3166,
+      "step": 1150
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 0.33451607823371887,
+      "learning_rate": 6.780789313911721e-05,
+      "loss": 0.3166,
+      "step": 1200
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.12275319546461105,
+      "learning_rate": 6.597321542435513e-05,
+      "loss": 0.3155,
+      "step": 1250
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "eval_loss": 0.33012306690216064,
+      "eval_runtime": 140.4999,
+      "eval_samples_per_second": 671.175,
+      "eval_steps_per_second": 20.975,
+      "step": 1250
+    },
+    {
+      "epoch": 1.2839506172839505,
+      "grad_norm": 0.2870579659938812,
+      "learning_rate": 6.419287948489126e-05,
+      "loss": 0.3154,
+      "step": 1300
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.08633468300104141,
+      "learning_rate": 6.247760304803671e-05,
+      "loss": 0.3138,
+      "step": 1350
+    },
+    {
+      "epoch": 1.382716049382716,
+      "grad_norm": 0.29040753841400146,
+      "learning_rate": 6.083771217906143e-05,
+      "loss": 0.3101,
+      "step": 1400
+    },
+    {
+      "epoch": 1.4320987654320987,
+      "grad_norm": 0.2062658816576004,
+      "learning_rate": 5.928307911767258e-05,
+      "loss": 0.3143,
+      "step": 1450
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.23233149945735931,
+      "learning_rate": 5.7823062846549435e-05,
+      "loss": 0.3152,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "eval_loss": 0.33253857493400574,
+      "eval_runtime": 139.0406,
+      "eval_samples_per_second": 678.219,
+      "eval_steps_per_second": 21.195,
+      "step": 1500
+    },
+    {
+      "epoch": 1.5308641975308643,
+      "grad_norm": 0.1579607129096985,
+      "learning_rate": 5.646645274971599e-05,
+      "loss": 0.3171,
+      "step": 1550
+    },
+    {
+      "epoch": 1.5802469135802468,
+      "grad_norm": 0.38029882311820984,
+      "learning_rate": 5.522141569993096e-05,
+      "loss": 0.3148,
+      "step": 1600
+    },
+    {
+      "epoch": 1.6296296296296298,
+      "grad_norm": 0.26864030957221985,
+      "learning_rate": 5.409544689363224e-05,
+      "loss": 0.3146,
+      "step": 1650
+    },
+    {
+      "epoch": 1.6790123456790123,
+      "grad_norm": 0.41325536370277405,
+      "learning_rate": 5.309532472941261e-05,
+      "loss": 0.3135,
+      "step": 1700
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.26135507225990295,
+      "learning_rate": 5.222707000166053e-05,
+      "loss": 0.3127,
+      "step": 1750
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "eval_loss": 0.3314434289932251,
+      "eval_runtime": 137.4334,
+      "eval_samples_per_second": 686.151,
+      "eval_steps_per_second": 21.443,
+      "step": 1750
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.35287410020828247,
+      "learning_rate": 5.1495909655022966e-05,
+      "loss": 0.3127,
+      "step": 1800
+    },
+    {
+      "epoch": 1.8271604938271606,
+      "grad_norm": 0.2525063157081604,
+      "learning_rate": 5.090624531789053e-05,
+      "loss": 0.3116,
+      "step": 1850
+    },
+    {
+      "epoch": 1.876543209876543,
+      "grad_norm": 0.5191920399665833,
+      "learning_rate": 5.0461626804335035e-05,
+      "loss": 0.312,
+      "step": 1900
+    },
+    {
+      "epoch": 1.925925925925926,
+      "grad_norm": 0.3505001664161682,
+      "learning_rate": 5.0164730744019504e-05,
+      "loss": 0.3109,
+      "step": 1950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.2468252331018448,
+      "learning_rate": 5.001734446872988e-05,
+      "loss": 0.3124,
+      "step": 2000
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "eval_loss": 0.32719919085502625,
+      "eval_runtime": 138.3829,
+      "eval_samples_per_second": 681.443,
+      "eval_steps_per_second": 21.296,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2024,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 1.185529522028544e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2024/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8c0e5ae1d16b61cb0bbe6e1913a36d352f5b976b4d77e04f450f90733900582
+size 5521

config.json CHANGED Viewed

@@ -1,61 +1,61 @@
-{
-  "_name_or_path": "time_moe_50m",
-  "apply_aux_loss": true,
-  "architectures": [
-    "TimeMoeForPrediction"
-  ],
-  "attention_dropout": 0.0,
-  "auto_map": {
-    "AutoConfig": "Maple728/TimeMoE-50M--configuration_time_moe.TimeMoeConfig",
-    "AutoModelForCausalLM": "Maple728/TimeMoE-50M--modeling_time_moe.TimeMoeForPrediction"
-  },
-  "channel_configs": [
-    [
-      63,
-      1,
-      1
-    ],
-    [
-      6,
-      1,
-      4
-    ],
-    [
-      5,
-      1,
-      1
-    ],
-    [
-      5,
-      1,
-      1
-    ]
-  ],
-  "embedding_hidden_size": 128,
-  "hidden_act": "silu",
-  "hidden_size": 384,
-  "horizon_lengths": [
-    1,
-    8,
-    32,
-    64
-  ],
-  "initializer_range": 0.02,
-  "input_size": 42,
-  "intermediate_size": 1536,
-  "max_position_embeddings": 4096,
-  "model_type": "time_moe",
-  "num_attention_heads": 12,
-  "num_experts": 8,
-  "num_experts_per_tok": 2,
-  "num_hidden_layers": 12,
-  "num_key_value_heads": 12,
-  "rms_norm_eps": 1e-06,
-  "rope_theta": 10000,
-  "router_aux_loss_factor": 0.02,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.40.1",
-  "use_cache": true,
-  "use_dense": false
-}

+{
+  "_name_or_path": "time_moe_50m",
+  "apply_aux_loss": true,
+  "architectures": [
+    "TimeMoeForPrediction"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "Maple728/TimeMoE-50M--configuration_time_moe.TimeMoeConfig",
+    "AutoModelForCausalLM": "Maple728/TimeMoE-50M--modeling_time_moe.TimeMoeForPrediction"
+  },
+  "channel_configs": [
+    [
+      63,
+      1,
+      1
+    ],
+    [
+      6,
+      1,
+      4
+    ],
+    [
+      5,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      1
+    ]
+  ],
+  "embedding_hidden_size": 128,
+  "hidden_act": "silu",
+  "hidden_size": 384,
+  "horizon_lengths": [
+    1,
+    8,
+    32,
+    64
+  ],
+  "initializer_range": 0.02,
+  "input_size": 42,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 4096,
+  "model_type": "time_moe",
+  "num_attention_heads": 12,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000,
+  "router_aux_loss_factor": 0.02,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "use_dense": false
+}

generation_config.json CHANGED Viewed

@@ -1,4 +1,4 @@
-{
-  "_from_model_config": true,
-  "transformers_version": "4.40.1"
-}

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.1"
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1270c0f0619d0adb8fa6573f5c1485fc3eb67167357e845c4a0a638512ffc4d
 size 484301192

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b84220e3bd1ccdeaecfa9308850b05ee17de6761e6f83d061265fd0c1623007
 size 484301192

tb_logs/events.out.tfevents.1760423030.luyao1.2719331.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb25d9dda7f93a6f276b76a0b21b6c59b62fd6c2a847b11fab0dca71de14368d
+size 16427

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4f77884ddd41b5ba98022ed7940c5beac63484e3fee92ab74006e9bad8e19e3
-size 5585

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8c0e5ae1d16b61cb0bbe6e1913a36d352f5b976b4d77e04f450f90733900582
+size 5521