tickers_448_7_Channels_with_temporal_tape model training @ 2025-10-26 22:24:12

Browse files

Files changed (11) hide show

checkpoint-3500/config.json +76 -0
checkpoint-3500/generation_config.json +4 -0
checkpoint-3500/model.safetensors +3 -0
checkpoint-3500/optimizer.pt +3 -0
checkpoint-3500/rng_state.pth +3 -0
checkpoint-3500/scheduler.pt +3 -0
checkpoint-3500/trainer_state.json +574 -0
checkpoint-3500/training_args.bin +3 -0
model.safetensors +1 -1
tb_logs/events.out.tfevents.1761467516.luyao1.803017.0 +3 -0
training_args.bin +1 -1

checkpoint-3500/config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "time_moe_50m",
+  "apply_aux_loss": true,
+  "architectures": [
+    "TimeMoeForPrediction"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "Maple728/TimeMoE-50M--configuration_time_moe.TimeMoeConfig",
+    "AutoModelForCausalLM": "Maple728/TimeMoE-50M--modeling_time_moe.TimeMoeForPrediction"
+  },
+  "channel_configs": [
+    [
+      63,
+      1,
+      1
+    ],
+    [
+      6,
+      1,
+      4
+    ],
+    [
+      6,
+      1,
+      5
+    ],
+    [
+      10,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      1
+    ],
+    [
+      5,
+      1,
+      2
+    ]
+  ],
+  "embedding_hidden_size": 128,
+  "hidden_act": "silu",
+  "hidden_size": 384,
+  "horizon_lengths": [
+    1,
+    8,
+    32,
+    64
+  ],
+  "initializer_range": 0.02,
+  "input_size": 42,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 4096,
+  "model_type": "time_moe",
+  "num_attention_heads": 12,
+  "num_experts": 8,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000,
+  "router_aux_loss_factor": 0.02,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "use_dense": false
+}

checkpoint-3500/generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.40.1"
+}

checkpoint-3500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51824f4fd0ce52faeece495ec0c0e9db2f0e9626377b20dde7c45a4e8aa47567
+size 523322016

checkpoint-3500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e7a9210a2e3d9b68dce4b4ce02bb781c9f29336c74599c640d292ad1e521808
+size 1046999962

checkpoint-3500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:459183a7b5bd3231b0f93a8128d45e78284d6bf4838a73e17fe0e52c0824ac88
+size 14645

checkpoint-3500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:020e7fbbd2973980c721955674ee75fc4607df1b4013ba380b31bae440d53b26
+size 1465

checkpoint-3500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,574 @@

+{
+  "best_metric": 0.3600683808326721,
+  "best_model_checkpoint": "/home/yinkiat/logs/time_moe_tickers_448_7_Channels_with_temporal_tape/checkpoint-3500",
+  "epoch": 0.7803137976200429,
+  "eval_steps": 500,
+  "global_step": 3500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00022294679932001227,
+      "grad_norm": 0.6522400379180908,
+      "learning_rate": 9.999999846670801e-05,
+      "loss": 0.5519,
+      "step": 1
+    },
+    {
+      "epoch": 0.011147339966000614,
+      "grad_norm": 0.12162817269563675,
+      "learning_rate": 9.999616686793398e-05,
+      "loss": 0.4283,
+      "step": 50
+    },
+    {
+      "epoch": 0.022294679932001227,
+      "grad_norm": 0.19253581762313843,
+      "learning_rate": 9.998466864716803e-05,
+      "loss": 0.3917,
+      "step": 100
+    },
+    {
+      "epoch": 0.033442019898001836,
+      "grad_norm": 0.13114529848098755,
+      "learning_rate": 9.996550886363802e-05,
+      "loss": 0.3761,
+      "step": 150
+    },
+    {
+      "epoch": 0.044589359864002455,
+      "grad_norm": 0.11506406962871552,
+      "learning_rate": 9.993869339270242e-05,
+      "loss": 0.3669,
+      "step": 200
+    },
+    {
+      "epoch": 0.05573669983000307,
+      "grad_norm": 0.1872943639755249,
+      "learning_rate": 9.990423045734056e-05,
+      "loss": 0.3619,
+      "step": 250
+    },
+    {
+      "epoch": 0.06688403979600367,
+      "grad_norm": 0.09673713147640228,
+      "learning_rate": 9.986213062563104e-05,
+      "loss": 0.3613,
+      "step": 300
+    },
+    {
+      "epoch": 0.07803137976200429,
+      "grad_norm": 0.2162093222141266,
+      "learning_rate": 9.981240680751106e-05,
+      "loss": 0.3609,
+      "step": 350
+    },
+    {
+      "epoch": 0.08917871972800491,
+      "grad_norm": 0.20694172382354736,
+      "learning_rate": 9.975507425081755e-05,
+      "loss": 0.3592,
+      "step": 400
+    },
+    {
+      "epoch": 0.10032605969400551,
+      "grad_norm": 0.3145907521247864,
+      "learning_rate": 9.969015053661142e-05,
+      "loss": 0.3573,
+      "step": 450
+    },
+    {
+      "epoch": 0.11147339966000613,
+      "grad_norm": 0.15271279215812683,
+      "learning_rate": 9.961765557378634e-05,
+      "loss": 0.3574,
+      "step": 500
+    },
+    {
+      "epoch": 0.11147339966000613,
+      "eval_loss": 0.36369073390960693,
+      "eval_runtime": 1369.4679,
+      "eval_samples_per_second": 305.045,
+      "eval_steps_per_second": 9.533,
+      "step": 500
+    },
+    {
+      "epoch": 0.12262073962600674,
+      "grad_norm": 0.2306584119796753,
+      "learning_rate": 9.953761159296364e-05,
+      "loss": 0.3573,
+      "step": 550
+    },
+    {
+      "epoch": 0.13376807959200734,
+      "grad_norm": 0.19413670897483826,
+      "learning_rate": 9.945004313967528e-05,
+      "loss": 0.3566,
+      "step": 600
+    },
+    {
+      "epoch": 0.14491541955800796,
+      "grad_norm": 0.23593685030937195,
+      "learning_rate": 9.935497706683698e-05,
+      "loss": 0.3577,
+      "step": 650
+    },
+    {
+      "epoch": 0.15606275952400858,
+      "grad_norm": 0.12937627732753754,
+      "learning_rate": 9.92524425265137e-05,
+      "loss": 0.3541,
+      "step": 700
+    },
+    {
+      "epoch": 0.1672100994900092,
+      "grad_norm": 0.14659036695957184,
+      "learning_rate": 9.91424709609802e-05,
+      "loss": 0.3553,
+      "step": 750
+    },
+    {
+      "epoch": 0.17835743945600982,
+      "grad_norm": 0.16453103721141815,
+      "learning_rate": 9.902509609307918e-05,
+      "loss": 0.356,
+      "step": 800
+    },
+    {
+      "epoch": 0.1895047794220104,
+      "grad_norm": 0.08065643161535263,
+      "learning_rate": 9.890035391588028e-05,
+      "loss": 0.3552,
+      "step": 850
+    },
+    {
+      "epoch": 0.20065211938801103,
+      "grad_norm": 0.1387893557548523,
+      "learning_rate": 9.876828268164265e-05,
+      "loss": 0.3559,
+      "step": 900
+    },
+    {
+      "epoch": 0.21179945935401165,
+      "grad_norm": 0.15444770455360413,
+      "learning_rate": 9.86289228900849e-05,
+      "loss": 0.3528,
+      "step": 950
+    },
+    {
+      "epoch": 0.22294679932001227,
+      "grad_norm": 0.11623840034008026,
+      "learning_rate": 9.848231727596589e-05,
+      "loss": 0.3535,
+      "step": 1000
+    },
+    {
+      "epoch": 0.22294679932001227,
+      "eval_loss": 0.3608478009700775,
+      "eval_runtime": 1366.4982,
+      "eval_samples_per_second": 305.708,
+      "eval_steps_per_second": 9.554,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2340941392860129,
+      "grad_norm": 0.25702351331710815,
+      "learning_rate": 9.832851079598007e-05,
+      "loss": 0.3508,
+      "step": 1050
+    },
+    {
+      "epoch": 0.24524147925201348,
+      "grad_norm": 0.20600661635398865,
+      "learning_rate": 9.816755061497149e-05,
+      "loss": 0.355,
+      "step": 1100
+    },
+    {
+      "epoch": 0.2563888192180141,
+      "grad_norm": 0.16554264724254608,
+      "learning_rate": 9.79994860914706e-05,
+      "loss": 0.3527,
+      "step": 1150
+    },
+    {
+      "epoch": 0.2675361591840147,
+      "grad_norm": 0.38233572244644165,
+      "learning_rate": 9.782436876255859e-05,
+      "loss": 0.3558,
+      "step": 1200
+    },
+    {
+      "epoch": 0.27868349915001533,
+      "grad_norm": 0.15968042612075806,
+      "learning_rate": 9.764225232806334e-05,
+      "loss": 0.3534,
+      "step": 1250
+    },
+    {
+      "epoch": 0.2898308391160159,
+      "grad_norm": 0.08807487785816193,
+      "learning_rate": 9.745319263409241e-05,
+      "loss": 0.3494,
+      "step": 1300
+    },
+    {
+      "epoch": 0.3009781790820166,
+      "grad_norm": 0.1922980546951294,
+      "learning_rate": 9.725724765590786e-05,
+      "loss": 0.353,
+      "step": 1350
+    },
+    {
+      "epoch": 0.31212551904801716,
+      "grad_norm": 0.11445993185043335,
+      "learning_rate": 9.7054477480148e-05,
+      "loss": 0.3535,
+      "step": 1400
+    },
+    {
+      "epoch": 0.32327285901401775,
+      "grad_norm": 0.22301775217056274,
+      "learning_rate": 9.684494428640185e-05,
+      "loss": 0.3531,
+      "step": 1450
+    },
+    {
+      "epoch": 0.3344201989800184,
+      "grad_norm": 0.19347846508026123,
+      "learning_rate": 9.662871232814171e-05,
+      "loss": 0.3515,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3344201989800184,
+      "eval_loss": 0.36202892661094666,
+      "eval_runtime": 1359.8166,
+      "eval_samples_per_second": 307.21,
+      "eval_steps_per_second": 9.601,
+      "step": 1500
+    },
+    {
+      "epoch": 0.345567538946019,
+      "grad_norm": 0.20853643119335175,
+      "learning_rate": 9.640584791301984e-05,
+      "loss": 0.3514,
+      "step": 1550
+    },
+    {
+      "epoch": 0.35671487891201964,
+      "grad_norm": 0.20620982348918915,
+      "learning_rate": 9.617641938253508e-05,
+      "loss": 0.3528,
+      "step": 1600
+    },
+    {
+      "epoch": 0.36786221887802023,
+      "grad_norm": 0.12390906363725662,
+      "learning_rate": 9.594049709107604e-05,
+      "loss": 0.3489,
+      "step": 1650
+    },
+    {
+      "epoch": 0.3790095588440208,
+      "grad_norm": 0.11034612357616425,
+      "learning_rate": 9.569815338434672e-05,
+      "loss": 0.3511,
+      "step": 1700
+    },
+    {
+      "epoch": 0.39015689881002147,
+      "grad_norm": 0.2769007086753845,
+      "learning_rate": 9.54494625771818e-05,
+      "loss": 0.3506,
+      "step": 1750
+    },
+    {
+      "epoch": 0.40130423877602206,
+      "grad_norm": 0.24118147790431976,
+      "learning_rate": 9.519450093075788e-05,
+      "loss": 0.3506,
+      "step": 1800
+    },
+    {
+      "epoch": 0.4124515787420227,
+      "grad_norm": 0.10841376334428787,
+      "learning_rate": 9.493334662920794e-05,
+      "loss": 0.3491,
+      "step": 1850
+    },
+    {
+      "epoch": 0.4235989187080233,
+      "grad_norm": 0.14958825707435608,
+      "learning_rate": 9.46660797556462e-05,
+      "loss": 0.3501,
+      "step": 1900
+    },
+    {
+      "epoch": 0.4347462586740239,
+      "grad_norm": 0.19621045887470245,
+      "learning_rate": 9.43927822676105e-05,
+      "loss": 0.3502,
+      "step": 1950
+    },
+    {
+      "epoch": 0.44589359864002454,
+      "grad_norm": 0.15458981692790985,
+      "learning_rate": 9.411353797193005e-05,
+      "loss": 0.3526,
+      "step": 2000
+    },
+    {
+      "epoch": 0.44589359864002454,
+      "eval_loss": 0.36221134662628174,
+      "eval_runtime": 1367.0864,
+      "eval_samples_per_second": 305.576,
+      "eval_steps_per_second": 9.55,
+      "step": 2000
+    },
+    {
+      "epoch": 0.4570409386060251,
+      "grad_norm": 0.10762229561805725,
+      "learning_rate": 9.382843249902597e-05,
+      "loss": 0.3476,
+      "step": 2050
+    },
+    {
+      "epoch": 0.4681882785720258,
+      "grad_norm": 0.27003607153892517,
+      "learning_rate": 9.353755327665268e-05,
+      "loss": 0.3506,
+      "step": 2100
+    },
+    {
+      "epoch": 0.47933561853802636,
+      "grad_norm": 0.19240695238113403,
+      "learning_rate": 9.324098950308817e-05,
+      "loss": 0.3486,
+      "step": 2150
+    },
+    {
+      "epoch": 0.49048295850402696,
+      "grad_norm": 0.1518525779247284,
+      "learning_rate": 9.293883211978123e-05,
+      "loss": 0.3496,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5016302984700276,
+      "grad_norm": 0.14137060940265656,
+      "learning_rate": 9.263117378346424e-05,
+      "loss": 0.3502,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5127776384360282,
+      "grad_norm": 0.10448052734136581,
+      "learning_rate": 9.231810883773999e-05,
+      "loss": 0.3508,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5239249784020288,
+      "grad_norm": 0.16013021767139435,
+      "learning_rate": 9.199973328415102e-05,
+      "loss": 0.3486,
+      "step": 2350
+    },
+    {
+      "epoch": 0.5350723183680294,
+      "grad_norm": 0.15149140357971191,
+      "learning_rate": 9.167614475274082e-05,
+      "loss": 0.3503,
+      "step": 2400
+    },
+    {
+      "epoch": 0.5462196583340301,
+      "grad_norm": 0.1527142971754074,
+      "learning_rate": 9.134744247211547e-05,
+      "loss": 0.3483,
+      "step": 2450
+    },
+    {
+      "epoch": 0.5573669983000307,
+      "grad_norm": 0.19500622153282166,
+      "learning_rate": 9.101372723901513e-05,
+      "loss": 0.3496,
+      "step": 2500
+    },
+    {
+      "epoch": 0.5573669983000307,
+      "eval_loss": 0.36044490337371826,
+      "eval_runtime": 1365.782,
+      "eval_samples_per_second": 305.868,
+      "eval_steps_per_second": 9.559,
+      "step": 2500
+    },
+    {
+      "epoch": 0.5685143382660313,
+      "grad_norm": 0.23164886236190796,
+      "learning_rate": 9.067510138740467e-05,
+      "loss": 0.3496,
+      "step": 2550
+    },
+    {
+      "epoch": 0.5796616782320319,
+      "grad_norm": 0.2949928045272827,
+      "learning_rate": 9.033166875709292e-05,
+      "loss": 0.3463,
+      "step": 2600
+    },
+    {
+      "epoch": 0.5908090181980324,
+      "grad_norm": 0.15740317106246948,
+      "learning_rate": 8.998353466189007e-05,
+      "loss": 0.3486,
+      "step": 2650
+    },
+    {
+      "epoch": 0.6019563581640331,
+      "grad_norm": 0.10845978558063507,
+      "learning_rate": 8.963080585731323e-05,
+      "loss": 0.3457,
+      "step": 2700
+    },
+    {
+      "epoch": 0.6131036981300337,
+      "grad_norm": 0.13455775380134583,
+      "learning_rate": 8.927359050784974e-05,
+      "loss": 0.3472,
+      "step": 2750
+    },
+    {
+      "epoch": 0.6242510380960343,
+      "grad_norm": 0.1484765261411667,
+      "learning_rate": 8.891199815378839e-05,
+      "loss": 0.3484,
+      "step": 2800
+    },
+    {
+      "epoch": 0.6353983780620349,
+      "grad_norm": 0.13684849441051483,
+      "learning_rate": 8.854613967762898e-05,
+      "loss": 0.3474,
+      "step": 2850
+    },
+    {
+      "epoch": 0.6465457180280355,
+      "grad_norm": 0.20448821783065796,
+      "learning_rate": 8.817612727008003e-05,
+      "loss": 0.3474,
+      "step": 2900
+    },
+    {
+      "epoch": 0.6576930579940362,
+      "grad_norm": 0.12173973768949509,
+      "learning_rate": 8.78020743956555e-05,
+      "loss": 0.3453,
+      "step": 2950
+    },
+    {
+      "epoch": 0.6688403979600368,
+      "grad_norm": 0.09354478865861893,
+      "learning_rate": 8.742409575788075e-05,
+      "loss": 0.3478,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6688403979600368,
+      "eval_loss": 0.3610248863697052,
+      "eval_runtime": 1367.109,
+      "eval_samples_per_second": 305.571,
+      "eval_steps_per_second": 9.549,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6799877379260374,
+      "grad_norm": 0.13489292562007904,
+      "learning_rate": 8.704230726411871e-05,
+      "loss": 0.3465,
+      "step": 3050
+    },
+    {
+      "epoch": 0.691135077892038,
+      "grad_norm": 0.3066965341567993,
+      "learning_rate": 8.665682599002684e-05,
+      "loss": 0.3478,
+      "step": 3100
+    },
+    {
+      "epoch": 0.7022824178580386,
+      "grad_norm": 0.16600176692008972,
+      "learning_rate": 8.626777014365575e-05,
+      "loss": 0.3477,
+      "step": 3150
+    },
+    {
+      "epoch": 0.7134297578240393,
+      "grad_norm": 0.14644253253936768,
+      "learning_rate": 8.587525902920062e-05,
+      "loss": 0.3469,
+      "step": 3200
+    },
+    {
+      "epoch": 0.7245770977900399,
+      "grad_norm": 0.2417059689760208,
+      "learning_rate": 8.547941301041661e-05,
+      "loss": 0.3429,
+      "step": 3250
+    },
+    {
+      "epoch": 0.7357244377560405,
+      "grad_norm": 0.1694221943616867,
+      "learning_rate": 8.508035347370913e-05,
+      "loss": 0.3475,
+      "step": 3300
+    },
+    {
+      "epoch": 0.746871777722041,
+      "grad_norm": 0.11019590497016907,
+      "learning_rate": 8.467820279091068e-05,
+      "loss": 0.3457,
+      "step": 3350
+    },
+    {
+      "epoch": 0.7580191176880416,
+      "grad_norm": 0.11622463166713715,
+      "learning_rate": 8.427308428175548e-05,
+      "loss": 0.3478,
+      "step": 3400
+    },
+    {
+      "epoch": 0.7691664576540423,
+      "grad_norm": 0.2572800815105438,
+      "learning_rate": 8.38651221760634e-05,
+      "loss": 0.3468,
+      "step": 3450
+    },
+    {
+      "epoch": 0.7803137976200429,
+      "grad_norm": 0.2664414644241333,
+      "learning_rate": 8.345444157564472e-05,
+      "loss": 0.3455,
+      "step": 3500
+    },
+    {
+      "epoch": 0.7803137976200429,
+      "eval_loss": 0.3600683808326721,
+      "eval_runtime": 1372.5301,
+      "eval_samples_per_second": 304.364,
+      "eval_steps_per_second": 9.512,
+      "step": 3500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 8970,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 2.215247118336e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6394692b4ac18512a7a049387e4f1b46a7d6b86d79f1e0f6ae7b1378b6f6630a
+size 5585

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b8a9d93f7fe6d70ed5ed4f6a8cad2934f1493bad03eac64cc9928b29b5c3895
 size 523322016

 version https://git-lfs.github.com/spec/v1
+oid sha256:51824f4fd0ce52faeece495ec0c0e9db2f0e9626377b20dde7c45a4e8aa47567
 size 523322016

tb_logs/events.out.tfevents.1761467516.luyao1.803017.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8779df14ca538e09876a816c95cdd56d04605dec21fbe850dc4c552c6a2c9d12
+size 29835

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3548dcc79e6ba8c12ab5ce14e8d5d0a8edd35cabeee7b91e3a58bdaef9c8b298
 size 5585

 version https://git-lfs.github.com/spec/v1
+oid sha256:6394692b4ac18512a7a049387e4f1b46a7d6b86d79f1e0f6ae7b1378b6f6630a
 size 5585