Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

logs/output_run_20260202_outskip_reboant.log +82 -0
logs/output_run_20260202_unplace_stormer.log +61 -0
logs/run_20260202_outskip_reboant_train.csv +6 -0
logs/run_20260202_outskip_reboant_train.png +0 -0
logs/run_20260202_outskip_reboant_val.csv +1 -0

logs/output_run_20260202_outskip_reboant.log ADDED Viewed

	@@ -0,0 +1,82 @@

+2026-02-02 10:33:27,808 - root - INFO - Run: run_20260202_outskip_reboant
+2026-02-02 10:33:27,808 - root - INFO - Log directory: /root/tiny_moe/training_runs/Tiny_MoE/logs
+2026-02-02 10:33:27,809 - root - INFO - Output dir: /root/tiny_moe/training_runs
+2026-02-02 10:33:30,313 - jax._src.xla_bridge - INFO - Unable to initialize backend 'tpu': INTERNAL: Failed to open libtpu.so: libtpu.so: cannot open shared object file: No such file or directory
+2026-02-02 10:33:33,681 - root - INFO - Flax version: 0.11.1
+2026-02-02 10:33:33,681 - root - INFO - Optax version: 0.2.6
+2026-02-02 10:33:33,682 - root - INFO - Platform: gpu
+2026-02-02 10:33:33,682 - root - INFO - Num Devices: 8
+2026-02-02 10:33:33,682 - root - INFO - Devices: [CudaDevice(id=0), CudaDevice(id=1), CudaDevice(id=2), CudaDevice(id=3), CudaDevice(id=4), CudaDevice(id=5), CudaDevice(id=6), CudaDevice(id=7)]
+2026-02-02 10:33:34,484 - root - INFO - Model config:
+Config(name='Tiny_MoE',
+       dtype=<class 'jax.numpy.bfloat16'>,
+       vocab_size=50304,
+       block_size=4096,
+       n_layer=30,
+       n_embed=672,
+       n_glu_hidden=2048,
+       n_head=12,
+       n_kv_head=4,
+       n_experts=8,
+       init_stddev=0.02,
+       expert_load_factor=1.25,
+       aux_loss_coeff=0.01,
+       moe_bias=True,
+       mlp_bias=False,
+       attention_bias=False,
+       load_balance_loss_coeff=0.01,
+       z_loss_coeff=0.0005,
+       expert_top_k=2,
+       ln_epsilon=1e-05,
+       rope_theta=0.0001,
+       expert_partition_spec=PartitionSpec('devices',),
+       sdpa_implementation='flash_attn_jax',
+       window_size=(512, 0),
+       value_residual_init=0.5,
+       logit_softcap=30.0)
+2026-02-02 10:35:15,485 - root - INFO - Parameter Count: 1,062,185,550
+2026-02-02 10:35:15,485 - root - INFO - Sharded / MoE Parameter Count: 992,210,160
+2026-02-02 10:35:15,485 - root - INFO - Replicated Parameter Count: 69,975,390
+2026-02-02 10:35:16,940 - root - INFO - Weight decay param count: 1,062,140,928
+2026-02-02 10:35:16,941 - root - INFO - Training config:
+TrainerConfig(num_tokens=100000000000,
+              num_tokens_per_batch=262144,
+              mB=64,
+              T=4096,
+              max_steps=381469,
+              max_lr=0.008,
+              min_lr=0.0008,
+              max_grad_norm=1.0,
+              weight_decay=0.1,
+              adam_b1=0.9,
+              adam_b2=0.95,
+              warmup_steps=3814,
+              print_interval=100,
+              val=True,
+              val_interval=5000,
+              val_batches=50,
+              checkpoint_model=False,
+              checkpoint_optimizer=False,
+              checkpoint_interval=10000)
+2026-02-02 10:35:16,941 - root - INFO - Effective batch size per device: 8
+2026-02-02 10:35:21,859 - root - INFO - HuggingfaceDataLoader: 1030 shards (train)
+2026-02-02 10:35:21,944 - root - INFO - HuggingfaceDataLoader initialized:
+------------------------
+label:          train
+shards:         1,030
+shard size:     100,000,000
+batch size:     64
+block size:     4096
+device rank:    1
+start shard:    0
+start pos:      0
+------------------------
+2026-02-02 10:35:21,944 - root - INFO - HuggingfaceDataLoader: 1 shards (val)
+2026-02-02 10:35:22,030 - root - INFO - Starting from step: 0
+2026-02-02 10:39:58,092 - root - INFO - 100 | lr: 0.0002 | loss: 6.9877 | logits loss: 6.6875 | load balance loss: 30.3411 | z loss: 17.1250 | avg iter time: 0.00ms | avg tok/sec: 0.00 | tokens processed: 26,214,400 | elapsed: 0h 4m 36s | ETA: calculating...
+2026-02-02 10:41:16,197 - root - INFO - 200 | lr: 0.0004 | loss: 5.9530 | logits loss: 5.6562 | load balance loss: 30.4010 | z loss: 12.1875 | avg iter time: 780.98ms | avg tok/sec: 335,658.21 | tokens processed: 52,428,800 | elapsed: 0h 5m 54s | ETA: 82h 42m
+2026-02-02 10:42:34,244 - root - INFO - 300 | lr: 0.0006 | loss: 5.4104 | logits loss: 5.0938 | load balance loss: 30.2613 | z loss: 8.2500 | avg iter time: 780.40ms | avg tok/sec: 335,907.96 | tokens processed: 78,643,200 | elapsed: 0h 7m 12s | ETA: 82h 37m
+2026-02-02 10:43:52,355 - root - INFO - 400 | lr: 0.0008 | loss: 5.2326 | logits loss: 4.9375 | load balance loss: 30.2812 | z loss: 4.6875 | avg iter time: 780.99ms | avg tok/sec: 335,657.85 | tokens processed: 104,857,600 | elapsed: 0h 8m 30s | ETA: 82h 40m
+2026-02-02 10:45:10,457 - root - INFO - 500 | lr: 0.0011 | loss: 4.7870 | logits loss: 4.4688 | load balance loss: 30.2062 | z loss: 3.9844 | avg iter time: 780.95ms | avg tok/sec: 335,672.76 | tokens processed: 131,072,000 | elapsed: 0h 9m 48s | ETA: 82h 38m
+2026-02-02 10:45:29,627 - root - WARNING - Received KeyboardInterrupt. Exiting...
+2026-02-02 10:45:29,910 - root - INFO - Training completed.

logs/output_run_20260202_unplace_stormer.log ADDED Viewed

	@@ -0,0 +1,61 @@

+2026-02-02 10:30:36,879 - root - INFO - Run: run_20260202_unplace_stormer
+2026-02-02 10:30:36,880 - root - INFO - Log directory: /root/tiny_moe/training_runs/Tiny_MoE/logs
+2026-02-02 10:30:36,880 - root - INFO - Output dir: /root/tiny_moe/training_runs
+2026-02-02 10:30:39,364 - jax._src.xla_bridge - INFO - Unable to initialize backend 'tpu': INTERNAL: Failed to open libtpu.so: libtpu.so: cannot open shared object file: No such file or directory
+2026-02-02 10:30:42,683 - root - INFO - Flax version: 0.11.1
+2026-02-02 10:30:42,683 - root - INFO - Optax version: 0.2.6
+2026-02-02 10:30:42,683 - root - INFO - Platform: gpu
+2026-02-02 10:30:42,683 - root - INFO - Num Devices: 8
+2026-02-02 10:30:42,683 - root - INFO - Devices: [CudaDevice(id=0), CudaDevice(id=1), CudaDevice(id=2), CudaDevice(id=3), CudaDevice(id=4), CudaDevice(id=5), CudaDevice(id=6), CudaDevice(id=7)]
+2026-02-02 10:30:43,545 - root - INFO - Model config:
+Config(name='Tiny_MoE',
+       dtype=<class 'jax.numpy.bfloat16'>,
+       vocab_size=50304,
+       block_size=4096,
+       n_layer=30,
+       n_embed=672,
+       n_glu_hidden=2048,
+       n_head=12,
+       n_kv_head=4,
+       n_experts=8,
+       init_stddev=0.02,
+       expert_load_factor=1.25,
+       aux_loss_coeff=0.01,
+       moe_bias=True,
+       mlp_bias=False,
+       attention_bias=False,
+       load_balance_loss_coeff=0.01,
+       z_loss_coeff=0.0005,
+       expert_top_k=2,
+       ln_epsilon=1e-05,
+       rope_theta=0.0001,
+       expert_partition_spec=PartitionSpec('devices',),
+       sdpa_implementation='flash_attn_jax',
+       window_size=(512, 0),
+       value_residual_init=0.5,
+       logit_softcap=30.0)
+2026-02-02 10:32:31,109 - root - INFO - Parameter Count: 1,062,185,550
+2026-02-02 10:32:31,109 - root - INFO - Sharded / MoE Parameter Count: 992,210,160
+2026-02-02 10:32:31,109 - root - INFO - Replicated Parameter Count: 69,975,390
+2026-02-02 10:32:32,634 - root - INFO - Weight decay param count: 1,062,140,928
+2026-02-02 10:32:32,634 - root - INFO - Training config:
+TrainerConfig(num_tokens=100000000000,
+              num_tokens_per_batch=262144,
+              mB=128,
+              T=4096,
+              max_steps=381469,
+              max_lr=0.008,
+              min_lr=0.0008,
+              max_grad_norm=1.0,
+              weight_decay=0.1,
+              adam_b1=0.9,
+              adam_b2=0.95,
+              warmup_steps=3814,
+              print_interval=100,
+              val=True,
+              val_interval=5000,
+              val_batches=50,
+              checkpoint_model=False,
+              checkpoint_optimizer=False,
+              checkpoint_interval=10000)
+2026-02-02 10:32:32,635 - root - INFO - Effective batch size per device: 16

logs/run_20260202_outskip_reboant_train.csv ADDED Viewed

	@@ -0,0 +1,6 @@

+step,lr,loss,load_balance_loss,z_loss,time,tokens_processed,tokens_per_sec,elapsed_seconds
+100,0.00021185107,6.987718105316162,30.34114646911621,17.125,0,26214400,0,276.06064891815186
+200,0.0004216046,5.953006744384766,30.400999069213867,12.1875,780.9849190711975,52428800,335658.2100352977,354.1655626296997
+300,0.0006313581,5.410363674163818,30.261280059814453,8.25,780.404257774353,78643200,335907.957175442,432.21277475357056
+400,0.0008411117,5.232638835906982,30.28117561340332,4.6875,780.9857678413391,104857600,335657.845244186,510.3233594894409
+500,0.0010508653,4.787019729614258,30.20621109008789,3.984375,780.9510564804077,131072000,335672.76441295986,588.4260060787201

logs/run_20260202_outskip_reboant_train.png ADDED Viewed

logs/run_20260202_outskip_reboant_val.csv ADDED Viewed

	@@ -0,0 +1 @@


1	+ step,loss,logits_loss