Commit History

Upload ascii-chart5-L4-D768-mkii-c1932d6c-1962-493d-b0b7-78e84e30e4e5.txt with huggingface_hub

4adce2e
verified

SQCU commited on Nov 20, 2025

Upload ascii-eos-L4-D768-rollout-test-01661b5f-2ff7-49b1-9ad8-fee77e14bd1c.txt with huggingface_hub

6a81277
verified

SQCU commited on Nov 20, 2025

Upload folder using huggingface_hub

95a04a0
verified

SQCU commited on Nov 20, 2025

Upload folder using huggingface_hub

07c9491
verified

SQCU commited on Nov 20, 2025

Upload folder using huggingface_hub

8129d8f
verified

SQCU commited on Nov 20, 2025

compiled models train faster so you can train more of them in a short experiment, to better convergence.

921107d
verified

SQCU commited on Feb 3, 2025

89,301,000 parameter attention_ii, z_lossed model trained for 6250 steps at batchsize:4*32, device_batchsize:32

8a69386
verified

SQCU commited on Feb 1, 2025

sling the illustrious and mysterious "attention_II" models. also some layerwise rmsnorm, qkprojection rmsnorm models, one twice as large as the other.

1f45909
verified

SQCU commited on Feb 1, 2025

Upload 8 files

6d543db
verified

SQCU commited on Jan 26, 2025

Update README.md

87045f5
verified

SQCU commited on Jan 26, 2025

Create README.md

fd3ca39
verified

SQCU commited on Jan 26, 2025

initial commit

5e8f667
verified

SQCU commited on Jan 26, 2025

Commit History

Upload ascii-chart5-L4-D768-mkii-c1932d6c-1962-493d-b0b7-78e84e30e4e5.txt with huggingface_hub 4adce2e verified

Upload ascii-eos-L4-D768-rollout-test-01661b5f-2ff7-49b1-9ad8-fee77e14bd1c.txt with huggingface_hub 6a81277 verified

Upload folder using huggingface_hub 95a04a0 verified

Upload folder using huggingface_hub 07c9491 verified

Upload folder using huggingface_hub 8129d8f verified

compiled models train faster so you can train more of them in a short experiment, to better convergence. 921107d verified

89,301,000 parameter attention_ii, z_lossed model trained for 6250 steps at batchsize:4*32, device_batchsize:32 8a69386 verified

sling the illustrious and mysterious "attention_II" models. also some layerwise rmsnorm, qkprojection rmsnorm models, one twice as large as the other. 1f45909 verified

Upload 8 files 6d543db verified

Update README.md 87045f5 verified

Create README.md fd3ca39 verified

initial commit 5e8f667 verified

Upload ascii-chart5-L4-D768-mkii-c1932d6c-1962-493d-b0b7-78e84e30e4e5.txt with huggingface_hub

4adce2e
verified

Upload ascii-eos-L4-D768-rollout-test-01661b5f-2ff7-49b1-9ad8-fee77e14bd1c.txt with huggingface_hub

6a81277
verified

Upload folder using huggingface_hub

95a04a0
verified

Upload folder using huggingface_hub

07c9491
verified

Upload folder using huggingface_hub

8129d8f
verified

compiled models train faster so you can train more of them in a short experiment, to better convergence.

921107d
verified

89,301,000 parameter attention_ii, z_lossed model trained for 6250 steps at batchsize:4*32, device_batchsize:32

8a69386
verified

sling the illustrious and mysterious "attention_II" models. also some layerwise rmsnorm, qkprojection rmsnorm models, one twice as large as the other.

1f45909
verified

Upload 8 files

6d543db
verified

Update README.md

87045f5
verified

Create README.md

fd3ca39
verified

initial commit

5e8f667
verified