LisaMegaWatts
/

MicroJulia

Text Generation

character-level

learned-position-embeddings

Model card Files Files and versions

LisaMegaWatts commited on 14 days ago

Commit

c250c9f

·

verified ·

1 Parent(s): db7357a

Upload README.md with huggingface_hub

Files changed (1) hide show

README.md +38 -0

README.md ADDED Viewed

	@@ -0,0 +1,38 @@

+---
+language:
+- en
+library_name: julia
+pipeline_tag: text-generation
+tags:
+- character-level
+- philosophy
+- mathematics
+- julia
+- scalar-autograd
+- pure-julia
+datasets:
+- LisaMegaWatts/microjulia-data
+---
+# MicroJulia
+A minimal character-level GPT built entirely in pure Julia with scalar autograd. No external ML dependencies.
+## Architecture
+- 1 transformer layer, 4 attention heads
+- n_embd=16, block_size=64
+- RMSNorm, ReLU, KV cache for causal masking
+- Adam optimizer with linear LR decay
+- ~5K parameters
+## Vocabulary
+27 characters (a-z + space) + BOS = 28 vocab
+## Training
+- **Dataset:** Aristotle's Rhetoric + Euclid's Elements (8,487 chunks)
+- **Current checkpoint:** step 150, val_loss=2.4315
+## Links
+- [Live inference (HF Space)](https://huggingface.co/spaces/LisaMegaWatts/MicroJulia)
+- [Training data](https://huggingface.co/datasets/LisaMegaWatts/microjulia-data)
+- [Source code](https://github.com/DavinciDreams/micro-julia)