Ashx098
/

Mini-LLM

@@ -1,3 +1,25 @@
 # 🧠 Mini-LLM — 80M Parameter Transformer (Pretrained From Scratch)
 <p align="center">
@@ -85,7 +107,7 @@ print(tok.decode(outputs[0], skip_special_tokens=True))
 - Trained on 1× NVIDIA A100 80GB
 ## 📊 Training Curve
-<p align="center"> <img src="phase-1-pretraining/plots/loss_curve.png" width="500"> </p>
 Final loss reached: ~3.25

+---
+language:
+- en
+license: mit
+tags:
+- llm
+- decoder-only
+- transformer
+- from-scratch
+- research
+- educational
+- 80m
+- pytorch
+- pretraining
+- custom-architecture
+pipeline_tag: text-generation
+inference:
+  parameters:
+    temperature: 0.7
+    top_p: 0.95
+---
 # 🧠 Mini-LLM — 80M Parameter Transformer (Pretrained From Scratch)
 <p align="center">
 - Trained on 1× NVIDIA A100 80GB
 ## 📊 Training Curve
+<p align="center"> <img src="https://huggingface.co/Ashx098/Mini-LLM/resolve/main/phase-1-pretraining/plots/loss_curve.png" width="500"> </p>
 Final loss reached: ~3.25