sagar118
/

Custom-LLM-100M

Text Generation

language-modeling

text-generation-inference

Model card Files Files and versions

sagar118 commited on Jan 7

Commit

099e95e

·

verified ·

1 Parent(s): a650d70

Update README.md

Files changed (1) hide show

README.md +6 -1

README.md CHANGED Viewed

@@ -11,7 +11,6 @@ tags:
 model_name: Genesis-100M
 ---
 ## Architecture
 - Decoder-only Transformer (GPT-style)
 - 12 layers
@@ -28,6 +27,12 @@ model_name: Genesis-100M
 - Training steps: 2000
 - Optimizations: Gradient checkpointing, gradient accumulation
 ## Intended Use
 - Research
 - Educational purposes

 model_name: Genesis-100M
 ---
 ## Architecture
 - Decoder-only Transformer (GPT-style)
 - 12 layers
 - Training steps: 2000
 - Optimizations: Gradient checkpointing, gradient accumulation
+## Training Loss Curve
+![Training Loss Curve](training_loss.png)
+The training loss decreased steadily from approximately **9.1 to 5.3** over **2000 training steps**, indicating stable convergence during from-scratch training of the 100M-parameter language model.
 ## Intended Use
 - Research
 - Educational purposes