gopi87
/

shakespeare-transformer-learning

Model card Files Files and versions

gopi87 commited on Dec 2, 2025

Commit

a49cd12

·

verified ·

1 Parent(s): e8bf402

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ This is a **learning project** demonstrating how to train a transformer-based la
 - **Model Type:** Character-level Transformer Language Model
 - **Architecture:** 6-layer Transformer Encoder with causal masking
-- **Parameters:** ~1M parameters
 - **Training Data:** Shakespeare's plays (~1.1M characters)
 - **Framework:** PyTorch
 - **Training Time:** ~8 hours on single GPU
@@ -138,7 +138,7 @@ What light through yonder window breaks?
 - ❌ Not suitable for production use
 ### What This Model Is NOT
-- ❌ Not comparable to GPT-2, GPT-3, or modern LLMs
 - ❌ Not fine-tuned for instruction following
 - ❌ Not suitable for serious text generation applications
 - ❌ Not production-ready
@@ -184,7 +184,7 @@ This project was an educational exercise in:
 | Model | Parameters | Quality |
 |-------|------------|---------|
-| This Model | 1M | Low (educational) |
 | GPT-2 Small | 117M | High |
 | GPT-3 | 175B | Very High |

 - **Model Type:** Character-level Transformer Language Model
 - **Architecture:** 6-layer Transformer Encoder with causal masking
+- **Parameters:** ~4M parameters
 - **Training Data:** Shakespeare's plays (~1.1M characters)
 - **Framework:** PyTorch
 - **Training Time:** ~8 hours on single GPU
 - ❌ Not suitable for production use
 ### What This Model Is NOT
+- ❌ Not comparable to GPT-2, GPT-3, or modern LLMs (GPT-2 Small has 117M, ~30x larger)
 - ❌ Not fine-tuned for instruction following
 - ❌ Not suitable for serious text generation applications
 - ❌ Not production-ready
 | Model | Parameters | Quality |
 |-------|------------|---------|
+| This Model | 4M | Low (educational) |
 | GPT-2 Small | 117M | High |
 | GPT-3 | 175B | Very High |