Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -47,7 +47,9 @@ GPT-124M is a decoder-only transformer model based on OpenAI’s GPT-2 architect
 ## Model Sources
 - **Paper:** [Language Models are Unsupervised Multitask Learners](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf)
-- **Paper:** [Language Modeling with Transformers](https://arxiv.org/pdf/2005.14165)
 - **Demo:** [More Information Needed]
 ## Model Details
@@ -66,7 +68,7 @@ GPT-124M is a lightweight generative language model fine-tuned on the `fineweb-e
 - **Dataset:** `fineweb-edu` (10 billion tokens)
 - **Training Date:** `January 2025`
 - **Validation Dataset:** 100 million tokens of HuggingFaceFW/fineweb-edu
--
 ## Usage
 ### Direct Use

 ## Model Sources
 - **Paper:** [Language Models are Unsupervised Multitask Learners](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf)
+- **Paper:** [Language Models are Few-Shot Learners](https://arxiv.org/pdf/2005.14165)
+- **Paper:** [Training Compute-Optimal Large Language Models](https://arxiv.org/pdf/2203.15556)
+- **Video:** [Andrej Karpathy-Let's reproduce GPT-2 (124M)](https://youtu.be/l8pRSuU81PU?si=KAo1y9dHYQAGJmj5)
 - **Demo:** [More Information Needed]
 ## Model Details
 - **Dataset:** `fineweb-edu` (10 billion tokens)
 - **Training Date:** `January 2025`
 - **Validation Dataset:** 100 million tokens of HuggingFaceFW/fineweb-edu
 ## Usage
 ### Direct Use