levos06
/

vel_17M

@@ -16,11 +16,11 @@ Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, Sw
 ## Характеристики
-- **Параметры**: ~17M (SFT версия)
 - **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
 - **Контекст**: 512 токенов
 - **Словарь**: GPT-2 tokenizer (50,257 токенов)
-- **Обучение**: Pre-training + Supervised Fine-Tuning
 ## Использование
@@ -58,9 +58,7 @@ tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
 ## Обучение
-Модель обучена на:
-1. FineWeb-Edu dataset для pre-training
-2. Supervised Fine-Tuning на инструкциях
 Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)

 ## Характеристики
+- **Параметры**: ~17M
 - **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
 - **Контекст**: 512 токенов
 - **Словарь**: GPT-2 tokenizer (50,257 токенов)
+- **Обучение**: Supervised Fine-Tuning
 ## Использование
 ## Обучение
+Модель обучена методом Supervised Fine-Tuning на инструкциях.
 Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)