levos06 commited on
Commit
42e6c3e
·
verified ·
1 Parent(s): fcac7c3

Upload model files

Browse files
Files changed (1) hide show
  1. README.md +3 -5
README.md CHANGED
@@ -16,11 +16,11 @@ Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, Sw
16
 
17
  ## Характеристики
18
 
19
- - **Параметры**: ~17M (SFT версия)
20
  - **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
21
  - **Контекст**: 512 токенов
22
  - **Словарь**: GPT-2 tokenizer (50,257 токенов)
23
- - **Обучение**: Pre-training + Supervised Fine-Tuning
24
 
25
  ## Использование
26
 
@@ -58,9 +58,7 @@ tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
58
 
59
  ## Обучение
60
 
61
- Модель обучена на:
62
- 1. FineWeb-Edu dataset для pre-training
63
- 2. Supervised Fine-Tuning на инструкциях
64
 
65
  Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)
66
 
 
16
 
17
  ## Характеристики
18
 
19
+ - **Параметры**: ~17M
20
  - **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
21
  - **Контекст**: 512 токенов
22
  - **Словарь**: GPT-2 tokenizer (50,257 токенов)
23
+ - **Обучение**: Supervised Fine-Tuning
24
 
25
  ## Использование
26
 
 
58
 
59
  ## Обучение
60
 
61
+ Модель обучена методом Supervised Fine-Tuning на инструкциях.
 
 
62
 
63
  Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)
64