MagistrTheOne commited on
Commit
24bcd35
·
verified ·
1 Parent(s): 34d55c1

Add RadonDarkUltima config (5TB model - weights not included)

Browse files
Files changed (3) hide show
  1. README.md +40 -0
  2. config.json +28 -0
  3. weights_info.txt +2 -0
README.md ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ tags:
4
+ - radon
5
+ - dark-ultima
6
+ - 5tb
7
+ - experimental
8
+ - massive
9
+ ---
10
+
11
+ # RadonDarkUltima (5TB)
12
+
13
+ Экспериментальная модель RADON с 5TB параметров.
14
+
15
+ ## ⚠️ ВНИМАНИЕ
16
+ - **ТОЛЬКО КОНФИГ** - веса не включены
17
+ - Требует минимум 5TB VRAM
18
+ - Экспериментальная версия
19
+ - Не рекомендуется для продакшена
20
+
21
+ ## Технические характеристики
22
+ - Параметры: ~5TB
23
+ - Контекст: 32K токенов
24
+ - Слои: 80
25
+ - Головы внимания: 64
26
+ - Размерность: 8192
27
+
28
+ ## Использование
29
+ ```python
30
+ # ВНИМАНИЕ: Требует 5TB+ VRAM!
31
+ from transformers import AutoModelForCausalLM, AutoTokenizer
32
+
33
+ model = AutoModelForCausalLM.from_pretrained("MagistrTheOne/RadonDarkUltima")
34
+ tokenizer = AutoTokenizer.from_pretrained("MagistrTheOne/RadonDarkUltima")
35
+ ```
36
+
37
+ ## Системные требования
38
+ - GPU: 5TB+ VRAM (RTX 4090 x4 или эквивалент)
39
+ - RAM: 10TB+
40
+ - Диск: 10TB+ свободного места
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "GPT2LMHeadModel"
4
+ ],
5
+ "model_type": "gpt2",
6
+ "n_ctx": 32768,
7
+ "n_embd": 8192,
8
+ "n_head": 64,
9
+ "n_layer": 80,
10
+ "n_positions": 32768,
11
+ "vocab_size": 100000,
12
+ "torch_dtype": "float16",
13
+ "transformers_version": "4.36.2",
14
+ "use_cache": true,
15
+ "attention_dropout": 0.0,
16
+ "attn_pdrop": 0.1,
17
+ "bos_token_id": 0,
18
+ "eos_token_id": 2,
19
+ "embd_pdrop": 0.1,
20
+ "initializer_range": 0.02,
21
+ "layer_norm_epsilon": 1e-05,
22
+ "resid_pdrop": 0.1,
23
+ "summary_activation": null,
24
+ "summary_first_dropout": 0.1,
25
+ "summary_proj_to_labels": true,
26
+ "summary_type": "cls_index",
27
+ "summary_use_proj": true
28
+ }
weights_info.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ # Веса модели не включены из-за размера (5TB)
2
+ # Используйте sharded weights или загрузите отдельно