Duplicate from ViorikaAI-org/RuGPT-5-small-v1

Browse files

Files changed (7) hide show

.gitattributes +35 -0
README.md +41 -0
config.json +23 -0
model.safetensors +3 -0
special_tokens_map.json +6 -0
tokenizer.json +0 -0
tokenizer_config.json +44 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,41 @@

+---
+license: apache-2.0
+language:
+- ru
+base_model: gpt-2
+tags:
+- gpt-5
+- russian
+- conversational
+- deepseek
+model-index:
+- name: RuGPT-5-small
+  results: []
+library_name: transformers
+model_creator: ViorikaAI
+pipeline_tag: text-generation
+datasets:
+- Den4ikAI/russian_dialogues
+- SiberiaSoft/SiberianPersonaChat
+---
+# 🌌 RuGPT-5-small (v1.0)
+**!!!АХТУНГ!!!** Данная модель не создана компанией **"СБЕР"** это кастомный LM.
+# Подробнее:
+## ⚙️ Детали модели
+- **Архитектура: используется GPT + DeepSeek, но модель своя.**
+- **Параметры: 320M**
+- **Язык: Русский, только русский.**
+- **Лицения: Apache 2.0**
+## 🏋️ Детали Тренировки
+- **Датасет:** ``
+- **Железо:** **ОДНА** NVIDIA **GEFORCE RTX 5060 TI** (16GB VRAM)
+- **Эпохи:** ...
+- **Шагов:** - 115 тысяч
+- **СРЕДНИЙ LOSS:** 3.501953
+- **Оптимизатор:** lr = 2e-4
+- **Контекст:** 2048 токенов

config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": ["GPT2LMHeadModel"],
+  "model_type": "gpt2",
+  "vocab_size": 50000,
+  "n_positions": 2048,
+  "n_ctx": 2048,
+  "n_embd": 1024,
+  "n_layer": 16,
+  "n_head": 16,
+  "intermediate_size": 3072,
+  "activation_function": "gelu_new",
+  "resid_pdrop": 0.1,
+  "embd_pdrop": 0.1,
+  "attn_pdrop": 0.1,
+  "layer_norm_epsilon": 1e-5,
+  "initializer_range": 0.02,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "pad_token_id": 1,
+  "gradient_checkpointing": false,
+  "use_cache": true,
+  "num_experts": 0
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bb319053001ab66f8653beae28ccd7b5dffabc8f1da4cd5aea8b5f04d89cb34
+size 641320328

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "[BOS]",
+  "eos_token": "[EOS]",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[BOS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[EOS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[BOS]",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "[EOS]",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "[UNK]"
+}