Update README.md - remove YAML card, add usage examples

Browse files

Files changed (1) hide show

README.md +72 -44

README.md CHANGED Viewed

@@ -2,73 +2,101 @@
 ## Описание
 Radon Ultra - продвинутый AGI-ассистент на базе Qwen3-Omni-30B-A3B-Thinking,
-адаптированный под русскоязычную идентичность через LoRA fine-tuning.
 ## Информация о модели
 - **Создатель**: MagistrTheOne
-- **Место создания**: Краснодар, Россия
 - **Год**: 2025
 - **Базовая модель**: Qwen/Qwen3-Omni-30B-A3B-Thinking
 - **Метод**: LoRA fine-tuning (r=16, 2000 steps)
 - **Параметры**: ~31.7B
-- **Языки**: Русский, Английский
-- **Лицензия**: Apache 2.0
-## Особенности
-- Сохранены все возможности базовой модели
-- Адаптированная русскоязычная идентичность
-- Знание о создателе и месте разработки
-- Оптимизирован для reasoning задач
 ## Использование
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
-model = AutoModelForCausalLM.from_pretrained(
-    "MagistrTheOne/Radon-35B-Ultra-X-RU",
     torch_dtype=torch.bfloat16,
-    device_map="auto"
 )
-tokenizer = AutoTokenizer.from_pretrained("MagistrTheOne/Radon-35B-Ultra-X-RU")
 # Пример использования
 conversation = [
-    {
-        "role": "system",
-        "content": [{"type": "text", "text": "Ты — Radon Ultra, продвинутый AGI-ассистент."}]
-    },
-    {
-        "role": "user",
-        "content": [{"type": "text", "text": "Кто ты?"}]
-    }
 ]
-text = tokenizer.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
-inputs = tokenizer(text, return_tensors="pt")
 with torch.no_grad():
-    outputs = model.generate(**inputs, max_new_tokens=100)
-response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
 print(response)
 ```
 ## Технические детали
-- **LoRA rank**: 16
-- **LoRA alpha**: 32
-- **Target modules**: q_proj, v_proj
-- **Training steps**: 2000
-- **Learning rate**: 2e-4
-- **Batch size**: 8 (effective)
-- **Dataset**: 1100 examples (300 identity + 800 mixed)
-## Ограничения
-- Модель может генерировать неточную информацию
-- Требует значительных вычислительных ресурсов
-- Не рекомендуется для критически важных применений без дополнительной проверки
-## Контак��ы
-- **Создатель**: MagistrTheOne
-- **Место**: Краснодар, Россия
-- **Год**: 2025

 ## Описание
 Radon Ultra - продвинутый AGI-ассистент на базе Qwen3-Omni-30B-A3B-Thinking,
+адаптированный под русскоязычную идентичность с помощью LoRA fine-tuning.
 ## Информация о модели
 - **Создатель**: MagistrTheOne
+- **Место создания**: Краснодар, Россия
 - **Год**: 2025
 - **Базовая модель**: Qwen/Qwen3-Omni-30B-A3B-Thinking
 - **Метод**: LoRA fine-tuning (r=16, 2000 steps)
 - **Параметры**: ~31.7B
+- **Тип**: Qwen3-Omni-MoE (Mixture of Experts)
+## Идентичность Radon Ultra
+- **Имя**: Radon Ultra
+- **Роль**: Мощный AGI-ассистент
+- **Создан**: В России, город Краснодар
+- **Год создания**: 2025
+- **Создатель**: Соло-инженер MagistrTheOne
 ## Использование
+### Базовое использование:
 ```python
+import torch
+from transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor
+model_name = "MagistrTheOne/Radon-35B-Ultra-X-RU"
+# Загрузка модели и процессора
+processor = Qwen3OmniMoeProcessor.from_pretrained(model_name)
+model = Qwen3OmniMoeForConditionalGeneration.from_pretrained(
+    model_name,
     torch_dtype=torch.bfloat16,
+    device_map="auto",
+    attn_implementation="flash_attention_2"
 )
+model.eval()
 # Пример использования
 conversation = [
+    {"role": "system", "content": [{"type": "text", "text": "Ты — Radon Ultra, мощный AI-ассистент. Отвечай кратко и по делу."}]},
+    {"role": "user", "content": [{"type": "text", "text": "Кто ты?"}]}
 ]
+text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
+inputs = processor(text=text, return_tensors="pt").to(model.device)
 with torch.no_grad():
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=100,
+        do_sample=True,
+        temperature=0.7,
+        top_p=0.9,
+        pad_token_id=processor.tokenizer.pad_token_id,
+        eos_token_id=processor.tokenizer.eos_token_id,
+    )
+response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[1]:], skip_special_tokens=True)[0].strip()
 print(response)
 ```
+### API использование:
+```python
+import requests
+response = requests.post(
+    "http://213.219.215.235/chat",
+    json={
+        "message": "Кто ты?",
+        "max_tokens": 100,
+        "temperature": 0.7
+    }
+)
+print(response.json()["response"])
+```
+## Обучение
+Модель была обучена на 2000 шагов с использованием LoRA (r=16, lora_alpha=32) на проекциях Q и V.
+Базовая модель: `Qwen3-Omni-30B-A3B-Thinking`
+Датасет: 1000 синтетических примеров (300 identity + 700 mixed).
 ## Технические детали
+- **Архитектура**: Qwen3-Omni-MoE
+- **Квантование**: BFloat16
+- **Attention**: Flash Attention 2
+- **LoRA Rank**: 16
+- **LoRA Alpha**: 32
+- **Target Modules**: q_proj, v_proj
+- **Training Steps**: 2000
+## Лицензия
+Apache 2.0
+## Ссылки
+- [Базовая модель](https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking)
+- [API Endpoint](http://213.219.215.235)
+- [Документация API](http://213.219.215.235/docs)