Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

README.md +140 -32
config.json +4 -0
generation_config.json +12 -0
index.html +216 -0
tokenizer_config.json +5 -1

README.md CHANGED Viewed

@@ -1,15 +1,25 @@
 # QED-75M Web (ONNX)
-QED-75M — языковая модель (384 hidden, 32 слоя), экспортированная в ONNX для веб-деплоя.
-## Файлы
-- `model.onnx` (~365 MB) — веса модели
-- `tokenizer.json` — токенизатор
-- `tokenizer_config.json` — конфиг токенизатора
-- `config.json` — архитектура модели
-## Формат промптов
 Модель обучена на чат-формате. Для лучших результатов используйте:
@@ -17,60 +27,158 @@ QED-75M — языковая модель (384 hidden, 32 слоя), экспо
 <|user|>ваш вопрос<|assistant|>
 ```
-**Пример:**
-- Input: `<|user|>What is 2+2?<|assistant|>`
-- Output: `The answer is 4. This is because...`
-## Использование
-### Transformers.js (браузер/Node.js)
-```javascript
-import { pipeline } from '@xenova/transformers';
-// Инициализация
-const generator = await pipeline(
-    'text-generation',
-    'levossadtchi/QED-75M_web',
-    { dtype: 'fp32', device: 'webgpu' }  // или 'wasm' для CPU
-);
 // Генерация
-const result = await generator('<|user|>Hello!<|assistant|>', {
     max_new_tokens: 128,
     temperature: 0.7,
     top_k: 40,
-    do_sample: true
 });
-console.log(result[0].generated_text);
 ```
-### ONNX Runtime Web
 ```javascript
 import * as ort from 'onnxruntime-web';
 const session = await ort.InferenceSession.create('model.onnx');
-// Токенизация + инференс
-const inputIds = tokenize('<|user|>Hello!<|assistant|>');
-const tensor = new ort.Tensor('int64', inputIds, [1, inputIds.length]);
 const { logits } = await session.run({ input_ids: tensor });
 ```
-## Конфигурация
 | Параметр | Значение |
 |----------|----------|
-| Vocabulary | 49,152 |
 | Hidden dim | 384 |
 | Layers | 32 |
-| Heads | 6 |
 | FFN dim | 1,024 |
-| Max length | 8,192 |
 | RoPE θ | 10,000 |
-## Лицензия
 MIT

 # QED-75M Web (ONNX)
+QED-75M — языковая модель (384 hidden, 32 слоя, 75M параметров), оптимизированная для веб-деплоя.
+**Репозиторий:** https://huggingface.co/levossadtchi/QED-75M_web
+---
+## 📁 Файлы
+| Файл | Описание | Размер |
+|------|----------|--------|
+| `model.onnx` | Веса модели (FP32) | ~365 MB |
+| `tokenizer.json` | Словарь токенизатора | ~3 MB |
+| `tokenizer_config.json` | Конфиг токенизатора | <1 KB |
+| `config.json` | Архитектура модели | <1 KB |
+| `generation_config.json` | Параметры генерации | <1 KB |
+| `index.html` | Демо-плейграунд | <10 KB |
+---
+## 💬 Формат промптов
 Модель обучена на чат-формате. Для лучших результатов используйте:
 <|user|>ваш вопрос<|assistant|>
 ```
+**Примеры:**
+| Промпт | Ожидаемый ответ |
+|--------|-----------------|
+| `<|user|>What is 2+2?<|assistant|>` | "The answer is 2 + 2 = 4." |
+| `<|user|>Explain gravity in one sentence.<|assistant|>` | "Gravity is a fundamental force..." |
+| `<|user|>Write a haiku about cats.<|assistant|>` | Стихотворение про котов |
+---
+## 🚀 Использование
+### Вариант 1: Transformers.js (рекомендуется)
+```bash
+npm install @xenova/transformers
+```
+```javascript
+import { AutoTokenizer, AutoModelForCausalLM } from '@xenova/transformers';
+// Загрузка модели
+const tokenizer = await AutoTokenizer.from_pretrained('levossadtchi/QED-75M_web');
+const model = await AutoModelForCausalLM.from_pretrained('levossadtchi/QED-75M_web', {
+    quantized: true,  // Использовать int8 квантование
+    dtype: 'q8',
+    device: 'webgpu',  // или 'wasm' для CPU
+});
 // Генерация
+const prompt = '<|user|>What is 2+2?<|assistant|>';
+const inputs = await tokenizer(prompt, { return_tensors: 'pt' });
+const outputs = await model.generate({
+    ...inputs,
     max_new_tokens: 128,
     temperature: 0.7,
     top_k: 40,
+    do_sample: true,
+    eos_token_id: tokenizer.eos_token_id,
+    pad_token_id: tokenizer.pad_token_id,
 });
+const text = tokenizer.decode(outputs[0], { skip_special_tokens: false });
+console.log(text);
 ```
+### Вариант 2: ONNX Runtime Web (низкоуровневый)
+```bash
+npm install onnxruntime-web
+```
 ```javascript
 import * as ort from 'onnxruntime-web';
+// Загрузка
 const session = await ort.InferenceSession.create('model.onnx');
+// Инференс
+const inputIds = [1, 15826, 15, 638]; // токены
+const tensor = new ort.Tensor('int64', BigInt64Array.from(inputIds.map(BigInt)), [1, inputIds.length]);
 const { logits } = await session.run({ input_ids: tensor });
+// Greedy decoding
+const nextToken = logits.data.reduce((maxIdx, val, idx) => val > logits.data[maxIdx] ? idx : maxIdx, 0);
 ```
+### Вариант 3: Готовый HTML
+Откройте `index.html` в браузере или задеплойте на Vercel/Netlify.
+---
+## ⚙️ Параметры генерации
+| Параметр | По умолчанию | Описание |
+|----------|--------------|----------|
+| `max_new_tokens` | 128 | Макс. количество новых токенов |
+| `temperature` | 0.7 | Креативность (0 = greedy, >1 = хаос) |
+| `top_k` | 40 | Сэмплирование из top-k токенов |
+| `top_p` | 0.9 | Nucleus sampling (альтернатива top_k) |
+| `repetition_penalty` | 1.1 | Штраф за повторы |
+**Рекомендации:**
+- Для фактов: `temperature=0.5, top_k=30`
+- Для креатива: `temperature=0.8, top_k=50`
+- Для кода: `temperature=0.2, top_k=20`
+---
+## 🏗 Архитектура
 | Параметр | Значение |
 |----------|----------|
+| Vocabulary | 49,152 токенов |
 | Hidden dim | 384 |
 | Layers | 32 |
+| Attention heads | 6 |
 | FFN dim | 1,024 |
+| Max length | 8,192 токена |
 | RoPE θ | 10,000 |
+| RMSNorm ε | 1e-5 |
+---
+## 📦 Квантование
+Для уменьшения размера модели используйте int8 квантование:
+```bash
+pip install onnxruntime-tools
+python -c "
+from onnxruntime.quantization import quantize_dynamic, QuantType
+quantize_dynamic('model.onnx', 'model_quantized.onnx', weight_type=QuantType.QUInt8)
+"
+```
+**Размеры:**
+- Оригинал (FP32): ~365 MB
+- Квантованная (INT8): ~95 MB (−74%)
+---
+## 🌐 Браузерная поддержка
+| Технология | Поддержка | Размер | Скорость |
+|------------|-----------|--------|----------|
+| **WebGPU** | Chrome 113+, Edge | ~100 MB | ⚡⚡⚡ Быстро |
+| **WASM** | Все браузеры | ~100 MB | ⚡⚡ Средне |
+| **CPU** | Резервный режим | ~365 MB | ⚡ Медленно |
+---
+## 🔧 Локальный запуск
+```bash
+# Клонировать репозиторий
+git lfs install
+git clone https://huggingface.co/levossadtchi/QED-75M_web
+# Запустить локальный сервер
+cd QED-75M_web
+python -m http.server 8000
+# Открыть в браузере
+open http://localhost:8000/index.html
+```
+---
+## 📝 Лицензия
 MIT

config.json CHANGED Viewed

@@ -14,6 +14,7 @@
   "pad_token_id": 0,
   "bos_token_id": 1,
   "eos_token_id": 2,
   "model_type": "qed",
   "architectures": [
     "QEDForCausalLM"
@@ -21,5 +22,8 @@
   "auto_map": {
     "AutoConfig": "modeling_qed.QEDConfig",
     "AutoModelForCausalLM": "modeling_qed.QEDForCausalLM"
   }
 }

   "pad_token_id": 0,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "unk_token_id": 3,
   "model_type": "qed",
   "architectures": [
     "QEDForCausalLM"
   "auto_map": {
     "AutoConfig": "modeling_qed.QEDConfig",
     "AutoModelForCausalLM": "modeling_qed.QEDForCausalLM"
+  },
+  "onnx": {
+    "quantized": true
   }
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "max_length": 8192,
+  "max_new_tokens": 512,
+  "do_sample": true,
+  "temperature": 0.7,
+  "top_k": 40,
+  "top_p": 0.9,
+  "repetition_penalty": 1.1,
+  "pad_token_id": 0,
+  "bos_token_id": 1,
+  "eos_token_id": 2
+}

index.html ADDED Viewed

	@@ -0,0 +1,216 @@

+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>QED-75M Playground</title>
+    <style>
+        body {
+            font-family: system-ui, -apple-system, sans-serif;
+            max-width: 800px;
+            margin: 0 auto;
+            padding: 20px;
+            background: #f5f5f5;
+        }
+        .container {
+            background: white;
+            border-radius: 8px;
+            padding: 20px;
+            box-shadow: 0 2px 4px rgba(0,0,0,0.1);
+        }
+        h1 { color: #333; }
+        textarea {
+            width: 100%;
+            min-height: 100px;
+            padding: 12px;
+            border: 1px solid #ddd;
+            border-radius: 4px;
+            font-size: 16px;
+            resize: vertical;
+        }
+        button {
+            background: #007bff;
+            color: white;
+            border: none;
+            padding: 12px 24px;
+            border-radius: 4px;
+            font-size: 16px;
+            cursor: pointer;
+            margin-top: 10px;
+        }
+        button:hover { background: #0056b3; }
+        button:disabled { background: #ccc; cursor: not-allowed; }
+        .output {
+            margin-top: 20px;
+            padding: 15px;
+            background: #f8f9fa;
+            border-radius: 4px;
+            white-space: pre-wrap;
+            line-height: 1.6;
+        }
+        .status {
+            margin-top: 10px;
+            padding: 10px;
+            border-radius: 4px;
+            font-size: 14px;
+        }
+        .loading { background: #fff3cd; color: #856404; }
+        .ready { background: #d4edda; color: #155724; }
+        .error { background: #f8d7da; color: #721c24; }
+        .settings {
+            margin-top: 15px;
+            display: grid;
+            grid-template-columns: repeat(auto-fit, minmax(150px, 1fr));
+            gap: 10px;
+        }
+        .settings label {
+            display: block;
+            font-size: 14px;
+            margin-bottom: 5px;
+        }
+        .settings input {
+            width: 100%;
+            padding: 8px;
+            border: 1px solid #ddd;
+            border-radius: 4px;
+        }
+    </style>
+</head>
+<body>
+    <div class="container">
+        <h1>🧪 QED-75M Playground</h1>
+        <div id="status" class="status loading">Loading model...</div>
+        <div class="settings">
+            <div>
+                <label>Max tokens: <span id="maxTokensVal">128</span></label>
+                <input type="range" id="maxTokens" min="32" max="512" value="128" step="32">
+            </div>
+            <div>
+                <label>Temperature: <span id="tempVal">0.7</span></label>
+                <input type="range" id="temperature" min="0.1" max="1.5" value="0.7" step="0.1">
+            </div>
+            <div>
+                <label>Top K: <span id="topKVal">40</span></label>
+                <input type="range" id="topK" min="10" max="100" value="40" step="10">
+            </div>
+        </div>
+        <textarea id="prompt" placeholder="Enter your prompt here...
+Example: <|user|>What is 2+2?<|assistant|>"></textarea>
+        <button id="generateBtn" disabled>Generate</button>
+        <div class="output" id="output"></div>
+    </div>
+    <script type="module">
+        // Import Transformers.js
+        import { AutoTokenizer, AutoModelForCausalLM, GenerationConfig } from 'https://cdn.jsdelivr.net/npm/@xenova/transformers@2.14.0';
+        const MODEL_ID = 'levossadtchi/QED-75M_web';
+        let tokenizer = null;
+        let model = null;
+        // UI elements
+        const statusEl = document.getElementById('status');
+        const promptEl = document.getElementById('prompt');
+        const outputEl = document.getElementById('output');
+        const generateBtn = document.getElementById('generateBtn');
+        const maxTokensEl = document.getElementById('maxTokens');
+        const tempEl = document.getElementById('temperature');
+        const topKEl = document.getElementById('topK');
+        // Update value displays
+        maxTokensEl.addEventListener('input', (e) => {
+            document.getElementById('maxTokensVal').textContent = e.target.value;
+        });
+        tempEl.addEventListener('input', (e) => {
+            document.getElementById('tempVal').textContent = e.target.value;
+        });
+        topKEl.addEventListener('input', (e) => {
+            document.getElementById('topKVal').textContent = e.target.value;
+        });
+        // Load model
+        async function loadModel() {
+            try {
+                // Load tokenizer
+                tokenizer = await AutoTokenizer.from_pretrained(MODEL_ID, {
+                    local_files_only: false,
+                });
+                // Load model with quantization
+                model = await AutoModelForCausalLM.from_pretrained(MODEL_ID, {
+                    quantized: true,
+                    dtype: 'q8',  // int8 quantization
+                    device: 'webgpu',  // Try WebGPU first, fallback to WASM
+                });
+                statusEl.textContent = '✅ Model ready!';
+                statusEl.className = 'status ready';
+                generateBtn.disabled = false;
+            } catch (error) {
+                statusEl.textContent = '❌ Error loading model: ' + error.message;
+                statusEl.className = 'status error';
+                console.error('Model loading error:', error);
+            }
+        }
+        // Generate text
+        async function generate() {
+            const prompt = promptEl.value.trim();
+            if (!prompt) return;
+            generateBtn.disabled = true;
+            generateBtn.textContent = 'Generating...';
+            outputEl.textContent = '';
+            try {
+                // Tokenize input
+                const inputs = await tokenizer(prompt, {
+                    return_tensors: 'pt',
+                    add_special_tokens: false,
+                });
+                // Generate
+                const outputs = await model.generate({
+                    ...inputs,
+                    max_new_tokens: parseInt(maxTokensEl.value),
+                    temperature: parseFloat(tempEl.value),
+                    top_k: parseInt(topKEl.value),
+                    do_sample: parseFloat(tempEl.value) > 0,
+                    eos_token_id: tokenizer.eos_token_id,
+                    pad_token_id: tokenizer.pad_token_id,
+                });
+                // Decode and display
+                const text = tokenizer.decode(outputs[0], {
+                    skip_special_tokens: false,
+                });
+                outputEl.textContent = text;
+            } catch (error) {
+                outputEl.textContent = 'Error: ' + error.message;
+            } finally {
+                generateBtn.disabled = false;
+                generateBtn.textContent = 'Generate';
+            }
+        }
+        generateBtn.addEventListener('click', generate);
+        // Allow Ctrl+Enter to generate
+        promptEl.addEventListener('keydown', (e) => {
+            if (e.ctrlKey && e.key === 'Enter') {
+                generate();
+            }
+        });
+        // Start loading
+        loadModel();
+    </script>
+</body>
+</html>

tokenizer_config.json CHANGED Viewed

@@ -9,5 +9,9 @@
   "pad_token_id": 0,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "unk_token_id": 3
 }

   "pad_token_id": 0,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "unk_token_id": 3,
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "clean_up_tokenization_spaces": true,
+  "split_special_tokens": false
 }