File size: 3,651 Bytes
6b8fdff | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 | ---
license: apache-2.0
base_model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
tags:
- gguf
- russian
- legal
- investigator
- tinyLlama
- quantized
language:
- ru
pipeline_tag: text-generation
---
# СЛЕДОВАТЕЛЬ - Сфера 047 (M4 Overnight) - GGUF
Это квантизованная версия модели [nativemind/sphere_047_m4_overnight](https://huggingface.co/nativemind/sphere_047_m4_overnight) в формате GGUF, оптимизированная для запуска на устройствах с ограниченными ресурсами.
## 📋 О модели
**Базовая модель:** TinyLlama/TinyLlama-1.1B-Chat-v1.0
**Обучено на:** M4 MacBook Pro за ~2 часа
**Метод:** LoRA (rank=8)
**Датасет:** Реальное уголовное дело + Alpaca + Kene
**Формат:** GGUF (конвертировано из PyTorch + LoRA)
## 📦 Доступные квантизации
| Файл | Квантизация | Размер | Описание |
|------|-------------|--------|----------|
| `sphere_047_m4_overnight.gguf` | F16 | ~2.2 GB | Полная точность |
| `sphere_047_m4_overnight-q4_0.gguf` | Q4_0 | ~630 MB | 4-bit квантизация |
| `sphere_047_m4_overnight-q4_k_m.gguf` | Q4_K_M | ~650 MB | 4-bit K-квантизация (средняя) |
| `sphere_047_m4_overnight-q5_k_m.gguf` | Q5_K_M | ~750 MB | 5-bit K-квантизация (средняя) |
| `sphere_047_m4_overnight-q8_0.gguf` | Q8_0 | ~1.2 GB | 8-bit квантизация |
## 🚀 Использование
### llama.cpp
```bash
# Загрузите модель
huggingface-cli download nativemind/sphere_047_m4_overnight-gguf sphere_047_m4_overnight-q4_k_m.gguf
# Запустите inference
./llama.cpp/build/bin/llama-cli -m sphere_047_m4_overnight-q4_k_m.gguf -p "Проанализируй документ..." -n 512
```
### Flutter Llama Plugin
```dart
import 'package:flutter_llama/flutter_llama.dart';
final llama = FlutterLlama();
// Загрузите модель
await llama.loadModel(
modelPath: 'path/to/sphere_047_m4_overnight-q4_k_m.gguf',
config: LlamaConfig(
contextSize: 2048,
numThreads: 4,
),
);
// Генерируйте текст
final response = await llama.generateText(
prompt: 'Проанализируй документ: ...',
maxTokens: 512,
);
print(response);
```
### Python (llama-cpp-python)
```python
from llama_cpp import Llama
llm = Llama(
model_path="sphere_047_m4_overnight-q4_k_m.gguf",
n_ctx=2048,
n_threads=4,
)
output = llm(
"Проанализируй документ: ...",
max_tokens=512,
temperature=0.7,
)
print(output['choices'][0]['text'])
```
## 📱 Рекомендации по устройствам
- **Мобильные устройства (iOS/Android):** Q4_0 или Q4_K_M
- **Ноутбуки/Desktop:** Q5_K_M или Q8_0
- **Серверы:** F16 (полная точность)
## 🎯 Примеры промптов
```
Проанализируй следующий документ и выдели ключевые факты...
Составь краткое резюме материалов дела...
Определи противоречия в показаниях свидетелей...
```
## ⚖️ Лицензия
Apache 2.0
## 🙏 Благодарности
- Базовая модель: [TinyLlama Team](https://github.com/jzhang38/TinyLlama)
- GGUF конвертация: [llama.cpp](https://github.com/ggerganov/llama.cpp)
**⚖️ Истина восторжествует! 🕉️**
|