---
license: apache-2.0
base_model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
tags:
  - gguf
  - russian
  - legal
  - investigator
  - tinyLlama
  - quantized
language:
  - ru
pipeline_tag: text-generation
---

# СЛЕДОВАТЕЛЬ - Сфера 047 (M4 Overnight) - GGUF

Это квантизованная версия модели [nativemind/sphere_047_m4_overnight](https://huggingface.co/nativemind/sphere_047_m4_overnight) в формате GGUF, оптимизированная для запуска на устройствах с ограниченными ресурсами.

## 📋 О модели

**Базовая модель:** TinyLlama/TinyLlama-1.1B-Chat-v1.0  
**Обучено на:** M4 MacBook Pro за ~2 часа  
**Метод:** LoRA (rank=8)  
**Датасет:** Реальное уголовное дело + Alpaca + Kene  
**Формат:** GGUF (конвертировано из PyTorch + LoRA)

## 📦 Доступные квантизации

| Файл | Квантизация | Размер | Описание |
|------|-------------|--------|----------|
| `sphere_047_m4_overnight.gguf` | F16 | ~2.2 GB | Полная точность |
| `sphere_047_m4_overnight-q4_0.gguf` | Q4_0 | ~630 MB | 4-bit квантизация |
| `sphere_047_m4_overnight-q4_k_m.gguf` | Q4_K_M | ~650 MB | 4-bit K-квантизация (средняя) |
| `sphere_047_m4_overnight-q5_k_m.gguf` | Q5_K_M | ~750 MB | 5-bit K-квантизация (средняя) |
| `sphere_047_m4_overnight-q8_0.gguf` | Q8_0 | ~1.2 GB | 8-bit квантизация |

## 🚀 Использование

### llama.cpp

```bash
# Загрузите модель
huggingface-cli download nativemind/sphere_047_m4_overnight-gguf sphere_047_m4_overnight-q4_k_m.gguf

# Запустите inference
./llama.cpp/build/bin/llama-cli -m sphere_047_m4_overnight-q4_k_m.gguf -p "Проанализируй документ..." -n 512
```

### Flutter Llama Plugin

```dart
import 'package:flutter_llama/flutter_llama.dart';

final llama = FlutterLlama();

// Загрузите модель
await llama.loadModel(
  modelPath: 'path/to/sphere_047_m4_overnight-q4_k_m.gguf',
  config: LlamaConfig(
    contextSize: 2048,
    numThreads: 4,
  ),
);

// Генерируйте текст
final response = await llama.generateText(
  prompt: 'Проанализируй документ: ...',
  maxTokens: 512,
);

print(response);
```

### Python (llama-cpp-python)

```python
from llama_cpp import Llama

llm = Llama(
    model_path="sphere_047_m4_overnight-q4_k_m.gguf",
    n_ctx=2048,
    n_threads=4,
)

output = llm(
    "Проанализируй документ: ...",
    max_tokens=512,
    temperature=0.7,
)

print(output['choices'][0]['text'])
```

## 📱 Рекомендации по устройствам

- **Мобильные устройства (iOS/Android):** Q4_0 или Q4_K_M
- **Ноутбуки/Desktop:** Q5_K_M или Q8_0
- **Серверы:** F16 (полная точность)

## 🎯 Примеры промптов

```
Проанализируй следующий документ и выдели ключевые факты...

Составь краткое резюме материалов дела...

Определи противоречия в показаниях свидетелей...
```

## ⚖️ Лицензия

Apache 2.0

## 🙏 Благодарности

- Базовая модель: [TinyLlama Team](https://github.com/jzhang38/TinyLlama)
- GGUF конвертация: [llama.cpp](https://github.com/ggerganov/llama.cpp)

**⚖️ Истина восторжествует! 🕉️**