--- license: apache-2.0 base_model: TinyLlama/TinyLlama-1.1B-Chat-v1.0 tags: - gguf - russian - legal - investigator - tinyLlama - quantized language: - ru pipeline_tag: text-generation --- # СЛЕДОВАТЕЛЬ - Сфера 047 (M4 Overnight) - GGUF Это квантизованная версия модели [nativemind/sphere_047_m4_overnight](https://huggingface.co/nativemind/sphere_047_m4_overnight) в формате GGUF, оптимизированная для запуска на устройствах с ограниченными ресурсами. ## 📋 О модели **Базовая модель:** TinyLlama/TinyLlama-1.1B-Chat-v1.0 **Обучено на:** M4 MacBook Pro за ~2 часа **Метод:** LoRA (rank=8) **Датасет:** Реальное уголовное дело + Alpaca + Kene **Формат:** GGUF (конвертировано из PyTorch + LoRA) ## 📦 Доступные квантизации | Файл | Квантизация | Размер | Описание | |------|-------------|--------|----------| | `sphere_047_m4_overnight.gguf` | F16 | ~2.2 GB | Полная точность | | `sphere_047_m4_overnight-q4_0.gguf` | Q4_0 | ~630 MB | 4-bit квантизация | | `sphere_047_m4_overnight-q4_k_m.gguf` | Q4_K_M | ~650 MB | 4-bit K-квантизация (средняя) | | `sphere_047_m4_overnight-q5_k_m.gguf` | Q5_K_M | ~750 MB | 5-bit K-квантизация (средняя) | | `sphere_047_m4_overnight-q8_0.gguf` | Q8_0 | ~1.2 GB | 8-bit квантизация | ## 🚀 Использование ### llama.cpp ```bash # Загрузите модель huggingface-cli download nativemind/sphere_047_m4_overnight-gguf sphere_047_m4_overnight-q4_k_m.gguf # Запустите inference ./llama.cpp/build/bin/llama-cli -m sphere_047_m4_overnight-q4_k_m.gguf -p "Проанализируй документ..." -n 512 ``` ### Flutter Llama Plugin ```dart import 'package:flutter_llama/flutter_llama.dart'; final llama = FlutterLlama(); // Загрузите модель await llama.loadModel( modelPath: 'path/to/sphere_047_m4_overnight-q4_k_m.gguf', config: LlamaConfig( contextSize: 2048, numThreads: 4, ), ); // Генерируйте текст final response = await llama.generateText( prompt: 'Проанализируй документ: ...', maxTokens: 512, ); print(response); ``` ### Python (llama-cpp-python) ```python from llama_cpp import Llama llm = Llama( model_path="sphere_047_m4_overnight-q4_k_m.gguf", n_ctx=2048, n_threads=4, ) output = llm( "Проанализируй документ: ...", max_tokens=512, temperature=0.7, ) print(output['choices'][0]['text']) ``` ## 📱 Рекомендации по устройствам - **Мобильные устройства (iOS/Android):** Q4_0 или Q4_K_M - **Ноутбуки/Desktop:** Q5_K_M или Q8_0 - **Серверы:** F16 (полная точность) ## 🎯 Примеры промптов ``` Проанализируй следующий документ и выдели ключевые факты... Составь краткое резюме материалов дела... Определи противоречия в показаниях свидетелей... ``` ## ⚖️ Лицензия Apache 2.0 ## 🙏 Благодарности - Базовая модель: [TinyLlama Team](https://github.com/jzhang38/TinyLlama) - GGUF конвертация: [llama.cpp](https://github.com/ggerganov/llama.cpp) **⚖️ Истина восторжествует! 🕉️**