How to use from
llama.cpp
Install from brew
brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf nativemind/sphere_047_m4_overnight-gguf:
# Run inference directly in the terminal:
llama-cli -hf nativemind/sphere_047_m4_overnight-gguf:
Install from WinGet (Windows)
winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf nativemind/sphere_047_m4_overnight-gguf:
# Run inference directly in the terminal:
llama-cli -hf nativemind/sphere_047_m4_overnight-gguf:
Use pre-built binary
# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf nativemind/sphere_047_m4_overnight-gguf:
# Run inference directly in the terminal:
./llama-cli -hf nativemind/sphere_047_m4_overnight-gguf:
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf nativemind/sphere_047_m4_overnight-gguf:
# Run inference directly in the terminal:
./build/bin/llama-cli -hf nativemind/sphere_047_m4_overnight-gguf:
Use Docker
docker model run hf.co/nativemind/sphere_047_m4_overnight-gguf:
Quick Links

СЛЕДОВАТЕЛЬ - Сфера 047 (M4 Overnight) - GGUF

Это квантизованная версия модели nativemind/sphere_047_m4_overnight в формате GGUF, оптимизированная для запуска на устройствах с ограниченными ресурсами.

📋 О модели

Базовая модель: TinyLlama/TinyLlama-1.1B-Chat-v1.0
Обучено на: M4 MacBook Pro за ~2 часа
Метод: LoRA (rank=8)
Датасет: Реальное уголовное дело + Alpaca + Kene
Формат: GGUF (конвертировано из PyTorch + LoRA)

📦 Доступные квантизации

Файл Квантизация Размер Описание
sphere_047_m4_overnight.gguf F16 ~2.2 GB Полная точность
sphere_047_m4_overnight-q4_0.gguf Q4_0 ~630 MB 4-bit квантизация
sphere_047_m4_overnight-q4_k_m.gguf Q4_K_M ~650 MB 4-bit K-квантизация (средняя)
sphere_047_m4_overnight-q5_k_m.gguf Q5_K_M ~750 MB 5-bit K-квантизация (средняя)
sphere_047_m4_overnight-q8_0.gguf Q8_0 ~1.2 GB 8-bit квантизация

🚀 Использование

llama.cpp

# Загрузите модель
huggingface-cli download nativemind/sphere_047_m4_overnight-gguf sphere_047_m4_overnight-q4_k_m.gguf

# Запустите inference
./llama.cpp/build/bin/llama-cli -m sphere_047_m4_overnight-q4_k_m.gguf -p "Проанализируй документ..." -n 512

Flutter Llama Plugin

import 'package:flutter_llama/flutter_llama.dart';

final llama = FlutterLlama();

// Загрузите модель
await llama.loadModel(
  modelPath: 'path/to/sphere_047_m4_overnight-q4_k_m.gguf',
  config: LlamaConfig(
    contextSize: 2048,
    numThreads: 4,
  ),
);

// Генерируйте текст
final response = await llama.generateText(
  prompt: 'Проанализируй документ: ...',
  maxTokens: 512,
);

print(response);

Python (llama-cpp-python)

from llama_cpp import Llama

llm = Llama(
    model_path="sphere_047_m4_overnight-q4_k_m.gguf",
    n_ctx=2048,
    n_threads=4,
)

output = llm(
    "Проанализируй документ: ...",
    max_tokens=512,
    temperature=0.7,
)

print(output['choices'][0]['text'])

📱 Рекомендации по устройствам

  • Мобильные устройства (iOS/Android): Q4_0 или Q4_K_M
  • Ноутбуки/Desktop: Q5_K_M или Q8_0
  • Серверы: F16 (полная точность)

🎯 Примеры промптов

Проанализируй следующий документ и выдели ключевые факты...

Составь краткое резюме материалов дела...

Определи противоречия в показаниях свидетелей...

⚖️ Лицензия

Apache 2.0

🙏 Благодарности

⚖️ Истина восторжествует! 🕉️

Downloads last month
70
GGUF
Model size
1B params
Architecture
llama
Hardware compatibility
Log In to add your hardware

4-bit

5-bit

8-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nativemind/sphere_047_m4_overnight-gguf

Quantized
(147)
this model

Collection including nativemind/sphere_047_m4_overnight-gguf