gpt-oss-20b-q5_0 / README.md
Lutifya's picture
Upload README.md with huggingface_hub
7cf1917 verified
metadata
language:
  - it
library_name: llama.cpp
tags:
  - gguf
  - q5_0
  - legal
  - rag
  - italian
license: apache-2.0
pipeline_tag: text-generation

gpt-oss-20b-q5_0

Base: gpt-oss-20b-base Adapter (fuso): my-legal-adapter-v1

Questo repository pubblica un file GGUF generato a partire dal modello fuso:

  • gpt-oss_20b_finetuned_q5_0.gguf — Q5_0 (qualità più alta rispetto a Q4, con un costo RAM/latency maggiore)

Uso rapido

llama.cpp

./llama.cpp/main -m gpt-oss_20b_finetuned_q5_0.gguf -p "Ciao"   # Q5_0

LM Studio

Importa il .gguf nella sezione Local models e avvia una chat.

RAG legale – esempio (sub-sample JSON)

{
  "messages": [
    {
      "role": "user",
      "content": "Quali pratiche ha ClienteInesistente?"
    },
    {
      "role": "assistant",
      "content": "Mi dispiace, ma non ho trovato informazioni per la pratica richiesta. Verifica che l'ID o il nome siano corretti e che la pratica sia presente nel sistema."
    }
  ]
}

Note tecniche

  • Conversione Hugging Face → GGUF con convert_hf_to_gguf.py (llama.cpp).
  • Quantizzazione a Q5_0 con l'eseguibile quantize di llama.cpp.
  • La serializzazione in MXFP4 dopo il merge non è supportata; tipicamente si passa da F16 a Q5_0.

Aggiornato: 2025-08-23