Model Card for meta-llama/Llama-3.2-1B-Instruct (Wiguel-AI Integrated)

Este Model Card detalla la integración, características y modo de empleo de Llama-3.2-1B-Instruct como motor de lenguaje principal online en la aplicación Wiguel-AI, apoyándose de un sistema inteligente de conmutación offline.

Model Details

Model Description

Llama-3.2-1B-Instruct es parte de la colección de modelos ligeros de Meta orientados a tareas conversacionales de baja latencia y alta eficiencia. Con solo 1.23 mil millones de parámetros, está altamente optimizado para el procesamiento local y ejecuciones en la nube con coste nulo o mínimo de latencia mediante las APIs de Inferencia de Hugging Face.

En esta implementación dentro de Wiguel-AI, funciona mediante un sistema híbrido inteligente:

Modo Online: Utiliza la API de inferencia Serverless de Hugging Face (meta-llama/Llama-3.2-1B-Instruct) consumiendo tu clave personal HF_TOKEN.
Modo Offline: Al detectarse la pérdida de conexión a internet o fallos transitorios en el servicio cloud, el sistema conmuta automáticamente (failover) a una instancia local de Ollama con el modelo personalizado wiguel-ai o local llama3.2:1b, garantizando disponibilidad absoluta e ininterrumpida de tu asistente de IA.

Developer: Meta Llama Team (Integración híbrida por Miguel Molina)
Model type: Transformer decoder-only language model
Language(s) (NLP): Español, Inglés (y soporta traducción/instrucciones multilingües)
License: Llama 3.2 Community License Agreement (All rights reserved for individual customizations)
Mecanismo de Respaldo: Conexión local a Ollama (Port 8765 de Wiguel Bridge)

Model Sources

Repository: Hugging Face meta-llama/Llama-3.2-1B-Instruct
Paper: The Llama 3 Herd of Models
Wiguel-AI Core: Integrado de forma nativa en el controlador /config/llmService.ts

Uses

Direct Use

Este modelo se utiliza como el cerebro conversacional de Wiguel-AI para:

Responder consultas directas con un tiempo de respuesta inferior a 150ms gracias a su liviano tamaño.
Servir de asistente de voz en el móvil o escritorio a través de la interfaz web Progressive Web App (PWA) de pantalla completa optimizada para activarse mediante atajos de hardware.
Asistir en la toma de notas rápidas, ejecución de comandos definidos de voz y control local de recursos conectados al puente Python local.

Downstream Use

Wiguel-AI encapsula este modelo en flujos de trabajo asíncronos y streams React en tiempo real (WritableStream), permitiendo la generación de textos palabra a palabra directamente en la UI del chat de voz/texto.

Out-of-Scope Use

Generación de contenido dañino u ofensivo que infrinja la política de uso aceptable de Meta Llama.
Tareas matemáticas complejas o de razonamiento lógico profundo de grado científico que requieran variantes mayores de la familia Llama (p. ej., Llama-3-70B).

Bias, Risks, and Limitations

Filtros de Alucinación: Al ser un modelo optimizado de 1.2B, puede alucinar datos concretos o fechas históricas específicas con mayor frecuencia que versiones superiores.
Limitación de Contexto: Aunque soporta una ventana amplia de atención, se recomienda mantener un historial reciclado (summarized history) para evitar sobrecargar los tokens de entrada en interfaces PWA de bajo consumo de batería.

Recommendations

Se ha integrado un Prompt de Sistema estricto definido en Wiguel-AI para autogestionar el comportamiento del modelo, limitando respuestas exageradamente largas y forzándolo a responder de forma concisa y amigable, idóneo para sintetizadores de voz (Text-to-Speech).

How to Get Started with the Model

Puedes arrancar y realizar inferencia mediante la SDK oficial de Hugging Face en JS/TS utilizando el token configurado en tu panel de control de Wiguel-AI:

import { InferenceClient } from "@huggingface/inference";

// Inicializa el cliente para usar el modelo online con tu clave personal
const client = new InferenceClient(process.env.HF_TOKEN);

const chatCompletion = await client.chatCompletion({
    model: "meta-llama/Llama-3.2-1B-Instruct",
    messages: [
        {
            role: "user",
            content: "Hola Llama 3.2, ¿cuál es la capital de España y su población estimada?",
        },
    ],
    max_tokens: 150,
    temperature: 0.7
});

console.log(chatCompletion.choices[0].message.content);

Script de ejecución offline con conmutador automático en TypeScript

El siguiente código es el patrón utilizado por el núcleo del frontend de Wiguel-AI para conmutar a Ollama local si el navegador pierde la conexión física (navigator.onLine === false) o si el servidor Hugging Face lanza un error de cuota o timeouts:

async function generateResponse(prompt: string, history: any[], systemMessage: string) {
  // 1. Verificación previa de conexión actual del cliente
  const isOnline = typeof navigator !== "undefined" ? navigator.onLine : true;

  if (isOnline) {
    try {
      // Intenta llamar a Hugging Face Inference API
      const response = await fetch("https://api-inference.huggingface.co/models/meta-llama/Llama-3.2-1B-Instruct", {
        method: "POST",
        headers: { 
          "Authorization": `Bearer ${process.env.HF_TOKEN}`,
          "Content-Type": "application/json" 
        },
        body: JSON.stringify({
          inputs: `${systemMessage}\n\nUser: ${prompt}`,
          parameters: { max_new_tokens: 250, temperature: 0.7 }
        })
      });
      if (response.ok) return await response.json();
    } catch (err) {
      console.warn("Error en la conexión Online. Conmutando a respaldo Local (Ollama)...", err);
    }
  }

  // 2. FALLBACK OFFLINE: Conexión con Ollama local ejecutanado Llama-3.2-1b
  const ollamaUrl = "http://localhost:8765"; // Puerto configurado por puente Wiguel
  const localResponse = await fetch(`${ollamaUrl}/api/chat`, {
    method: "POST",
    headers: { "Content-Type": "application/json" },
    body: JSON.stringify({
      model: "llama3.2:1b", // Modelo Llama 3.2 local cargado en Ollama
      messages: [
        { role: "system", content: systemMessage },
        ...history,
        { role: "user", content: prompt }
      ],
      stream: false
    })
  });
  return await localResponse.json();
}

Technical Specifications

Model Architecture and Objective

Decoder-Only Transformer: Optimizado con Grouped-Query Attention (GQA) para agilizar las lecturas y escrituras del KV-Cache.
Tamaño de Vocabulario: 128,256 tokens para soportar compresión semántica multilingüe limpia y directa.

Compute Infrastructure

Hardware Recomendado para ejecución Offline

Gracias a su ligereza, puedes correr la versión offline en prácticamente cualquier equipo doméstico a través de Ollama:

Mínimo: 4 GB de memoria RAM libre. Puede correr en microcomputadores (p. ej., Raspberry Pi 5) o móviles de gama de entrada.
Recomendado: GPU dedicada o procesador Apple Silicon de serie M1/M2/M3 para inferencia instantánea (>60 tokens por segundo).

Model Card Authors

Meta Llama Team (Creadores del modelo base)
Miguel Molina (Integración Full-Stack en el ecosistema Wiguel-AI PWA)

Downloads last month: 44

Safetensors

Model size

1B params

Tensor type

BF16

Paper for xMiguel11/Wiguel

The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31, 2024 • 119