Model Card for meta-llama/Llama-3.2-1B-Instruct (Wiguel-AI Integrated)
Este Model Card detalla la integración, características y modo de empleo de Llama-3.2-1B-Instruct como motor de lenguaje principal online en la aplicación Wiguel-AI, apoyándose de un sistema inteligente de conmutación offline.
Model Details
Model Description
Llama-3.2-1B-Instruct es parte de la colección de modelos ligeros de Meta orientados a tareas conversacionales de baja latencia y alta eficiencia. Con solo 1.23 mil millones de parámetros, está altamente optimizado para el procesamiento local y ejecuciones en la nube con coste nulo o mínimo de latencia mediante las APIs de Inferencia de Hugging Face.
En esta implementación dentro de Wiguel-AI, funciona mediante un sistema híbrido inteligente:
- Modo Online: Utiliza la API de inferencia Serverless de Hugging Face (
meta-llama/Llama-3.2-1B-Instruct) consumiendo tu clave personalHF_TOKEN. - Modo Offline: Al detectarse la pérdida de conexión a internet o fallos transitorios en el servicio cloud, el sistema conmuta automáticamente (failover) a una instancia local de Ollama con el modelo personalizado
wiguel-aio localllama3.2:1b, garantizando disponibilidad absoluta e ininterrumpida de tu asistente de IA.
- Developer: Meta Llama Team (Integración híbrida por Miguel Molina)
- Model type: Transformer decoder-only language model
- Language(s) (NLP): Español, Inglés (y soporta traducción/instrucciones multilingües)
- License: Llama 3.2 Community License Agreement (All rights reserved for individual customizations)
- Mecanismo de Respaldo: Conexión local a Ollama (Port
8765de Wiguel Bridge)
Model Sources
- Repository: Hugging Face meta-llama/Llama-3.2-1B-Instruct
- Paper: The Llama 3 Herd of Models
- Wiguel-AI Core: Integrado de forma nativa en el controlador
/config/llmService.ts
Uses
Direct Use
Este modelo se utiliza como el cerebro conversacional de Wiguel-AI para:
- Responder consultas directas con un tiempo de respuesta inferior a 150ms gracias a su liviano tamaño.
- Servir de asistente de voz en el móvil o escritorio a través de la interfaz web Progressive Web App (PWA) de pantalla completa optimizada para activarse mediante atajos de hardware.
- Asistir en la toma de notas rápidas, ejecución de comandos definidos de voz y control local de recursos conectados al puente Python local.
Downstream Use
Wiguel-AI encapsula este modelo en flujos de trabajo asíncronos y streams React en tiempo real (WritableStream), permitiendo la generación de textos palabra a palabra directamente en la UI del chat de voz/texto.
Out-of-Scope Use
- Generación de contenido dañino u ofensivo que infrinja la política de uso aceptable de Meta Llama.
- Tareas matemáticas complejas o de razonamiento lógico profundo de grado científico que requieran variantes mayores de la familia Llama (p. ej., Llama-3-70B).
Bias, Risks, and Limitations
- Filtros de Alucinación: Al ser un modelo optimizado de 1.2B, puede alucinar datos concretos o fechas históricas específicas con mayor frecuencia que versiones superiores.
- Limitación de Contexto: Aunque soporta una ventana amplia de atención, se recomienda mantener un historial reciclado (summarized history) para evitar sobrecargar los tokens de entrada en interfaces PWA de bajo consumo de batería.
Recommendations
Se ha integrado un Prompt de Sistema estricto definido en Wiguel-AI para autogestionar el comportamiento del modelo, limitando respuestas exageradamente largas y forzándolo a responder de forma concisa y amigable, idóneo para sintetizadores de voz (Text-to-Speech).
How to Get Started with the Model
Puedes arrancar y realizar inferencia mediante la SDK oficial de Hugging Face en JS/TS utilizando el token configurado en tu panel de control de Wiguel-AI:
import { InferenceClient } from "@huggingface/inference";
// Inicializa el cliente para usar el modelo online con tu clave personal
const client = new InferenceClient(process.env.HF_TOKEN);
const chatCompletion = await client.chatCompletion({
model: "meta-llama/Llama-3.2-1B-Instruct",
messages: [
{
role: "user",
content: "Hola Llama 3.2, ¿cuál es la capital de España y su población estimada?",
},
],
max_tokens: 150,
temperature: 0.7
});
console.log(chatCompletion.choices[0].message.content);
Script de ejecución offline con conmutador automático en TypeScript
El siguiente código es el patrón utilizado por el núcleo del frontend de Wiguel-AI para conmutar a Ollama local si el navegador pierde la conexión física (navigator.onLine === false) o si el servidor Hugging Face lanza un error de cuota o timeouts:
async function generateResponse(prompt: string, history: any[], systemMessage: string) {
// 1. Verificación previa de conexión actual del cliente
const isOnline = typeof navigator !== "undefined" ? navigator.onLine : true;
if (isOnline) {
try {
// Intenta llamar a Hugging Face Inference API
const response = await fetch("https://api-inference.huggingface.co/models/meta-llama/Llama-3.2-1B-Instruct", {
method: "POST",
headers: {
"Authorization": `Bearer ${process.env.HF_TOKEN}`,
"Content-Type": "application/json"
},
body: JSON.stringify({
inputs: `${systemMessage}\n\nUser: ${prompt}`,
parameters: { max_new_tokens: 250, temperature: 0.7 }
})
});
if (response.ok) return await response.json();
} catch (err) {
console.warn("Error en la conexión Online. Conmutando a respaldo Local (Ollama)...", err);
}
}
// 2. FALLBACK OFFLINE: Conexión con Ollama local ejecutanado Llama-3.2-1b
const ollamaUrl = "http://localhost:8765"; // Puerto configurado por puente Wiguel
const localResponse = await fetch(`${ollamaUrl}/api/chat`, {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "llama3.2:1b", // Modelo Llama 3.2 local cargado en Ollama
messages: [
{ role: "system", content: systemMessage },
...history,
{ role: "user", content: prompt }
],
stream: false
})
});
return await localResponse.json();
}
Technical Specifications
Model Architecture and Objective
- Decoder-Only Transformer: Optimizado con Grouped-Query Attention (GQA) para agilizar las lecturas y escrituras del KV-Cache.
- Tamaño de Vocabulario: 128,256 tokens para soportar compresión semántica multilingüe limpia y directa.
Compute Infrastructure
Hardware Recomendado para ejecución Offline
Gracias a su ligereza, puedes correr la versión offline en prácticamente cualquier equipo doméstico a través de Ollama:
- Mínimo: 4 GB de memoria RAM libre. Puede correr en microcomputadores (p. ej., Raspberry Pi 5) o móviles de gama de entrada.
- Recomendado: GPU dedicada o procesador Apple Silicon de serie M1/M2/M3 para inferencia instantánea (>60 tokens por segundo).
Model Card Authors
- Meta Llama Team (Creadores del modelo base)
- Miguel Molina (Integración Full-Stack en el ecosistema Wiguel-AI PWA)
- Downloads last month
- 44