Spaces:

TeszenAI
/

MTP-1

Sleeping

App Files Files Community

teszenofficial commited on 29 days ago

Commit

44c921d

verified ·

1 Parent(s): 7d7b9e1

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -23

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 # -*- coding: utf-8 -*-
 """
-MTP 1.0 API - CORREGIDO PARA CPU
-- Misma arquitectura (512 dims, 16 heads, 8 layers)
-- Tokenizador BPE estilo GPT
-- Optimizado para velocidad en CPU
 """
 import os
@@ -25,11 +25,10 @@ import torch.nn.functional as F
 import sentencepiece as spm
 # ======================
-# OPTIMIZACIONES PARA CPU
 # ======================
 if torch.cuda.is_available():
     DEVICE = "cuda"
-    torch.backends.cudnn.benchmark = True
     print("✅ GPU detectada")
 else:
     DEVICE = "cpu"
@@ -41,7 +40,7 @@ else:
 MODEL_REPO = "TeszenAI/MTP-1.0"
 # ======================
-# ARQUITECTURA MTP 1.0 (CORREGIDA)
 # ======================
 class RMSNorm(nn.Module):
     __slots__ = ('weight', 'eps')
@@ -97,7 +96,6 @@ class RotaryMultiHeadAttention(nn.Module):
         Q = self.w_q(x).view(b, s, self.n_heads, self.d_k).transpose(1, 2)
         K = self.w_k(x).view(b, s, self.n_heads, self.d_k).transpose(1, 2)
         V = self.w_v(x).view(b, s, self.n_heads, self.d_k).transpose(1, 2)
-        # Rotación
         Q_rot = Q * cos.unsqueeze(0).unsqueeze(0) + self._rotate_half(Q) * sin.unsqueeze(0).unsqueeze(0)
         K_rot = K * cos.unsqueeze(0).unsqueeze(0) + self._rotate_half(K) * sin.unsqueeze(0).unsqueeze(0)
         scores = torch.matmul(Q_rot, K_rot.transpose(-2, -1)) / self.scale
@@ -146,7 +144,8 @@ class MTP1Model(nn.Module):
         return self.lm_head(self.norm(x))
     @torch.no_grad()
-    def generate(self, input_ids, max_new=120, temperature=0.45, top_k=30, top_p=0.88, repetition_penalty=1.2):
         generated = input_ids
         eos_id = 3
         last_tokens = []
@@ -182,11 +181,13 @@ class MTP1Model(nn.Module):
         return generated
 # ======================
-# LIMPIEZA
 # ======================
 def clean_response(response: str) -> str:
     if not response:
         return ""
     words = response.split()
     cleaned = []
     last = ""
@@ -196,14 +197,29 @@ def clean_response(response: str) -> str:
             last = w
     response = " ".join(cleaned)
     response = re.sub(r'\s+', ' ', response).strip()
     if response and response[0].islower():
         response = response[0].upper() + response[1:]
     if response and response[-1] not in '.!?':
         response += '.'
     if len(response) > 400:
         period = response[:400].rfind('.')
         if period > 50:
             response = response[:period+1]
     return response
 # ======================
@@ -222,7 +238,7 @@ sp.load(tokenizer_path)
 config["vocab_size"] = sp.get_piece_size()
 print(f"🧠 Inicializando MTP 1.0...")
-print(f"   → Vocabulario BPE: {config['vocab_size']} tokens")
 print(f"   → Dimensiones: {config.get('d_model', 512)}")
 print(f"   → Capas: {config.get('n_layers', 8)}")
@@ -263,14 +279,21 @@ async def generate(req: PromptRequest):
         ACTIVE_REQUESTS -= 1
         return {"reply": ""}
-    tokens = sp.encode(build_prompt(user_input))[:350]
     input_ids = torch.tensor([tokens], device=DEVICE)
     try:
         start = time.time()
         output_ids = model.generate(
             input_ids,
-            max_new=100,
             temperature=0.45,
             top_k=30,
             top_p=0.88,
@@ -290,13 +313,17 @@ async def generate(req: PromptRequest):
         response = clean_response(response)
-        if len(response) < 3:
-            response = "Lo siento, no pude generar una respuesta clara."
         return {
             "reply": response,
             "time": round(elapsed, 2),
             "tokens": len(safe_tokens),
             "model": "MTP-1.0"
         }
@@ -322,10 +349,10 @@ def info():
         "parameters": param_count,
         "parameters_millions": round(param_count / 1e6, 2),
         "device": DEVICE,
         "d_model": config.get('d_model', 512),
         "n_layers": config.get('n_layers', 8),
-        "n_heads": config.get('n_heads', 16),
-        "vocab_size": config.get('vocab_size')
     }
 # ======================
@@ -371,6 +398,7 @@ def chat_ui():
             font-size: 0.85rem;
             line-height: 1.4;
             animation: fadeIn 0.2s ease;
         }
         @keyframes fadeIn {
             from { opacity: 0; transform: translateY(5px); }
@@ -457,26 +485,29 @@ def chat_ui():
 <body>
     <div class="header">
         <h1>🤖 MTP 1.0 - Asistente IA</h1>
-        <p>✨ 512 dims | 16 heads | 8 layers | Respuestas inteligentes</p>
     </div>
     <div class="messages" id="messages">
-        <div class="message bot">✨ Hola, soy MTP 1.0. ¿En qué puedo ayudarte?</div>
     </div>
     <div class="input-area">
         <input type="text" id="input" placeholder="Escribe tu pregunta..." autocomplete="off">
         <button id="send">Enviar</button>
     </div>
-    <div class="badge">⚡ MTP 1.0 | 🌡️ 0.45</div>
     <script>
         const messages = document.getElementById('messages');
         const input = document.getElementById('input');
         const sendBtn = document.getElementById('send');
         let loading = false;
-        function addMessage(text, isUser, time = null) {
             const div = document.createElement('div');
             div.className = `message ${isUser ? 'user' : 'bot'}`;
-            div.innerHTML = `<div>${escapeHtml(text)}</div>${time ? `<div style="font-size:0.6rem;color:#666;margin-top:4px;">⚡ ${time}s</div>` : ''}`;
             messages.appendChild(div);
             messages.scrollTop = messages.scrollHeight;
         }
@@ -519,7 +550,7 @@ def chat_ui():
                 });
                 const data = await response.json();
                 hideTyping();
-                addMessage(data.reply, false, data.time);
             } catch (error) {
                 hideTyping();
                 addMessage('⚠️ Error de conexión. Intenta de nuevo.', false);
@@ -544,6 +575,7 @@ if __name__ == "__main__":
     print(f"🚀 MTP 1.0 en http://0.0.0.0:{port}")
     print(f"📊 Parámetros: {param_count:,} ({param_count/1e6:.2f}M)")
     print(f"🌡️ Temperatura: 0.45 | 🔁 Repetition penalty: 1.2")
     print(f"💻 Dispositivo: {DEVICE.upper()}")
     print("=" * 60)

 # -*- coding: utf-8 -*-
 """
+MTP 1.0 API - OPTIMIZADO (400 caracteres máx)
+- Respuestas concisas pero inteligentes
+- Límite de 400 caracteres por respuesta
+- Rápido en CPU
 """
 import os
 import sentencepiece as spm
 # ======================
+# OPTIMIZACIONES
 # ======================
 if torch.cuda.is_available():
     DEVICE = "cuda"
     print("✅ GPU detectada")
 else:
     DEVICE = "cpu"
 MODEL_REPO = "TeszenAI/MTP-1.0"
 # ======================
+# ARQUITECTURA MTP 1.0
 # ======================
 class RMSNorm(nn.Module):
     __slots__ = ('weight', 'eps')
         Q = self.w_q(x).view(b, s, self.n_heads, self.d_k).transpose(1, 2)
         K = self.w_k(x).view(b, s, self.n_heads, self.d_k).transpose(1, 2)
         V = self.w_v(x).view(b, s, self.n_heads, self.d_k).transpose(1, 2)
         Q_rot = Q * cos.unsqueeze(0).unsqueeze(0) + self._rotate_half(Q) * sin.unsqueeze(0).unsqueeze(0)
         K_rot = K * cos.unsqueeze(0).unsqueeze(0) + self._rotate_half(K) * sin.unsqueeze(0).unsqueeze(0)
         scores = torch.matmul(Q_rot, K_rot.transpose(-2, -1)) / self.scale
         return self.lm_head(self.norm(x))
     @torch.no_grad()
+    def generate(self, input_ids, max_new=80, temperature=0.45, top_k=30, top_p=0.88, repetition_penalty=1.2):
+        """Generación optimizada para respuestas cortas"""
         generated = input_ids
         eos_id = 3
         last_tokens = []
         return generated
 # ======================
+# LIMPIEZA INTELIGENTE (400 CARACTERES)
 # ======================
 def clean_response(response: str) -> str:
     if not response:
         return ""
+    # Eliminar repeticiones
     words = response.split()
     cleaned = []
     last = ""
             last = w
     response = " ".join(cleaned)
     response = re.sub(r'\s+', ' ', response).strip()
+    # Capitalizar
     if response and response[0].islower():
         response = response[0].upper() + response[1:]
+    # Asegurar punto final
     if response and response[-1] not in '.!?':
         response += '.'
+    # LIMITAR A 400 CARACTERES (inteligentemente)
     if len(response) > 400:
+        # Buscar el último punto antes de 400
         period = response[:400].rfind('.')
         if period > 50:
             response = response[:period+1]
+        else:
+            # Buscar última coma o espacio
+            space = response[:400].rfind(' ')
+            if space > 50:
+                response = response[:space] + '...'
+            else:
+                response = response[:400] + '...'
     return response
 # ======================
 config["vocab_size"] = sp.get_piece_size()
 print(f"🧠 Inicializando MTP 1.0...")
+print(f"   → Vocabulario: {config['vocab_size']} tokens")
 print(f"   → Dimensiones: {config.get('d_model', 512)}")
 print(f"   → Capas: {config.get('n_layers', 8)}")
         ACTIVE_REQUESTS -= 1
         return {"reply": ""}
+    # Detectar saludo para respuesta más corta
+    greetings = ["hola", "buenos dias", "buenas tardes", "buenas noches", "hey", "que tal"]
+    is_greeting = user_input.lower().strip() in greetings
+    # Ajustar longitud según tipo
+    max_new = 50 if is_greeting else 80
+    tokens = sp.encode(build_prompt(user_input))[:300]
     input_ids = torch.tensor([tokens], device=DEVICE)
     try:
         start = time.time()
         output_ids = model.generate(
             input_ids,
+            max_new=max_new,
             temperature=0.45,
             top_k=30,
             top_p=0.88,
         response = clean_response(response)
+        if len(response) < 5:
+            if is_greeting:
+                response = "¡Hola! ¿En qué puedo ayudarte?"
+            else:
+                response = "Lo siento, no pude generar una respuesta clara."
         return {
             "reply": response,
             "time": round(elapsed, 2),
             "tokens": len(safe_tokens),
+            "characters": len(response),
             "model": "MTP-1.0"
         }
         "parameters": param_count,
         "parameters_millions": round(param_count / 1e6, 2),
         "device": DEVICE,
+        "max_response_chars": 400,
         "d_model": config.get('d_model', 512),
         "n_layers": config.get('n_layers', 8),
+        "n_heads": config.get('n_heads', 16)
     }
 # ======================
             font-size: 0.85rem;
             line-height: 1.4;
             animation: fadeIn 0.2s ease;
+            word-wrap: break-word;
         }
         @keyframes fadeIn {
             from { opacity: 0; transform: translateY(5px); }
 <body>
     <div class="header">
         <h1>🤖 MTP 1.0 - Asistente IA</h1>
+        <p>✨ Respuestas concisas | Máximo 400 caracteres | Rápido</p>
     </div>
     <div class="messages" id="messages">
+        <div class="message bot">✨ Hola, soy MTP 1.0. Respuestas cortas pero inteligentes (máx 400 caracteres). ¿En qué puedo ayudarte?</div>
     </div>
     <div class="input-area">
         <input type="text" id="input" placeholder="Escribe tu pregunta..." autocomplete="off">
         <button id="send">Enviar</button>
     </div>
+    <div class="badge">⚡ MTP 1.0 | 🌡️ 0.45 | 📏 400 chars máx</div>
     <script>
         const messages = document.getElementById('messages');
         const input = document.getElementById('input');
         const sendBtn = document.getElementById('send');
         let loading = false;
+        function addMessage(text, isUser, time = null, chars = null) {
             const div = document.createElement('div');
             div.className = `message ${isUser ? 'user' : 'bot'}`;
+            let info = '';
+            if (time) info += `⚡ ${time}s`;
+            if (chars) info += `${info ? ' | ' : ''}📝 ${chars} chars`;
+            div.innerHTML = `<div>${escapeHtml(text)}</div>${info ? `<div style="font-size:0.6rem;color:#666;margin-top:4px;">${info}</div>` : ''}`;
             messages.appendChild(div);
             messages.scrollTop = messages.scrollHeight;
         }
                 });
                 const data = await response.json();
                 hideTyping();
+                addMessage(data.reply, false, data.time, data.characters);
             } catch (error) {
                 hideTyping();
                 addMessage('⚠️ Error de conexión. Intenta de nuevo.', false);
     print(f"🚀 MTP 1.0 en http://0.0.0.0:{port}")
     print(f"📊 Parámetros: {param_count:,} ({param_count/1e6:.2f}M)")
     print(f"🌡️ Temperatura: 0.45 | 🔁 Repetition penalty: 1.2")
+    print(f"📏 Máximo de caracteres por respuesta: 400")
     print(f"💻 Dispositivo: {DEVICE.upper()}")
     print("=" * 60)