Update app.py
Browse files
app.py
CHANGED
|
@@ -4,7 +4,7 @@
|
|
| 4 |
import os
|
| 5 |
import warnings
|
| 6 |
from flask import Flask, request, Response # Servidor web y streaming
|
| 7 |
-
from transformers import AutoTokenizer,
|
| 8 |
import torch # Motor de ejecuci贸n del modelo
|
| 9 |
import threading # Para ejecutar el modelo en segundo plano
|
| 10 |
import json # Para manejar datos JSON
|
|
@@ -13,8 +13,10 @@ import json # Para manejar datos JSON
|
|
| 13 |
# ==============================
|
| 14 |
# CONFIGURACI脫N DEL MODELO
|
| 15 |
# ==============================
|
|
|
|
| 16 |
|
| 17 |
-
|
|
|
|
| 18 |
|
| 19 |
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) # Descarga el tokenizador
|
| 20 |
model = AutoModelForCausalLM.from_pretrained(
|
|
@@ -48,7 +50,7 @@ def generate_stream(prompt):
|
|
| 48 |
streamer = TextIteratorStreamer(
|
| 49 |
tokenizer,
|
| 50 |
skip_prompt=True, # No repite el prompt
|
| 51 |
-
skip_special_tokens=
|
| 52 |
)
|
| 53 |
|
| 54 |
# Ejecuta el modelo en segundo plano
|
|
@@ -58,9 +60,9 @@ def generate_stream(prompt):
|
|
| 58 |
"inputs": inputs["input_ids"], # Texto convertido
|
| 59 |
"attention_mask": inputs["attention_mask"],
|
| 60 |
"max_new_tokens": 300, # M谩ximo de tokens a generar
|
| 61 |
-
"temperature": 0.
|
| 62 |
-
"top_p": 0.
|
| 63 |
-
"do_sample":
|
| 64 |
"streamer": streamer # Activa streaming
|
| 65 |
}
|
| 66 |
)
|
|
|
|
| 4 |
import os
|
| 5 |
import warnings
|
| 6 |
from flask import Flask, request, Response # Servidor web y streaming
|
| 7 |
+
from transformers import AutoTokenizer, AutoModel, TextIteratorStreamer # Modelo IA
|
| 8 |
import torch # Motor de ejecuci贸n del modelo
|
| 9 |
import threading # Para ejecutar el modelo en segundo plano
|
| 10 |
import json # Para manejar datos JSON
|
|
|
|
| 13 |
# ==============================
|
| 14 |
# CONFIGURACI脫N DEL MODELO
|
| 15 |
# ==============================
|
| 16 |
+
# Load model directly
|
| 17 |
|
| 18 |
+
model = AutoModel.from_pretrained("unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF", dtype="auto")
|
| 19 |
+
#MODEL_NAME = "microsoft/phi-2" # Modelo que vamos a usar
|
| 20 |
|
| 21 |
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) # Descarga el tokenizador
|
| 22 |
model = AutoModelForCausalLM.from_pretrained(
|
|
|
|
| 50 |
streamer = TextIteratorStreamer(
|
| 51 |
tokenizer,
|
| 52 |
skip_prompt=True, # No repite el prompt
|
| 53 |
+
skip_special_tokens=False # Quita tokens especiales
|
| 54 |
)
|
| 55 |
|
| 56 |
# Ejecuta el modelo en segundo plano
|
|
|
|
| 60 |
"inputs": inputs["input_ids"], # Texto convertido
|
| 61 |
"attention_mask": inputs["attention_mask"],
|
| 62 |
"max_new_tokens": 300, # M谩ximo de tokens a generar
|
| 63 |
+
"temperature": 0.5, # Creatividad
|
| 64 |
+
"top_p": 0.5, # Diversidad
|
| 65 |
+
"do_sample": False, # Activa aleatoriedad
|
| 66 |
"streamer": streamer # Activa streaming
|
| 67 |
}
|
| 68 |
)
|