Spaces:

Uhhy
/

Text-service

Paused

App Files Files Community

Uhhy commited on Aug 31, 2024

Commit

aec004b

verified ·

1 Parent(s): 95ed60f

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -31

app.py CHANGED Viewed

@@ -21,15 +21,15 @@ global_data = {
 # Configuración de los modelos
 model_configs = [
-    {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/gemma-2-9b-it-Q2_K-GGUF", "filename": "gemma-2-9b-it-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/gemma-2-27b-Q2_K-GGUF", "filename": "gemma-2-27b-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/Phi-3-mini-128k-instruct-Q2_K-GGUF", "filename": "phi-3-mini-128k-instruct-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/Qwen2-7B-Instruct-Q2_K-GGUF", "filename": "qwen2-7b-instruct-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/starcoder2-3b-Q2_K-GGUF", "filename": "starcoder2-3b-q2_k.gguf"},
-    {"repo_id": "Ffftdtd5dtft/Qwen2-1.5B-Instruct-Q2_K-GGUF", "filename": "qwen2-1.5b-instruct-q2_k.gguf"}
 ]
 # Clase para gestionar modelos
@@ -38,8 +38,8 @@ class ModelManager:
         self.models = []
     def load_model(self, model_config):
-        print(f"Cargando modelo {model_config['repo_id']}...")
-        return Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename'])
     def load_all_models(self):
         print("Iniciando carga de modelos...")
@@ -50,7 +50,7 @@ class ModelManager:
                 try:
                     model = future.result()
                     models.append(model)
-                    print(f"Modelo cargado exitosamente: {model_configs[len(models)-1]['repo_id']}")
                 except Exception as e:
                     print(f"Error al cargar el modelo: {e}")
         print("Todos los modelos han sido cargados.")
@@ -68,9 +68,10 @@ class ChatRequest(BaseModel):
     temperature: float = 0.7
 # Función para generar respuestas de chat
-def generate_chat_response(request, llm):
     try:
         user_input = normalize_input(request.message)
         response = llm.create_chat_completion(
             messages=[{"role": "user", "content": user_input}],
             top_k=request.top_k,
@@ -78,54 +79,46 @@ def generate_chat_response(request, llm):
             temperature=request.temperature
         )
         reply = response['choices'][0]['message']['content']
-        return {"response": reply, "literal": user_input}
     except Exception as e:
-        return {"response": f"Error: {str(e)}", "literal": user_input}
 def normalize_input(input_text):
     return input_text.strip()
 def remove_duplicates(text):
-    # Eliminar patrones repetitivos específicos
     text = re.sub(r'(Hello there, how are you\? \[/INST\]){2,}', 'Hello there, how are you? [/INST]', text)
     text = re.sub(r'(How are you\? \[/INST\]){2,}', 'How are you? [/INST]', text)
-    # Eliminar el marcador [/INST]
     text = text.replace('[/INST]', '')
-    # Generaliza la eliminación de duplicados
     lines = text.split('\n')
     unique_lines = list(dict.fromkeys(lines))
     return '\n'.join(unique_lines).strip()
 def remove_repetitive_responses(responses):
-    # Filtra respuestas repetitivas
     seen = set()
     unique_responses = []
     for response in responses:
-        normalized_response = remove_duplicates(response)
         if normalized_response not in seen:
             seen.add(normalized_response)
-            unique_responses.append(normalized_response)
     return unique_responses
 def select_best_response(responses):
     print("Filtrando respuestas...")
     responses = remove_repetitive_responses(responses)
-    responses = [remove_duplicates(response) for response in responses]
     unique_responses = list(set(responses))
     coherent_responses = filter_by_coherence(unique_responses)
     best_response = filter_by_similarity(coherent_responses)
     return best_response
 def filter_by_coherence(responses):
-    # Ordenar respuestas por longitud y similaridad para coherencia básica
     print("Ordenando respuestas por coherencia...")
     responses.sort(key=len, reverse=True)
     return responses
 def filter_by_similarity(responses):
-    # Seleccionar la respuesta más coherente y única
     print("Filtrando respuestas por similitud...")
     responses.sort(key=len, reverse=True)
     best_response = responses[0]
@@ -136,9 +129,9 @@ def filter_by_similarity(responses):
             break
     return best_response
-def worker_function(llm, request):
-    print(f"Generando respuesta con el modelo {llm}...")
-    response = generate_chat_response(request, llm)
     return response
 @app.post("/generate_chat")
@@ -152,11 +145,11 @@ async def generate_chat(request: ChatRequest):
     num_models = len(global_data['models'])
     with ThreadPoolExecutor(max_workers=num_models) as executor:
-        futures = [executor.submit(worker_function, llm, request) for llm in global_data['models']]
         for future in tqdm(as_completed(futures), total=num_models, desc="Generando respuestas", unit="modelo"):
             try:
                 response = future.result()
-                responses.append(response['response'])
             except Exception as exc:
                 print(f"Error en la generación de respuesta: {exc}")

 # Configuración de los modelos
 model_configs = [
+    {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf", "name": "GPT-2 XL"},
+    {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf", "name": "Meta Llama 3.1-8B Instruct"},
+    {"repo_id": "Ffftdtd5dtft/gemma-2-9b-it-Q2_K-GGUF", "filename": "gemma-2-9b-it-q2_k.gguf", "name": "Gemma 2-9B IT"},
+    {"repo_id": "Ffftdtd5dtft/gemma-2-27b-Q2_K-GGUF", "filename": "gemma-2-27b-q2_k.gguf", "name": "Gemma 2-27B"},
+    {"repo_id": "Ffftdtd5dtft/Phi-3-mini-128k-instruct-Q2_K-GGUF", "filename": "phi-3-mini-128k-instruct-q2_k.gguf", "name": "Phi-3 Mini 128K Instruct"},
+    {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-q2_k.gguf", "name": "Meta Llama 3.1-8B"},
+    {"repo_id": "Ffftdtd5dtft/Qwen2-7B-Instruct-Q2_K-GGUF", "filename": "qwen2-7b-instruct-q2_k.gguf", "name": "Qwen2 7B Instruct"},
+    {"repo_id": "Ffftdtd5dtft/starcoder2-3b-Q2_K-GGUF", "filename": "starcoder2-3b-q2_k.gguf", "name": "Starcoder2 3B"},
+    {"repo_id": "Ffftdtd5dtft/Qwen2-1.5B-Instruct-Q2_K-GGUF", "filename": "qwen2-1.5b-instruct-q2_k.gguf", "name": "Qwen2 1.5B Instruct"}
 ]
 # Clase para gestionar modelos
         self.models = []
     def load_model(self, model_config):
+        print(f"Cargando modelo: {model_config['name']}...")
+        return {"model": Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename']), "name": model_config['name']}
     def load_all_models(self):
         print("Iniciando carga de modelos...")
                 try:
                     model = future.result()
                     models.append(model)
+                    print(f"Modelo cargado exitosamente: {model['name']}")
                 except Exception as e:
                     print(f"Error al cargar el modelo: {e}")
         print("Todos los modelos han sido cargados.")
     temperature: float = 0.7
 # Función para generar respuestas de chat
+def generate_chat_response(request, model_data):
     try:
         user_input = normalize_input(request.message)
+        llm = model_data['model']
         response = llm.create_chat_completion(
             messages=[{"role": "user", "content": user_input}],
             top_k=request.top_k,
             temperature=request.temperature
         )
         reply = response['choices'][0]['message']['content']
+        return {"response": reply, "literal": user_input, "model_name": model_data['name']}
     except Exception as e:
+        return {"response": f"Error: {str(e)}", "literal": user_input, "model_name": model_data['name']}
 def normalize_input(input_text):
     return input_text.strip()
 def remove_duplicates(text):
     text = re.sub(r'(Hello there, how are you\? \[/INST\]){2,}', 'Hello there, how are you? [/INST]', text)
     text = re.sub(r'(How are you\? \[/INST\]){2,}', 'How are you? [/INST]', text)
     text = text.replace('[/INST]', '')
     lines = text.split('\n')
     unique_lines = list(dict.fromkeys(lines))
     return '\n'.join(unique_lines).strip()
 def remove_repetitive_responses(responses):
     seen = set()
     unique_responses = []
     for response in responses:
+        normalized_response = remove_duplicates(response['response'])
         if normalized_response not in seen:
             seen.add(normalized_response)
+            unique_responses.append(response)
     return unique_responses
 def select_best_response(responses):
     print("Filtrando respuestas...")
     responses = remove_repetitive_responses(responses)
+    responses = [remove_duplicates(response['response']) for response in responses]
     unique_responses = list(set(responses))
     coherent_responses = filter_by_coherence(unique_responses)
     best_response = filter_by_similarity(coherent_responses)
     return best_response
 def filter_by_coherence(responses):
     print("Ordenando respuestas por coherencia...")
     responses.sort(key=len, reverse=True)
     return responses
 def filter_by_similarity(responses):
     print("Filtrando respuestas por similitud...")
     responses.sort(key=len, reverse=True)
     best_response = responses[0]
             break
     return best_response
+def worker_function(model_data, request):
+    print(f"Generando respuesta con el modelo: {model_data['name']}...")
+    response = generate_chat_response(request, model_data)
     return response
 @app.post("/generate_chat")
     num_models = len(global_data['models'])
     with ThreadPoolExecutor(max_workers=num_models) as executor:
+        futures = [executor.submit(worker_function, model_data, request) for model_data in global_data['models']]
         for future in tqdm(as_completed(futures), total=num_models, desc="Generando respuestas", unit="modelo"):
             try:
                 response = future.result()
+                responses.append(response)
             except Exception as exc:
                 print(f"Error en la generación de respuesta: {exc}")