Spaces:

Science4Insights
/

sintetico

Build error

App Files Files Community

Science4Insights commited on Jan 29, 2025

Commit

c899bba

verified ·

1 Parent(s): 9477c5c

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -74

app.py CHANGED Viewed

@@ -4,8 +4,11 @@ import numpy as np
 import tempfile
 import os
 from typing import Dict
 from tqdm.auto import tqdm
 VARIABLES = {
     "Lugar de nacimiento": ["España", "Magreb", "Latinoamérica", "Otro país de Europa", "Otro lugar del mundo"],
@@ -76,36 +79,26 @@ def crear_grafico_frecuencias(df_resultados):
     """
     Crea gráficos de frecuencias para las respuestas de la encuesta
     """
-    # Identificar las columnas de respuestas (empiezan con 'P')
     columnas_respuestas = [col for col in df_resultados.columns if col.startswith('P')]
     if not columnas_respuestas:
         return None
-    # Crear una figura con subplots
     n_preguntas = len(columnas_respuestas)
-    n_rows = (n_preguntas + 1) // 2  # Dos gráficos por fila
     fig = make_subplots(rows=n_rows, cols=2,
                        subplot_titles=columnas_respuestas,
                        vertical_spacing=0.1,
                        horizontal_spacing=0.1)
-    # Para cada pregunta
     for i, pregunta in enumerate(columnas_respuestas):
-        # Calcular frecuencias
         freq = df_resultados[pregunta].value_counts()
-        # Calcular porcentajes
         porcentajes = (freq / len(df_resultados) * 100).round(1)
-        # Crear texto para las barras (frecuencia y porcentaje)
         text = [f"{v} ({p}%)" for v, p in zip(freq.values, porcentajes.values)]
-        # Determinar posición en el subplot
         row = (i // 2) + 1
         col = (i % 2) + 1
-        # Añadir barra
         fig.add_trace(
             go.Bar(
                 x=freq.index,
@@ -118,11 +111,9 @@ def crear_grafico_frecuencias(df_resultados):
             col=col
         )
-        # Actualizar layout del subplot
         fig.update_xaxes(title_text="Respuestas", row=row, col=col)
         fig.update_yaxes(title_text="Frecuencia", row=row, col=col)
-    # Actualizar layout general
     fig.update_layout(
         title_text="Resultados de la Encuesta",
         showlegend=False,
@@ -150,20 +141,19 @@ def llamar_api_gpt(descripcion, encuesta, api_key):
     try:
         response = client.chat.completions.create(
-            model="gpt-4o",
             messages=[
                 {
                     "role": "system",
-                    "content": [{"type": "text", "text": system_content}]
                 },
                 {
                     "role": "user",
-                    "content": [{"type": "text", "text": encuesta}]
                 }
             ],
-            response_format={"type": "text"},
             temperature=0,
-            max_completion_tokens=200,
             top_p=1,
             frequency_penalty=0,
             presence_penalty=0
@@ -171,34 +161,29 @@ def llamar_api_gpt(descripcion, encuesta, api_key):
         return response.choices[0].message.content, None
     except Exception as e:
         return None, str(e)
 def generar_entrevistado(config: Dict[str, Dict[str, float]], n: int) -> pd.DataFrame:
     """
-    Genera un DataFrame con 'n' panelistas. Para cada variable de VARIABLES:
-       - Si está en 'config', usa su distribución personalizada
-       - Si no está, usa distribución uniforme
     """
     data = []
     for i in range(n):
         entrevistado = {"id_panelista": f"ID_{i+1:04d}"}
-        # Asignar valor a cada variable
         for var, opciones in VARIABLES.items():
             if var in config:
-                dist = list(config[var].values())  # p.ej. [0.3, 0.5, 0.2]
                 suma = sum(dist)
                 if suma > 0:
-                    dist = [x / suma for x in dist]  # Normaliza
                 else:
-                    # Si suman 0, forzamos uniforme
                     dist = [1/len(opciones)] * len(opciones)
                 valor = np.random.choice(opciones, p=dist)
             else:
-                # Si no está en config => distribución uniforme
                 valor = np.random.choice(opciones)
             entrevistado[var] = valor
-        # Crear una descripción completa de la persona
         desc = (
             f"Se trata de una persona que ha nacido en {entrevistado['Lugar de nacimiento']},  de sexo {entrevistado['Sexo']} que pertenece a la Generación {entrevistado['Generación']}, "
             f"que reside en {entrevistado['Comunidad Autónoma']} (España), en un municipio de hábitat {entrevistado['Hábitat']}. "
@@ -214,6 +199,7 @@ def generar_entrevistado(config: Dict[str, Dict[str, float]], n: int) -> pd.Data
     df = pd.DataFrame(data)
     return df
 def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
     if not api_key:
         return None, None, "Error: Es necesario introducir una API Key de OpenAI", None
@@ -224,23 +210,18 @@ def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
     if not texto_encuesta:
         return None, None, "Error: Debes introducir el texto de la encuesta", None
-    # Lista para almacenar resultados
     resultados = []
     errores = []
-    # Información inicial
     total_panelistas = len(df)
     progress(0, desc=f"Iniciando encuesta para {total_panelistas} panelistas...")
-    # Variables de perfil que queremos mantener (todas excepto 'Descripción')
     variables_perfil = [col for col in df.columns if col != 'Descripción']
-    # Para cada panelista
     for i, (_, row) in enumerate(df.iterrows()):
         progress((i/total_panelistas),
                 desc=f"Procesando panelista {i+1} de {total_panelistas}")
-        # Llamar a la API
         respuestas, error = llamar_api_gpt(
             row['Descripción'],
             texto_encuesta,
@@ -252,10 +233,8 @@ def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
             continue
         try:
-            # Procesar respuestas
             resp_dict = procesar_respuesta_api(respuestas)
-            # Añadir todas las variables de perfil del panelista
             for var in variables_perfil:
                 resp_dict[var] = row[var]
@@ -263,7 +242,6 @@ def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
         except Exception as e:
             errores.append(f"Error procesando respuesta de {row['id_panelista']}: {str(e)}")
-    # Crear mensaje de resumen
     total_exitosos = len(resultados)
     total_errores = len(errores)
@@ -282,15 +260,11 @@ def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
             mensaje_resumen += f"<li>{error}</li>"
         mensaje_resumen += "</ul>"
-    # Si no hay ningún resultado exitoso
     if not resultados:
         return None, None, mensaje_resumen, None
-    # Crear DataFrame de resultados
     df_resultados = pd.DataFrame(resultados)
-    # Reordenar las columnas para mejor visualización
-    # Primero el ID, luego las variables de perfil, finalmente las respuestas
     columnas_respuestas = [col for col in df_resultados.columns
                           if col not in variables_perfil]
     orden_columnas = ['id_panelista'] + \
@@ -299,35 +273,30 @@ def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
     df_resultados = df_resultados[orden_columnas]
-    # Crear gráficos de frecuencias
     fig = crear_grafico_frecuencias(df_resultados)
-    # Guardar a Excel
     with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx") as tmp:
         df_resultados.to_excel(tmp.name, index=False)
         file_path = tmp.name
     progress(1.0, desc="¡Proceso completado!")
     return df_resultados, file_path, mensaje_resumen, fig
 def crear_interfaz():
     with gr.Blocks(title="Generador de Panelistas Sintéticos") as app:
         gr.Markdown("## 🧴 Generador de Consumidores de Cremas Antiarrugas")
-        # API Key de OpenAI
         api_key = gr.Textbox(
             label="OpenAI API Key",
             placeholder="Introduce tu API Key de OpenAI...",
             type="password"
         )
-        # Tamaño de la muestra
         n_muestra = gr.Number(label="Tamaño de la muestra", value=100, precision=0)
-        # Variables para el estado y progreso
         estado = gr.Textbox(label="Estado del proceso", value="Esperando acción...")
         progreso = gr.Progress()
-        # Listas donde acumulamos todos los checkboxes y sliders
         all_checkboxes = []
         all_sliders = []
         vars_options = []
@@ -337,14 +306,12 @@ def crear_interfaz():
                 with gr.Group():
                     gr.Markdown(f"### {var}")
-                    # Checkbox: si se quiere personalizar la distribución de esta variable
                     var_checkbox = gr.Checkbox(
                         label=f"Personalizar {var}",
                         value=False
                     )
                     all_checkboxes.append(var_checkbox)
-                    # Sliders para cada opción de la variable
                     for op in opciones:
                         s = gr.Slider(
                             minimum=0,
@@ -355,14 +322,11 @@ def crear_interfaz():
                         )
                         all_sliders.append(s)
-                    # Guardar la info para reconstruir 'config' después
                     vars_options.append((var, opciones))
-        # Salidas iniciales
         output_table = gr.Dataframe(label="Panelistas Generados")
         download_file = gr.File(label="Descargar Excel", file_count="single")
-        # Nueva sección para la encuesta
         with gr.Accordion("Realizar Encuesta", open=False):
             encuesta_texto = gr.Textbox(
                 label="Pegue aquí el texto de la encuesta",
@@ -372,41 +336,27 @@ def crear_interfaz():
             info_encuesta = gr.HTML(label="Información de la encuesta")
             btn_encuesta = gr.Button("Lanzar Encuesta")
-            # Sección de resultados de la encuesta
             with gr.Tab("Resultados"):
                 resultados_encuesta = gr.Dataframe(label="Resultados Detallados")
                 download_resultados = gr.File(label="Descargar Resultados Excel")
-            # Nueva pestaña para los gráficos
             with gr.Tab("Gráficos"):
                 graficos_resultados = gr.Plot(label="Gráficos de Frecuencias")
-        # Botón generar muestra
         btn_generar = gr.Button("Generar Muestra", variant="primary")
-        return app  # <-- ¡Faltaba este return!
         def generar(n, *values):
-            """
-            Recibe:
-              - n (número)
-              - un bloque de checkboxes (uno por variable)
-              - un bloque de sliders (uno por opción de cada variable)
-            """
             n_muestra_int = int(n)
             num_vars = len(vars_options)
-            # Los primeros 'num_vars' valores son bool de checkboxes
             checks = values[:num_vars]
-            # El resto son floats de sliders
             sliders = values[num_vars:]
             config_procesada = {}
             idx_slider = 0
-            # Recorremos cada variable
             for i, (var, opciones) in enumerate(vars_options):
                 if checks[i]:
-                    # Personalizar
                     dist = {}
                     for op in opciones:
                         valor_slider = sliders[idx_slider]
@@ -414,20 +364,16 @@ def crear_interfaz():
                         dist[op] = valor_slider / 100.0
                     config_procesada[var] = dist
                 else:
-                    # No se personaliza => avanzamos el índice de sliders sin usarlos
                     idx_slider += len(opciones)
-            # Generar DF
             df = generar_entrevistado(config_procesada, n_muestra_int)
-            # Guardar a Excel en un archivo temporal
             with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx") as tmp:
                 df.to_excel(tmp.name, index=False)
                 file_path = tmp.name
             return df, file_path, "Muestra generada correctamente"
-        # Conectar los botones
         btn_generar.click(
             fn=generar,
             inputs=[n_muestra] + all_checkboxes + all_sliders,
@@ -439,9 +385,7 @@ def crear_interfaz():
             inputs=[output_table, encuesta_texto, api_key],
             outputs=[resultados_encuesta, download_resultados, info_encuesta, graficos_resultados]
         )
-# Configuración para Hugging Face
-if __name__ == "__main__":
-    app = crear_interfaz()
-    app.launch()

 import tempfile
 import os
 from typing import Dict
+from openai import OpenAI
 from tqdm.auto import tqdm
+import plotly.express as px
+import plotly.graph_objects as go
+from plotly.subplots import make_subplots
 VARIABLES = {
     "Lugar de nacimiento": ["España", "Magreb", "Latinoamérica", "Otro país de Europa", "Otro lugar del mundo"],
     """
     Crea gráficos de frecuencias para las respuestas de la encuesta
     """
     columnas_respuestas = [col for col in df_resultados.columns if col.startswith('P')]
     if not columnas_respuestas:
         return None
     n_preguntas = len(columnas_respuestas)
+    n_rows = (n_preguntas + 1) // 2
     fig = make_subplots(rows=n_rows, cols=2,
                        subplot_titles=columnas_respuestas,
                        vertical_spacing=0.1,
                        horizontal_spacing=0.1)
     for i, pregunta in enumerate(columnas_respuestas):
         freq = df_resultados[pregunta].value_counts()
         porcentajes = (freq / len(df_resultados) * 100).round(1)
         text = [f"{v} ({p}%)" for v, p in zip(freq.values, porcentajes.values)]
         row = (i // 2) + 1
         col = (i % 2) + 1
         fig.add_trace(
             go.Bar(
                 x=freq.index,
             col=col
         )
         fig.update_xaxes(title_text="Respuestas", row=row, col=col)
         fig.update_yaxes(title_text="Frecuencia", row=row, col=col)
     fig.update_layout(
         title_text="Resultados de la Encuesta",
         showlegend=False,
     try:
         response = client.chat.completions.create(
+            model="gpt-4",
             messages=[
                 {
                     "role": "system",
+                    "content": system_content
                 },
                 {
                     "role": "user",
+                    "content": encuesta
                 }
             ],
             temperature=0,
+            max_tokens=200,
             top_p=1,
             frequency_penalty=0,
             presence_penalty=0
         return response.choices[0].message.content, None
     except Exception as e:
         return None, str(e)
 def generar_entrevistado(config: Dict[str, Dict[str, float]], n: int) -> pd.DataFrame:
     """
+    Genera un DataFrame con 'n' panelistas
     """
     data = []
     for i in range(n):
         entrevistado = {"id_panelista": f"ID_{i+1:04d}"}
         for var, opciones in VARIABLES.items():
             if var in config:
+                dist = list(config[var].values())
                 suma = sum(dist)
                 if suma > 0:
+                    dist = [x / suma for x in dist]
                 else:
                     dist = [1/len(opciones)] * len(opciones)
                 valor = np.random.choice(opciones, p=dist)
             else:
                 valor = np.random.choice(opciones)
             entrevistado[var] = valor
         desc = (
             f"Se trata de una persona que ha nacido en {entrevistado['Lugar de nacimiento']},  de sexo {entrevistado['Sexo']} que pertenece a la Generación {entrevistado['Generación']}, "
             f"que reside en {entrevistado['Comunidad Autónoma']} (España), en un municipio de hábitat {entrevistado['Hábitat']}. "
     df = pd.DataFrame(data)
     return df
 def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
     if not api_key:
         return None, None, "Error: Es necesario introducir una API Key de OpenAI", None
     if not texto_encuesta:
         return None, None, "Error: Debes introducir el texto de la encuesta", None
     resultados = []
     errores = []
     total_panelistas = len(df)
     progress(0, desc=f"Iniciando encuesta para {total_panelistas} panelistas...")
     variables_perfil = [col for col in df.columns if col != 'Descripción']
     for i, (_, row) in enumerate(df.iterrows()):
         progress((i/total_panelistas),
                 desc=f"Procesando panelista {i+1} de {total_panelistas}")
         respuestas, error = llamar_api_gpt(
             row['Descripción'],
             texto_encuesta,
             continue
         try:
             resp_dict = procesar_respuesta_api(respuestas)
             for var in variables_perfil:
                 resp_dict[var] = row[var]
         except Exception as e:
             errores.append(f"Error procesando respuesta de {row['id_panelista']}: {str(e)}")
     total_exitosos = len(resultados)
     total_errores = len(errores)
             mensaje_resumen += f"<li>{error}</li>"
         mensaje_resumen += "</ul>"
     if not resultados:
         return None, None, mensaje_resumen, None
     df_resultados = pd.DataFrame(resultados)
     columnas_respuestas = [col for col in df_resultados.columns
                           if col not in variables_perfil]
     orden_columnas = ['id_panelista'] + \
     df_resultados = df_resultados[orden_columnas]
     fig = crear_grafico_frecuencias(df_resultados)
     with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx") as tmp:
         df_resultados.to_excel(tmp.name, index=False)
         file_path = tmp.name
     progress(1.0, desc="¡Proceso completado!")
     return df_resultados, file_path, mensaje_resumen, fig
 def crear_interfaz():
     with gr.Blocks(title="Generador de Panelistas Sintéticos") as app:
         gr.Markdown("## 🧴 Generador de Consumidores de Cremas Antiarrugas")
         api_key = gr.Textbox(
             label="OpenAI API Key",
             placeholder="Introduce tu API Key de OpenAI...",
             type="password"
         )
         n_muestra = gr.Number(label="Tamaño de la muestra", value=100, precision=0)
         estado = gr.Textbox(label="Estado del proceso", value="Esperando acción...")
         progreso = gr.Progress()
         all_checkboxes = []
         all_sliders = []
         vars_options = []
                 with gr.Group():
                     gr.Markdown(f"### {var}")
                     var_checkbox = gr.Checkbox(
                         label=f"Personalizar {var}",
                         value=False
                     )
                     all_checkboxes.append(var_checkbox)
                     for op in opciones:
                         s = gr.Slider(
                             minimum=0,
                         )
                         all_sliders.append(s)
                     vars_options.append((var, opciones))
         output_table = gr.Dataframe(label="Panelistas Generados")
         download_file = gr.File(label="Descargar Excel", file_count="single")
         with gr.Accordion("Realizar Encuesta", open=False):
             encuesta_texto = gr.Textbox(
                 label="Pegue aquí el texto de la encuesta",
             info_encuesta = gr.HTML(label="Información de la encuesta")
             btn_encuesta = gr.Button("Lanzar Encuesta")
             with gr.Tab("Resultados"):
                 resultados_encuesta = gr.Dataframe(label="Resultados Detallados")
                 download_resultados = gr.File(label="Descargar Resultados Excel")
             with gr.Tab("Gráficos"):
                 graficos_resultados = gr.Plot(label="Gráficos de Frecuencias")
         btn_generar = gr.Button("Generar Muestra", variant="primary")
         def generar(n, *values):
             n_muestra_int = int(n)
             num_vars = len(vars_options)
             checks = values[:num_vars]
             sliders = values[num_vars:]
             config_procesada = {}
             idx_slider = 0
             for i, (var, opciones) in enumerate(vars_options):
                 if checks[i]:
                     dist = {}
                     for op in opciones:
                         valor_slider = sliders[idx_slider]
                         dist[op] = valor_slider / 100.0
                     config_procesada[var] = dist
                 else:
                     idx_slider += len(opciones)
             df = generar_entrevistado(config_procesada, n_muestra_int)
             with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx") as tmp:
                 df.to_excel(tmp.name, index=False)
                 file_path = tmp.name
             return df, file_path, "Muestra generada correctamente"
         btn_generar.click(
             fn=generar,
             inputs=[n_muestra] + all_checkboxes + all_sliders,
             inputs=[output_table, encuesta_texto, api_key],
             outputs=[resultados_encuesta, download_resultados, info_encuesta, graficos_resultados]
         )
+    return app
+app = crear_interfaz()