File size: 18,146 Bytes
7291525
 
 
 
 
 
a465ce2
7291525
c899bba
 
 
7291525
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2d9d29b
 
 
7291525
a465ce2
7291525
2d9d29b
7291525
 
3094777
 
7291525
3094777
 
 
 
 
2d9d29b
3094777
 
 
 
 
 
7291525
3094777
2d9d29b
7291525
2d9d29b
 
7291525
3094777
 
 
 
 
2d9d29b
7291525
 
2d9d29b
 
7291525
 
 
 
 
 
 
3094777
 
 
7291525
3094777
2d9d29b
7291525
 
 
3094777
7291525
 
 
3094777
7291525
 
3094777
7291525
 
 
 
 
 
 
 
 
 
 
a465ce2
7291525
56ebb24
7291525
 
a465ce2
d811bbb
7291525
a465ce2
 
 
 
 
 
 
 
7291525
a465ce2
7291525
a465ce2
7291525
 
 
 
a465ce2
7291525
 
 
 
a465ce2
 
 
7291525
 
 
 
 
a465ce2
7291525
 
a465ce2
7291525
 
a465ce2
7291525
a465ce2
7291525
 
 
a465ce2
7291525
 
 
 
a465ce2
7291525
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a465ce2
7291525
 
 
a465ce2
7291525
 
 
a465ce2
7291525
 
a465ce2
7291525
 
 
 
a465ce2
7291525
 
 
 
 
 
 
 
 
 
 
a465ce2
7291525
 
a465ce2
7291525
 
 
 
 
 
 
a465ce2
7291525
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a465ce2
7291525
 
 
a465ce2
7291525
 
a465ce2
 
7291525
 
 
 
 
 
 
 
a465ce2
7291525
 
a465ce2
7291525
 
 
 
 
 
 
 
 
 
a465ce2
7291525
 
 
 
 
 
a465ce2
7291525
 
a465ce2
7291525
 
 
a465ce2
7291525
 
 
 
 
 
 
 
 
a465ce2
7291525
 
 
 
 
 
a465ce2
7291525
 
 
 
 
 
 
 
 
 
a465ce2
7291525
 
a465ce2
7291525
 
 
a465ce2
7291525
 
 
 
 
 
 
 
 
a465ce2
7291525
 
 
 
a465ce2
7291525
 
 
a465ce2
7291525
 
 
a465ce2
 
 
 
 
 
7291525
 
 
a465ce2
7291525
a465ce2
7291525
 
 
 
 
a465ce2
7291525
 
a465ce2
7291525
 
 
 
 
 
 
a465ce2
7291525
 
a465ce2
7291525
 
a465ce2
7291525
 
 
 
 
 
a465ce2
7291525
 
 
 
 
 
 
 
 
 
 
c899bba
 
7291525
a465ce2
 
 
56ebb24
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
import gradio as gr
import pandas as pd
import numpy as np
import tempfile
import os
from typing import Dict
from openai import OpenAI
from tqdm.auto import tqdm
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

VARIABLES = {
    "Lugar de nacimiento": ["España", "Magreb", "Latinoamérica", "Otro país de Europa", "Otro lugar del mundo"],
    "Sexo": ["Hombre", "Mujer", "No binario"],
    "Generación": [
        "Z (1997-2012)",
        "Millennials (1981-1996)",
        "X (1965-1980)",
        "Baby Boomers (1946-1964)",
        "Silenciosa (1928-1945)"
    ],
    "Hábitat": ["Urbano", "Rural", "Semiurbano"],
    "Comunidad Autónoma": [
        "Andalucía", "Cataluña", "Madrid", "Comunidad Valenciana", "Galicia",
        "País Vasco", "Aragón", "Islas Baleares", "Canarias", "Castilla y León",
        "Castilla-La Mancha", "Asturias", "Navarra", "Murcia", "Extremadura",
        "Cantabria", "La Rioja", "Ceuta", "Melilla"
    ],
    "Nivel de Estudios": [
        "Sin estudios", "Primaria", "ESO", "Bachillerato",
        "FP Básica", "FP Medio", "FP Superior", "Grado Universitario",
        "Máster", "Doctorado"
    ],
    "Clase Social": [
        "Alta (Directivos, grandes empresarios)",
        "Media-Alta (Profesionales cualificados)",
        "Media (Técnicos, administrativos)",
        "Obreros cualificados",
        "Trabajadores no cualificados",
        "Pensionistas/Jubilados"
    ],
    "Hijos": ["Sí", "No"],
    "Profesión": [
        "Medicina/Salud", "Ingeniería/Tecnología", "Educación/Investigación",
        "Autónomo/Emprendedor", "Hostelería/Turismo", "Administración Pública",
        "Construcción/Obras", "Diseño/Arte", "Marketing/Comunicación",
        "Finanzas/Banca", "Legal/Abogacía", "Transporte/Logística",
        "Agricultura/Ganadería", "Fuerzas Armadas", "Cuidados/Asistencia",
        "Estudiante", "Desempleado", "Jubilado/Pensionista"
    ],
    "Aficiones": [
        "Deporte individual", "Deporte equipo", "Lectura", "Viajes",
        "Cine/Series", "Videojuegos", "Moda/Estilo", "Música/Conciertos",
        "Fotografía", "Jardinería", "Cocina", "Manualidades",
        "Voluntariado", "Tecnología", "Astronomía"
    ],
    "Tipo de Piel": [
        "Seca", "Grasa", "Mixta", "Sensible",
        "Normal", "Con tendencia acnéica", "Atópica"
    ],
    "Grado de preocupación": [
        "Ninguno", "Bajo", "Moderado", "Alto",
        "Muy alto (prioridad diaria)"
    ],
    "Productos usados": [
        "Ninguno", "Limpiador", "Tónico", "Crema hidratante",
        "Serum antioxidante", "Protector solar", "Contorno de ojos",
        "Mascarillas", "Exfoliante", "Tratamiento antiarrugas"
    ],
    "Canal de Compra": [
        "Farmacia/Parafarmacia", "Online (web marca)", "Marketplaces (Amazon)",
        "Supermercado", "Tiendas especializadas", "Centros comerciales",
        "Estética profesional", "Televenta"
    ]
}

def crear_grafico_frecuencias(df_resultados):
    """
    Crea gráficos de frecuencias para las respuestas de la encuesta con la orientación correcta.
    - Eje X: Opciones de respuesta
    - Eje Y: Frecuencia de cada opción
    """
    # Identificar las columnas de respuestas (empiezan con 'P')
    columnas_respuestas = [col for col in df_resultados.columns if col.startswith('P')]

    if not columnas_respuestas:
        return None

    # Determinar el número de filas y columnas para la disposición de los subgráficos
    n_preguntas = len(columnas_respuestas)
    n_cols = 2  # Máximo dos gráficos por fila
    n_rows = (n_preguntas + n_cols - 1) // n_cols  # Calcular filas necesarias

    # Crear la figura con subgráficos correctamente distribuidos
    fig = make_subplots(
        rows=n_rows, cols=n_cols,
        subplot_titles=columnas_respuestas,
        vertical_spacing=0.15,  # Espaciado entre gráficos
        horizontal_spacing=0.1
    )

    # Para cada pregunta, generar un gráfico de barras
    for i, pregunta in enumerate(columnas_respuestas):
        # Calcular frecuencias y porcentajes
        freq = df_resultados[pregunta].value_counts().sort_index()  # Asegurar orden de respuestas
        porcentajes = (freq / len(df_resultados) * 100).round(1)

        # Etiquetas con valores y porcentaje
        text = [f"{v} ({p}%)" for v, p in zip(freq.values, porcentajes.values)]

        # Determinar posición en la cuadrícula de subgráficos
        row = (i // n_cols) + 1
        col = (i % n_cols) + 1

        # Agregar gráfico de barras **vertical**, asegurando que X sean las categorías
        fig.add_trace(
            go.Bar(
                x=freq.index,  # 🔹 Categorías en el eje X (opciones de respuesta)
                y=freq.values,  # 🔹 Frecuencia en el eje Y
                text=text,
                textposition='outside',
                name=pregunta
            ),
            row=row,
            col=col
        )

        # Configurar los ejes correctamente
        fig.update_xaxes(title_text="Respuestas", tickangle=-45, row=row, col=col)
        fig.update_yaxes(title_text="Frecuencia", row=row, col=col)

    # Configurar el layout general
    fig.update_layout(
        title_text="Resultados de la Encuesta",
        showlegend=False,
        height=350 * n_rows,  # Ajustar altura dinámicamente
        width=1000,
        title_x=0.5
    )

    return fig


def procesar_respuesta_api(respuesta):
    """Extrae las respuestas del formato 'P1. a)' a un diccionario"""
    lines = respuesta.split('\n')
    responses = {}
    for line in lines:
        if line.strip():
            pregunta, respuesta = line.split('.')
            responses[pregunta.strip()] = respuesta.strip()
    return responses

def llamar_api_gpt(descripcion, encuesta, api_key):
    client = OpenAI(api_key=api_key)
    
    system_content = f"Eres una persona que responde a estas características: \n\n{descripcion}\n\nTu misión consiste en responder a una encuesta. Tu respuesta debe tener este formato. Número de pregunta y opción. Por ejemplo, P1. a), P2. b), etcétera.\n\n No necesitamos el texto de la respuesta, solo la letra de la opción. Es muy importante que respondas poniéndote en el rol que se te ha dado. No añadas espacios ni saltos de página. La encuesta es: "
    
    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {
                    "role": "system",
                    "content": [{"type": "text", "text": system_content}]
                },
                {
                    "role": "user",
                    "content": [{"type": "text", "text": encuesta}]
                }
            ],
            response_format={"type": "text"},
            temperature=0,
            max_completion_tokens=200,
            top_p=1,
            frequency_penalty=0,
            presence_penalty=0
        )
        return response.choices[0].message.content, None
    except Exception as e:
        return None, str(e)
def generar_entrevistado(config: Dict[str, Dict[str, float]], n: int) -> pd.DataFrame:
    """
    Genera un DataFrame con 'n' panelistas. Para cada variable de VARIABLES:
       - Si está en 'config', usa su distribución personalizada
       - Si no está, usa distribución uniforme
    """
    data = []
    for i in range(n):
        entrevistado = {"id_panelista": f"ID_{i+1:04d}"}
        
        # Asignar valor a cada variable
        for var, opciones in VARIABLES.items():
            if var in config:
                dist = list(config[var].values())  # p.ej. [0.3, 0.5, 0.2]
                suma = sum(dist)
                if suma > 0:
                    dist = [x / suma for x in dist]  # Normaliza
                else:
                    # Si suman 0, forzamos uniforme
                    dist = [1/len(opciones)] * len(opciones)
                valor = np.random.choice(opciones, p=dist)
            else:
                # Si no está en config => distribución uniforme
                valor = np.random.choice(opciones)
            
            entrevistado[var] = valor
        
        # Crear una descripción completa de la persona
        desc = (
            f"Se trata de una persona que ha nacido en {entrevistado['Lugar de nacimiento']},  de sexo {entrevistado['Sexo']} que pertenece a la Generación {entrevistado['Generación']}, "
            f"que reside en {entrevistado['Comunidad Autónoma']} (España), en un municipio de hábitat {entrevistado['Hábitat']}. "
            f"Posee un nivel de estudios {entrevistado['Nivel de Estudios']} y se ubica en la clase social {entrevistado['Clase Social']}. "
            f"{'Tiene hijos' if entrevistado['Hijos'] == 'Sí' else 'No tiene hijos'}. "
            f"Trabaja en {entrevistado['Profesión']} y sus aficiones principales son {entrevistado['Aficiones']}. "
            f"Su tipo de piel es {entrevistado['Tipo de Piel']}, con un grado de preocupación por el cuidado de la piel es {entrevistado['Grado de preocupación']}. "
            f"Actualmente usa {entrevistado['Productos usados']} y adquiere sus productos en {entrevistado['Canal de Compra']}."
        )
        entrevistado["Descripción"] = desc
        
        data.append(entrevistado)
    
    df = pd.DataFrame(data)
    return df
def lanzar_encuesta(df, texto_encuesta, api_key, progress=gr.Progress()):
    if not api_key:
        return None, None, "Error: Es necesario introducir una API Key de OpenAI", None
    
    if df is None or df.empty:
        return None, None, "Error: Primero debes generar una muestra de panelistas", None
    
    if not texto_encuesta:
        return None, None, "Error: Debes introducir el texto de la encuesta", None
            
    # Lista para almacenar resultados
    resultados = []
    errores = []
    
    # Información inicial
    total_panelistas = len(df)
    progress(0, desc=f"Iniciando encuesta para {total_panelistas} panelistas...")
    
    # Variables de perfil que queremos mantener (todas excepto 'Descripción')
    variables_perfil = [col for col in df.columns if col != 'Descripción']
    
    # Para cada panelista
    for i, (_, row) in enumerate(df.iterrows()):
        progress((i/total_panelistas), 
                desc=f"Procesando panelista {i+1} de {total_panelistas}")
        
        # Llamar a la API
        respuestas, error = llamar_api_gpt(
            row['Descripción'], 
            texto_encuesta,
            api_key
        )
        
        if error:
            errores.append(f"Error en panelista {row['id_panelista']}: {error}")
            continue
            
        try:
            # Procesar respuestas
            resp_dict = procesar_respuesta_api(respuestas)
            
            # Añadir todas las variables de perfil del panelista
            for var in variables_perfil:
                resp_dict[var] = row[var]
                
            resultados.append(resp_dict)
        except Exception as e:
            errores.append(f"Error procesando respuesta de {row['id_panelista']}: {str(e)}")
    
    # Crear mensaje de resumen
    total_exitosos = len(resultados)
    total_errores = len(errores)
    
    mensaje_resumen = f"""
    <h3>Resumen de la encuesta:</h3>
    <ul>
        <li>Total panelistas procesados: {total_panelistas}</li>
        <li>Respuestas exitosas: {total_exitosos}</li>
        <li>Errores encontrados: {total_errores}</li>
    </ul>
    """
    
    if errores:
        mensaje_resumen += "<h4>Detalle de errores:</h4><ul>"
        for error in errores:
            mensaje_resumen += f"<li>{error}</li>"
        mensaje_resumen += "</ul>"
    
    # Si no hay ningún resultado exitoso
    if not resultados:
        return None, None, mensaje_resumen, None
    
    # Crear DataFrame de resultados
    df_resultados = pd.DataFrame(resultados)
    
    # Reordenar las columnas para mejor visualización
    # Primero el ID, luego las variables de perfil, finalmente las respuestas
    columnas_respuestas = [col for col in df_resultados.columns 
                          if col not in variables_perfil]
    orden_columnas = ['id_panelista'] + \
                    [col for col in variables_perfil if col != 'id_panelista'] + \
                    columnas_respuestas
    
    df_resultados = df_resultados[orden_columnas]
    
    # Crear gráficos de frecuencias
    fig = crear_grafico_frecuencias(df_resultados)
    
    # Guardar a Excel
    with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx") as tmp:
        df_resultados.to_excel(tmp.name, index=False)
        file_path = tmp.name
    
    progress(1.0, desc="¡Proceso completado!")
    return df_resultados, file_path, mensaje_resumen, fig
def crear_interfaz():
    with gr.Blocks(title="Generador de Panelistas Sintéticos") as app:
        gr.Markdown("## 🧴 Generador de Consumidores de Cremas Antiarrugas")
        
        # API Key de OpenAI
        api_key = gr.Textbox(
            label="OpenAI API Key",
            placeholder="Introduce tu API Key de OpenAI...",
            type="password"
        )
        
        # Tamaño de la muestra
        n_muestra = gr.Number(label="Tamaño de la muestra", value=100, precision=0)
        
        # Variables para el estado y progreso
        estado = gr.Textbox(label="Estado del proceso", value="Esperando acción...")
        progreso = gr.Progress()
        
        # Listas donde acumulamos todos los checkboxes y sliders
        all_checkboxes = []
        all_sliders = []
        vars_options = []
        
        with gr.Accordion("Configurar Distribuciones", open=False):
            for var, opciones in VARIABLES.items():
                with gr.Group():
                    gr.Markdown(f"### {var}")
                    
                    # Checkbox: si se quiere personalizar la distribución de esta variable
                    var_checkbox = gr.Checkbox(
                        label=f"Personalizar {var}",
                        value=False
                    )
                    all_checkboxes.append(var_checkbox)
                    
                    # Sliders para cada opción de la variable
                    for op in opciones:
                        s = gr.Slider(
                            minimum=0,
                            maximum=100,
                            step=1,
                            label=op,
                            value=100 / len(opciones)
                        )
                        all_sliders.append(s)
                    
                    # Guardar la info para reconstruir 'config' después
                    vars_options.append((var, opciones))

        # Salidas iniciales
        output_table = gr.Dataframe(label="Panelistas Generados")
        download_file = gr.File(label="Descargar Excel", file_count="single")
        
        # Nueva sección para la encuesta
        with gr.Accordion("Realizar Encuesta", open=False):
            encuesta_texto = gr.Textbox(
                label="Pegue aquí el texto de la encuesta",
                lines=10,
                placeholder="Pegue aquí las preguntas de la encuesta..."
            )
            info_encuesta = gr.HTML(label="Información de la encuesta")
            btn_encuesta = gr.Button("Lanzar Encuesta")
            
            # Sección de resultados de la encuesta
            with gr.Tab("Resultados"):
                resultados_encuesta = gr.Dataframe(label="Resultados Detallados")
                download_resultados = gr.File(label="Descargar Resultados Excel")
            
            # Nueva pestaña para los gráficos
            with gr.Tab("Gráficos"):
                graficos_resultados = gr.Plot(label="Gráficos de Frecuencias")

        # Botón generar muestra
        btn_generar = gr.Button("Generar Muestra", variant="primary")

        def generar(n, *values):
            """
            Recibe:
              - n (número)
              - un bloque de checkboxes (uno por variable)
              - un bloque de sliders (uno por opción de cada variable)
            """
            n_muestra_int = int(n)
            num_vars = len(vars_options)
            
            # Los primeros 'num_vars' valores son bool de checkboxes
            checks = values[:num_vars]
            # El resto son floats de sliders
            sliders = values[num_vars:]
            
            config_procesada = {}
            idx_slider = 0
            
            # Recorremos cada variable
            for i, (var, opciones) in enumerate(vars_options):
                if checks[i]:
                    # Personalizar
                    dist = {}
                    for op in opciones:
                        valor_slider = sliders[idx_slider]
                        idx_slider += 1
                        dist[op] = valor_slider / 100.0
                    config_procesada[var] = dist
                else:
                    # No se personaliza => avanzamos el índice de sliders sin usarlos
                    idx_slider += len(opciones)
            
            # Generar DF
            df = generar_entrevistado(config_procesada, n_muestra_int)
            
            # Guardar a Excel en un archivo temporal
            with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx") as tmp:
                df.to_excel(tmp.name, index=False)
                file_path = tmp.name
            
            return df, file_path, "Muestra generada correctamente"
        
        # Conectar los botones
        btn_generar.click(
            fn=generar,
            inputs=[n_muestra] + all_checkboxes + all_sliders,
            outputs=[output_table, download_file, estado]
        )
        
        btn_encuesta.click(
            fn=lanzar_encuesta,
            inputs=[output_table, encuesta_texto, api_key],
            outputs=[resultados_encuesta, download_resultados, info_encuesta, graficos_resultados]
        )
        
    return app

# 4) Lanzar la app
if __name__ == "__main__":
    app = crear_interfaz()
    app.launch(debug=True)