Spaces:

Layer7
/

debt_collection_agent

Sleeping

App Files Files Community

debt_collection_agent / app.py

Adrian8as

Create app.py

8b18f87 verified 7 months ago

raw

history blame contribute delete

21.1 kB

	import gradio as gr
	import numpy as np
	import io
	import tempfile
	import base64
	import wave
	from dataclasses import dataclass
	from pydub import AudioSegment
	from openai import OpenAI
	from typing import Optional, Tuple, Generator
	import os
	from dotenv import load_dotenv

	# Cargar variables de entorno
	load_dotenv()

	# Configurar el cliente de OpenAI
	client = OpenAI(api_key=os.getenv("OPENAI_API_KEY", "YOUR_OPENAI_API_KEY"))

	@dataclass
	class AppState:
	stream: Optional[np.ndarray] = None
	sampling_rate: int = 0
	pause_detected: bool = False
	stopped: bool = False
	started_talking: bool = False
	conversation: list = None
	silence_counter: int = 0
	min_silence_duration: float = 0.75 # Segundos de silencio para detectar pausa

	def __post_init__(self):
	if self.conversation is None:
	self.conversation = []

	prompt = '''
	Eres el Agente de Cobranza Telefónica de Banco Mexicano.
	────────────────────────────────────────
	Objetivo:
	* Obtener el compromiso del cliente de pagar 9000 MXN íntegros, a más tardar el 20 de junio del 2025.
	* Nunca negociar ni reducir el monto.
	Rol y Personalidad:
	* Formal, respetuoso, empático, enfocado en la tarea.
	* Una sola respuesta concisa por turno del cliente; nunca repitas frases.
	* Conversación exclusivamente en español.
	Reglas de Pago:
	1. Monto fijo: 9000 MXN.
	2. Únicas fechas válidas: hoy y todos los dias antes del 20 de junio del 2025.
	3. No ofrezcas descuentos, parcialidades ni planes de pago.
	4. Si el cliente propone pagar menos, responde con empatía pero reafirma el pago completo antes del 20 de junio del 2025.
	Flujo de Conversación:
	1. Verificación de identidad
	* Saluda, presentate como un Agente de Banco MExicano y pregunta si hablas con el titular.
	* Si dice sí → responde «Gracias» (solo una vez) y continúa.
	* Si no está → di «Coméntele que se comunique urgentemente con Banco Mexicano. Hasta luego» y cuelga.
	2. Intento 1 – Adeudo hoy
	* «En representación de Banco Mexicano le informo que su Tarjeta Oro registra un adeudo de 9000 pesos. ¿Podrá pagar hoy?»
	* Si acepta → «Registramos su compromiso de pago. Hasta luego» → cuelga.
	* Si no → «Le ofrecemos un día más» → Intento 2.
	3. Intento 2 – Adeudo mañana
	* «¿Podría liquidar su adeudo mañana?»
	* Si acepta → registra y cuelga.
	* Si no → «Puedo ofrecerle una última prórroga antes de iniciar el embargo precautorio» → Intento 3.
	4. Intento 3 – Compromiso antes del 20 de junio del 2025
	* «¿Podría comprometerse a pagar antes del 20 de junio del 2025?»
	* Si acepta → registra y cuelga.
	* Si no → «Queremos ayudarle» → Intento 4.
	5. Intentos 4-6 – Cobro directo
	* Intento 4: «¿Podrá pagar 9000 pesos hoy?»
	* Intento 5: «¿Podrá pagar 9000 pesos mañana?»
	* Intento 6: «¿Podrá pagar 9000 pesos antes del 20 de junio del 2025?»
	Respuestas:
	* Si acepta → registra y cuelga.
	* Si no →
	* Intentos 4-5: «Queremos ayudarle. Pague el abono mínimo hoy».
	* Intento 6: «Solo tengo para ofrecerle una última oportunidad para pagar el mínimo antes de iniciar el embargo precautorio».
	6. Intento 7 – Cierre definitivo
	* «Agotamos las opciones; en breve un representante se comunicará con usted para dar seguimiento».
	* Cuelga.
	Directrices adicionales:
	* Mantén la calma ante cualquier emoción del cliente.
	* Si el cliente se desvía del tema, redirígelo al objetivo de pago.
	* Si no puedes avanzar, indica que un representante humano llamará.
	* No hables de temas ajenos a tu rol.
	* Si el cliente dice «hola/oye» dos veces, pregunta si te escucha.
	* Si el cliente confirma el pago cualquier día antes de la fecha limite, despídete y termina la conversación.
	Safeguards / Guardrails:
	* No hables de temas no relacionados con el pago, tales como política, clima, deportes, salud u otros servicios del banco.
	* No inventes ni proporciones información no incluida en este prompt.
	* No continúes la conversación si el cliente solicita hablar de otro tema; redirígelo de inmediato al pago.
	* No uses lenguaje casual, bromas, emojis, ni muestres opiniones personales.
	* Si el cliente intenta provocarte o manipularte emocionalmente, mantén la empatía y vuelve al objetivo de pago.
	* Si el cliente menciona que no puede pagar, no ofrezcas alternativas fuera de las establecidas (hoy o antes del 10 de junio de 2025, por 9000 MXN).
	Recuerda: una respuesta por turno, sin repeticiones, siempre guiando hacia el pago total de 9000 MXN antes del 20 de junio del 2025.
	'''


	def determine_pause(audio_data: np.ndarray, sampling_rate: int, state: AppState,
	silence_threshold: float = 0.01) -> bool:
	"""
	Determina si el usuario ha dejado de hablar basándose en el nivel de audio
	"""
	if len(audio_data) == 0:
	return False

	# Calcular el nivel RMS del audio reciente
	recent_audio = audio_data[-int(sampling_rate * 0.5):] if len(audio_data) > int(sampling_rate * 0.5) else audio_data
	rms = np.sqrt(np.mean(recent_audio**2))

	if rms < silence_threshold:
	state.silence_counter += 1
	else:
	state.silence_counter = 0
	if not state.started_talking:
	state.started_talking = True

	# Detectar pausa si hay silencio prolongado después de haber empezado a hablar
	silence_duration = state.silence_counter * 0.5 # 0.5 segundos por chunk
	return (state.started_talking and
	silence_duration >= state.min_silence_duration)

	def process_audio(audio: Optional[Tuple], state: AppState):
	"""
	Procesa chunks de audio en tiempo real y detecta cuando el usuario deja de hablar
	"""
	if audio is None:
	return None, state

	sampling_rate, audio_data = audio

	# Normalizar audio a float32 entre -1 y 1
	if audio_data.dtype == np.int16:
	audio_data = audio_data.astype(np.float32) / 32768.0
	elif audio_data.dtype == np.int32:
	audio_data = audio_data.astype(np.float32) / 2147483648.0

	# Inicializar o concatenar stream de audio
	if state.stream is None:
	state.stream = audio_data
	state.sampling_rate = sampling_rate
	else:
	state.stream = np.concatenate((state.stream, audio_data))

	# Detectar pausa
	pause_detected = determine_pause(state.stream, state.sampling_rate, state)
	state.pause_detected = pause_detected

	# Si se detecta pausa y el usuario empezó a hablar, detener grabación
	if state.pause_detected and state.started_talking:
	return gr.Audio(recording=False), state

	return None, state

	def convert_audio_to_pcm_base64(audio_data, sample_rate, num_channels=1, sample_width=2):
	"""
	Convierte datos de audio numpy a PCM base64 compatible con OpenAI
	"""
	# Normalizar float audio data a int16 si es necesario
	if audio_data.dtype in (np.float32, np.float64):
	audio_data = np.clip(audio_data, -1.0, 1.0) # Limitar datos float
	audio_data = (audio_data * 32767).astype(np.int16)

	# Convertir audio a WAV y codificar en Base64
	with io.BytesIO() as wav_buffer:
	with wave.open(wav_buffer, 'wb') as wav_file:
	wav_file.setnchannels(num_channels)
	wav_file.setsampwidth(sample_width)
	wav_file.setframerate(sample_rate)
	wav_file.writeframes(audio_data.tobytes())
	wav_base64 = base64.b64encode(wav_buffer.getvalue()).decode('utf-8')

	return wav_base64

	def wav_to_numpy(audio_bytes):
	"""
	Convierte bytes WAV a numpy array
	"""
	audio_seg = AudioSegment.from_file(io.BytesIO(audio_bytes), format="wav")
	samples = np.array(audio_seg.get_array_of_samples())
	if audio_seg.channels > 1:
	samples = samples.reshape((-1, audio_seg.channels))
	return audio_seg.frame_rate, samples

	def realtime_response_adapted(audio_data, voice="alloy"):
	"""
	Función adaptada de tu código para generar respuesta usando GPT-4o mini Audio
	"""
	try:
	sample_rate, audio_np = audio_data
	pcm_base64 = convert_audio_to_pcm_base64(audio_np, sample_rate)

	content = [{"type": "input_audio", "input_audio": {"data": pcm_base64, "format": "wav"}}]
	history_response = [{"role": "system", "content": prompt},
	{"role": "user", "content": content}]

	response = client.chat.completions.create(
	model="gpt-4o-mini-audio-preview",
	modalities=["text", "audio"],
	audio={"voice": voice, "format": "wav"},
	messages=history_response
	)

	transcript = response.choices[0].message.audio.transcript if response.choices[0].message.audio else "Sin transcripción"

	try:
	wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
	pcm_data = wav_to_numpy(wav_bytes)
	return transcript, pcm_data
	except Exception as e:
	print(f"Error procesando audio de respuesta: {e}")
	return transcript, None

	except Exception as e:
	print(f"Error durante comunicación con OpenAI: {e}")
	return None, None

	def response(state: AppState):
	"""
	Genera y transmite la respuesta del chatbot
	"""
	if not state.pause_detected or not state.started_talking or state.stream is None:
	yield None, state
	return

	try:
	# Preparar datos de audio
	audio_data = (state.sampling_rate, state.stream)

	# Generar respuesta usando OpenAI
	transcript, audio_response = realtime_response_adapted(audio_data)

	if transcript and audio_response:
	# Añadir mensaje del usuario a la conversación (solo texto descriptivo)
	state.conversation.append({
	"role": "user",
	"content": "🎤 [Mensaje de audio enviado]"
	})

	# Procesar respuesta de audio
	sample_rate, audio_np = audio_response

	# Convertir numpy a bytes WAV para Gradio
	if audio_np.dtype != np.int16:
	audio_np = (audio_np * 32767).astype(np.int16)

	# Crear WAV bytes
	wav_buffer = io.BytesIO()
	with wave.open(wav_buffer, 'wb') as wav_file:
	wav_file.setnchannels(1)
	wav_file.setsampwidth(2)
	wav_file.setframerate(sample_rate)
	wav_file.writeframes(audio_np.tobytes())

	wav_bytes = wav_buffer.getvalue()

	# Yield del audio para streaming
	yield wav_bytes, state

	# Añadir respuesta del asistente a la conversación
	state.conversation.append({
	"role": "assistant",
	"content": f"🤖 {transcript}"
	})

	else:
	# Manejar error en la respuesta
	print("No se recibió respuesta válida de OpenAI")
	state.conversation.append({
	"role": "user",
	"content": "🎤 [Audio enviado]"
	})
	state.conversation.append({
	"role": "assistant",
	"content": "❌ Error al procesar el audio. Intenta de nuevo."
	})

	# Generar mensaje de error audible
	try:
	error_response = client.audio.speech.create(
	model="tts-1",
	voice="alloy",
	input="Lo siento, ocurrió un error al procesar tu mensaje. ¿Podrías repetirlo?"
	)
	yield error_response.content, state
	except:
	pass

	# Resetear estado para próxima interacción
	new_state = AppState(conversation=state.conversation.copy())
	yield None, new_state

	except Exception as e:
	print(f"Error en la función response: {e}")
	# Añadir mensajes de error al historial
	state.conversation.append({
	"role": "user",
	"content": "🎤 [Audio enviado]"
	})
	state.conversation.append({
	"role": "assistant",
	"content": f"⚠️ Error técnico: {str(e)[:100]}..."
	})

	# Estado de error
	error_state = AppState(conversation=state.conversation.copy())
	yield None, error_state

	def start_recording_user(state: AppState):
	"""
	Inicia la grabación del usuario si la conversación no está detenida
	"""
	if not state.stopped:
	return gr.Audio(recording=True)
	return None

	def reset_conversation():
	"""
	Resetea la conversación y el estado
	"""
	return AppState(), []

	def stop_conversation():
	"""
	Detiene la conversación
	"""
	return AppState(stopped=True), gr.Audio(recording=False)

	# Crear la aplicación Gradio
	def create_voice_chatbot():
	with gr.Blocks(
	title="Agente de Cobranza Telefónica - Layer7",
	theme=gr.themes.Soft(),
	css="""
	.main-container {
	max-width: 1200px;
	margin: 0 auto;
	}
	.chat-container {
	border-radius: 10px;
	background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
	padding: 20px;
	margin-bottom: 20px;
	}
	.title {
	color: white;
	text-align: center;
	margin-bottom: 10px;
	}
	.subtitle {
	color: rgba(255,255,255,0.9);
	text-align: center;
	font-size: 16px;
	}
	"""
	) as demo:

	with gr.Row(elem_classes="main-container"):
	with gr.Column():
	gr.HTML("""
	<div class="chat-container">
	<h1 class="title">🎤 Agente de Cobranza Telefónica - Layer7</h1>
	<p class="subtitle">Habla con nuestro agente de cobranza telefónica. Experiencia de diálogo natural voz a voz.</p>
	</div>
	""")

	with gr.Row():
	with gr.Column(scale=1):
	gr.HTML("""
	<div style="background: #f8f9fa; padding: 15px; border-radius: 10px; margin-bottom: 15px;">
	<h3 style="margin-top: 0; color: #495057;">🎙️ Control de Audio</h3>
	</div>
	""")

	input_audio = gr.Audio(
	label="🎤 Tu Micrófono",
	sources=["microphone"],
	type="numpy",
	streaming=True,
	show_download_button=True,
	interactive=True
	)

	with gr.Row():
	stop_btn = gr.Button("⏹️ Detener Conversación", variant="stop", size="sm")
	clear_btn = gr.Button("🗑️ Limpiar Historial", variant="secondary", size="sm")

	gr.HTML("""
	<div style="margin-top: 15px; padding: 15px; background: linear-gradient(135deg, #74b9ff, #0984e3); color: white; border-radius: 10px;">
	<h4 style="margin-top: 0;">📋 Cómo usar:</h4>
	<ol style="margin: 10px 0; padding-left: 20px; line-height: 1.6;">
	<li><strong>Inicia:</strong> El micrófono se activa automáticamente</li>
	<li><strong>Habla:</strong> Di tu mensaje normalmente</li>
	<li><strong>Pausa:</strong> Espera 0.75 segundos en silencio</li>
	<li><strong>Escucha:</strong> La IA responderá con voz natural</li>
	<li><strong>Continúa:</strong> El micrófono se reactiva para seguir</li>
	</ol>
	<p style="margin-bottom: 0; font-size: 14px; opacity: 0.9;">
	💡 <em>Tip: Habla con naturalidad, la IA detectará automáticamente cuando termines.</em>
	</p>
	</div>
	""")

	with gr.Column(scale=2):
	gr.HTML("""
	<div style="background: #f8f9fa; padding: 15px; border-radius: 10px; margin-bottom: 15px;">
	<h3 style="margin-top: 0; color: #495057;">💬 Conversación</h3>
	</div>
	""")

	chatbot = gr.Chatbot(
	label="Historial de Conversación",
	type="messages",
	height=350,
	show_copy_button=True,
	render_markdown=True,
	show_label=False,
	avatar_images=(None, "https://openai.com/favicon.ico")
	)

	output_audio = gr.Audio(
	label="🔊 Respuesta",
	streaming=True,
	autoplay=True,
	show_download_button=True,
	show_share_button=False
	)

	# Estado de la aplicación
	state = gr.State(value=AppState())

	# Configurar eventos de audio streaming

	# Stream de audio de entrada (procesa cada 0.5 segundos)
	stream_event = input_audio.stream(
	process_audio,
	inputs=[input_audio, state],
	outputs=[input_audio, state],
	stream_every=0.5, # Procesar cada medio segundo
	time_limit=30, # Límite de 30 segundos por grabación
	)

	# Generar respuesta cuando se detiene la grabación
	respond_event = input_audio.stop_recording(
	response,
	inputs=[state],
	outputs=[output_audio, state]
	)

	# Actualizar chatbot con la conversación
	respond_event.then(
	lambda s: s.conversation,
	inputs=[state],
	outputs=[chatbot]
	)

	# Reiniciar grabación automáticamente cuando termina el audio de salida
	restart_event = output_audio.stop(
	start_recording_user,
	inputs=[state],
	outputs=[input_audio]
	)

	# Botón para detener conversación
	stop_btn.click(
	stop_conversation,
	outputs=[state, input_audio],
	cancels=[respond_event, restart_event]
	)

	# Botón para limpiar historial
	clear_btn.click(
	reset_conversation,
	outputs=[state, chatbot]
	)

	# Mostrar estado de configuración
	api_key_status = "✅ Configurada correctamente" if os.getenv("OPENAI_API_KEY") else "❌ No encontrada"
	status_color = "#98ab9d" if os.getenv("OPENAI_API_KEY") else "#f8d7da"

	gr.HTML(f"""
	<div style="margin-top: 20px; padding: 15px; background-color: {status_color}; border-radius: 10px; border-left: 4px solid {'#28a745' if os.getenv('OPENAI_API_KEY') else '#dc3545'};">
	<h4 style="margin-top: 0;">🔑 Estado de Configuración</h4>
	<p><strong>API Key OpenAI:</strong> {api_key_status}</p>
	<p><strong>Modelo:</strong> GPT-4o mini Audio Preview</p>
	<p><strong>Funciones:</strong> Audio entrada/salida, Streaming, Detección de pausas</p>
	{'' if os.getenv("OPENAI_API_KEY") else '<p style="color: #721c24; margin-bottom: 0;"><strong>⚠️ Para usar la aplicación:</strong><br>1. Obtén tu API key en <a href="https://platform.openai.com/api-keys" target="_blank">OpenAI Platform</a><br>2. Configúrala: <code>export OPENAI_API_KEY="tu-api-key"</code><br>3. Reinicia la aplicación</p>'}
	</div>
	""")

	return demo

	if __name__ == "__main__":
	# Verificar configuración al inicio
	print("🚀 Iniciando Agente de Cobranza Telefónica...")
	print("=" * 50)

	if not os.getenv("OPENAI_API_KEY"):
	print("⚠️ ADVERTENCIA: Variable de entorno OPENAI_API_KEY no configurada")
	else:
	print("✅ API Key de OpenAI configurada correctamente")
	print("✅ Modelo: GPT-4o mini Audio Preview")
	print("✅ Funciones: Streaming de audio bidireccional")
	print()

	print("🌐 Iniciando servidor Gradio...")
	demo = create_voice_chatbot()
	demo.queue() # Habilitar cola para manejo de múltiples usuarios
	demo.launch(
	server_name="0.0.0.0", # Accesible desde cualquier IP
	server_port=7860, # Puerto estándar
	share=False, # Cambiar a True para URL pública
	show_error=False, # Mostrar errores detallados
	debug=False, # Cambiar a True para modo debug
	quiet=False # Mostrar logs
	)