Spaces:

GamerC0der
/

test-2

Running

App Files Files Community

test-2 / app.py

GamerC0der

Update app.py

afc5457 verified 22 days ago

raw

history blame contribute delete

14.2 kB

	import http.server
	import socketserver
	import json
	from curl_cffi import requests
	from openai import OpenAI
	import re
	import cgi
	import urllib.parse
	from html import escape

	PORT = 7860
	STT_URL = "https://multi-modal.ai.cloudflare.com/api/inference?model=@cf/deepgram/nova-3&field=audio"
	TTS_URL = "https://multi-modal.ai.cloudflare.com/api/inference"

	client = OpenAI(
	base_url="https://integrate.api.nvidia.com/v1",
	api_key="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"
	)

	def simple_md(text):
	text = re.sub(r'\\(.?)\\*', r'<b>\1</b>', text)
	text = re.sub(r'\(.?)\*', r'<i>\1</i>', text)
	text = re.sub(r'`(.*?)`', r'<code>\1</code>', text)
	text = re.sub(r'\n', r'<br>', text)
	return text

	MAIN_HTML = """
	<!DOCTYPE html>
	<html>
	<head>
	<title>Multi-Modal Playground</title>
	<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css">
	</head>
	<body>
	<h1>Multi-Modal Playground</h1>

	<h2>STT (Nova-3)</h2>
	<form action="/stt" method="post" enctype="multipart/form-data">
	<p>Upload audio:</p>
	<input type="file" name="audio" accept="audio/*" required>
	<button type="submit">Transcribe</button>
	</form>

	<h2>TTS (AURA-1)</h2>
	<form action="/tts" method="post">
	<p>Enter text:</p>
	<input type="text" name="text" placeholder="Enter text to speak" style="width:100%;" required>
	<button type="submit">Generate Audio</button>
	</form>

	<h2>Chat (Llama) - Single Turn</h2>
	<form action="/chat" method="post">
	<p>Enter message:</p>
	<textarea name="message" placeholder="Type your message..." style="width:100%; height:60px;" required></textarea>
	<button type="submit">Send</button>
	</form>

	<h2>Voice Chat</h2>
	<p><a href="/voicechat">Go to Voice Chat</a></p>

	<hr>
	<a href="/">Refresh Playground</a>
	</body>
	</html>
	"""

	VOICECHAT_HTML = """
	<!DOCTYPE html>
	<html>
	<head>
	<title>Voice Chat</title>
	<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.0/css/all.min.css">
	</head>
	<body>
	<h1>Voice Chat</h1>
	<div id="messages" style="height:300px;overflow-y:scroll;border:1px solid #ccc;padding:10px;margin-bottom:10px;background:#eee;"></div>
	<button id="micBtn" onclick="toggleRecord()" style="font-size:48px;"><i class="fas fa-microphone"></i></button>
	<p>Status: <span id="statusVoice">Click to start recording</span></p>
	<audio id="voicePlayer" style="display:none;"></audio>
	<p><a href="/">Back to Playground</a></p>

	<script>
	let chatMessages = [];
	let mediaRecorder;
	let audioChunks = [];
	let voiceStream;

	function renderMD(text) {
	return text.replace(/\\(.?)\\*/g, '<b>$1</b>')
	.replace(/\(.?)\*/g, '<i>$1</i>')
	.replace(/`(.*?)`/g, '<code>$1</code>')
	.replace(/\n/g, '<br>');
	}

	function addMessage(role, content) {
	const div = document.getElementById('messages');
	const msg = document.createElement('div');
	msg.innerHTML = `<strong>${role}:</strong> ${renderMD(content)}`;
	div.appendChild(msg);
	div.scrollTop = div.scrollHeight;
	}

	async function toggleRecord() {
	const btn = document.getElementById('micBtn');
	if (!mediaRecorder \|\| mediaRecorder.state === 'inactive') {
	try {
	voiceStream = await navigator.mediaDevices.getUserMedia({audio: true});
	mediaRecorder = new MediaRecorder(voiceStream);
	audioChunks = [];
	mediaRecorder.ondataavailable = e => audioChunks.push(e.data);
	mediaRecorder.onstop = processVoice;
	mediaRecorder.start();
	btn.style.color = 'red';
	document.getElementById('statusVoice').innerText = 'Recording... Click to stop';
	} catch (e) {
	console.error('Mic error:', e);
	document.getElementById('statusVoice').innerText = 'Error accessing mic';
	}
	} else {
	mediaRecorder.stop();
	btn.style.color = 'black';
	document.getElementById('statusVoice').innerText = 'Processing...';
	}
	}

	async function processVoice() {
	const audioBlob = new Blob(audioChunks, {type: 'audio/webm'});
	if (voiceStream) {
	voiceStream.getTracks().forEach(track => track.stop());
	}
	document.getElementById('statusVoice').innerText = 'Transcribing...';
	try {
	const sttRes = await fetch('/api/stt', {method: 'POST', body: audioBlob});
	const sttData = await sttRes.json();
	let userText = '';
	if (sttData.results && sttData.results.channels && sttData.results.channels[0] &&
	sttData.results.channels[0].alternatives && sttData.results.channels[0].alternatives[0]) {
	userText = sttData.results.channels[0].alternatives[0].transcript;
	}
	if (!userText) {
	document.getElementById('statusVoice').innerText = 'No speech detected';
	return;
	}
	addMessage('user', userText);
	chatMessages.push({role: 'user', content: userText});
	document.getElementById('statusVoice').innerText = 'Thinking...';
	const chatRes = await fetch('/api/chat', {
	method: 'POST',
	headers: {'Content-Type': 'application/json'},
	body: JSON.stringify({messages: chatMessages})
	});
	const chatData = await chatRes.json();
	const response = chatData.response;
	addMessage('assistant', response);
	chatMessages.push({role: 'assistant', content: response});
	document.getElementById('statusVoice').innerText = 'Generating speech...';
	const ttsRes = await fetch('/api/tts', {
	method: 'POST',
	headers: {'Content-Type': 'application/json'},
	body: JSON.stringify({text: response})
	});
	const ttsData = await ttsRes.json();
	const audioPlayer = document.getElementById('voicePlayer');
	audioPlayer.src = 'data:audio/webm;base64,' + ttsData.audio;
	audioPlayer.play();
	document.getElementById('statusVoice').innerText = 'Done';
	} catch (e) {
	console.error('Voice process error:', e);
	document.getElementById('statusVoice').innerText = 'Error';
	}
	}
	</script>
	</body>
	</html>
	"""

	STT_RESULT_HTML = """
	<!DOCTYPE html>
	<html>
	<head><title>STT Result</title></head>
	<body>
	<h1>STT Transcription Result</h1>
	<pre style="background:#eee;padding:10px;white-space:pre-wrap;">{result}</pre>
	<a href="/">Back to Playground</a>
	</body>
	</html>
	"""

	TTS_RESULT_HTML = """
	<!DOCTYPE html>
	<html>
	<head><title>TTS Result</title></head>
	<body>
	<h1>TTS Generated Audio</h1>
	<audio controls style="width:100%;">
	<source src="data:audio/webm;base64,{audio_b64}" type="audio/webm">
	Your browser does not support the audio element.
	</audio>
	<p><a href="/">Back to Playground</a></p>
	</body>
	</html>
	"""

	CHAT_RESULT_HTML = """
	<!DOCTYPE html>
	<html>
	<head><title>Chat Result</title></head>
	<body>
	<h1>Chat Response</h1>
	<div style="border:1px solid #ccc;padding:10px;margin-bottom:10px;background:#eee;">
	<strong>You:</strong> {user_message}<br><br>
	<strong>Assistant:</strong> {response}
	</div>
	<p><a href="/">Back to Playground</a></p>
	</body>
	</html>
	"""

	class Handler(http.server.BaseHTTPRequestHandler):
	def do_GET(self):
	if self.path.split('?')[0] == '/':
	self.send_response(200)
	self.send_header("Content-type", "text/html")
	self.end_headers()
	self.wfile.write(MAIN_HTML.encode())
	elif self.path.split('?')[0] == '/voicechat':
	self.send_response(200)
	self.send_header("Content-type", "text/html")
	self.end_headers()
	self.wfile.write(VOICECHAT_HTML.encode())
	else:
	self.send_error(404)

	def do_POST(self):
	if self.path == '/api/stt':
	content_length = int(self.headers['Content-Length'])
	body = self.rfile.read(content_length)
	r = requests.post(STT_URL, data=body, impersonate="chrome")
	self.send_response(200)
	self.send_header("Content-type", "application/json")
	self.end_headers()
	self.wfile.write(r.content)
	return

	elif self.path == '/stt':
	form = cgi.FieldStorage(
	fp=self.rfile,
	headers=self.headers,
	environ={'REQUEST_METHOD': 'POST'}
	)
	if 'audio' in form:
	fileitem = form['audio']
	if fileitem.file:
	body = fileitem.file.read()
	r = requests.post(STT_URL, data=body, impersonate="chrome")
	try:
	result_json = json.dumps(r.json(), indent=2)
	except:
	result_json = str(r.text)
	result_html = STT_RESULT_HTML.format(result=escape(result_json))
	self.send_response(200)
	self.send_header("Content-type", "text/html")
	self.end_headers()
	self.wfile.write(result_html.encode())
	return
	self.send_error(400, "No audio file")

	elif self.path == '/tts':
	form = cgi.FieldStorage(
	fp=self.rfile,
	headers=self.headers,
	environ={'REQUEST_METHOD': 'POST'}
	)
	if 'text' in form:
	text = form['text'].value.strip()
	if text:
	tts_payload = {"model": "@cf/myshell-ai/melotts", "params": {"prompt": text}}
	r = requests.post(TTS_URL, json=tts_payload, impersonate="chrome")
	resp_data = r.json()
	audio_b64 = resp_data["response"]["audio"]
	result_html = TTS_RESULT_HTML.format(audio_b64=escape(audio_b64))
	self.send_response(200)
	self.send_header("Content-type", "text/html")
	self.end_headers()
	self.wfile.write(result_html.encode())
	return
	self.send_error(400, "No text provided")

	elif self.path == '/chat':
	form = cgi.FieldStorage(
	fp=self.rfile,
	headers=self.headers,
	environ={'REQUEST_METHOD': 'POST'}
	)
	if 'message' in form:
	user_message = form['message'].value.strip()
	if user_message:
	messages = [{"role": "user", "content": user_message}]
	completion = client.chat.completions.create(
	model="meta/llama-3.2-1b-instruct",
	messages=messages,
	temperature=0.2,
	top_p=0.7,
	max_tokens=1024,
	stream=False
	)
	response_text = completion.choices[0].message.content
	response_html = simple_md(escape(response_text))
	result_html = CHAT_RESULT_HTML.format(
	user_message=escape(user_message),
	response=response_html
	)
	self.send_response(200)
	self.send_header("Content-type", "text/html")
	self.end_headers()
	self.wfile.write(result_html.encode())
	return
	self.send_error(400, "No message provided")

	elif self.path == '/api/tts':
	content_length = int(self.headers['Content-Length'])
	body_str = self.rfile.read(content_length).decode('utf-8')
	req_data = json.loads(body_str)
	text = req_data['text']
	tts_payload = {"model": "@cf/myshell-ai/melotts", "params": {"prompt": text}}
	r = requests.post(TTS_URL, json=tts_payload, impersonate="chrome")
	resp_data = r.json()
	audio_b64 = resp_data["response"]["audio"]
	response = {"audio": audio_b64}
	self.send_response(200)
	self.send_header("Content-type", "application/json")
	self.end_headers()
	self.wfile.write(json.dumps(response).encode())

	elif self.path == '/api/chat':
	content_length = int(self.headers['Content-Length'])
	body_str = self.rfile.read(content_length).decode('utf-8')
	req_data = json.loads(body_str)
	messages = req_data['messages']
	completion = client.chat.completions.create(
	model="meta/llama-3.2-1b-instruct",
	messages=messages,
	temperature=0.2,
	top_p=0.7,
	max_tokens=1024,
	stream=False
	)
	response_text = completion.choices[0].message.content
	response = {"response": response_text}
	self.send_response(200)
	self.send_header("Content-type", "application/json")
	self.end_headers()
	self.wfile.write(json.dumps(response).encode())

	else:
	self.send_error(404)

	with socketserver.TCPServer(("0.0.0.0", PORT), Handler) as d:
	print(f"Server: {PORT}")
	d.serve_forever()