Spaces:

doublesizebed
/

chatbot

Paused

App Files Files Community

doublesizebed commited on May 6, 2025

Commit

a053ac4

1 Parent(s): 556ba3d

Initial Docker-based Space

Browse files

Files changed (3) hide show

Dockerfile +14 -0
app.py +102 -0
requirement.txt +13 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,14 @@

+FROM python:3.9-slim
+# System deps
+RUN apt-get update && apt-get install -y ffmpeg git && rm -rf /var/lib/apt/lists/*
+WORKDIR /app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy source
+COPY . .
+EXPOSE 7860
+CMD ["python", "app.py"]

app.py ADDED Viewed

	@@ -0,0 +1,102 @@

+import os
+import re
+import asyncio
+import torch
+import nltk
+import soundfile as sf
+from flask import Flask, request, jsonify, send_from_directory
+from flask_cors import CORS
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from deep_translator import GoogleTranslator
+from textblob import TextBlob
+from parler_tts import ParlerTTSForConditionalGeneration
+from g2p import make_g2p
+import fasttext
+import string
+from huggingface_hub import hf_hub_download
+# Flask setup
+dir_path = os.path.dirname(os.path.realpath(__file__))
+app = Flask(__name__, static_folder="static")
+CORS(app)
+# Paths
+AUDIO_FOLDER = os.path.join(dir_path, 'static', 'audio')
+os.makedirs(AUDIO_FOLDER, exist_ok=True)
+# Load language detection model
+lid_model = fasttext.load_model(
+    hf_hub_download("doublesizebed/predict_malay_en", "lid_ms_en.bin")
+)
+def tokenize(text):
+    tokens = text.lower().split()
+    return [t.strip(string.punctuation) for t in tokens if t.strip(string.punctuation)]
+def detect_lang(token):
+    label, _ = lid_model.predict(token)
+    return label[0].replace("__label__", "").upper()
+# G2P models
+g2p_ms_tokenizer = AutoTokenizer.from_pretrained("doublesizebed/G2P_malay")
+g2p_ms_model     = AutoModelForSeq2SeqLM.from_pretrained("doublesizebed/G2P_malay").to('cuda' if torch.cuda.is_available() else 'cpu')
+g2p_eng = make_g2p("eng", "eng-ipa")
+def predict_phonemes(word, lang):
+    if lang == "MS":
+        inputs = g2p_ms_tokenizer(word, return_tensors="pt", padding=True, truncation=True)
+        inputs = inputs.to(g2p_ms_model.device)
+        outputs = g2p_ms_model.generate(**inputs)
+        return g2p_ms_tokenizer.decode(outputs[0], skip_special_tokens=True)
+    else:
+        tg = g2p_eng(word)
+        return ' '.join(tg.to_sequence())
+# Chatbot setup
+class ChatBot:
+    def __init__(self):
+        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
+        # Load conversation model\        self.tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+        self.model = AutoModelForCausalLM.from_pretrained(
+            "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+        ).to(self.device)
+        self.chat_history = None
+        # Parler TTS
+        self.tts_model = ParlerTTSForConditionalGeneration.from_pretrained(
+            "doublesizebed/parler-tts-mini-malay"
+        ).to(self.device)
+        self.tts_text_tokenizer = AutoTokenizer.from_pretrained(
+            self.tts_model.config.text_encoder._name_or_path
+        )
+        self.tts_desc_tokenizer = AutoTokenizer.from_pretrained(
+            self.tts_model.config.text_encoder._name_or_path
+        )
+        # NLTK\        nltk.download('brown')
+        nltk.download('punkt')
+        nltk.download('averaged_perceptron_tagger')
+    async def chat(self, user_input, gender):
+        # Build prompt ... (same as original)
+        # Generate response\        # Translate & mask nouns\        # TTS generation...
+        # Save WAV in static/audio and return filename
+        return "Translated text", "response.wav"
+chatbot = ChatBot()
+@app.route('/chat', methods=['POST'])
+def chat_endpoint():
+    data = request.get_json()
+    user_text = data.get('message', '')
+    gender = data.get('gender', 'male')
+    if not user_text:
+        return jsonify({"error": "Empty message"}), 400
+    resp_text, wav_name = asyncio.run(chatbot.chat(user_text, gender))
+    url = f"/static/audio/{wav_name}"
+    return jsonify({"response": resp_text, "audiofile": url})
+@app.route('/static/audio/<path:filename>')
+def serve_audio(filename):
+    return send_from_directory(AUDIO_FOLDER, filename)
+if __name__ == '__main__':
+    app.run(host='0.0.0.0', port=7860)

requirement.txt ADDED Viewed

	@@ -0,0 +1,13 @@

+flask
+flask-cors
+nest_asyncio
+transformers>=4.30
+torch
+fasttext
+deep-translator
+textblob
+parler-tts
+soundfile
+nltk
+g2p-en
+huggingface-hub