interviewer

Sleeping

App Files Files Community

IliaLarchenko commited on Apr 25, 2024

Commit

ac13632

1 Parent(s): 8138173

STT refactoring

Browse files

Files changed (2) hide show

api/audio.py +15 -1
app.py +4 -8

api/audio.py CHANGED Viewed

@@ -2,6 +2,7 @@ import io
 import os
 import wave
 import requests
 from openai import OpenAI
@@ -30,8 +31,10 @@ class STTManager:
     def __init__(self, config):
         self.config = config
         self.streaming = os.getenv("STREAMING", False)
-    def speech_to_text(self, audio, chat_display):
         audio = numpy_audio_to_bytes(audio[1])
         try:
             if self.config.stt.type == "OPENAI_API":
@@ -52,6 +55,17 @@ class STTManager:
         except Exception as e:
             raise APIError(f"STT Error: Unexpected error: {e}")
         chat_display.append([transcription, None])
         return chat_display

 import os
 import wave
+import numpy as np
 import requests
 from openai import OpenAI
     def __init__(self, config):
         self.config = config
         self.streaming = os.getenv("STREAMING", False)
+        self.status = self.test_stt()
+        self.streaming = False
+    def speech_to_text(self, audio):
         audio = numpy_audio_to_bytes(audio[1])
         try:
             if self.config.stt.type == "OPENAI_API":
         except Exception as e:
             raise APIError(f"STT Error: Unexpected error: {e}")
+        return transcription
+    def test_stt(self):
+        try:
+            self.speech_to_text((48000, np.zeros(10000)))
+            return True
+        except:
+            return False
+    def add_user_message(self, audio, chat_display):
+        transcription = self.speech_to_text(audio)
         chat_display.append([transcription, None])
         return chat_display

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from config import config
 from docs.instruction import instruction
 from resources.data import fixed_messages, topics_list
 from resources.prompts import prompts
-from utils.ui import add_candidate_message, add_interviewer_message
 llm = LLMManager(config, prompts)
 tts = TTSManager(config)
@@ -72,11 +72,8 @@ with gr.Blocks(title="AI Interviewer") as demo:
                 tts_status = get_status_color(tts)
                 gr.Markdown(f"TTS status: {tts_status}{space}{config.tts.name}")
-                try:
-                    text_test = stt.speech_to_text(audio_test, False)
-                    gr.Markdown(f"STT status: 🟢{space} {config.stt.name}")
-                except:
-                    gr.Markdown(f"STT status: 🔴{space} {config.stt.name}")
                 llm_status = get_status_color(llm)
                 gr.Markdown(f"LLM status: {llm_status}{space}{config.llm.name}")
@@ -134,7 +131,6 @@ with gr.Blocks(title="AI Interviewer") as demo:
                     end_btn = gr.Button("Finish the interview", interactive=False)
                     chat = gr.Chatbot(label="Chat", show_label=False, show_share_button=False)
                     audio_input = gr.Audio(interactive=False, **default_audio_params)
-                    # message = gr.Textbox(label="Message", lines=3, visible=False)
         with gr.Accordion("Feedback", open=True) as feedback_acc:
             feedback = gr.Markdown()
@@ -167,7 +163,7 @@ with gr.Blocks(title="AI Interviewer") as demo:
         fn=llm.end_interview, inputs=[description, chat_history], outputs=[feedback]
     )
-    audio_input.stop_recording(fn=stt.speech_to_text, inputs=[audio_input, chat], outputs=[chat]).then(
         fn=lambda: None, outputs=[audio_input]
     ).then(
         fn=llm.send_request,

 from docs.instruction import instruction
 from resources.data import fixed_messages, topics_list
 from resources.prompts import prompts
+from utils.ui import add_interviewer_message
 llm = LLMManager(config, prompts)
 tts = TTSManager(config)
                 tts_status = get_status_color(tts)
                 gr.Markdown(f"TTS status: {tts_status}{space}{config.tts.name}")
+                stt_status = get_status_color(stt)
+                gr.Markdown(f"STT status: {stt_status}{space}{config.stt.name}")
                 llm_status = get_status_color(llm)
                 gr.Markdown(f"LLM status: {llm_status}{space}{config.llm.name}")
                     end_btn = gr.Button("Finish the interview", interactive=False)
                     chat = gr.Chatbot(label="Chat", show_label=False, show_share_button=False)
                     audio_input = gr.Audio(interactive=False, **default_audio_params)
         with gr.Accordion("Feedback", open=True) as feedback_acc:
             feedback = gr.Markdown()
         fn=llm.end_interview, inputs=[description, chat_history], outputs=[feedback]
     )
+    audio_input.stop_recording(fn=stt.add_user_message, inputs=[audio_input, chat], outputs=[chat]).then(
         fn=lambda: None, outputs=[audio_input]
     ).then(
         fn=llm.send_request,