Spaces:

ImPolymath
/

demorrha

Paused

App Files Files Community

rick commited on Sep 28, 2024

Commit

3f5fb93

unverified ·

1 Parent(s): 00dd73c

align to PEP8

Browse files

Files changed (1) hide show

app.py +106 -72

app.py CHANGED Viewed

@@ -1,16 +1,19 @@
-import streamlit as st
-from openai import OpenAI
-from os import getenv
-from audiorecorder import audiorecorder
-import tempfile
 import base64
-from pydub import AudioSegment
-import os
 import io
-import time
-import re
-from typing import Union, Optional, Any
 import json
 def load_lang_ui(filepath: Optional[str] = "ui_lang_support.json") -> dict:
     try:
@@ -20,7 +23,9 @@ def load_lang_ui(filepath: Optional[str] = "ui_lang_support.json") -> dict:
         print(_("erreur_fichier_non_trouve").format(filepath))
         return {}
     except json.JSONDecodeError:
-        print(_("erreur_lecture_fichier").format("Erreur de décodage JSON"))
         return {}
     except Exception as e:
         print(_("erreur_lecture_fichier").format(str(e)))
@@ -51,8 +56,11 @@ def lire_fichier(nom_fichier):
 def split_audio(audio_file, max_size_mb=25):
     audio = AudioSegment.from_wav(audio_file)
     duration_ms = len(audio)
-    segment_duration_ms = int((max_size_mb * 1024 * 1024 * 8) / (audio.frame_rate * audio.sample_width * audio.channels))
     segments = []
     for start in range(0, duration_ms, segment_duration_ms):
         end = min(start + segment_duration_ms, duration_ms)
@@ -60,7 +68,7 @@ def split_audio(audio_file, max_size_mb=25):
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_segment:
             segment.export(temp_segment.name, format="wav")
             segments.append(temp_segment.name)
     return segments
 # Fonction modifiée pour transcrire l'audio en texte
@@ -74,7 +82,7 @@ def transcribe_audio(audio_file, language=None):
         for segment in segments:
             with open(segment, "rb") as audio_segment:
                 transcript = client.audio.transcriptions.create(
-                    model="whisper-1",
                     file=audio_segment,
                     language=language
                 )
@@ -84,7 +92,7 @@ def transcribe_audio(audio_file, language=None):
     else:
         with open(audio_file.name, "rb") as audio_file:
             transcript = client.audio.transcriptions.create(
-                model="whisper-1",
                 file=audio_file,
                 language=language
             )
@@ -94,10 +102,13 @@ def transcribe_audio(audio_file, language=None):
 def language_detection(input_text, temperature=0.01):
     system_prompt = "".join([
         "Je souhaite que vous agissiez en tant que fonction linguistique.",
-        "Je m'exprimerai dans n'importe quelle langue, et vous en détecterez la langue.",
         "Vous fournirez le résultat de votre détection au format ISO-639-1.",
-        "Votre réponse doit représenter l'argument `language` et contenir seulement sa valeur de type chaîne de caractères.",
-        "La langue de l'audio d'entrée. Fournir la langue d'entrée au format ISO-639-1 améliorera la précision et la latence."
     ])
     response = client.chat.completions.create(
         model="gpt-4o-mini",
@@ -119,6 +130,7 @@ def get_duration_pydub(audio_file):
     audio = AudioSegment.from_file(audio_file)
     return audio.duration_seconds
 # Fonction pour convertir du texte en parole
 def text_to_speech(text):
     response = client.audio.speech.create(
@@ -145,8 +157,12 @@ def concatenate_audio_files(audio_list):
     final_audio = AudioSegment.empty()
     # Charger les effets sonores
-    begin_sound = AudioSegment.from_mp3("sound-effects/voice-message-play-begin/voice-message-play-begin-1.mp3")
-    end_sound = AudioSegment.from_mp3("sound-effects/voice-message-play-ending/voice-message-play-ending-1.mp3")
     # Silence de 5 secondes
     silence = AudioSegment.silent(duration=5000)  # 5000 ms = 5 secondes
@@ -155,7 +171,7 @@ def concatenate_audio_files(audio_list):
         # Convertir les bytes en un segment audio
         segment = AudioSegment.from_mp3(io.BytesIO(audio_bytes))
-        # Ajouter le son de début, le segment TTS, le son de fin, et le silence au final_audio
         final_audio += begin_sound + segment + end_sound + silence
     # Convertir le segment audio final en bytes
@@ -164,10 +180,8 @@ def concatenate_audio_files(audio_list):
     return buffer.getvalue()
 # Fonction pour traiter les messages de l'utilisateur et générer une réponse
-def process_message(message,
-                    operation_prompt="",
-                    tts_enabled=False):
-    payload_content = f'{operation_prompt} :\n\"\"\"\n{message}\n\"\"\"'
     st.session_state.messages.append({"role": "user", "content": payload_content})
     with st.chat_message("user"):
@@ -177,18 +191,20 @@ def process_message(message,
         message_placeholder = st.empty()
         full_response = ""
         for response in client.chat.completions.create(
-            model="gpt-4o-mini",
-            messages=st.session_state.messages,
-            stream=True,
-            temperature=0.1,
-        ):
             full_response += (response.choices[0].delta.content or "")
             message_placeholder.markdown(full_response + "▌")
-        # Utiliser un regex pour retirer les trois premières et dernières doubles quotes
         full_response = re.sub(r'^"{3}|"{3}$', '', full_response.strip())
         message_placeholder.markdown(full_response)
-    st.session_state.messages.append({"role": "assistant", "content": full_response})
     if tts_enabled:
         tts_audio, tts_duration = text_to_speech(full_response)
@@ -202,19 +218,32 @@ class GlobalSystemPrompts:
         SYSTEM_PROMPT = f"{lire_fichier('linguascribe.prompt')}"
         return SYSTEM_PROMPT
 # Variables globales pour les prompts
-SYSTEM_PROMPT=""
-OP_PROMPT=""
 # Fonction pour configurer le mode de traduction
 def set_mode_translation(from_lang, dest_lang):
     global SYSTEM_PROMPT
     global OP_PROMPT
-    SYSTEM_PROMPT=GlobalSystemPrompts.linguascribe()
     OP_PROMPT = f"Translate({from_lang} to {dest_lang})"
 # Liste des langues supportées par l'application
-SUPPORTED_LANGUAGES=["Afrikaans", "Arabic", "Armenian", "Azerbaijani", "Belarusian", "Bosnian", "Bulgarian", "Catalan", "Chinese", "Croatian", "Czech", "Danish", "Dutch", "English", "Estonian", "Finnish", "French", "Galician", "German", "Greek", "Hebrew", "Hindi", "Hungarian", "Icelandic", "Indonesian", "Italian", "Japanese", "Kannada", "Kazakh", "Korean", "Latvian", "Lithuanian", "Macedonian", "Malay", "Marathi", "Maori", "Nepali", "Norwegian", "Persian", "Polish", "Portuguese", "Romanian", "Russian", "Serbian", "Slovak", "Slovenian", "Spanish", "Swahili", "Swedish", "Tagalog", "Tamil", "Thai", "Turkish", "Ukrainian", "Urdu", "Vietnamese", "Welsh"]
 # Fonction pour convertir le nom d'une langue en code ISO 639-1
 def convert_language_name_to_iso6391(language_data):
@@ -261,7 +290,9 @@ def main():
         st.session_state.target_language = "en"
     if "selected_languages" not in st.session_state:
-        st.session_state.selected_languages = [{"language": "English", "iso-639-1": "en"}]
     if "enable_tts_for_input_from_text_field" not in st.session_state:
         st.session_state["enable_tts_for_input_from_text_field"] = True
@@ -272,12 +303,13 @@ def main():
     if "interface_language" not in st.session_state:
         st.session_state.interface_language = "French"  # Langue par défaut
     def init_process_mode():
         # Configuration du mode de traduction si nécessaire
         if "translation" == st.session_state["process_mode"]:
-            set_mode_translation(from_lang=st.session_state.language_detected, dest_lang=st.session_state.target_language)
     init_process_mode()
@@ -293,8 +325,10 @@ def main():
     if user_input := st.chat_input(_("entrez_message")):
         # Traitement du message textuel de l'utilisateur
         if None == st.session_state.language_detected:
-            st.session_state.language_detected = language_detection(input_text=user_input, temperature=0.01)
         audio_list = []
         for cursor_selected_lang in st.session_state.selected_languages:
             st.session_state.target_language = cursor_selected_lang["iso-639-1"]
@@ -303,32 +337,29 @@ def main():
             init_process_mode()
             # Traitement du message de l'utilisateur pour la langue cible actuelle
-            tts_audio, tts_duration = process_message(
-                                        user_input,
-                                        operation_prompt=f"{OP_PROMPT}",
-                                        tts_enabled=st.session_state.enable_tts_for_input_from_text_field
-                                        )
             if tts_audio is not None:
                 audio_list.append((tts_audio, tts_duration))
         if audio_list:
             final_audio = concatenate_audio_files(audio_list)
-            st.audio(final_audio,
-                     format="audio/mp3",
-                     autoplay=True)
     with st.container(border=True):
         # Interface utilisateur pour l'enregistrement audio
         st.write(_("enregistrez_message"))
-        audio = audiorecorder(start_prompt=_("cliquez_enregistrer"),
-                              stop_prompt=_("cliquez_arreter"),
-                              pause_prompt=_("cliquez_pause"),
-                              show_visualizer=True,
-                              key="vocal_chat_input"
         )
     # Traitement de l'entrée audio de l'utilisateur
     if len(audio) > 0:
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
@@ -336,7 +367,9 @@ def main():
             transcription = transcribe_audio(temp_audio, language=st.session_state.language_detected)
         os.unlink(temp_audio.name)  # Supprimer le fichier temporaire
         if None == st.session_state.language_detected:
-            st.session_state.language_detected = language_detection(input_text=transcription, temperature=0.01)
             st.write(_("langue_detectee").format(st.session_state.language_detected))
         st.write(_("transcription").format(transcription))
@@ -349,18 +382,16 @@ def main():
             init_process_mode()
             # Traitement du message de l'utilisateur pour la langue cible actuelle
-            tts_audio, tts_duration = process_message(
-                                        transcription,
-                                        operation_prompt=f"{OP_PROMPT}",
-                                        tts_enabled=st.session_state.enable_tts_for_input_from_audio_record
-                                        )
             if tts_audio is not None:
                 audio_list.append((tts_audio, tts_duration))
         if audio_list:
             final_audio = concatenate_audio_files(audio_list)
-            st.audio(final_audio,
-                     format="audio/mp3",
-                     autoplay=True)
     # Configuration de la barre latérale
     with st.sidebar:
@@ -370,7 +401,6 @@ def main():
         # Fonction de rappel pour le changement de(s) langue(s) de destination selectionnée(s)
         def on_languages_change():
             selected_language_names = st.session_state.language_selector
             st.session_state.selected_languages = [
                 {"language": lang, "iso-639-1": convert_language_name_to_iso6391(lang)}
@@ -384,13 +414,17 @@ def main():
                 label=_("choix_langue_interface"),
                 options=list(traductions.keys()),
                 key="interface_language",
-                index=list(traductions.keys()).index("French") if "interface_language" not in st.session_state else list(traductions.keys()).index(st.session_state.interface_language)
             )
         with st.container(border=True):
             # Conteneur pour la sélection de la langue
             st.subheader(_("selection_langue"))
             # Sélection multiple des langues de destination
             st.multiselect(
                 label=_("langues_destination"),
@@ -417,7 +451,7 @@ def main():
             st.checkbox(
                 _("activer_tts_audio"),
                 key="enable_tts_for_input_from_audio_record"
-            )
 # Point d'entrée de l'application
 if __name__ == "__main__":

+# Bibliothèques standard
 import base64
 import io
 import json
+import os
+import re
+import tempfile
+import time
+from os import getenv
+from typing import Any, Optional, Union
+# Bibliothèques tierces
+import streamlit as st
+from audiorecorder import audiorecorder
+from openai import OpenAI
+from pydub import AudioSegment
 def load_lang_ui(filepath: Optional[str] = "ui_lang_support.json") -> dict:
     try:
         print(_("erreur_fichier_non_trouve").format(filepath))
         return {}
     except json.JSONDecodeError:
+        print(_("erreur_lecture_fichier").format(
+            "Erreur de décodage JSON"
+        ))
         return {}
     except Exception as e:
         print(_("erreur_lecture_fichier").format(str(e)))
 def split_audio(audio_file, max_size_mb=25):
     audio = AudioSegment.from_wav(audio_file)
     duration_ms = len(audio)
+    segment_duration_ms = int(
+        (max_size_mb * 1024 * 1024 * 8) /
+        (audio.frame_rate * audio.sample_width * audio.channels)
+    )
     segments = []
     for start in range(0, duration_ms, segment_duration_ms):
         end = min(start + segment_duration_ms, duration_ms)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_segment:
             segment.export(temp_segment.name, format="wav")
             segments.append(temp_segment.name)
     return segments
 # Fonction modifiée pour transcrire l'audio en texte
         for segment in segments:
             with open(segment, "rb") as audio_segment:
                 transcript = client.audio.transcriptions.create(
+                    model="whisper-1",
                     file=audio_segment,
                     language=language
                 )
     else:
         with open(audio_file.name, "rb") as audio_file:
             transcript = client.audio.transcriptions.create(
+                model="whisper-1",
                 file=audio_file,
                 language=language
             )
 def language_detection(input_text, temperature=0.01):
     system_prompt = "".join([
         "Je souhaite que vous agissiez en tant que fonction linguistique.",
+        "Je m'exprimerai dans n'importe quelle langue, et vous en détecterez ",
+        "la langue.",
         "Vous fournirez le résultat de votre détection au format ISO-639-1.",
+        "Votre réponse doit représenter l'argument `language` et contenir ",
+        "seulement sa valeur de type chaîne de caractères.",
+        "La langue de l'audio d'entrée. Fournir la langue d'entrée au format ",
+        "ISO-639-1 améliorera la précision et la latence."
     ])
     response = client.chat.completions.create(
         model="gpt-4o-mini",
     audio = AudioSegment.from_file(audio_file)
     return audio.duration_seconds
 # Fonction pour convertir du texte en parole
 def text_to_speech(text):
     response = client.audio.speech.create(
     final_audio = AudioSegment.empty()
     # Charger les effets sonores
+    begin_sound = AudioSegment.from_mp3(
+        "sound-effects/voice-message-play-begin/voice-message-play-begin-1.mp3"
+    )
+    end_sound = AudioSegment.from_mp3(
+        "sound-effects/voice-message-play-ending/voice-message-play-ending-1.mp3"
+    )
     # Silence de 5 secondes
     silence = AudioSegment.silent(duration=5000)  # 5000 ms = 5 secondes
         # Convertir les bytes en un segment audio
         segment = AudioSegment.from_mp3(io.BytesIO(audio_bytes))
+        # Ajouter le son de début, le segment TTS, le son de fin, et le silence
         final_audio += begin_sound + segment + end_sound + silence
     # Convertir le segment audio final en bytes
     return buffer.getvalue()
 # Fonction pour traiter les messages de l'utilisateur et générer une réponse
+def process_message(message, operation_prompt="", tts_enabled=False):
+    payload_content = f'{operation_prompt} :\n"""\n{message}\n"""'
     st.session_state.messages.append({"role": "user", "content": payload_content})
     with st.chat_message("user"):
         message_placeholder = st.empty()
         full_response = ""
         for response in client.chat.completions.create(
+                model="gpt-4o-mini",
+                messages=st.session_state.messages,
+                stream=True,
+                temperature=0.1):
             full_response += (response.choices[0].delta.content or "")
             message_placeholder.markdown(full_response + "▌")
+        # Utiliser un regex pour retirer les trois premières et dernières
+        # doubles quotes
         full_response = re.sub(r'^"{3}|"{3}$', '', full_response.strip())
         message_placeholder.markdown(full_response)
+    st.session_state.messages.append(
+        {"role": "assistant", "content": full_response}
+    )
     if tts_enabled:
         tts_audio, tts_duration = text_to_speech(full_response)
         SYSTEM_PROMPT = f"{lire_fichier('linguascribe.prompt')}"
         return SYSTEM_PROMPT
 # Variables globales pour les prompts
+SYSTEM_PROMPT = ""
+OP_PROMPT = ""
 # Fonction pour configurer le mode de traduction
 def set_mode_translation(from_lang, dest_lang):
     global SYSTEM_PROMPT
     global OP_PROMPT
+    SYSTEM_PROMPT = GlobalSystemPrompts.linguascribe()
     OP_PROMPT = f"Translate({from_lang} to {dest_lang})"
 # Liste des langues supportées par l'application
+SUPPORTED_LANGUAGES = [
+    "Afrikaans", "Arabic", "Armenian", "Azerbaijani", "Belarusian", "Bosnian",
+    "Bulgarian", "Catalan", "Chinese", "Croatian", "Czech", "Danish", "Dutch",
+    "English", "Estonian", "Finnish", "French", "Galician", "German", "Greek",
+    "Hebrew", "Hindi", "Hungarian", "Icelandic", "Indonesian", "Italian",
+    "Japanese", "Kannada", "Kazakh", "Korean", "Latvian", "Lithuanian",
+    "Macedonian", "Malay", "Marathi", "Maori", "Nepali", "Norwegian", "Persian",
+    "Polish", "Portuguese", "Romanian", "Russian", "Serbian", "Slovak",
+    "Slovenian", "Spanish", "Swahili", "Swedish", "Tagalog", "Tamil", "Thai",
+    "Turkish", "Ukrainian", "Urdu", "Vietnamese", "Welsh"
+]
 # Fonction pour convertir le nom d'une langue en code ISO 639-1
 def convert_language_name_to_iso6391(language_data):
         st.session_state.target_language = "en"
     if "selected_languages" not in st.session_state:
+        st.session_state.selected_languages = [
+            {"language": "English", "iso-639-1": "en"}
+        ]
     if "enable_tts_for_input_from_text_field" not in st.session_state:
         st.session_state["enable_tts_for_input_from_text_field"] = True
     if "interface_language" not in st.session_state:
         st.session_state.interface_language = "French"  # Langue par défaut
     def init_process_mode():
         # Configuration du mode de traduction si nécessaire
         if "translation" == st.session_state["process_mode"]:
+            set_mode_translation(
+                from_lang=st.session_state.language_detected,
+                dest_lang=st.session_state.target_language
+            )
     init_process_mode()
     if user_input := st.chat_input(_("entrez_message")):
         # Traitement du message textuel de l'utilisateur
         if None == st.session_state.language_detected:
+            st.session_state.language_detected = language_detection(
+                input_text=user_input, temperature=0.01
+            )
         audio_list = []
         for cursor_selected_lang in st.session_state.selected_languages:
             st.session_state.target_language = cursor_selected_lang["iso-639-1"]
             init_process_mode()
             # Traitement du message de l'utilisateur pour la langue cible actuelle
+            tts_audio, tts_duration = process_message(
+                user_input,
+                operation_prompt=f"{OP_PROMPT}",
+                tts_enabled=st.session_state.enable_tts_for_input_from_text_field
+            )
             if tts_audio is not None:
                 audio_list.append((tts_audio, tts_duration))
         if audio_list:
             final_audio = concatenate_audio_files(audio_list)
+            st.audio(final_audio, format="audio/mp3", autoplay=True)
     with st.container(border=True):
         # Interface utilisateur pour l'enregistrement audio
         st.write(_("enregistrez_message"))
+        audio = audiorecorder(
+            start_prompt=_("cliquez_enregistrer"),
+            stop_prompt=_("cliquez_arreter"),
+            pause_prompt=_("cliquez_pause"),
+            show_visualizer=True,
+            key="vocal_chat_input"
         )
     # Traitement de l'entrée audio de l'utilisateur
     if len(audio) > 0:
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
             transcription = transcribe_audio(temp_audio, language=st.session_state.language_detected)
         os.unlink(temp_audio.name)  # Supprimer le fichier temporaire
         if None == st.session_state.language_detected:
+            st.session_state.language_detected = language_detection(
+                input_text=transcription, temperature=0.01
+            )
             st.write(_("langue_detectee").format(st.session_state.language_detected))
         st.write(_("transcription").format(transcription))
             init_process_mode()
             # Traitement du message de l'utilisateur pour la langue cible actuelle
+            tts_audio, tts_duration = process_message(
+                transcription,
+                operation_prompt=f"{OP_PROMPT}",
+                tts_enabled=st.session_state.enable_tts_for_input_from_audio_record
+            )
             if tts_audio is not None:
                 audio_list.append((tts_audio, tts_duration))
         if audio_list:
             final_audio = concatenate_audio_files(audio_list)
+            st.audio(final_audio, format="audio/mp3", autoplay=True)
     # Configuration de la barre latérale
     with st.sidebar:
         # Fonction de rappel pour le changement de(s) langue(s) de destination selectionnée(s)
         def on_languages_change():
             selected_language_names = st.session_state.language_selector
             st.session_state.selected_languages = [
                 {"language": lang, "iso-639-1": convert_language_name_to_iso6391(lang)}
                 label=_("choix_langue_interface"),
                 options=list(traductions.keys()),
                 key="interface_language",
+                index=(
+                    list(traductions.keys()).index("French")
+                    if "interface_language" not in st.session_state
+                    else list(traductions.keys()).index(st.session_state.interface_language)
+                )
             )
         with st.container(border=True):
             # Conteneur pour la sélection de la langue
             st.subheader(_("selection_langue"))
             # Sélection multiple des langues de destination
             st.multiselect(
                 label=_("langues_destination"),
             st.checkbox(
                 _("activer_tts_audio"),
                 key="enable_tts_for_input_from_audio_record"
+            )
 # Point d'entrée de l'application
 if __name__ == "__main__":