Spaces:

ImPolymath
/

demorrha

Paused

App Files Files Community

rick commited on Sep 26, 2024

Commit

ee77673

unverified ·

1 Parent(s): b69c517

update demorrha

Browse files

Files changed (1) hide show

app.py +42 -8

app.py CHANGED Viewed

@@ -4,6 +4,8 @@ from os import getenv
 from audiorecorder import audiorecorder
 import tempfile
 import base64
 # Configuration du client OpenAI avec la clé API
 client = OpenAI(api_key=getenv("OPENAI_API_KEY"))
@@ -19,19 +21,48 @@ def lire_fichier(nom_fichier):
     except Exception as e:
         return f"Une erreur s'est produite lors de la lecture du fichier : {str(e)}"
-# Fonction pour transcrire l'audio en texte
 def transcribe_audio(audio_file, language=None):
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
-        audio_file.export(temp_audio.name, format="wav")
-        with open(temp_audio.name, "rb") as audio_file:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
                 file=audio_file,
                 language=language
             )
-    return transcript.text
 # Fonction pour détecter la langue d'un texte donné
 def language_detection(input_text, temperature=0.01):
@@ -190,7 +221,10 @@ def main():
     # Traitement de l'entrée audio de l'utilisateur
     if len(audio) > 0:
-        transcription = transcribe_audio(audio, language=st.session_state.language_detected)
         if None == st.session_state.language_detected:
             st.session_state.language_detected = language_detection(input_text=transcription, temperature=0.01)
             st.write(f"Langue détectée : {st.session_state.language_detected}")

 from audiorecorder import audiorecorder
 import tempfile
 import base64
+from pydub import AudioSegment
+import os
 # Configuration du client OpenAI avec la clé API
 client = OpenAI(api_key=getenv("OPENAI_API_KEY"))
     except Exception as e:
         return f"Une erreur s'est produite lors de la lecture du fichier : {str(e)}"
+# Fonction pour diviser un fichier audio en segments de 25 Mo ou moins
+def split_audio(audio_file, max_size_mb=25):
+    audio = AudioSegment.from_wav(audio_file)
+    duration_ms = len(audio)
+    segment_duration_ms = int((max_size_mb * 1024 * 1024 * 8) / (audio.frame_rate * audio.sample_width * audio.channels))
+    segments = []
+    for start in range(0, duration_ms, segment_duration_ms):
+        end = min(start + segment_duration_ms, duration_ms)
+        segment = audio[start:end]
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_segment:
+            segment.export(temp_segment.name, format="wav")
+            segments.append(temp_segment.name)
+    return segments
+# Fonction modifiée pour transcrire l'audio en texte
 def transcribe_audio(audio_file, language=None):
+    max_size_mb = 25
+    file_size_mb = os.path.getsize(audio_file.name) / (1024 * 1024)
+    if file_size_mb > max_size_mb:
+        segments = split_audio(audio_file.name, max_size_mb)
+        full_transcript = ""
+        for segment in segments:
+            with open(segment, "rb") as audio_segment:
+                transcript = client.audio.transcriptions.create(
+                    model="whisper-1",
+                    file=audio_segment,
+                    language=language
+                )
+                full_transcript += transcript.text + " "
+            os.unlink(segment)  # Supprimer le fichier temporaire
+        return full_transcript.strip()
+    else:
+        with open(audio_file.name, "rb") as audio_file:
             transcript = client.audio.transcriptions.create(
                 model="whisper-1",
                 file=audio_file,
                 language=language
             )
+        return transcript.text
 # Fonction pour détecter la langue d'un texte donné
 def language_detection(input_text, temperature=0.01):
     # Traitement de l'entrée audio de l'utilisateur
     if len(audio) > 0:
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
+            audio.export(temp_audio.name, format="wav")
+            transcription = transcribe_audio(temp_audio, language=st.session_state.language_detected)
+        os.unlink(temp_audio.name)  # Supprimer le fichier temporaire
         if None == st.session_state.language_detected:
             st.session_state.language_detected = language_detection(input_text=transcription, temperature=0.01)
             st.write(f"Langue détectée : {st.session_state.language_detected}")