Spaces:

mrnoisette
/

teste

Sleeping

App Files Files Community

mrnoisette commited on Sep 18, 2024

Commit

6124b60

verified ·

1 Parent(s): 79a2e3f

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -12

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import io
 from PIL import Image
 from dotenv import load_dotenv
 from pydub import AudioSegment
-from huggingface_hub import InferenceApi
 import json
 load_dotenv()
@@ -15,13 +15,13 @@ FLUX1_APIKEY = os.getenv('FLUX1_APIKEY')
 # LLM
 GEMINI_APIKEY = os.getenv('GEMINI_APIKEY')
 # Modèle Whisper pour la transcription audio
-WHISPER_MODEL = InferenceApi(repo_id="openai/whisper-large-v3")
 def speech_to_text(audio):
     audio_data = AudioSegment.from_file(audio)
     audio_bytes = io.BytesIO()
     audio_data.export(audio_bytes, format="wav")
-    response = WHISPER_MODEL({"inputs": audio_bytes.getvalue()})
     return response['text']
 def GenerateTextLLM(inputText):
@@ -34,12 +34,15 @@ def GenerateTextLLM(inputText):
         "model": "gemini-1.5-flash-latest"
     }
-    response = requests.post(url, headers=headers, json=data)
     try:
-        return json.loads(response.text)['candidates'][0]['content']['parts'][0]['text']
-    except:
-        return 'Error in LLM processing'
 def GenerateImageFromText(prompt):
     API_URL = "https://api-inference.huggingface.co/models/black-forest-labs/FLUX.1-dev"
@@ -74,13 +77,13 @@ def Main(text_input, audio_input):
 # Interface Gradio
 inputs = [
-    gr.inputs.Textbox(label="Texte (laisser vide si audio fourni)", lines=5, placeholder="Entrez votre texte ici..."),
-    gr.inputs.Audio(source="upload", type="file", label="Fichier audio (laisser vide si texte fourni)")
 ]
 outputs = [
-    gr.outputs.Gallery(label="Diapositives générées"),
-    gr.outputs.Textbox(label="Résumé en axes")
 ]
 interface = gr.Interface(
@@ -93,3 +96,4 @@ interface = gr.Interface(
 if __name__ == "__main__":
     interface.launch()

 from PIL import Image
 from dotenv import load_dotenv
 from pydub import AudioSegment
+from huggingface_hub import InferenceClient
 import json
 load_dotenv()
 # LLM
 GEMINI_APIKEY = os.getenv('GEMINI_APIKEY')
 # Modèle Whisper pour la transcription audio
+WHISPER_MODEL = InferenceClient(repo_id="openai/whisper-large-v3")
 def speech_to_text(audio):
     audio_data = AudioSegment.from_file(audio)
     audio_bytes = io.BytesIO()
     audio_data.export(audio_bytes, format="wav")
+    response = WHISPER_MODEL.call({"inputs": audio_bytes.getvalue()})
     return response['text']
 def GenerateTextLLM(inputText):
         "model": "gemini-1.5-flash-latest"
     }
     try:
+        response = requests.post(url, headers=headers, json=data)
+        response.raise_for_status()  # Va lancer une exception si la réponse a un statut d'erreur
+        result = json.loads(response.text)
+        return result['candidates'][0]['content']['parts'][0]['text']
+    except requests.exceptions.RequestException as e:
+        return f'Error in LLM processing: {e}'
+    except (KeyError, json.JSONDecodeError) as e:
+        return f'Error parsing response: {e}'
 def GenerateImageFromText(prompt):
     API_URL = "https://api-inference.huggingface.co/models/black-forest-labs/FLUX.1-dev"
 # Interface Gradio
 inputs = [
+    gr.Textbox(label="Texte (laisser vide si audio fourni)", lines=5, placeholder="Entrez votre texte ici..."),
+    gr.Audio(source="upload", type="file", label="Fichier audio (laisser vide si texte fourni)")
 ]
 outputs = [
+    gr.Gallery(label="Diapositives générées"),
+    gr.Textbox(label="Résumé en axes")
 ]
 interface = gr.Interface(
 if __name__ == "__main__":
     interface.launch()