Spaces:

mrnoisette
/

teste

Sleeping

App Files Files Community

mrnoisette commited on Sep 18, 2024

Commit

bb4e087

verified ·

1 Parent(s): 799f353

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -10

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import io
 from PIL import Image
 from dotenv import load_dotenv
 from pydub import AudioSegment
 import json
 # Charger les variables d'environnement
@@ -17,16 +18,18 @@ GEMINI_APIKEY = os.getenv('GEMINI_APIKEY')
 # Modèle Whisper pour la transcription audio
 WHISPER_APIKEY = os.getenv('WHISPER_APIKEY')
-def TranscribeAudio(audio_file):
     API_URL = "https://api-inference.huggingface.co/models/openai/whisper-large-v3"
     headers = {"Authorization": f"Bearer {WHISPER_APIKEY}"}
-    def query(file):
-        response = requests.post(API_URL, headers=headers, files={"file": file})
         return response.json()
-    output = query(audio_file)
-    return output.get('text', 'Error transcribing audio')
 def GenerateTextLLM(inputText):
     url = f'https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash-latest:generateContent?key={GEMINI_APIKEY}'
@@ -34,7 +37,8 @@ def GenerateTextLLM(inputText):
         'Content-Type': 'application/json'
     }
     data = {
-        "prompt": inputText
     }
     try:
@@ -67,7 +71,7 @@ def Main(text_input, audio_input):
     elif audio_input:
         input_data = TranscribeAudio(audio_input)
     else:
-        return "Veuillez fournir un texte ou un fichier audio", None, None
     # Générer le résumé du LLM en plusieurs axes
     summarized_text = GenerateTextLLM(input_data)
@@ -81,13 +85,13 @@ def Main(text_input, audio_input):
 # Interface Gradio
 inputs = [
     gr.Textbox(label="Texte (laisser vide si audio fourni)", lines=5, placeholder="Entrez votre texte ici..."),
-    gr.Audio(type="file", label="Fichier audio (laisser vide si texte fourni)")
 ]
 outputs = [
     gr.Gallery(label="Diapositives générées"),
     gr.Textbox(label="Résumé en axes"),
-    gr.Textbox(label="Texte original")
 ]
 interface = gr.Interface(
@@ -99,4 +103,4 @@ interface = gr.Interface(
 )
 if __name__ == "__main__":
-    interface.launch()

 from PIL import Image
 from dotenv import load_dotenv
 from pydub import AudioSegment
+from huggingface_hub import InferenceClient
 import json
 # Charger les variables d'environnement
 # Modèle Whisper pour la transcription audio
 WHISPER_APIKEY = os.getenv('WHISPER_APIKEY')
+def TranscribeAudio(inputAudio):
     API_URL = "https://api-inference.huggingface.co/models/openai/whisper-large-v3"
     headers = {"Authorization": f"Bearer {WHISPER_APIKEY}"}
+    def query(filename):
+        with open(filename, "rb") as f:
+            data = f.read()
+        response = requests.post(API_URL, headers=headers, data=data)
         return response.json()
+    output = query(inputAudio)
 def GenerateTextLLM(inputText):
     url = f'https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash-latest:generateContent?key={GEMINI_APIKEY}'
         'Content-Type': 'application/json'
     }
     data = {
+        "prompt": inputText,
+        "model": "gemini-1.5-flash-latest"
     }
     try:
     elif audio_input:
         input_data = TranscribeAudio(audio_input)
     else:
+        return "Veuillez fournir un texte ou un fichier audio", None
     # Générer le résumé du LLM en plusieurs axes
     summarized_text = GenerateTextLLM(input_data)
 # Interface Gradio
 inputs = [
     gr.Textbox(label="Texte (laisser vide si audio fourni)", lines=5, placeholder="Entrez votre texte ici..."),
+    gr.Audio(sources="upload", type="filepath", label="Fichier audio (laisser vide si texte fourni)")
 ]
 outputs = [
     gr.Gallery(label="Diapositives générées"),
     gr.Textbox(label="Résumé en axes"),
+    "text"
 ]
 interface = gr.Interface(
 )
 if __name__ == "__main__":
+    interface.launch()