Spaces:

Spiny
/

test

Build error

App Files Files Community

Spiny commited on Sep 18, 2024

Commit

f0f9756

1 Parent(s): 406bb3f

App finale probablement

Browse files

Files changed (3) hide show

app.py +48 -9
prompt.txt +14 -0
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -4,6 +4,8 @@ import os
 import io
 from PIL import Image
 from dotenv import load_dotenv
 load_dotenv()
@@ -12,14 +14,36 @@ FLUX1_APIKEY = os.getenv('FLUX1_APIKEY')
 #LLM
 GEMINI_APIKEY = os.getenv('GEMINI_APIKEY')
 # TODO :
 # - Prendre en entrée soit un texte, soit un fichier audio (empecher saisie de l'un si l'autre est rempli)
 # - Le LLM résume cette entrée en plusieurs axes avec des mots clés par axes
 # - Flux génère une diapo par axé généré par le LLM précédemment
 # - On se retrouve en sortie avec plusieurs diapo et des mots clés les accompagnants
-def Main(prompt, inputText):
-    return GenerateImageFromText(prompt), GenerateTextLLM(inputText)
 def GenerateImageFromText(prompt):
     API_URL = "https://api-inference.huggingface.co/models/black-forest-labs/FLUX.1-dev"
@@ -34,7 +58,7 @@ def GenerateImageFromText(prompt):
     })
     image = Image.open(io.BytesIO(image_bytes))
-    return [image]
 def GenerateTextLLM(inputText):
@@ -59,20 +83,35 @@ def GenerateTextLLM(inputText):
     try:
         return response.json()['candidates'][0]['content']['parts'][0]['text']
     except:
-        return 'Error'
 outputs_image = [
-    gr.components.Gallery(type="pil", label="Output Image"),
     "text"
 ]
 interface_image = gr.Interface(
     fn=Main,
-    inputs=["text", "text"],
     outputs=outputs_image,
     title="Feur",
 )
-interface_image.launch()

 import io
 from PIL import Image
 from dotenv import load_dotenv
+from groq import Groq
+import json
 load_dotenv()
 #LLM
 GEMINI_APIKEY = os.getenv('GEMINI_APIKEY')
+initPrompt = open('prompt.txt', 'r').read()
 # TODO :
 # - Prendre en entrée soit un texte, soit un fichier audio (empecher saisie de l'un si l'autre est rempli)
 # - Le LLM résume cette entrée en plusieurs axes avec des mots clés par axes
 # - Flux génère une diapo par axé généré par le LLM précédemment
 # - On se retrouve en sortie avec plusieurs diapo et des mots clés les accompagnants
+def Main(prompt, inputText, audioFile):
+    finalText = ''
+    listOfImages = []
+    import json
+    transcribedText = TranscribeAudio(audioFile)
+    print(transcribedText)
+    fullDiapoTxt = GenerateTextLLM(initPrompt + transcribedText)
+    print(fullDiapoTxt)
+    fullDiapoJson = json.loads(fullDiapoTxt)
+    for diapo in fullDiapoJson:
+        title = diapo['titre']
+        content = diapo['contenu']
+        imgPrompt = diapo['image_prompt']
+        finalText += 'Titre : ' + title + '\nContenu : ' + content + '\n\n'
+        listOfImages.append(GenerateImageFromText(imgPrompt))
+    return listOfImages, finalText
 def GenerateImageFromText(prompt):
     API_URL = "https://api-inference.huggingface.co/models/black-forest-labs/FLUX.1-dev"
     })
     image = Image.open(io.BytesIO(image_bytes))
+    return image, ''
 def GenerateTextLLM(inputText):
     try:
         return response.json()['candidates'][0]['content']['parts'][0]['text']
     except:
+        raise Exception("Error :" + response.json())
+def TranscribeAudio(filepath):
+    client = Groq()
+    with open(filepath, "rb") as file:
+        transcription = client.audio.transcriptions.create(
+        file=(filepath, file.read()),
+        model="whisper-large-v3",
+        prompt="Specify context or spelling",
+        response_format="json",
+        language="fr",
+        )
+        return transcription.text
+inputs = [
+    gr.Audio(sources='microphone', type='filepath', label="Fichier audio")
+]
 outputs_image = [
+    gr.Gallery(type="pil", label="Output Image"),
     "text"
 ]
 interface_image = gr.Interface(
     fn=Main,
+    inputs=inputs,
     outputs=outputs_image,
     title="Feur",
 )
+interface_image.launch()

prompt.txt ADDED Viewed

	@@ -0,0 +1,14 @@

+Je vais te fournir un texte, il faut faire un résumé du contenu de celui ci sous forme de 3 points clé, qui seront utilisé pour un powerpoint (Tu génèrera le titre de la diapo, son contenu texuel, ainsi qu'un prompt pour générer une image de contexte approprié). Tu ne doit répondre uniquement en format JSON sans explications suplémentaire.
+Exemple de format de réponse:
+[
+    {
+        "titre": "*Exemple de titre de la diapo 1*",
+        "contenu": "*Exemple de contenu de la diapo 1*",
+        "image_prompt": "*Prompt d'exemple pour générer une image de context en lien avec la diapo*"
+    },
+    {
+        *pareil pour diapo 2, ect.*
+    }
+]
+** VOICI LE TEXT : **

requirements.txt CHANGED Viewed

@@ -46,4 +46,5 @@ thop>=0.1.1  # FLOPs computation
 # HUB -----------------------------------------
 GitPython>=3.1.24
-python-dotenv

 # HUB -----------------------------------------
 GitPython>=3.1.24
+python-dotenv
+groq