Spaces:

Spiny
/

test

Build error

App Files Files Community

Spiny commited on Sep 20, 2024

Commit

34b4cef

1 Parent(s): 5a387e8

projet vraiment fini

Browse files

Files changed (2) hide show

app.py +70 -33
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -6,6 +6,9 @@ from PIL import Image
 from dotenv import load_dotenv
 from groq import Groq
 import json
 load_dotenv()
@@ -14,17 +17,7 @@ FLUX1_APIKEY = os.getenv('FLUX1_APIKEY')
 #LLM
 GEMINI_APIKEY = os.getenv('GEMINI_APIKEY')
-initPrompt = open('prompt.txt', 'r').read()
-# TODO :
-# - Prendre en entrée soit un texte, soit un fichier audio (empecher saisie de l'un si l'autre est rempli)
-# - Le LLM résume cette entrée en plusieurs axes avec des mots clés par axes
-# - Flux génère une diapo par axé généré par le LLM précédemment
-# - On se retrouve en sortie avec plusieurs diapo et des mots clés les accompagnants
-def Main(audioFile, nbDiapo):
-    finalText = ''
-    listOfImages = []
     initPrompt = f'''
         Je vais te fournir un texte, il faut faire un résumé du contenu de celui ci sous forme de {nbDiapo} points clé, qui seront utilisé pour un powerpoint (Tu génèrera le titre de la diapo, son contenu texuel, ainsi qu'un prompt pour générer une image de contexte approprié). Tu ne doit répondre uniquement en format JSON sans explications suplémentaire.
@@ -45,21 +38,12 @@ def Main(audioFile, nbDiapo):
     '''
     transcribedText = TranscribeAudio(audioFile)
-    print(transcribedText)
     fullDiapoTxt = GenerateTextLLM(initPrompt + transcribedText)
-    print(fullDiapoTxt)
     fullDiapoJson = json.loads(fullDiapoTxt)
-    for diapo in fullDiapoJson:
-        title = diapo['titre']
-        content = diapo['contenu']
-        imgPrompt = diapo['image_prompt']
-        finalText += 'Titre : ' + title + '\nContenu : ' + content + '\n\n'
-        listOfImages.append(GenerateImageFromText(imgPrompt))
-    return listOfImages, finalText
 def GenerateImageFromText(prompt):
     API_URL = "https://api-inference.huggingface.co/models/black-forest-labs/FLUX.1-dev"
@@ -74,7 +58,7 @@ def GenerateImageFromText(prompt):
     })
     image = Image.open(io.BytesIO(image_bytes))
-    return image, ''
 def GenerateTextLLM(inputText):
@@ -103,8 +87,6 @@ def GenerateTextLLM(inputText):
 def TranscribeAudio(filepath):
     client = Groq()
-    print(type(filepath))
-    print(filepath)
     with open(filepath, "rb") as file:
         transcription = client.audio.transcriptions.create(
@@ -112,25 +94,80 @@ def TranscribeAudio(filepath):
         model="whisper-large-v3",
         prompt="Specify context or spelling",
         response_format="json",
-        language="fr",
         )
         return transcription.text
 inputs = [
-    gr.Audio(sources='microphone', type='filepath', label="Entrée audio"),
     gr.Slider(minimum=1, maximum=5, value=3, step=1, label="Nombre de diapo")
 ]
-outputs_image = [
-    gr.Gallery(type="pil", label="Images des diapos"),
-    gr.Textbox(label="Texte des diapos", lines=3)
 ]
-interface_image = gr.Interface(
     fn=Main,
     inputs=inputs,
-    outputs=outputs_image,
     title="Projet Diapo",
 )
-interface_image.launch()

 from dotenv import load_dotenv
 from groq import Groq
 import json
+from pptx import Presentation
+from pptx.util import Inches, Pt
+from pptx.enum.text import PP_ALIGN
 load_dotenv()
 #LLM
 GEMINI_APIKEY = os.getenv('GEMINI_APIKEY')
+def Main(audioFile, nbDiapo) -> int:
     initPrompt = f'''
         Je vais te fournir un texte, il faut faire un résumé du contenu de celui ci sous forme de {nbDiapo} points clé, qui seront utilisé pour un powerpoint (Tu génèrera le titre de la diapo, son contenu texuel, ainsi qu'un prompt pour générer une image de contexte approprié). Tu ne doit répondre uniquement en format JSON sans explications suplémentaire.
     '''
     transcribedText = TranscribeAudio(audioFile)
     fullDiapoTxt = GenerateTextLLM(initPrompt + transcribedText)
     fullDiapoJson = json.loads(fullDiapoTxt)
+    diapo = creer_presentation_multidiapo(fullDiapoJson)
+    return diapo
 def GenerateImageFromText(prompt):
     API_URL = "https://api-inference.huggingface.co/models/black-forest-labs/FLUX.1-dev"
     })
     image = Image.open(io.BytesIO(image_bytes))
+    return image
 def GenerateTextLLM(inputText):
 def TranscribeAudio(filepath):
     client = Groq()
     with open(filepath, "rb") as file:
         transcription = client.audio.transcriptions.create(
         model="whisper-large-v3",
         prompt="Specify context or spelling",
         response_format="json",
         )
         return transcription.text
+def ajouter_diapo(presentation, texte, image_pil, titre=None):
+    diapo = presentation.slides.add_slide(presentation.slide_layouts[5])
+    if titre:
+        left = Inches(0.5)
+        top = Inches(0.5)
+        largeur = Inches(8)
+        hauteur = Inches(1)
+        zone_titre = diapo.shapes.add_textbox(left, top, largeur, hauteur)
+        cadre_titre = zone_titre.text_frame
+        cadre_titre.text = titre
+        cadre_titre.paragraphs[0].font.size = Pt(24)
+    left = Inches(0.5)
+    top = Inches(1.5)
+    largeur = Inches(4)
+    hauteur = Inches(4)
+    zone_texte = diapo.shapes.add_textbox(left, top, largeur, hauteur)
+    cadre_texte = zone_texte.text_frame
+    cadre_texte.word_wrap = True  # Retour automatique à la ligne
+    cadre_texte.auto_size = True  # Ajuste la taille du texte
+    p = cadre_texte.add_paragraph()
+    p.text = texte
+    p.font.size = Pt(18)  # Taille du texte
+    p.alignment = PP_ALIGN.LEFT  # Aligner le texte à gauche
+    img_byte_arr = io.BytesIO()
+    image_pil.save(img_byte_arr, format='PNG')
+    img_byte_arr.seek(0)
+    left = Inches(5.5)
+    top = Inches(1.5)
+    largeur_image = Inches(4)
+    diapo.shapes.add_picture(img_byte_arr, left, top, width=largeur_image)
+def creer_presentation_multidiapo(fullDiapoJson):
+    presentation = Presentation()
+    for diapo in fullDiapoJson:
+        print('ici')
+        title = diapo['titre']
+        content = diapo['contenu']
+        imgPrompt = diapo['image_prompt']
+        image = GenerateImageFromText(imgPrompt)
+        print('Image généré')
+        ajouter_diapo(presentation, content, image, title)
+    filename = 'Presentation.pptx'
+    presentation.save(filename)
+    return filename
 inputs = [
+    gr.Audio(sources='microphone', type='filepath', label="Enregistrer un audio"),
     gr.Slider(minimum=1, maximum=5, value=3, step=1, label="Nombre de diapo")
 ]
+outputs = [
+    gr.File(label='Fichier pptx')
 ]
+interface = gr.Interface(
     fn=Main,
     inputs=inputs,
+    outputs=outputs,
     title="Projet Diapo",
 )
+interface.launch()

requirements.txt CHANGED Viewed

@@ -2,4 +2,5 @@ pillow
 requests
 python-dotenv
 groq
-gradio

 requests
 python-dotenv
 groq
+gradio
+python-pptx