Spaces:

Manasa1
/

AI_Comedy_Show

Runtime error

App Files Files Community

Manasa1 commited on Oct 14, 2024

Commit

9bea5a2

verified ·

1 Parent(s): b706d95

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -34

app.py CHANGED Viewed

@@ -4,44 +4,57 @@ from diffusers import StableDiffusionPipeline
 import torch
 from PIL import Image, ImageDraw, ImageFont
 import scipy.io.wavfile
-from TTS.api import TTS  # Coqui TTS (open source)
-from moviepy.editor import CompositeVideoClip, ImageClip, AudioFileClip, concatenate_videoclips
 import os
-import subprocess
-from moviepy.editor import VideoFileClip, AudioFileClip
 # Initialize Clients
-# Replace with your actual API keys or methods of getting them
-# groq_client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
-# deepgram_client = Deepgram(api_key=os.environ.get("DEEGRAM_API_KEY"))
-# Use DistilGPT-2 for text generation
-script_generator = pipeline("text-generation", model="distilgpt2", truncation=True, max_length=100)
-# Use Coqui TTS for text-to-speech
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False, gpu=False)
-# Use MusicGen for music generation
 music_generator = pipeline("text-to-audio", model="facebook/musicgen-small", device="cpu")
-# Use Fluently Anime (Stable Diffusion) for anime image generation
 model_id = "fluently/Fluently-anime"
 anime_image_generator = StableDiffusionPipeline.from_pretrained(model_id).to("cpu")
-# Generate Comedy Script using DistilGPT-2
-def generate_comedy_script(prompt):
-    script = script_generator(prompt)[0]['generated_text']
-    return script
-# Convert Text to Speech using Coqui TTS
 def text_to_speech(script):
     output_audio = 'output.wav'
     tts.tts_to_file(text=script, file_path=output_audio)
     return output_audio
-# Create Anime Images Using Fluently Anime
 def create_images_from_script(script):
     lines = script.split('. ')
     image_paths = []
@@ -52,7 +65,7 @@ def create_images_from_script(script):
         image_paths.append(img_path)
     return image_paths
-# Generate Fun Music Track using MusicGen
 def generate_fun_music(prompt, output_music_file="fun_music.wav"):
     response = music_generator(prompt)
     audio_data = response["audio"]
@@ -60,37 +73,31 @@ def generate_fun_music(prompt, output_music_file="fun_music.wav"):
     scipy.io.wavfile.write(output_music_file, rate=sampling_rate, data=audio_data)
     return output_music_file
-# Create Video from Generated Anime Images Using FFmpeg
 def generate_text_video(script):
     image_paths = create_images_from_script(script)
-    # Generate video using moviepy from the sequence of images
     video_clip = ImageSequenceClip(image_paths, fps=24)
     video_path = "/tmp/final_video.mp4"
     video_clip.write_videofile(video_path, codec='libx264')
     return video_path
 def combine_audio_video(video_file, audio_file):
-    # Load the video file
     video = VideoFileClip(video_file)
-    # Load the audio file
     audio = AudioFileClip(audio_file)
-    # Set the audio of the video clip
     final_video = video.set_audio(audio)
-    # Return the final video clip
     return final_video
 # Main Function to Generate Comedy Animation
-def generate_comedy_and_animation(prompt):
-    script = generate_comedy_script(prompt)
     audio_file = text_to_speech(script)
     video_file = generate_text_video(script)
     fun_music = generate_fun_music(prompt)
     final_video = combine_audio_video(video_file, fun_music)
     return script, audio_file, final_video
-# Generate Kids Content
 def generate_kids_content(theme):
     music_file = generate_fun_music(theme, output_music_file="kids_music.wav")
     clips = []
@@ -106,6 +113,13 @@ def generate_kids_content(theme):
     final_video.write_videofile("/tmp/kids_animation.mp4", fps=24)
     return music_file, "/tmp/kids_animation.mp4"
 # Gradio Interface
 with gr.Blocks() as app:
     gr.Markdown("## AI Comedy and Kids Content Generator")
@@ -137,6 +151,18 @@ with gr.Blocks() as app:
             outputs=[kids_music_audio, kids_music_video]
         )
 app.launch()

 import torch
 from PIL import Image, ImageDraw, ImageFont
 import scipy.io.wavfile
+from TTS.api import TTS
+from moviepy.editor import CompositeVideoClip, ImageClip, AudioFileClip, concatenate_videoclips, VideoFileClip
 import os
+from groq import Groq
+from deepgram import Deepgram
+import asyncio
+import aiohttp
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
 # Initialize Clients
+groq_client = Groq(api_key=os.getenv("GROQ_API_KEY"))
+deepgram_client = Deepgram(api_key=os.getenv("DEEPGRAM_API_KEY"))
+# Use GPT-3.5-turbo for text generation
+async def generate_comedy_script(prompt):
+    chat_completion = await groq_client.chat.completions.create(
+        messages=[
+            {
+                "role": "system",
+                "content": "You are a comedy writer. Generate a short, funny script based on the given prompt."
+            },
+            {
+                "role": "user",
+                "content": prompt
+            }
+        ],
+        model="mixtral-8x7b-32768",
+        max_tokens=200
+    )
+    return chat_completion.choices[0].message.content
+# Use Coqui TTS for text-to-speech (unchanged)
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False, gpu=False)
+# Use MusicGen for music generation (unchanged)
 music_generator = pipeline("text-to-audio", model="facebook/musicgen-small", device="cpu")
+# Use Fluently Anime (Stable Diffusion) for anime image generation (unchanged)
 model_id = "fluently/Fluently-anime"
 anime_image_generator = StableDiffusionPipeline.from_pretrained(model_id).to("cpu")
+# Convert Text to Speech using Coqui TTS (unchanged)
 def text_to_speech(script):
     output_audio = 'output.wav'
     tts.tts_to_file(text=script, file_path=output_audio)
     return output_audio
+# Create Anime Images Using Fluently Anime (unchanged)
 def create_images_from_script(script):
     lines = script.split('. ')
     image_paths = []
         image_paths.append(img_path)
     return image_paths
+# Generate Fun Music Track using MusicGen (unchanged)
 def generate_fun_music(prompt, output_music_file="fun_music.wav"):
     response = music_generator(prompt)
     audio_data = response["audio"]
     scipy.io.wavfile.write(output_music_file, rate=sampling_rate, data=audio_data)
     return output_music_file
+# Create Video from Generated Anime Images (unchanged)
 def generate_text_video(script):
     image_paths = create_images_from_script(script)
     video_clip = ImageSequenceClip(image_paths, fps=24)
     video_path = "/tmp/final_video.mp4"
     video_clip.write_videofile(video_path, codec='libx264')
     return video_path
+# Combine Audio and Video (unchanged)
 def combine_audio_video(video_file, audio_file):
     video = VideoFileClip(video_file)
     audio = AudioFileClip(audio_file)
     final_video = video.set_audio(audio)
     return final_video
 # Main Function to Generate Comedy Animation
+async def generate_comedy_and_animation(prompt):
+    script = await generate_comedy_script(prompt)
     audio_file = text_to_speech(script)
     video_file = generate_text_video(script)
     fun_music = generate_fun_music(prompt)
     final_video = combine_audio_video(video_file, fun_music)
     return script, audio_file, final_video
+# Generate Kids Content (unchanged)
 def generate_kids_content(theme):
     music_file = generate_fun_music(theme, output_music_file="kids_music.wav")
     clips = []
     final_video.write_videofile("/tmp/kids_animation.mp4", fps=24)
     return music_file, "/tmp/kids_animation.mp4"
+# New function for speech-to-text
+async def transcribe_audio(audio_file):
+    with open(audio_file, 'rb') as audio:
+        source = {'buffer': audio, 'mimetype': 'audio/wav'}
+        response = await deepgram_client.transcription.prerecorded(source, {'smart_format': True, 'model': 'general'})
+        return response['results']['channels'][0]['alternatives'][0]['transcript']
 # Gradio Interface
 with gr.Blocks() as app:
     gr.Markdown("## AI Comedy and Kids Content Generator")
             outputs=[kids_music_audio, kids_music_video]
         )
+    # New Speech-to-Text Tab
+    with gr.Tab("Speech-to-Text"):
+        audio_input = gr.Audio(label="Upload Audio")
+        transcribe_btn = gr.Button("Transcribe Audio")
+        transcription_output = gr.Textbox(label="Transcription")
+        transcribe_btn.click(
+            transcribe_audio,
+            inputs=audio_input,
+            outputs=transcription_output
+        )
 app.launch()