Spaces:

txh17
/

mywork

Sleeping

App Files Files Community

txh17 commited on Apr 21, 2025

Commit

6e2aa6b

verified ·

1 Parent(s): f16e969

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -3

app.py CHANGED Viewed

@@ -1,8 +1,44 @@
 import gradio as gr
-from prompt_generator import generate_prompt
-from image_generator import generate_image
-from whisper_model import transcribe_audio
 def generate_artwork(description, style, enhance_details, audio_file):
     # 如果上传了音频文件，进行语音转文本
     if audio_file is not None:

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+from diffusers import StableDiffusionPipeline
+import whisper
+import os
+# 加载 Whisper 模型
+whisper_model = whisper.load_model("base")
+# 使用 GPT-Neo 生成中文提示词
+model_name = "EleutherAI/gpt-neo-2.7B"  # 你可以选择其它的模型
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+def generate_prompt(user_input):
+    # 编码输入并生成提示
+    inputs = tokenizer.encode(f"根据以下描述生成一个结构良好的提示，适用于稳定扩散图像生成：'{user_input}'", return_tensors="pt")
+    # 使用模型生成响应
+    outputs = model.generate(inputs, max_length=100, num_return_sequences=1)
+    # 解码输出并返回
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# 使用 Stable Diffusion 生成图像
+def generate_image(prompt):
+    # 使用 Stable Diffusion 生成图像
+    pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16)
+    pipe.to("cpu")  # 使用 CPU 生成图像（如有 GPU 可调整为 "cuda"）
+    # 生成图像
+    image = pipe(prompt).images[0]
+    return image
+# 语音转文本
+def transcribe_audio(audio_file):
+    result = whisper_model.transcribe(audio_file, language="zh")  # 指定中文识别
+    return result['text']
+# 生成艺术作品
 def generate_artwork(description, style, enhance_details, audio_file):
     # 如果上传了音频文件，进行语音转文本
     if audio_file is not None: