Spaces:

hoangkha1810
/

Cybersoft-AI

Runtime error

App Files Files Community

hoangkha1810 commited on Mar 26, 2025

Commit

9583739

verified ·

1 Parent(s): fb93da4

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -24

app.py CHANGED Viewed

@@ -13,18 +13,21 @@ from google_auth_oauthlib.flow import InstalledAppFlow
 from google.auth.transport.requests import Request
 from datetime import datetime
 from ascii_magic import AsciiArt
-# Stable Diffusion setup
 model_id = "runwayml/stable-diffusion-v1-5"
 pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float32)
 # BLIP setup for image captioning
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
 # Paths for Google OAuth
-TOKEN_PATH = "token.json"  # Đổi thành tương đối để deploy
-CLIENT_SECRET_PATH = "client_secret.json"  # Upload file này khi deploy
 API_URL = "https://generativelanguage.googleapis.com/v1beta/tunedModels/csa-10-he0op144r76e:generateContent"
 def load_credentials():
@@ -79,21 +82,11 @@ def is_image_generation_request(text: str) -> bool:
     image_keywords = [
         "tạo ảnh", "Tạo Ảnh", "TẠO ẢNH", "tạo hình", "Tạo Hình", "TẠO HÌNH",
         "vẽ", "Vẽ", "VẼ", "hình ảnh", "Hình Ảnh", "HÌNH ẢNH", "ảnh của", "Ảnh Của", "ẢNH CỦA",
-        "vẽ tranh", "Vẽ Tranh", "VẼ TRANH", "sinh ảnh", "Sinh Ảnh", "SINH ẢNH",
-        "phát sinh ảnh", "Phát Sinh Ảnh", "PHÁT SINH ẢNH",
-        "ảnh kỹ thuật số", "Ảnh Kỹ Thuật Số", "ẢNH KỸ THUẬT SỐ",
-        "dựng hình", "Dựng Hình", "DỰNG HÌNH",
-        "thiết kế hình ảnh", "Thiết Kế Hình Ảnh", "THIẾT KẾ HÌNH ẢNH",
-        "tạo đồ họa", "Tạo Đồ Họa", "TẠO ĐỒ HỌA", "Tạo cho tôi ảnh",
-        "generate image", "Generate Image", "GENERATE IMAGE",
-        "image generation", "Image Generation", "IMAGE GENERATION",
-        "draw", "Draw", "DRAW", "picture", "Picture", "PICTURE",
-        "image of", "Image Of", "IMAGE OF", "create image", "Create Image", "CREATE IMAGE"
     ]
     text_lower = text.lower()
     return any(keyword in text_lower for keyword in image_keywords)
-# Hàm xử lý cho /generate
 def generate_content(text):
     access_token = get_access_token()
     headers = {
@@ -110,19 +103,17 @@ def generate_content(text):
         image = generate_image(prompt)
         ascii_art = AsciiArt.from_pillow_image(image)
         print(ascii_art.to_ascii())
-        return image, ascii_art.to_ascii()
     else:
         response = requests.post(API_URL, headers=headers, json=data)
-        return response.json(), None
-# Hàm xử lý cho /generate-image
 def generate_image_only(prompt):
     image = generate_image(prompt)
     ascii_art = AsciiArt.from_pillow_image(image)
     print(ascii_art.to_ascii())
     return image, ascii_art.to_ascii()
-# Hàm xử lý cho /upload-image
 def upload_and_process(image, prompt):
     inputs = processor(images=image, return_tensors="pt")
     with torch.no_grad():
@@ -134,12 +125,17 @@ def upload_and_process(image, prompt):
     print(ascii_art.to_ascii())
     return generated_image, caption, ascii_art.to_ascii()
-# Hàm xử lý cho /micro
-def speech_to_text(audio):
     recognizer = sr.Recognizer()
-    with sr.AudioFile(audio) as source:
-        recognizer.adjust_for_ambient_noise(source)
-        audio_content = recognizer.record(source)
     text = recognizer.recognize_google(audio_content, language="vi-VN")
     return generate_content(text)
@@ -181,7 +177,7 @@ with gr.Blocks(title="Ứng dụng AI với Gradio") as app:
         )
     with gr.Tab("Speech to Text"):
-        audio_input = gr.Audio(source="microphone", type="filepath", label="Ghi âm")
         audio_text_output = gr.JSON(label="Kết quả văn bản")
         audio_image_output = gr.Image(label="Ảnh tạo ra (nếu có)")
         audio_ascii_output = gr.Textbox(label="ASCII Art (nếu có)")

 from google.auth.transport.requests import Request
 from datetime import datetime
 from ascii_magic import AsciiArt
+import pyaudio
+# Stable Diffusion setup với accelerate
 model_id = "runwayml/stable-diffusion-v1-5"
 pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float32)
+if torch.cuda.is_available():
+    pipe = pipe.to("cuda")  # Dùng GPU nếu có
 # BLIP setup for image captioning
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
 # Paths for Google OAuth
+TOKEN_PATH = "/Users/hoangkha/Documents/website/BE/token.json"
+CLIENT_SECRET_PATH = "/Users/hoangkha/Documents/website/BE/client_secret_589296761620-lqo0vs89j6c12link1tgjao99rnoaenk.apps.googleusercontent.com.json"
 API_URL = "https://generativelanguage.googleapis.com/v1beta/tunedModels/csa-10-he0op144r76e:generateContent"
 def load_credentials():
     image_keywords = [
         "tạo ảnh", "Tạo Ảnh", "TẠO ẢNH", "tạo hình", "Tạo Hình", "TẠO HÌNH",
         "vẽ", "Vẽ", "VẼ", "hình ảnh", "Hình Ảnh", "HÌNH ẢNH", "ảnh của", "Ảnh Của", "ẢNH CỦA",
+        "generate image", "Generate Image", "GENERATE IMAGE"
     ]
     text_lower = text.lower()
     return any(keyword in text_lower for keyword in image_keywords)
 def generate_content(text):
     access_token = get_access_token()
     headers = {
         image = generate_image(prompt)
         ascii_art = AsciiArt.from_pillow_image(image)
         print(ascii_art.to_ascii())
+        return image, ascii_art.to_ascii(), None
     else:
         response = requests.post(API_URL, headers=headers, json=data)
+        return None, None, response.json()
 def generate_image_only(prompt):
     image = generate_image(prompt)
     ascii_art = AsciiArt.from_pillow_image(image)
     print(ascii_art.to_ascii())
     return image, ascii_art.to_ascii()
 def upload_and_process(image, prompt):
     inputs = processor(images=image, return_tensors="pt")
     with torch.no_grad():
     print(ascii_art.to_ascii())
     return generated_image, caption, ascii_art.to_ascii()
+def speech_to_text(audio=None):
     recognizer = sr.Recognizer()
+    if audio:
+        with sr.AudioFile(audio) as source:
+            recognizer.adjust_for_ambient_noise(source)
+            audio_content = recognizer.record(source)
+    else:
+        with sr.Microphone() as source:
+            recognizer.adjust_for_ambient_noise(source)
+            print("Đang nghe...")
+            audio_content = recognizer.listen(source)
     text = recognizer.recognize_google(audio_content, language="vi-VN")
     return generate_content(text)
         )
     with gr.Tab("Speech to Text"):
+        audio_input = gr.Audio(type="filepath", label="Ghi âm từ micro hoặc tải file")
         audio_text_output = gr.JSON(label="Kết quả văn bản")
         audio_image_output = gr.Image(label="Ảnh tạo ra (nếu có)")
         audio_ascii_output = gr.Textbox(label="ASCII Art (nếu có)")