Spaces:

humanvprojectceo
/

HumanV

Sleeping

App Files Files Community

humanvprojectceo commited on Feb 10

Commit

656e44c

verified ·

1 Parent(s): 2a67362

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -118

app.py CHANGED Viewed

@@ -1,122 +1,29 @@
-import os
-import io
-import asyncio
-import numpy as np
-import soundfile as sf
 import gradio as gr
-from google import genai
-from google.genai import types
-MODEL = "models/gemini-2.5-flash-native-audio-preview-12-2025"
-client = genai.Client(
-    http_options={"api_version": "v1beta"},
-    api_key=os.getenv("GEMINI_API_KEY"),
-)
-CONFIG = types.LiveConnectConfig(
-    response_modalities=["AUDIO"]
 )
-# ------------------------
-# Audio preprocessing
-# ------------------------
-def load_audio_as_pcm16(path):
-    y, sr = sf.read(path)
-    # تبدیل به mono
-    if len(y.shape) > 1:
-        y = y.mean(axis=1)
-    # resample به 16k
-    if sr != 16000:
-        import resampy
-        y = resampy.resample(y, sr, 16000)
-    # float → int16
-    pcm16 = (y * 32767).astype(np.int16)
-    return pcm16.tobytes()
-# ------------------------
-# Gemini interaction
-# ------------------------
-async def send_audio_file(file_path):
-    audio_bytes = load_audio_as_pcm16(file_path)
-    async with client.aio.live.connect(model=MODEL, config=CONFIG) as session:
-        await session.send(
-            input={
-                "data": audio_bytes,
-                "mime_type": "audio/pcm"
-            },
-            end_of_turn=True
-        )
-        audio_chunks = []
-        turn = session.receive()
-        async for response in turn:
-            if response.data:
-                audio_chunks.append(response.data)
-        full_audio = b"".join(audio_chunks)
-        # تبدیل خروجی مدل به numpy
-        buf = io.BytesIO(full_audio)
-        y, sr = sf.read(
-            buf,
-            channels=1,
-            samplerate=24000,
-            format="RAW",
-            subtype="PCM_16",
-            dtype="float32"
-        )
-        return sr, y
-# ------------------------
-# Gradio function
-# ------------------------
-def process_audio(file):
-    if file is None:
-        return None, "Please upload an audio file."
-    try:
-        sr, audio_data = asyncio.run(send_audio_file(file))
-        return (sr, audio_data), "Response generated successfully!"
-    except Exception as e:
-        return None, f"Error: {str(e)}"
-# ------------------------
-# Gradio UI
-# ------------------------
-with gr.Blocks() as demo:
-    gr.Markdown("# Gemini Audio → Audio")
-    gr.Markdown("Upload audio → Gemini responds with audio")
-    input_audio = gr.Audio(
-        label="Upload audio",
-        type="filepath"
-    )
-    output_audio = gr.Audio(
-        label="Gemini spoken response",
-        type="numpy",
-        autoplay=True
-    )
-    status = gr.Textbox(label="Status")
-    btn = gr.Button("Send Audio")
-    btn.click(
-        fn=process_audio,
-        inputs=input_audio,
-        outputs=[output_audio, status]
-    )
 demo.launch()

 import gradio as gr
+from faster_whisper import WhisperModel
+# انتخاب مدل: 'base' یا 'small' برای CPU عالی هستند
+# 'int8' باعث می‌شود مدل روی CPU بسیار سریع و کم‌حجم اجرا شود
+model_size = "small"
+model = WhisperModel(model_size, device="cpu", compute_type="int8")
+def transcribe_audio(audio):
+    # اجرای تبدیل صدا به متن
+    # beam_size=5 دقت را بالا می‌برد
+    segments, info = model.transcribe(audio, beam_size=5)
+    full_text = ""
+    for segment in segments:
+        full_text += segment.text + " "
+    return full_text
+# طراحی رابط کاربری
+demo = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(type="filepath"),
+    outputs="text",
+    title="تبدیل رایگان صدا به متن (Whisper CPU)",
+    description="فایل صوتی خود را آپلود کنید تا با دقت بالا به متن تبدیل شود. پشتیبانی از تمامی زبان‌ها از جمله فارسی."
 )
 demo.launch()