Spaces:

suprimedev
/

hfvd

Running

App Files Files Community

suprimedev commited on Nov 5, 2025

Commit

6556fb7

verified ·

1 Parent(s): 39512db

Update app.py

Browse files

Files changed (1) hide show

app.py +187 -107

app.py CHANGED Viewed

@@ -7,58 +7,59 @@ import speech_recognition as sr
 from pydub import AudioSegment
 import time
 import warnings
 from datetime import datetime, timedelta
 import threading
 import hashlib
 warnings.filterwarnings("ignore")
-# ذخیره‌سازی نتایج (متن همیشه ذخیره می‌شود - در حافظه Spaces موقت)
 results_cache = {}
 cache_lock = threading.Lock()
-# تابع برای پاکسازی cache قدیمی (هر ساعت، فقط event_idهای کامل‌شده قدیمی رو پاک کن)
 def cleanup_old_cache():
     while True:
         time.sleep(3600)  # هر ساعت
         with cache_lock:
             current_time = datetime.now()
             keys_to_remove = []
-            for event_id, value in results_cache.items():
-                if value['completed'] and (current_time - value['timestamp'] > timedelta(hours=24)):
-                    keys_to_remove.append(event_id)
-                    # پاک کردن فایل MP3 اگر وجود دارد
-                    if value['mp3_path'] and os.path.exists(value['mp3_path']):
-                        try:
-                            os.remove(value['mp3_path'])
-                        except:
-                            pass
-            for event_id in keys_to_remove:
-                if event_id in results_cache:
-                    del results_cache[event_id]
             if keys_to_remove:
-                print(f"[CACHE] {len(keys_to_remove)} event_id قدیمی پاک شد.")
 cleanup_thread = threading.Thread(target=cleanup_old_cache, daemon=True)
 cleanup_thread.start()
-def get_event_id(video_url, language):
-    """ایجاد event_id یکتا"""
     return hashlib.md5(f"{video_url}_{language}".encode()).hexdigest()
-def save_result_to_cache(event_id, video_url, language, mp3_path, text, status_msg, processing=False):
-    """ذخیره نتیجه در cache (متن همیشه ذخیره می‌شود)"""
-    # کپی فایل MP3 به مکان دائمی اگر موجود باشد (در Spaces، فایل‌ها موقت هستن)
     cache_mp3_path = None
     if mp3_path and os.path.exists(mp3_path):
-        cache_mp3_path = f"cache_{event_id}.mp3"
         shutil.copy2(mp3_path, cache_mp3_path)
     with cache_lock:
-        results_cache[event_id] = {
             'timestamp': datetime.now(),
             'mp3_path': cache_mp3_path,
-            'text': text,  # متن استخراج‌شده همیشه ذخیره می‌شه (حتی None)
             'status_msg': status_msg,
             'video_url': video_url,
             'language': language,
@@ -66,67 +67,81 @@ def save_result_to_cache(event_id, video_url, language, mp3_path, text, status_m
             'completed': not processing and (text is not None or status_msg.startswith("خطا"))
         }
-    print(f"[CACHE] نتیجه ذخیره شد: {event_id} (processing: {processing}, text_length: {len(text) if text else 0})")
-def get_result_from_cache(event_id):
-    """دریافت نتیجه از cache با event_id"""
     with cache_lock:
-        if event_id in results_cache:
-            result = results_cache[event_id]
-            print(f"[CACHE] نتیجه یافت شد: {event_id}")
             return result
     return None
-def check_event_id(event_id):
-    """تابع جدید: استعلام event_id و برگرداندن متن/وضعیت (برای Gradio و API)"""
-    if not event_id:
-        return "Event ID را وارد کنید.", None, "نامشخص"
-    cached_result = get_result_from_cache(event_id)
-    if not cached_result:
-        return "Event ID یافت نشد.", None, "Not found"
-    if cached_result['processing']:
-        return "در حال پردازش... (صبر کنید)", None, "Processing"
-    if cached_result['completed']:
-        text = cached_result['text']
-        status = cached_result['status_msg']
-        mp3_path = cached_result['mp3_path'] if cached_result['mp3_path'] and os.path.exists(cached_result['mp3_path']) else None
-        return (text if text else "متن استخراج نشد.",
-                mp3_path,
-                f"کامل: {status} (زمان: {cached_result['timestamp'].strftime('%Y-%m-%d %H:%M')})")
-    return "وضعیت نامشخص.", None, "Unknown"
 def convert_to_mp3_and_transcribe_wrapper(video_url, language):
-    """Wrapper اصلی: پردازش ویدیو و برگرداندن event_id"""
     if not video_url:
-        return None, None, "لینک ویدیو را وارد کنید.", None
-    # ایجاد event_id
-    event_id = get_event_id(video_url, language)
     # چک کردن cache
-    cached_result = get_result_from_cache(event_id)
     if cached_result and cached_result['completed']:
         return (cached_result['mp3_path'],
                 cached_result['text'],
                 f"[از حافظه] {cached_result['status_msg']}",
-                event_id)
     # اگر در حال پردازش است
     if cached_result and cached_result['processing']:
-        return None, None, "در حال پردازش... لطفاً صبر کنید.", event_id
     # ثبت شروع پردازش
-    save_result_to_cache(event_id, video_url, language, None, None, "در حال پردازش...", processing=True)
-    # پردازش (در Spaces، sync باشه چون async سخت‌تره)
     mp3_path, text, status_msg = convert_to_mp3_and_transcribe(video_url, language)
-    save_result_to_cache(event_id, video_url, language, mp3_path, text, status_msg, processing=False)
-    return mp3_path, text, status_msg, event_id
 def convert_to_mp3_and_transcribe(video_url, language):
     """تابع اصلی پردازش (بدون cache)"""
@@ -137,7 +152,7 @@ def convert_to_mp3_and_transcribe(video_url, language):
         progress(0, desc="شروع دانلود...")
-        # دانلود و تبدیل به MP3 (در Spaces، yt_dlp کار می‌کنه اما محدودیت حجم داره)
         ydl_opts = {
             'format': 'bestaudio[ext=m4a]/bestaudio/best',
             'postprocessors': [{
@@ -166,7 +181,7 @@ def convert_to_mp3_and_transcribe(video_url, language):
         progress(0.3, desc="دانلود کامل. کپی MP3...")
-        # کپی به موقت (در Spaces، tempfile خوبه)
         temp_mp3 = tempfile.NamedTemporaryFile(suffix='.mp3', delete=False)
         temp_mp3.close()
         shutil.copy2(mp3_file, temp_mp3.name)
@@ -194,7 +209,7 @@ def language_display(lang_code):
     return "پارسی" if lang_code == 'fa-IR' else "انگلیسی" if lang_code == 'en-US' else lang_code
 def transcribe_audio(mp3_path, progress, language, chunk_length_ms=60000, overlap_ms=5000):
-    """استخراج متن - بدون تغییر"""
     recognizer = sr.Recognizer()
     recognizer.energy_threshold = 300
     recognizer.dynamic_energy_threshold = True
@@ -291,54 +306,119 @@ def transcribe_audio(mp3_path, progress, language, chunk_length_ms=60000, overla
     return final_text, ""
-# رابط Gradio با دو تب (برای Spaces بهینه)
-with gr.Blocks(title="تبدیل ویدیو به MP3 و متن (Hugging Face Spaces)") as demo:
-    gr.Markdown("# تبدیل ویدیو یوتیوب به MP3 و متن استخراج‌شده\n\n- **تب 1**: پردازش ویدیو جدید (event_id تولید می‌شه).\n- **تب 2**: استعلام event_id برای گرفتن متن ذخیره‌شده.")
-    with gr.Tab("پردازش ویدیو"):
-        with gr.Row():
-            video_input = gr.Textbox(label="لینک ویدیو", placeholder="https://www.youtube.com/watch?v=...")
-            lang_input = gr.Dropdown(choices=[("پارسی", "fa-IR"), ("انگلیسی", "en-US")], value="fa-IR", label="زبان")
-        process_btn = gr.Button("پردازش")
-        with gr.Row():
-            mp3_output = gr.File(label="دانلود MP3")
-            text_output = gr.Textbox(label="متن استخراج‌شده", lines=10)
-        status_output = gr.Textbox(label="وضعیت")
-        event_id_output = gr.Textbox(label="Event ID (کپی کنید برای استعلام)", info="این ID رو در تب دوم وارد کنید یا از API استفاده کنید.")
-        process_btn.click(
-            fn=convert_to_mp3_and_transcribe_wrapper,
-            inputs=[video_input, lang_input],
-            outputs=[mp3_output, text_output, status_output, event_id_output]
-        )
-    with gr.Tab("استعلام Event ID"):
-        event_id_input = gr.Textbox(label="Event ID را وارد کنید", placeholder="مثال: a1b2c3d4e5f6...")
-        check_btn = gr.Button("چک کن")
-        check_text = gr.Textbox(label="متن استخراج‌شده", lines=10)
-        check_mp3 = gr.File(label="دانلود MP3 (اگر موجود)")
-        check_status = gr.Textbox(label="وضعیت")
-        check_btn.click(
-            fn=check_event_id,
-            inputs=[event_id_input],
-            outputs=[check_text, check_mp3, check_status]
-        )
-        gr.Markdown("### API Usage (از خارج Spaces):\n- **پردازش ویدیو**: `POST /api/predict` با payload: `{'data': ['https://youtube.com/...', 'fa-IR']}` → خروجی شامل event_id.\n- **چک event_id**: `POST /api/predict` با payload: `{'fn_index': 1, 'data': ['event_id_here']}` → خروجی متن/وضعیت.\nمثال با curl: `curl -X POST https://your-space.hf.space/api/predict -H 'Content-Type: application/json' -d '{"data": ["url", "lang"]}'`")
-# Examples برای تب اول
-examples = gr.Examples(
     examples=[
         ["https://www.youtube.com/watch?v=5qap5aO4i9A", "fa-IR"],
         ["https://www.youtube.com/watch?v=dQw4w9WgXcQ", "en-US"]
     ],
-    inputs=[video_input, lang_input],
-    outputs=[mp3_output, text_output, status_output, event_id_output],
-    fn=convert_to_mp3_and_transcribe_wrapper
 )
-# در Spaces، demo رو launch نکن؛ Spaces خودش handle می‌کنه
-# demo.launch(share=True)  # فقط برای local، در Spaces کامنت کن

 from pydub import AudioSegment
 import time
 import warnings
+import json
 from datetime import datetime, timedelta
 import threading
 import hashlib
+import uuid
+from fastapi import FastAPI
+from fastapi.responses import JSONResponse
 warnings.filterwarnings("ignore")
+# ذخیره‌سازی نتایج
 results_cache = {}
 cache_lock = threading.Lock()
+# FastAPI instance برای API endpoints
+app = FastAPI()
+# تابع برای پاکسازی cache قدیمی
 def cleanup_old_cache():
     while True:
         time.sleep(3600)  # هر ساعت
         with cache_lock:
             current_time = datetime.now()
             keys_to_remove = []
+            for key, value in results_cache.items():
+                if current_time - value['timestamp'] > timedelta(hours=24):
+                    keys_to_remove.append(key)
+            for key in keys_to_remove:
+                del results_cache[key]
             if keys_to_remove:
+                print(f"[CACHE] {len(keys_to_remove)} نتیجه قدیمی پاک شد.")
 cleanup_thread = threading.Thread(target=cleanup_old_cache, daemon=True)
 cleanup_thread.start()
+def get_cache_key(video_url, language):
+    """ایجاد کلید یکتا برای cache"""
     return hashlib.md5(f"{video_url}_{language}".encode()).hexdigest()
+def save_result_to_cache(cache_key, event_id, video_url, language, mp3_path, text, status_msg, processing=False):
+    """ذخیره نتیجه در cache"""
+    # کپی فایل MP3 به مکان دائمی
     cache_mp3_path = None
     if mp3_path and os.path.exists(mp3_path):
+        cache_mp3_path = f"cache_{cache_key}.mp3"
         shutil.copy2(mp3_path, cache_mp3_path)
     with cache_lock:
+        results_cache[cache_key] = {
+            'event_id': event_id,
             'timestamp': datetime.now(),
             'mp3_path': cache_mp3_path,
+            'text': text,
             'status_msg': status_msg,
             'video_url': video_url,
             'language': language,
             'completed': not processing and (text is not None or status_msg.startswith("خطا"))
         }
+    print(f"[CACHE] نتیجه ذخیره شد: {cache_key} (processing: {processing})")
+def get_result_from_cache(cache_key):
+    """دریافت نتیجه از cache"""
     with cache_lock:
+        if cache_key in results_cache:
+            result = results_cache[cache_key]
+            print(f"[CACHE] نتیجه یافت شد: {cache_key}")
             return result
     return None
+def get_result_by_event_id_internal(event_id):
+    """دریافت نتیجه بر اساس event_id - برای استفاده داخلی"""
+    with cache_lock:
+        for key, value in results_cache.items():
+            if value.get('event_id') == event_id:
+                return value
+    return None
 def convert_to_mp3_and_transcribe_wrapper(video_url, language):
+    """Wrapper function که cache_key را در ابتدا برمی‌گرداند"""
     if not video_url:
+        return None, None, "لینک ویدیو را وارد کنید.", None, None
+    # ایجاد cache key
+    cache_key = get_cache_key(video_url, language)
+    event_id = str(uuid.uuid4())
     # چک کردن cache
+    cached_result = get_result_from_cache(cache_key)
     if cached_result and cached_result['completed']:
         return (cached_result['mp3_path'],
                 cached_result['text'],
                 f"[از حافظه] {cached_result['status_msg']}",
+                cache_key,
+                cached_result['event_id'])
     # اگر در حال پردازش است
     if cached_result and cached_result['processing']:
+        return None, None, "در حال پردازش... لطفاً صبر کنید.", cache_key, event_id
     # ثبت شروع پردازش
+    save_result_to_cache(cache_key, event_id, video_url, language, None, None, "در حال پردازش...", processing=True)
+    # پردازش در background
+    def process_async():
+        try:
+            mp3_path, text, status_msg = convert_to_mp3_and_transcribe(video_url, language)
+            save_result_to_cache(cache_key, event_id, video_url, language, mp3_path, text, status_msg, processing=False)
+        except Exception as e:
+            save_result_to_cache(cache_key, event_id, video_url, language, None, None, f"خطا: {str(e)}", processing=False)
+    # شروع پردازش (برای سادگی، همینجا انجام می‌دهیم - در production باید async باشد)
     mp3_path, text, status_msg = convert_to_mp3_and_transcribe(video_url, language)
+    save_result_to_cache(cache_key, event_id, video_url, language, mp3_path, text, status_msg, processing=False)
+    return mp3_path, text, status_msg, cache_key, event_id
+def check_result_by_event_id(event_id):
+    """تابع برای بررسی نتیجه بر اساس Event ID"""
+    if not event_id:
+        return None, "", "Event ID را وارد کنید."
+    result = get_result_by_event_id_internal(event_id)
+    if not result:
+        return None, "", "نتیجه‌ای با این Event ID یافت نشد."
+    if result['processing']:
+        return None, "", "در حال پردازش... لطفاً صبر کنید."
+    if result['completed']:
+        return result.get('mp3_path'), result.get('text', ''), result.get('status_msg', 'تکمیل شد.')
+    return None, "", "وضعیت نامشخص."
 def convert_to_mp3_and_transcribe(video_url, language):
     """تابع اصلی پردازش (بدون cache)"""
         progress(0, desc="شروع دانلود...")
+        # دانلود و تبدیل به MP3
         ydl_opts = {
             'format': 'bestaudio[ext=m4a]/bestaudio/best',
             'postprocessors': [{
         progress(0.3, desc="دانلود کامل. کپی MP3...")
+        # کپی به موقت
         temp_mp3 = tempfile.NamedTemporaryFile(suffix='.mp3', delete=False)
         temp_mp3.close()
         shutil.copy2(mp3_file, temp_mp3.name)
     return "پارسی" if lang_code == 'fa-IR' else "انگلیسی" if lang_code == 'en-US' else lang_code
 def transcribe_audio(mp3_path, progress, language, chunk_length_ms=60000, overlap_ms=5000):
+    """استخراج متن - کد قبلی شما"""
     recognizer = sr.Recognizer()
     recognizer.energy_threshold = 300
     recognizer.dynamic_energy_threshold = True
     return final_text, ""
+# API endpoint
+@app.get("/api/check_result/{cache_key}")
+async def check_result_api(cache_key: str):
+    """API endpoint برای بررسی وضعیت نتیجه"""
+    result = get_result_from_cache(cache_key)
+    if not result:
+        return JSONResponse({"status": 0, "message": "Not found"})
+    if result['processing']:
+        return JSONResponse({"status": 0, "message": "Processing"})
+    if result['completed']:
+        return JSONResponse({
+            "status": 1,
+            "text": result['text'],
+            "mp3_available": result['mp3_path'] is not None,
+            "status_message": result['status_msg']
+        })
+    return JSONResponse({"status": 0, "message": "Unknown status"})
+# Endpoint جدید برای استعلام با event_id
+@app.get("/api/get_result_by_event_id/{event_id}")
+async def get_result_by_event_id(event_id: str):
+    """دریافت نتیجه بر اساس event_id"""
+    result = get_result_by_event_id_internal(event_id)
+    if not result:
+        return JSONResponse({
+            "status": 0,
+            "event_id": event_id,
+            "message": "Event ID not found"
+        })
+    if result['processing']:
+        return JSONResponse({
+            "status": 0,
+            "event_id": event_id,
+            "message": "Processing"
+        })
+    if result['completed']:
+        return JSONResponse({
+            "status": 1,
+            "event_id": event_id,
+            "text": result['text'],
+            "mp3_available": result['mp3_path'] is not None,
+            "status_message": result['status_msg']
+        })
+    return JSONResponse({
+        "status": 0,
+        "event_id": event_id,
+        "message": "Failed or unknown status"
+    })
+# رابط Gradio اصلی برای پردازش ویدیو
+iface_main = gr.Interface(
+    fn=convert_to_mp3_and_transcribe_wrapper,
+    inputs=[
+        gr.Textbox(
+            label="لینک ویدیو",
+            placeholder="https://www.youtube.com/watch?v=..."
+        ),
+        gr.Dropdown(
+            choices=[("پارسی", "fa-IR"), ("انگلیسی", "en-US")],
+            value="fa-IR",
+            label="زبان"
+        )
+    ],
+    outputs=[
+        gr.File(label="دانلود MP3"),
+        gr.Textbox(label="متن استخراج‌شده", lines=10),
+        gr.Textbox(label="وضعیت"),
+        gr.Textbox(label="Cache Key", visible=False),
+        gr.Textbox(label="Event ID")
+    ],
+    title="تبدیل ویدیو به MP3 و متن",
     examples=[
         ["https://www.youtube.com/watch?v=5qap5aO4i9A", "fa-IR"],
         ["https://www.youtube.com/watch?v=dQw4w9WgXcQ", "en-US"]
+    ]
+)
+# رابط Gradio برای استعلام نتایج بر اساس Event ID
+iface_query = gr.Interface(
+    fn=check_result_by_event_id,
+    inputs=[
+        gr.Textbox(
+            label="Event ID",
+            placeholder="وارد کردن Event ID..."
+        )
+    ],
+    outputs=[
+        gr.File(label="دانلود MP3"),
+        gr.Textbox(label="متن استخراج‌شده", lines=10),
+        gr.Textbox(label="وضعیت")
     ],
+    title="استعلام نتایج بر اساس Event ID",
+    description="با وارد کردن Event ID می‌توانید نتایج پردازش قبلی را مشاهده کنید."
 )
+# Tabbed interface
+iface = gr.TabbedInterface(
+    [iface_main, iface_query],
+    tab_names=["پردازش ویدیو", "استعلام نتایج"]
+)
+# Mount FastAPI to Gradio
+from gradio import mount_gradio_app
+mount_gradio_app(app, iface, path="/")
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)