Spaces:

Opera10
/

teswisp

Sleeping

App Files Files Community

Opera10 commited on Jun 2

Commit

7217cc2

verified ·

1 Parent(s): b8f6e70

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -50

app.py CHANGED Viewed

@@ -1,60 +1,59 @@
-import os
-import gradio as gr
 from groq import Groq
-# خواندن کلید مخفی شده از تنظیمات هاگینگ فیس
-GROQ_API_KEY = os.getenv("GROQ_API_KEY")
-def transcribe_audio(audio_path):
-    if not GROQ_API_KEY:
-        return "خطا: کلید API یافت نشد. لطفا ابتدا GROQ_API_KEY را در تنظیمات اسپیس تعریف کنید.", []
-    if not audio_path:
-        return "لطفاً ابتدا یک فایل صوتی آپلود کنید.", []
     try:
-        # ساخت کلاینت گراک با کلید امن شده
-        client = Groq(api_key=GROQ_API_KEY)
-        # خواندن فایل صوتی آپلود شده توسط کاربر
-        with open(audio_path, "rb") as file:
-            response = client.audio.transcriptions.create(
-                file=(audio_path, file.read()),
-                model="whisper-large-v3-turbo",  # مدل ویسپر ۳ توربو
-                response_format="verbose_json",  # فرمت خروجی حاوی زمان‌بندی
-                language="fa"                    # زبان فارسی
-            )
-        # دریافت متن کامل
-        full_text = getattr(response, "text", "")
-        # استخراج و مرتب‌سازی زمان‌بندی جملات
-        segments = []
-        raw_segments = getattr(response, "segments", [])
-        for idx, segment in enumerate(raw_segments):
-            segments.append({
-                "بخش": idx + 1,
-                "شروع (ثانیه)": round(segment.get("start", 0), 2),
-                "پایان (ثانیه)": round(segment.get("end", 0), 2),
-                "متن جمله": segment.get("text", "").strip()
-            })
-        return full_text, segments
     except Exception as e:
-        return f"خطا در پردازش صوتی: {str(e)}", []
-# ساخت محیط وب ساده و تعاملی با Gradio
-demo = gr.Interface(
-    fn=transcribe_audio,
-    inputs=gr.Audio(type="filepath", label="فایل صوتی خود را اینجا بکشید و رها کنید"),
-    outputs=[
-        gr.Textbox(label="متن کامل شناسایی شده (Full Text)"),
-        gr.JSON(label="زمان‌بندی دقیق جملات (Segments)")
-    ],
-    title="تست ابزار تبدیل صدا به متن Whisper v3",
-    description="فایل صوتی خود را آپلود کنید تا خروجی متنی و زمان‌بندی دقیق کلمات را در محیط هاگینگ فیس مشاهده کنید."
-)
-if __name__ == "__main__":
-    demo.launch()

+import json
 from groq import Groq
+# استفاده از همان کلاینت و کلید قبلی شما
+GROQ_API_KEY = "gsk_کلید_شما"
+client = Groq(api_key=GROQ_API_KEY)
+def correct_segments_with_llm(segments_list):
+    """
+    این تابع لیست سگمنت‌ها را می‌گیرد و غلط‌های املایی را بدون تغییر لحن کلمات اصلاح می‌کند.
+    """
+    # تبدیل لیست به متن JSON برای فرستادن به هوش مصنوعی
+    segments_json = json.dumps(segments_list, ensure_ascii=False, indent=2)
+    # دستورالعمل فوق‌العاده دقیق برای جلوگیری از تغییر کلمات
+    system_instruction = (
+        "تو یک ویراستار حرفه‌ای زیرنویس فارسی هستی. وظیفه تو فقط و فقط اصلاح غلط‌های املایی و شنیداری (Phonetic Errors) در این JSON است.\n"
+        "قوانین بسیار سخت‌گیرانه که باید رعایت کنی:\n"
+        "۱. به هیچ وجه لحن جملات را تغییر نده. کلمات عامیانه و محاوره‌ای باید دقیقاً همان‌طور بمانند.\n"
+        "۲. ساختار نوشتاری کلمات را تغییر نده. به عنوان مثال، اگر کلمه‌ای به صورت 'میباشد' نوشته شده، آن را به 'می باشد' یا 'هست' تغییر نده. اگر کلمه‌ای درست است، هیچ تغییری در ظاهر آن (حتی فاصله‌گذاری‌ها) ایجاد نکن.\n"
+        "۳. جملات را خلاصه نکن، بازنویسی نکن و هیچ کلمه‌ای را حذف یا اضافه نکن.\n"
+        "۴. زمان‌بندی‌ها (بخش، شروع، پایان) نباید کوچک‌ترین تغییری کنند.\n"
+        "۵. خروجی تو باید دقیقاً یک JSON معتبر با همان ساختار ورودی باشد. هیچ توضیح، سلام، احوالپرسی یا متن اضافی خارج از JSON برنگردان."
+    )
     try:
+        # ارسال درخواست به مدل چت فوق‌سریع لاما در Groq
+        response = client.chat.completions.create(
+            model="llama-3.1-8b-instant",  # مدل بسیار سریع و مناسب برای کارهای ویرایشی
+            messages=[
+                {"role": "system", "content": system_instruction},
+                {"role": "user", "content": f"لطفاً این زیرنویس را ویرایش کن:\n\n{segments_json}"}
+            ],
+            temperature=0.1,  # دمای پایین برای اینکه مدل خلاقیت به خرج ندهد و دقیقاً طبق دستور عمل کند
+            response_format={"type": "json_object"}  # اجبار مدل به برگرداندن پاسخ در قالب JSON
+        )
+        # دریافت متن اصلاح شده و تبدیل آن به لیست پایتون
+        corrected_data = json.loads(response.choices[0].message.content)
+        # اگر خروجی به صورت یک دیکشنری با کلید خاصی برگشته باشد، آن را مدیریت می‌کنیم
+        if isinstance(corrected_data, dict) and "segments" in corrected_data:
+            return corrected_data["segments"]
+        elif isinstance(corrected_data, dict) and "بخش‌ها" in corrected_data:
+            return corrected_data["بخش‌ها"]
+        elif isinstance(corrected_data, list):
+            return corrected_data
+        else:
+            # در بیشتر مواقع مدل لیست مستقیم یا دیکشنری حاوی لیست را برمی‌گرداند
+            # برای اطمینان، اگر کلیدی پیدا نشد اولین لیستی که پیدا کند را برمی‌گرداند
+            for val in corrected_data.values():
+                if isinstance(val, list):
+                    return val
+            return corrected_data
     except Exception as e:
+        print(f"Error in LLM correction: {e}")
+        # در صورت بروز خطای ارتباطی، همان لیست اصلی بدون ویرایش برگشت داده می‌شود تا برنامه کرش نکند
+        return segments_list