Spaces:

ATInc1
/

AIdea-Server

Running

App Files Files Community

ALI7ADEL commited on Apr 12

Commit

9b94974

verified ·

1 Parent(s): 187ff0c

Update src/api/downloader.py

Browse files

Files changed (1) hide show

src/api/downloader.py +33 -17

src/api/downloader.py CHANGED Viewed

@@ -9,32 +9,40 @@ logger = logging.getLogger(__name__)
 class YouTubeDownloader:
     def __init__(self):
         self._assemblyai_key = os.environ.get("ASSEMBLYAI_API_KEY", "").strip()
         self._supadata_key   = os.environ.get("SUPADATA_API_KEY", "").strip()
     def get_transcript(self, url: str) -> str:
         video_id = self._extract_video_id(url)
-        logger.info("=" * 55)
-        logger.info(f"🔍 AIdea Pipeline for Video: {video_id}")
-        # 1. الخطة أ: YouTube Transcript API (سريع ومجاني)
         try:
             from youtube_transcript_api import YouTubeTranscriptApi
             entries = YouTubeTranscriptApi.get_transcript(video_id)
             return " ".join(e["text"] for e in entries).strip()
-        except:
-            logger.warning("⚠️ Plan A (Official API) failed.")
-        # 2. الخطة ب: Supadata (المنقذ القوي للـ Transcripts)
         if self._supadata_key:
             try:
-                logger.info("🚀 Plan B: Trying Supadata API...")
-                # تنظيف الرابط
                 clean_url = f"https://www.youtube.com/watch?v={video_id}"
                 req = urllib.request.Request(
                     f"https://api.supadata.ai/v1/youtube/transcript?url={clean_url}&text=true",
-                    headers={"x-api-key": self._supadata_key}
                 )
                 with urllib.request.urlopen(req, timeout=30) as resp:
                     data = json.loads(resp.read())
                     text = data.get("content", "").strip()
@@ -42,25 +50,33 @@ class YouTubeDownloader:
                         logger.info("✅ Plan B Success!")
                         return text
             except Exception as e:
-                logger.error(f"❌ Plan B (Supadata) Error: {e}")
-        # 3. الخطة ج: AssemblyAI (كاحتياطي)
         if self._assemblyai_key:
             try:
                 import assemblyai as aai
                 aai.settings.api_key = self._assemblyai_key
                 transcriber = aai.Transcriber()
-                transcript = transcriber.transcribe(url)
                 if transcript.status != aai.TranscriptStatus.error:
                     return transcript.text
-            except:
-                logger.warning("⚠️ Plan C (AssemblyAI) failed.")
-        raise RuntimeError(f"❌ All strategies exhausted for {video_id}")
     def _extract_video_id(self, url: str) -> str:
-        match = re.search(r"(?:v=|youtu\.be/|shorts/)([A-Za-z0-9_-]{11})", str(url))
         return match.group(1) if match else "unknown"
-    def cleanup(self, path): # للحفاظ على التوافق
         pass

 class YouTubeDownloader:
     def __init__(self):
+        # سحب المفاتيح من الـ Environment
         self._assemblyai_key = os.environ.get("ASSEMBLYAI_API_KEY", "").strip()
         self._supadata_key   = os.environ.get("SUPADATA_API_KEY", "").strip()
     def get_transcript(self, url: str) -> str:
         video_id = self._extract_video_id(url)
+        logger.info(f"🔍 Pipeline for video ID: {video_id}")
+        # 1. الخطة أ: YouTube Transcript API (لو فيه ترجمة جاهزة)
         try:
             from youtube_transcript_api import YouTubeTranscriptApi
             entries = YouTubeTranscriptApi.get_transcript(video_id)
+            logger.info("✅ Plan A (Official API) Success!")
             return " ".join(e["text"] for e in entries).strip()
+        except Exception as e:
+            logger.warning(f"⚠️ Plan A Failed: {e}")
+        # 2. الخطة ب: Supadata (المنقذ الأول - بإصلاح الـ User-Agent)
         if self._supadata_key:
             try:
+                logger.info("🚀 Plan B: Calling Supadata...")
                 clean_url = f"https://www.youtube.com/watch?v={video_id}"
+                # إضافة Headers عشان نهرب من الـ 403 Forbidden
+                headers = {
+                    "x-api-key": self._supadata_key,
+                    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
+                }
                 req = urllib.request.Request(
                     f"https://api.supadata.ai/v1/youtube/transcript?url={clean_url}&text=true",
+                    headers=headers
                 )
                 with urllib.request.urlopen(req, timeout=30) as resp:
                     data = json.loads(resp.read())
                     text = data.get("content", "").strip()
                         logger.info("✅ Plan B Success!")
                         return text
             except Exception as e:
+                logger.error(f"❌ Plan B (Supadata) failed: {e}")
+        # 3. الخطة ج: AssemblyAI (المنقذ الثاني)
         if self._assemblyai_key:
             try:
+                logger.info("🚀 Plan C: Calling AssemblyAI...")
                 import assemblyai as aai
                 aai.settings.api_key = self._assemblyai_key
                 transcriber = aai.Transcriber()
+                # نبعت الرابط المطول لضمان القبول
+                clean_url = f"https://www.youtube.com/watch?v={video_id}"
+                transcript = transcriber.transcribe(clean_url)
                 if transcript.status != aai.TranscriptStatus.error:
+                    logger.info("✅ Plan C Success!")
                     return transcript.text
+                else:
+                    logger.warning(f"⚠️ Plan C API Error: {transcript.error}")
+            except Exception as e:
+                logger.error(f"❌ Plan C (AssemblyAI) failed: {e}")
+        raise RuntimeError(f"❌ All strategies exhausted for {video_id}. No transcript found.")
     def _extract_video_id(self, url: str) -> str:
+        # يدعم كل أنواع روابط يوتيوب
+        match = re.search(r"(?:v=|youtu\.be/|shorts/|embed/)([A-Za-z0-9_-]{11})", str(url))
         return match.group(1) if match else "unknown"
+    def cleanup(self, path=None):
         pass