Spaces:

iq7se2
/

4

Paused

App Files Files Community

iq7se2 commited on Apr 1

Commit

b855efb

verified ·

1 Parent(s): 222054b

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -40

app.py CHANGED Viewed

@@ -12,81 +12,77 @@ def fetch_chapters_range(base_url, start_ch, end_ch):
     start = int(start_ch)
     end = int(end_ch)
-    if end < start:
-        return None, "❌ خطأ: رقم الفصل النهائي أصغر من البداية!"
-    if (end - start) > 20:
-        return None, "⚠️ الحد الأقصى للتجميع هو 20 فصل في المرة الواحدة لضمان استقرار السيرفر."
     all_imgs = []
     log_messages = []
-    # إعداد الجلسة والهيدرز لكسر الحماية
     session = requests.Session()
     headers = {
-        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36',
-        'Accept': 'image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8',
-        'Referer': 'https://olympustaff.com/',
-        'Connection': 'keep-alive'
     }
     base_url = base_url.strip().rstrip('/')
     for i in range(start, end + 1):
-        # توليد الرابط (يدعم معظم أنظمة Team X و Azora)
         ch_url = f"{base_url}/chapter-{i}/"
-        log_messages.append(f"⏳ جاري فحص الفصل {i}...")
         try:
-            response = session.get(ch_url, headers=headers, timeout=15)
             if response.status_code != 200:
-                log_messages.append(f"❌ الفصل {i} غير موجود أو الرابط غير صحيح.")
-                continue
             soup = BeautifulSoup(response.text, 'html.parser')
-            # تحديد حاوية الصور (Content Div)
-            content_div = soup.find('div', {'class': re.compile(r'content|reader|vung-doc|reading-content')})
-            target = content_div if content_div else soup
-            images = target.find_all('img')
             chapter_count = 0
             for img in images:
-                img_url = img.get('src') or img.get('data-src') or img.get('data-lazy-src')
                 if img_url:
-                    img_url = img_url.strip()
                     if not img_url.startswith('http'):
                         img_url = "https:" + img_url if img_url.startswith('//') else img_url
-                    # تصفية الشعارات والإعلانات
-                    if any(x in img_url.lower() for x in ["logo", "banner", "ads", "avatar", "icon"]):
                         continue
                     try:
-                        img_res = session.get(img_url, headers=headers, timeout=10)
-                        if img_res.status_code == 200:
                             image = Image.open(io.BytesIO(img_res.content)).convert('RGB')
                             all_imgs.append(image)
                             chapter_count += 1
                     except:
                         continue
-            log_messages.append(f"✅ تم سحب {chapter_count} صورة من الفصل {i}")
-            time.sleep(1) # تأخير بسيط لتجنب الحظر
         except Exception as e:
             log_messages.append(f"❌ خطأ في الفصل {i}: {str(e)}")
-    if not all_imgs:
-        return None, "\n".join(log_messages) + "\n\n❌ فشل استخراج أي صور. تأكد من رابط المانهوا الرئيسي."
-    # إنشاء ملف PDF المجمع
-    output_filename = f"manga_batch_{start}_{end}.pdf"
-    all_imgs[0].save(output_filename, save_all=True, append_images=all_imgs[1:], format='PDF')
-    return output_filename, "\n".join(log_messages) + f"\n\n✨ مبروك! تم تجميع {len(all_imgs)} صورة بنجاح."
 # واجهة المستخدم (UI) بنظام Gradio
 with gr.Blocks(theme=gr.themes.Monochrome(), title="Manga Bulk Downloader") as demo:
     gr.Markdown("# 📚 مجمع فصول المانهوا الذكي (Team X & Azora)")

     start = int(start_ch)
     end = int(end_ch)
     all_imgs = []
     log_messages = []
     session = requests.Session()
+    # هيدرز قوية جداً لتقليد متصفح حقيقي
     headers = {
+        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
+        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8',
+        'Referer': base_url,
+        'Accept-Language': 'ar,en-US;q=0.7,en;q=0.3',
     }
     base_url = base_url.strip().rstrip('/')
     for i in range(start, end + 1):
+        # تجربة نمط الرابط الخاص بأوليمبوس (غالباً يكون رقم فقط أو chapter-X)
         ch_url = f"{base_url}/chapter-{i}/"
+        log_messages.append(f"⏳ جاري فحص: الفصل {i}")
         try:
+            response = session.get(ch_url, headers=headers, timeout=20)
             if response.status_code != 200:
+                # محاولة تجربة الرابط بدون كلمة chapter (بعض المواقع تضع الرقم فقط)
+                ch_url = f"{base_url}/{i}/"
+                response = session.get(ch_url, headers=headers, timeout=20)
             soup = BeautifulSoup(response.text, 'html.parser')
+            # بحث مكثف عن الصور في كل الأماكن المحتملة
+            # أوليمبوس غالباً يضع الصور داخل div باسم 'rd-host' أو داخل برمجية JavaScript
+            images = soup.find_all('img')
             chapter_count = 0
             for img in images:
+                # فحص كل السمات الممكنة لرابط الصورة
+                img_url = (img.get('src') or
+                           img.get('data-src') or
+                           img.get('data-lazy-src') or
+                           img.get('data-full-url') or
+                           img.get('srcset')) # بعض المواقع تستخدم srcset
                 if img_url:
+                    # تنظيف الرابط من المسافات أو الرموز الزائدة
+                    img_url = img_url.split(' ')[0].strip()
                     if not img_url.startswith('http'):
                         img_url = "https:" + img_url if img_url.startswith('//') else img_url
+                    # تصفية الصور التي ليست مانهوا (أيقونات، لوجو، صور صغيرة)
+                    if any(x in img_url.lower() for x in ["logo", "icon", "avatar", "bg", "button", "loader"]):
                         continue
                     try:
+                        img_res = session.get(img_url, headers=headers, timeout=15)
+                        if img_res.status_code == 200 and len(img_res.content) > 10000: # التأكد أنها صورة حقيقية وليست بكسل صغير
                             image = Image.open(io.BytesIO(img_res.content)).convert('RGB')
                             all_imgs.append(image)
                             chapter_count += 1
                     except:
                         continue
+            if chapter_count > 0:
+                log_messages.append(f"✅ تم سحب {chapter_count} صورة من الفصل {i}")
+            else:
+                log_messages.append(f"⚠️ لم نجد صوراً في الفصل {i}، قد يكون المحتوى مشفراً.")
+            time.sleep(2) # زيادة وقت الانتظار لتجنب حماية Cloudflare في أوليمبوس
         except Exception as e:
             log_messages.append(f"❌ خطأ في الفصل {i}: {str(e)}")
 # واجهة المستخدم (UI) بنظام Gradio
 with gr.Blocks(theme=gr.themes.Monochrome(), title="Manga Bulk Downloader") as demo:
     gr.Markdown("# 📚 مجمع فصول المانهوا الذكي (Team X & Azora)")