Spaces:

ex510
/

text_embedder

Sleeping

App Files Files Community

ex510 commited on Feb 9

Commit

dbfa985

verified ·

1 Parent(s): b610781

Update main.py

Browse files

Files changed (1) hide show

main.py +32 -21

main.py CHANGED Viewed

@@ -11,6 +11,9 @@ import httpx
 import os
 import collections
 import logging
 # تهيئة التسجيل (Logging) بدلاً من print
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
@@ -22,10 +25,10 @@ tokenizer: Any = None # قد لا يكون نوعه واضحًا دائمًا ل
 model_id = 'Qwen/Qwen3-Embedding-0.6B'
 # تم تعديل max_workers إلى 1 لضمان معالجة تسلسلية
-executor = ThreadPoolExecutor(max_workers=1)
 # تم تحديث الحد الأقصى للتوكنز
-MAX_TOKENS = 32000
 # --- إضافة عناصر جديدة لإدارة قائمة الانتظار ---
 request_queue = collections.deque() # قائمة انتظار لتخزين الطلبات
@@ -61,7 +64,7 @@ async def lifespan(app: FastAPI):
         logger.critical(f"Failed to load model or tokenizer {model_id}: {e}", exc_info=True)
         # رفع الاستثناء لضمان عدم بدء التطبيق إذا فشل تحميل النموذج
         raise
     yield
     # (Optional) Clean up resources at shutdown
     logger.info("Cleaning up resources...")
@@ -105,11 +108,11 @@ def chunk_and_embed(text: str) -> List[float]:
         raise RuntimeError("Model or tokenizer not loaded or initialized correctly.")
     tokens = tokenizer.encode(text, add_special_tokens=False)
     # If text is short, embed directly
     if len(tokens) <= MAX_TOKENS:
         return model.encode(text, normalize_embeddings=True).tolist()
     # Split into chunks
     chunks = []
     overlap = 50 # Overlap tokens - يمكنك تعديلها حسب الحاجة
@@ -117,26 +120,26 @@ def chunk_and_embed(text: str) -> List[float]:
     while start < len(tokens):
         end = start + MAX_TOKENS
         chunk_tokens = tokens[start:end]
         # التأكد من أننا لا نحاول فك ترميز قائمة توكنز فارغة
         if not chunk_tokens:
             break
         chunk_text = tokenizer.decode(chunk_tokens, skip_special_tokens=True)
         chunks.append(chunk_text)
         if end >= len(tokens): # إذا وصلنا إلى نهاية النص
             break
         start = end - overlap # للبدء من الجزء المتداخل التالي
     # Embed all chunks
     # Note: If this list comprehension causes memory issues for very long texts,
     # consider processing chunks in smaller batches or using a generator
     chunk_embeddings = [model.encode(chunk, normalize_embeddings=True) for chunk in chunks]
     # Pool embeddings (mean)
     final_embedding = np.mean(chunk_embeddings, axis=0).tolist()
     return final_embedding
 # --- دالة المعالج الجديدة ---
@@ -158,9 +161,9 @@ async def process_queue():
                     logger.info("Embedding queue is empty. Stopping processor.")
                     is_processing_queue = False # إعادة تعيين المؤشر
                     break # الخروج من الحلقة عند فراغ قائمة الانتظار
                 # استخراج العنصر الأول من قائمة الانتظار
-                request_item = request_queue.popleft()
                 text_to_embed = request_item["text"]
                 request_id_for_webhook = request_item.get("request_id", "N/A")
@@ -168,8 +171,8 @@ async def process_queue():
             try:
                 # استخدام asyncio.to_thread هو الأسلوب المفضل لـ Python 3.9+
                 # بما أن max_workers=1 في executor، سيتم ضمان التسلسل
-                embedding = await asyncio.to_thread(chunk_and_embed, text_to_embed)
                 # إعداد الـ payload وإرساله للويب هوك
                 if webhook_url:
                     payload = {
@@ -177,10 +180,10 @@ async def process_queue():
                         "embedding": embedding,
                         "request_id": request_id_for_webhook
                     }
-                    await send_to_webhook(webhook_url, payload)
                 else:
                     logger.warning(f"WEBHOOK_URL not set. Embedding result for (ID: {request_id_for_webhook}) will not be sent to a webhook.")
                 logger.info(f"Finished processing item (ID: {request_id_for_webhook}).")
             except Exception as e:
@@ -188,14 +191,14 @@ async def process_queue():
                 # هنا يمكنك إضافة منطق لإعادة المحاولة أو تسجيل الخطأ بشكل دائم
             # السماح بالتأجيل قليلًا لمنع حظر الـ event loop بالكامل إذ�� كانت المعالجة سريعة جدًا
-            await asyncio.sleep(0.01)
     except Exception as e:
         logger.critical(f"CRITICAL ERROR in process_queue: {e}", exc_info=True)
     finally:
         async with queue_lock:
             # التأكد من إعادة تعيين المؤشر حتى لو حدث خطأ
-            is_processing_queue = False
 @app.post("/embed/text", status_code=status.HTTP_202_ACCEPTED) # تغيير حالة الاستجابة إلى 202 Accepted
 async def embed_text(request: TextRequest, background_tasks: BackgroundTasks):
@@ -214,7 +217,7 @@ async def embed_text(request: TextRequest, background_tasks: BackgroundTasks):
             is_processing_queue = True # تعيين المؤشر لمنع بدء معالجات متعددة
             background_tasks.add_task(process_queue)
             logger.info("Started background queue processor.")
     # إرجاع استجابة سريعة للعميل لإعلامه بأن الطلب تم استلامه ومعالجته لاحقًا
     return {
         "success": True,
@@ -222,5 +225,13 @@ async def embed_text(request: TextRequest, background_tasks: BackgroundTasks):
         "request_id": request.request_id # إرجاع الـ ID للعميل
     }
-if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=7860)

 import os
 import collections
 import logging
+import nest_asyncio
+import threading
+import time
 # تهيئة التسجيل (Logging) بدلاً من print
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 model_id = 'Qwen/Qwen3-Embedding-0.6B'
 # تم تعديل max_workers إلى 1 لضمان معالجة تسلسلية
+executor = ThreadPoolExecutor(max_workers=1)
 # تم تحديث الحد الأقصى للتوكنز
+MAX_TOKENS = 32000
 # --- إضافة عناصر جديدة لإدارة قائمة الانتظار ---
 request_queue = collections.deque() # قائمة انتظار لتخزين الطلبات
         logger.critical(f"Failed to load model or tokenizer {model_id}: {e}", exc_info=True)
         # رفع الاستثناء لضمان عدم بدء التطبيق إذا فشل تحميل النموذج
         raise
     yield
     # (Optional) Clean up resources at shutdown
     logger.info("Cleaning up resources...")
         raise RuntimeError("Model or tokenizer not loaded or initialized correctly.")
     tokens = tokenizer.encode(text, add_special_tokens=False)
     # If text is short, embed directly
     if len(tokens) <= MAX_TOKENS:
         return model.encode(text, normalize_embeddings=True).tolist()
     # Split into chunks
     chunks = []
     overlap = 50 # Overlap tokens - يمكنك تعديلها حسب الحاجة
     while start < len(tokens):
         end = start + MAX_TOKENS
         chunk_tokens = tokens[start:end]
         # التأكد من أننا لا نحاول فك ترميز قائمة توكنز فارغة
         if not chunk_tokens:
             break
         chunk_text = tokenizer.decode(chunk_tokens, skip_special_tokens=True)
         chunks.append(chunk_text)
         if end >= len(tokens): # إذا وصلنا إلى نهاية النص
             break
         start = end - overlap # للبدء من الجزء المتداخل التالي
     # Embed all chunks
     # Note: If this list comprehension causes memory issues for very long texts,
     # consider processing chunks in smaller batches or using a generator
     chunk_embeddings = [model.encode(chunk, normalize_embeddings=True) for chunk in chunks]
     # Pool embeddings (mean)
     final_embedding = np.mean(chunk_embeddings, axis=0).tolist()
     return final_embedding
 # --- دالة المعالج الجديدة ---
                     logger.info("Embedding queue is empty. Stopping processor.")
                     is_processing_queue = False # إعادة تعيين المؤشر
                     break # الخروج من الحلقة عند فراغ قائمة الانتظار
                 # استخراج العنصر الأول من قائمة الانتظار
+                request_item = request_queue.popleft()
                 text_to_embed = request_item["text"]
                 request_id_for_webhook = request_item.get("request_id", "N/A")
             try:
                 # استخدام asyncio.to_thread هو الأسلوب المفضل لـ Python 3.9+
                 # بما أن max_workers=1 في executor، سيتم ضمان التسلسل
+                embedding = await asyncio.to_thread(chunk_and_embed, text_to_embed)
                 # إعداد الـ payload وإرساله للويب هوك
                 if webhook_url:
                     payload = {
                         "embedding": embedding,
                         "request_id": request_id_for_webhook
                     }
+                    await send_to_webhook(webhook_url, payload)
                 else:
                     logger.warning(f"WEBHOOK_URL not set. Embedding result for (ID: {request_id_for_webhook}) will not be sent to a webhook.")
                 logger.info(f"Finished processing item (ID: {request_id_for_webhook}).")
             except Exception as e:
                 # هنا يمكنك إضافة منطق لإعادة المحاولة أو تسجيل الخطأ بشكل دائم
             # السماح بالتأجيل قليلًا لمنع حظر الـ event loop بالكامل إذ�� كانت المعالجة سريعة جدًا
+            await asyncio.sleep(0.01)
     except Exception as e:
         logger.critical(f"CRITICAL ERROR in process_queue: {e}", exc_info=True)
     finally:
         async with queue_lock:
             # التأكد من إعادة تعيين المؤشر حتى لو حدث خطأ
+            is_processing_queue = False
 @app.post("/embed/text", status_code=status.HTTP_202_ACCEPTED) # تغيير حالة الاستجابة إلى 202 Accepted
 async def embed_text(request: TextRequest, background_tasks: BackgroundTasks):
             is_processing_queue = True # تعيين المؤشر لمنع بدء معالجات متعددة
             background_tasks.add_task(process_queue)
             logger.info("Started background queue processor.")
     # إرجاع استجابة سريعة للعميل لإعلامه بأن الطلب تم استلامه ومعالجته لاحقًا
     return {
         "success": True,
         "request_id": request.request_id # إرجاع الـ ID للعميل
     }
+def run_uvicorn():
+    nest_asyncio.apply()
     uvicorn.run(app, host="0.0.0.0", port=7860)
+# Start Uvicorn in a new thread
+uvicorn_thread = threading.Thread(target=run_uvicorn)
+uvicorn_thread.start()
+# Optional: Add a small delay to allow Uvicorn to start up
+time.sleep(1)