Spaces:

VietCat
/

Qwen3Embedding4B

Build error

App Files Files Community

VietCat commited on Jun 22, 2025

Commit

a03dcc1

1 Parent(s): 3eaf7a6

fix ValueError: Out of range float values are not JSON compliant

Browse files

Files changed (2) hide show

app/main.py +18 -12
app/model_loader.py +4 -3

app/main.py CHANGED Viewed

@@ -42,10 +42,23 @@ async def startup_event():
     llm = await asyncio.to_thread(load_model, model_path)
     logging.info("✅ Đã tải mô hình thành công.")
 @app.post("/embed")
 async def embed(request: Request):
     """Trả về nhiều vector (mảng 2D) - phù hợp RAG"""
-    global llm
     data = await request.json()
     text = data.get("text")
     if not text:
@@ -54,11 +67,7 @@ async def embed(request: Request):
     start_time = time.time()
     logging.info(f"📥 Nhận request /embed lúc {time.strftime('%Y-%m-%d %H:%M:%S')}")
-    token_ids = llm.tokenize(text.encode("utf-8"))
-    logging.info(f"🧩 Số token đầu vào: {len(token_ids)}")
-    embedding = await asyncio.to_thread(llm.embed, text)
-    logging.info(f"📊 Số vector trả về: {len(embedding)}")
     end_time = time.time()
     duration_ms = round((end_time - start_time) * 1000, 2)
@@ -66,10 +75,10 @@ async def embed(request: Request):
     return {"embedding": embedding}
 @app.post("/embed/mean")
 async def embed_mean(request: Request):
     """Trả về 1 vector duy nhất (mean pooling) - phù hợp semantic search"""
-    global llm
     data = await request.json()
     text = data.get("text")
     if not text:
@@ -78,11 +87,7 @@ async def embed_mean(request: Request):
     start_time = time.time()
     logging.info(f"📥 Nhận request /embed/mean lúc {time.strftime('%Y-%m-%d %H:%M:%S')}")
-    token_ids = llm.tokenize(text.encode("utf-8"))
-    logging.info(f"🧩 Số token đầu vào: {len(token_ids)}")
-    raw_embedding = await asyncio.to_thread(llm.embed, text)
-    logging.info(f"📊 Số vector (trước pooling) trả về: {len(raw_embedding)}")
     if isinstance(raw_embedding, list) and isinstance(raw_embedding[0], list):
         embedding = np.mean(raw_embedding, axis=0).tolist()
@@ -97,6 +102,7 @@ async def embed_mean(request: Request):
     return {"embedding": embedding}
 @app.get("/")
 def root():
     return {"message": "Qwen3Embedding4BQ4KM embedding API is running."}

     llm = await asyncio.to_thread(load_model, model_path)
     logging.info("✅ Đã tải mô hình thành công.")
+def generate_embedding(text: str) -> list:
+    """Gọi embedding và đảm bảo kết quả JSON-safe (không NaN/Inf)"""
+    global llm
+    token_ids = llm.tokenize(text.encode("utf-8"))
+    logging.info(f"🧩 Số token đầu vào: {len(token_ids)}")
+    raw_embedding = llm.embed(text)
+    logging.info(f"📊 Số vector trả về: {len(raw_embedding)}")
+    cleaned = np.nan_to_num(raw_embedding).tolist()
+    return cleaned
 @app.post("/embed")
 async def embed(request: Request):
     """Trả về nhiều vector (mảng 2D) - phù hợp RAG"""
     data = await request.json()
     text = data.get("text")
     if not text:
     start_time = time.time()
     logging.info(f"📥 Nhận request /embed lúc {time.strftime('%Y-%m-%d %H:%M:%S')}")
+    embedding = await asyncio.to_thread(generate_embedding, text)
     end_time = time.time()
     duration_ms = round((end_time - start_time) * 1000, 2)
     return {"embedding": embedding}
 @app.post("/embed/mean")
 async def embed_mean(request: Request):
     """Trả về 1 vector duy nhất (mean pooling) - phù hợp semantic search"""
     data = await request.json()
     text = data.get("text")
     if not text:
     start_time = time.time()
     logging.info(f"📥 Nhận request /embed/mean lúc {time.strftime('%Y-%m-%d %H:%M:%S')}")
+    raw_embedding = await asyncio.to_thread(generate_embedding, text)
     if isinstance(raw_embedding, list) and isinstance(raw_embedding[0], list):
         embedding = np.mean(raw_embedding, axis=0).tolist()
     return {"embedding": embedding}
 @app.get("/")
 def root():
     return {"message": "Qwen3Embedding4BQ4KM embedding API is running."}

app/model_loader.py CHANGED Viewed

@@ -16,11 +16,12 @@ def load_model(model_path: str):
     model = Llama(
         model_path=model_path,
-        embedding=True,         # ✅ QUAN TRỌNG: bật chế độ embedding
-        n_ctx=1024,             # đủ để xử lý hầu hết đoạn văn
-        n_batch=64,
         n_threads=4,
         n_threads_batch=2,
         logits_all=False,
         use_mlock=False,
         verbose=False

     model = Llama(
         model_path=model_path,
+        embedding=True,
+        n_ctx=1024,
+        n_batch=16,          # ✅ Giảm batch size để tránh lỗi bộ nhớ
         n_threads=4,
         n_threads_batch=2,
+        n_gpu_layers=0,      # ✅ Chạy thuần CPU để tránh crash nếu không có GPU
         logits_all=False,
         use_mlock=False,
         verbose=False