Spaces:

simler
/

BGE-image

Running

App Files Files Community

simler commited on 26 days ago

Commit

5367a84

verified ·

1 Parent(s): 10cb2e3

Update app.py

Browse files

Files changed (1) hide show

app.py +89 -84

app.py CHANGED Viewed

@@ -1,85 +1,90 @@
-from fastapi import FastAPI, Request
-from sentence_transformers import SentenceTransformer, util
-import json
-import torch
-import os
-app = FastAPI()
-# ================= 配置区域 =================
-# 设定匹配阈值 (0-1)。
-# 建议 0.3 - 0.4。太高会导致匹配不到，太低会导致乱匹配。
-THRESHOLD = 0.35
-# 加载轻量级模型 (80MB)
-# 第一次启动时会自动下载
-print("正在加载模型...")
-model = SentenceTransformer('all-MiniLM-L6-v2')
-print("模型加载完成")
-# ================= 数据预处理 =================
-# 读取 JSON 文件并预计算向量
-def load_and_encode_data():
-    if not os.path.exists('emoji_labels.json'):
-        print("错误: 找不到 emoji_labels.json")
-        return [], None
-    with open('emoji_labels.json', 'r', encoding='utf-8') as f:
-        data = json.load(f)
-    # 提取描述文本用于计算
-    texts = [item['text'] for item in data]
-    # 计算向量并转为 Tensor
-    embeddings = model.encode(texts, convert_to_tensor=True)
-    return data, embeddings
-# 初始化数据
-emoji_data, emoji_embeddings = load_and_encode_data()
-# ================= API 接口 =================
-@app.get("/")
-def home():
-    return {"status": "Kouri Emotion API is running"}
-@app.post("/match")
-async def match_emoji(request: Request):
-    """
-    接收 {"text": "我想吃汉堡"}
-    返回 {"label": "burger", "score": 0.85}
-    """
-    try:
-        body = await request.json()
-        user_text = body.get("text", "")
-        if not user_text or emoji_embeddings is None:
-            return {"label": None, "reason": "empty_input_or_data"}
-        # 1. 计算用户输入的向量
-        query_emb = model.encode(user_text, convert_to_tensor=True)
-        # 2. 计算与库中所有描述的余弦相似度
-        scores = util.cos_sim(query_emb, emoji_embeddings)[0]
-        # 3. 找到得分最高的那个
-        best_score = float(torch.max(scores))
-        best_idx = int(torch.argmax(scores))
-        # 4. 判断是否超过阈值
-        if best_score > THRESHOLD:
-            matched_item = emoji_data[best_idx]
-            return {
-                "label": matched_item['label'],
-                "score": best_score,
-                "matched_text": matched_item['text'] # 方便调试看它匹配到了哪一条
-            }
-        else:
-            return {
-                "label": None,
-                "score": best_score,
-                "reason": "low_confidence"
-            }
-    except Exception as e:
         return {"error": str(e)}

+from fastapi import FastAPI, Request
+from sentence_transformers import SentenceTransformer, util
+import json
+import torch
+import os
+app = FastAPI()
+# ================= 配置区域 =================
+# 匹配阈值 (建议 0.4 - 0.5)
+# BGE 模型的相似度分布通常在 0.6-1.0 之间，所以阈值要设高一点
+THRESHOLD = 0.45
+print("正在加载 BGE-Large-ZH-v1.5 (中文最强模型)...")
+# 替换为 BAAI/bge-large-zh-v1.5
+# 第一次启动下载需要几十秒，请耐心等待 Space 状态变绿
+model = SentenceTransformer('BAAI/bge-large-zh-v1.5')
+print("模型加载完成！")
+# ================= 数据预处理 =================
+def load_and_encode_data():
+    if not os.path.exists('emoji_labels.json'):
+        print("错误: 找不到 emoji_labels.json")
+        return [], None
+    with open('emoji_labels.json', 'r', encoding='utf-8') as f:
+        data = json.load(f)
+    texts = [item['text'] for item in data]
+    # BGE 模型建议在查询前加指令，但在这种对称匹配场景下，直接 encode 效果也很好
+    # 预先计算库中标签的向量
+    embeddings = model.encode(texts, normalize_embeddings=True, convert_to_tensor=True)
+    return data, embeddings
+# 初始化数据
+emoji_data, emoji_embeddings = load_and_encode_data()
+# ================= API 接口 =================
+@app.get("/")
+def home():
+    return {"status": "Kouri BGE-Large API is running"}
+@app.post("/match")
+async def match_emoji(request: Request):
+    try:
+        body = await request.json()
+        user_text = body.get("text", "")
+        if not user_text or emoji_embeddings is None:
+            return {"label": None}
+        # BGE 模型的小技巧：给查询文本加个指令前缀，效果会更精准
+        # 意思就是告诉模型：“帮我为这句话生成个表示，用来找对应的标签”
+        query_instruction = "为这个句子生成表示以用于检索相关标签："
+        query_text = query_instruction + user_text
+        # 1. 计算用户输入的向量
+        query_emb = model.encode(query_text, normalize_embeddings=True, convert_to_tensor=True)
+        # 2. 计算相似度
+        scores = util.cos_sim(query_emb, emoji_embeddings)[0]
+        # 3. 找到得���最高的
+        best_score = float(torch.max(scores))
+        best_idx = int(torch.argmax(scores))
+        matched_item = emoji_data[best_idx]
+        # 4. 打印日志方便你在 HF 后台看
+        print(f"用户输入: {user_text}")
+        print(f"最高匹配: {matched_item['label']} ({matched_item['text']}) - 得分: {best_score:.4f}")
+        if best_score > THRESHOLD:
+            return {
+                "label": matched_item['label'],
+                "score": best_score,
+                "matched_text": matched_item['text']
+            }
+        else:
+            return {
+                "label": None,
+                "score": best_score,
+                "reason": "low_confidence"
+            }
+    except Exception as e:
         return {"error": str(e)}