Spaces:

howard9963
/

testComplianceLocal

Sleeping

App Files Files Community

howard9963 commited on Aug 14, 2025

Commit

95daccd

verified ·

1 Parent(s): 03dc522

Upload app.py

Browse files

Files changed (1) hide show

app.py +81 -20

app.py CHANGED Viewed

@@ -119,6 +119,70 @@ def _ensure_local_model(logs: Optional[List[str]] = None) -> None:
             logs.append(f"[LOCAL LLM][ERROR] load failed: {e}")
         print(f"[LLM][ERROR] load failed: {e}")
         raise
 def call_llm(messages: List[dict], model: str, logs: List[str]) -> dict:
     """
@@ -152,29 +216,26 @@ def call_llm(messages: List[dict], model: str, logs: List[str]) -> dict:
                 pad_token_id=_hf_tok.eos_token_id
             )
         print("torch.no_grad")
-        full = _hf_tok.decode(out_ids[0], skip_special_tokens=True)
-        gen = full[len(prompt):] if full.startswith(prompt) else full
-        print("gen")
-        logs.append(f"[LOCAL LLM] Gen chars={len(gen)}")
-        print("****gen begin***")
-        print(gen)
-        print("****gen end***")
-        logs.append("****gen begin***")
-        logs.append(gen)
-        logs.append("****gen end***")
-        # 嘗試解析 JSON
         try:
-            data = json.loads(gen)
-            logs.append("[LOCAL LLM] JSON parsed.")
             return data
         except Exception as jerr:
-            logs.append(f"[LOCAL LLM] JSON parse failed: {jerr}; trying regex.")
-            m = re.search(r"\{.*\}", gen, flags=re.DOTALL)
-            if not m:
-                raise ValueError("模型回傳非 JSON，且未擷取到 JSON 區塊")
-            data = json.loads(m.group(0))
-            logs.append("[LOCAL LLM] Extracted JSON by regex.")
-            return data
     except Exception as e:
         logs.append(f"[LOCAL LLM][ERROR] {e}")
         return {

             logs.append(f"[LOCAL LLM][ERROR] load failed: {e}")
         print(f"[LLM][ERROR] load failed: {e}")
         raise
+# ---------- Robust JSON parsing helpers ----------
+def _strip_code_fences(s: str) -> str:
+    s = s.strip()
+    if s.startswith("```"):
+        s = s[3:]
+        if "```" in s:
+            s = s.split("```", 1)[0]
+    s = s.replace("```json", "").replace("```JSON", "").strip("` \n\r\t")
+    return s
+def _extract_first_brace_block(s: str) -> str:
+    start = s.find("{")
+    if start == -1:
+        return s
+    depth = 0
+    for i in range(start, len(s)):
+        if s[i] == "{":
+            depth += 1
+        elif s[i] == "}":
+            depth -= 1
+            if depth == 0:
+                return s[start:i+1]
+    return s
+def safe_parse_json(text: str) -> dict:
+    """
+    先嚴格 json.loads；失敗則：
+    1) 去掉 code fences/markdown
+    2) 擷取第一個平衡的 {...}
+    3) 嘗試 json5（允許單引號、尾逗號）
+    4) 修補全形/花式引號與 BOM；必要時把整體單引號轉雙引號
+    """
+    import json as _json
+    # 直接試一次
+    try:
+        return _json.loads(text)
+    except Exception:
+        pass
+    s = _strip_code_fences(text)
+    s = _extract_first_brace_block(s)
+    try:
+        return _json.loads(s)
+    except Exception:
+        pass
+    # 可選：json5（若未安裝會直接跳過）
+    try:
+        import json5  # type: ignore
+        return json5.loads(s)
+    except Exception:
+        pass
+    # 修補引號與 BOM
+    repaired = (
+        s.replace("\u201c", '"').replace("\u201d", '"')
+         .replace("\u2018", "'").replace("\u2019", "'")
+         .replace("\ufeff", "").strip()
+    )
+    if "'" in repaired and '"' not in repaired:
+        repaired = repaired.replace("'", '"')
+    return _json.loads(repaired)
 def call_llm(messages: List[dict], model: str, logs: List[str]) -> dict:
     """
                 pad_token_id=_hf_tok.eos_token_id
             )
         print("torch.no_grad")
+        # 解碼生成內容後
+        full_text = _hf_tok.decode(output_ids[0], skip_special_tokens=True)
+        gen_text = full_text[len(prompt):] if full_text.startswith(prompt) else full_text
+        logs.append(f"[LOCAL LLM] raw_len={len(gen_text)}")
+        logs.append(f"[LOCAL LLM] raw_head={gen_text[:200].replace(chr(10),' ')}")  # 前 200 字方便 Debug
+        # ★ 強韌解析：剝掉前置描述，只取第一個 {...}
         try:
+            data = safe_parse_json(gen_text)
+            logs.append("[LOCAL LLM] JSON 解析成功")
             return data
         except Exception as jerr:
+            logs.append(f"[LOCAL LLM] JSON 解析失敗：{jerr}")
+            # 回傳結構化錯誤，避免整個流程中斷
+            return {
+                "符合情況": "部分符合",
+                "原因": [f"模型輸出非合法 JSON：{str(jerr)}"],
+                "改進建議": ["請調整提示詞，要求嚴格輸出 JSON（雙引號、無註解、無多餘文字）。"],
+                "規則逐點檢核": []
+            }
     except Exception as e:
         logs.append(f"[LOCAL LLM][ERROR] {e}")
         return {