Spaces:

Luigi
/

tiny-scribe

Running

Luigi commited on Feb 5

Commit

f03d62b

1 Parent(s): 25e4563

fix: loosen schema validation and add examples to extraction prompts

- Loosened JSON schema validation to accept partial results
- Fill missing keys with empty arrays instead of failing
- Convert string values to single-item arrays
- Added concrete extraction examples to prompts
- Shows what good extractions look like for this specific content
- Includes DDR4 shortage, AI demand, Samsung allocation examples
- Improved instructions to emphasize JSON validity

This should address systematic extraction failures by:
1. Not rejecting partial valid output
2. Giving models clear examples of expected format

Files changed (1) hide show

meeting_summarizer/extraction.py +71 -43

meeting_summarizer/extraction.py CHANGED Viewed

@@ -664,15 +664,21 @@ def _try_parse_extraction_json(
         else:
             return None
-    # Validate schema
     required_keys = {"action_items", "decisions", "key_points", "open_questions"}
-    if not isinstance(data, dict) or not required_keys.issubset(data.keys()):
         return None
-    # Validate all values are lists
     for key in required_keys:
-        if not isinstance(data[key], list):
-            return None
     # Normalize items (flatten dicts to strings)
     return _normalize_extraction_items(data)
@@ -690,21 +696,35 @@ def _sample_llm_response(text: str, max_chars: int = 400) -> str:
 def _build_schema_extraction_prompt(output_language: str) -> str:
     """Build concise schema-based extraction prompt (optimized for non-reasoning models)."""
     if output_language == "zh-TW":
-        return """以 JSON 格式返回資料，使用以下架構：
 {
-  "action_items": ["具體行動項目1"],
-  "decisions": ["決策1"],
-  "key_points": ["要點1"],
-  "open_questions": ["問題1"]
 }
- action_items: 包含負責人和截止日期的具體行動項目
- decisions: 包合理由的決策
- key_points: 重要討論要點
- open_questions: 未解決的問題或疑慮
- 從使用者提供的逐字稿中提取。逐字稿可能包含重複、雜訊或不完整內容，請專注於有意義的對話內容，忽略重複的詞句。"""
     else:
         return """Return data as a JSON object with the following schema:
@@ -726,35 +746,43 @@ def _build_schema_extraction_prompt(output_language: str) -> str:
 def _build_reasoning_extraction_prompt(output_language: str) -> str:
     """Build verbose extraction prompt with reasoning instructions (for hybrid models like Qwen3)."""
     if output_language == "zh-TW":
-        return """你是會議分析助手。
- 使用你的推理能力分析內容後再進行提取。
- 你的推理應該：
-1. 識別關鍵決策點和行動項目
-2. 區分明確決策與一般討論
-3. 適當分類資訊（行動 vs 要點 vs 問題）
- 逐字稿可能包含重複、雜訊或不完整內容，請專注於有意義的對話內容，忽略重複的詞句。
- 推理後，以 JSON 格式返回資料，使用以下架構：
 {
-  "action_items": ["具體行動項目1", "具體行動項目2"],
   "decisions": ["決策1", "決策2"],
-  "key_points": ["要點1", "要點2"],
   "open_questions": ["問題1", "問題2"]
 }
- action_items: 包含負責人和截止日期的具體行動項目
- decisions: 包合理由的決策
- key_points: 重要討論要點
- open_questions: 未解決的問題或疑慮
- 規則：
- - 每個項目必須是完整、獨立的句子
- - 在每個項目中包含上下文（誰、什麼、何時）
- - 如果類別沒有項目，使用空陣列 []
- - 僅輸出 JSON，無 markdown，無解釋"""
     else:
         return """You are a meeting analysis assistant.

         else:
             return None
+    # Validate schema - be lenient and fill missing keys
     required_keys = {"action_items", "decisions", "key_points", "open_questions"}
+    if not isinstance(data, dict):
         return None
+    # Fill missing keys with empty arrays (allow partial extraction)
     for key in required_keys:
+        if key not in data:
+            data[key] = []
+        elif not isinstance(data[key], list):
+            # If value exists but isn't a list, try to convert or use empty
+            if isinstance(data[key], str):
+                data[key] = [data[key]]
+            else:
+                data[key] = []
     # Normalize items (flatten dicts to strings)
     return _normalize_extraction_items(data)
 def _build_schema_extraction_prompt(output_language: str) -> str:
     """Build concise schema-based extraction prompt (optimized for non-reasoning models)."""
     if output_language == "zh-TW":
+        return """從會議逐字稿中提取關鍵資訊，以 JSON 格式返回。
+範例輸出 (Example):
 {
+  "action_items": ["與三星討論Q3產能分配", "確認LPDDR4供應數量"],
+  "decisions": ["優先供應大客戶浪潮", "暫停接受新訂單"],
+  "key_points": ["DDR4缺貨持續到2028年", "AI需求占全球產能45%", "美光可能跟進SanDisk付款條件"],
+  "open_questions": ["Q2價格漲幅預估", "深圳測試場良率確認"]
 }
+使用以下架構，必須返回有效的 JSON：
+{
+  "action_items": ["具體行動項目1", "具體行動項目2"],
+  "decisions": ["決策1", "決策2"],
+  "key_points": ["要點1", "要點2", "要點3"],
+  "open_questions": ["問題1", "問題2"]
+}
+說明：
+- action_items: 具體行動項目（包含負責人、時間、內容）
+- decisions: 已做出的決策（包合理由）
+- key_points: 重要討論要點（市場趨勢、供應狀況、策略調整）
+- open_questions: 未解決的問題或疑慮
+規則：
+1. 必須返回有效的 JSON 格式
+2. 每個類別至少提取1-3個項目，如果沒有則返回空陣列 []
+3. 項目必須是具體的句子，不是關鍵詞
+4. 專注於商業決策和行動，忽略重複詞句"""
     else:
         return """Return data as a JSON object with the following schema:
 def _build_reasoning_extraction_prompt(output_language: str) -> str:
     """Build verbose extraction prompt with reasoning instructions (for hybrid models like Qwen3)."""
     if output_language == "zh-TW":
+        return """你是會議分析助手。分析會議逐字稿並提取關鍵資訊。
+分析步驟：
+1. 先理解對話內容：討論了什麼主題？涉及哪些公司/產品？
+2. 識別決策點：有哪些明確的決定或策略調整？
+3. 找出行動項目：需要執行的具體任務
+4. 記錄重要資訊：市場趨勢、供應狀況、價格變化
+5. 標記未解決問題：還不清楚或需要後續確認的事項
+範例輸出：
 {
+  "action_items": ["與三星討論Q3產能分配", "確認LPDDR4供應數量"],
+  "decisions": ["優先供應大客戶浪潮", "暫停接受新訂單"],
+  "key_points": ["DDR4缺貨持續到2028年", "AI需求占全球產能45%", "美光可能跟進SanDisk付款條件"],
+  "open_questions": ["Q2價格漲幅預估", "深圳測試場良率確認"]
+}
+返回格式（必須是有效的 JSON）：
+{
+  "action_items": ["行動項目1", "行動項目2"],
   "decisions": ["決策1", "決策2"],
+  "key_points": ["要點1", "要點2", "要點3"],
   "open_questions": ["問題1", "問題2"]
 }
+說明：
+- action_items: 具體行動項目（誰要做什麼、何時完成）
+- decisions: 已做出的決策（包合理由）
+- key_points: 重要討論要點（市場趨勢、供應狀況、策略）
+- open_questions: 未解決的問題或疑慮
+規則：
+1. 必須返回有效的 JSON 格式
+2. 每個類別提取1-5個項目，如果沒有則返回空陣列 []
+3. 項目必須是具體的完整句子
+4. 專注於商業決策和行動，忽略重複詞句和閒聊
+5. 僅輸出 JSON，不要推理過程"""
     else:
         return """You are a meeting analysis assistant.