Spaces:

ElvisWang111
/

AutoSTAT

Running

App Files Files Community

ElvisWang111 commited on Nov 4, 2025

Commit

b5e7a77

verified ·

1 Parent(s): 84295d5

Update prompt_engineer/planner.py

Browse files

Files changed (1) hide show

prompt_engineer/planner.py +54 -24

prompt_engineer/planner.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import re
 import json
 import streamlit as st
 from typing import IO, List
@@ -24,6 +26,9 @@ class PlannerAgent(LLMClient):
         self.switched_modeling = False
         self.switched_report = False
     def self_driving(self, df, user_input=None) -> str:
         prompt = (
@@ -59,21 +64,63 @@ class PlannerAgent(LLMClient):
         """
         plan_text = self.call(prompt)
-        print(plan_text)
         try:
             plan_dict = json.loads(plan_text)
         except json.JSONDecodeError:
             plan_text_fixed = plan_text.strip().strip('```json').strip('```')
             plan_dict = json.loads(plan_text_fixed)
-        print(plan_dict)
-        self.loading_auto = bool(plan_dict.get("loading_auto", False))
         self.loading_auto = True
         self.prep_auto = bool(plan_dict.get("prep_auto", False))
         self.vis_auto = bool(plan_dict.get("vis_auto", False))
         self.modeling_auto = bool(plan_dict.get("modeling_auto", False))
-        # self.modeling_auto = False
         self.report_auto = bool(plan_dict.get("report_auto", False))
     def finish_loading_auto(self) -> str:
@@ -101,13 +148,8 @@ class PlannerAgent(LLMClient):
         self.switched_report = True
-import json
-import ast
-import re
-import traceback
 def _extract_first_json(text: str):
-    """从 text 中提取第一个顶层花括号 JSON 子串（用配对计数法），找不到则返回 None。"""
     if not text:
         return None
     start = text.find('{')
@@ -125,23 +167,15 @@ def _extract_first_json(text: str):
     return None
 def _safe_parse_json(text: str):
-    """
-    尝试多种策略解析 LLM 输出为 dict：
-    1) 直接 json.loads
-    2) 去除 Markdown code fence 后再 loads
-    3) 提取第一个完整花括号块后 loads
-    4) ast.literal_eval 作为最后手段（接受 Python dict 风格）
-    返回 (dict_or_None, used_text, error_message_or_None)
-    """
     if not text or not text.strip():
         return None, text, "empty"
-    # 1) 直接尝试
     try:
         return json.loads(text), text, None
     except Exception as e1:
         pass
-    # 2) 去掉 ```json / ``` fence
     try:
         cleaned = re.sub(r'```json\s*', '', text, flags=re.IGNORECASE)
         cleaned = re.sub(r'```', '', cleaned)
@@ -150,7 +184,6 @@ def _safe_parse_json(text: str):
     except Exception:
         pass
-    # 3) 提取首个匹配的 { ... } 顶层块
     try:
         sub = _extract_first_json(text)
         if sub:
@@ -158,7 +191,6 @@ def _safe_parse_json(text: str):
     except Exception:
         pass
-    # 4) ast.literal_eval 兼容 Python 字典��式（单引号等）
     try:
         literal = ast.literal_eval(text)
         if isinstance(literal, dict):
@@ -166,7 +198,6 @@ def _safe_parse_json(text: str):
     except Exception:
         pass
-    # 5) 再次尝试在提取的子串上用 literal_eval（防止单引号）
     try:
         sub = _extract_first_json(text)
         if sub:
@@ -176,5 +207,4 @@ def _safe_parse_json(text: str):
     except Exception:
         pass
-    # 最后，返回 None 并带上错误信息
     return None, text, "unable_to_parse"

 import re
+import ast
 import json
+import traceback
 import streamlit as st
 from typing import IO, List
         self.switched_modeling = False
         self.switched_report = False
+        self.plan = None
     def self_driving(self, df, user_input=None) -> str:
         prompt = (
         """
         plan_text = self.call(prompt)
         try:
             plan_dict = json.loads(plan_text)
         except json.JSONDecodeError:
             plan_text_fixed = plan_text.strip().strip('```json').strip('```')
             plan_dict = json.loads(plan_text_fixed)
+        # self.loading_auto = bool(plan_dict.get("loading_auto", False))
         self.loading_auto = True
         self.prep_auto = bool(plan_dict.get("prep_auto", False))
         self.vis_auto = bool(plan_dict.get("vis_auto", False))
         self.modeling_auto = bool(plan_dict.get("modeling_auto", False))
         self.report_auto = bool(plan_dict.get("report_auto", False))
+        plan = self.analysis_path(df)
+    def analysis_path(self, df) -> str:
+        prompt = (
+            f"下面是一个数据集的基本信息\n\n"
+            f"- 数据维度：{df.shape[0]} 行 × {df.shape[1]} 列\n"
+            f"- 列名和数据类型：{dict(zip(df.columns.tolist(), df.dtypes.astype(str).tolist()))}\n"
+            f"- 前 5 行样本：\n{df.head().to_dict(orient='list')}\n\n"
+        )
+        if st.session_state.preference_select:
+            prompt += f"以下是用户的分析偏好设置：{st.session_state.preference_select}”。\n\n"
+        if st.session_state.additional_preference:
+            prompt += f"用户提供了以下建模目的与特殊需求：{st.session_state.additional_preference}，务必满足，高优先级”。\n\n"
+        prompt += f"""
+        你现在是一名资深的数据科学与统计建模专家，请基于上面提供的数据集特征与用户需求，
+        以“专家决策者”的角度做出全面、严谨、具解释性的综合判断。
+        在你已经给出的 5 项自动化开关决策中：
+        1. loading_auto —— 是否需要对数据列名进行初步分析？ 你的选择：{self.loading_auto}
+        2. prep_auto —— 是否需要做数据预处理或清洗？ 你的选择：{self.prep_auto}
+        3. vis_auto —— 是否需要做数据可视化？ 你的选择：{self.vis_auto}
+        4. modeling_auto —— 是否需要建模或统计分析？ 你的选择：{self.modeling_auto}
+        5. report_auto —— 是否需要生成分析报告？ 你的选择：{self.report_auto}
+        请按照专家的水准，详细、系统性地阐述你的分析思路，并逐项解释你为何做出这些选择。
+        你的回答必须：
+        - 展现全局视角，而非仅局部判断；
+        - 给出清晰的推理链，而非简单理由；
+        - 指出每个决策的必要性、替代方案及其风险；
+        - 使用专业术语但保持可读性强；
+        - 说明如果不做该步骤会导致哪些问题（反事实解释）。
+        回答请结构化呈现。
+        """
+        plan = self.call(prompt)
+        self.plan = plan
+        return self.plan
     def finish_loading_auto(self) -> str:
         self.switched_report = True
 def _extract_first_json(text: str):
     if not text:
         return None
     start = text.find('{')
     return None
 def _safe_parse_json(text: str):
     if not text or not text.strip():
         return None, text, "empty"
     try:
         return json.loads(text), text, None
     except Exception as e1:
         pass
     try:
         cleaned = re.sub(r'```json\s*', '', text, flags=re.IGNORECASE)
         cleaned = re.sub(r'```', '', cleaned)
     except Exception:
         pass
     try:
         sub = _extract_first_json(text)
         if sub:
     except Exception:
         pass
     try:
         literal = ast.literal_eval(text)
         if isinstance(literal, dict):
     except Exception:
         pass
     try:
         sub = _extract_first_json(text)
         if sub:
     except Exception:
         pass
     return None, text, "unable_to_parse"