beihai commited on
Commit
c8bd820
·
verified ·
1 Parent(s): 79e3797

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +92 -80
app.py CHANGED
@@ -8,6 +8,7 @@ import json
8
  import plotly.express as px
9
  import os
10
  from dotenv import load_dotenv
 
11
 
12
  # Load environment variables from .env file
13
  load_dotenv()
@@ -19,105 +20,116 @@ pio.renderers.default = 'json'
19
  app = Flask(__name__)
20
  CORS(app, resources={r"/analyze": {"origins": "https://viz.zhanglearning.com"}})
21
 
 
 
22
  @app.route('/analyze', methods=['POST'])
23
  def analyze():
 
24
  if 'file' not in request.files:
 
25
  return jsonify({'error': '没有文件上传'}), 400
26
 
27
  file = request.files['file']
28
  prompt = request.form.get('prompt', '')
29
 
30
  if file.filename == '':
 
31
  return jsonify({'error': '没有选择文件'}), 400
32
 
33
  if file and file.filename.endswith('.csv'):
34
- df = pd.read_csv(file)
35
- data_info = df.dtypes.to_dict()
36
- #data_columns = df.columns.tolist()
37
-
38
- client = OpenAI(api_key=api_key, base_url="https://api.siliconflow.cn/v1")
39
- #client = OpenAI(api_key=api_key,base_url='https://api.deepseek.com/v1')
40
- messages = [
41
- {"role": "system", "content": """
42
- 你是数据分析、可视化和 Jupyter Notebook 开发方面的专家,专注于 Python 库,如 pandas、matplotlib、seaborn 和 numpy。
43
- **关键原则:**
44
- - 用准确的 Python 示例写出简洁的技术回复。
45
- - 在数据分析工作流中优先考虑可读性和可重复性。
46
- - 在适当的时候使用函数式编程;避免不必要的类。
47
- - 优先使用向量化操作而不是显式循环以获得更好的性能。
48
- - 使用描述性的变量名以反映它们所包含的数据。
49
- - 遵循 Python 代码的 PEP 8 风格指南。
 
 
50
 
51
- **数据分析和操作:**
52
- - 使用 pandas 进行数据操作和分析。
53
- - 在可能的情况下,优先使用方法链进行数据转换。
54
- - 使用 loc 和 iloc 进行明确的数据选择。
55
- - 利用 groupby 操作进行高效的数据聚合。
56
 
57
- **可视化:**
58
- - 使用 matplotlib 进行低级绘图控制和自定义。
59
- - 使用 seaborn 进行统计可视化和美观的默认设置。
60
- - 创建带有适当标签、标题和图例的信息丰富且视觉上吸引人的图。
61
- - 使用适当的配色方案并考虑色盲可访问性。
62
 
63
- **Jupyter Notebook 最佳实践:**
64
- - 使用 Markdown 单元格以清晰的部分结构笔记本。
65
- - 使用有意义的单元格执行顺序以确保可重复性。
66
- - 在 Markdown 单元格中包含解释性文本以记录分析步骤。
67
- - 保持代码单元格专注且模块化,以便于理解和调试。
68
- - 使用诸如 %matplotlib inline 之类的魔术命令进行内联绘图。
69
 
70
- **错误处理和数据验证:**
71
- - 在分析开始时实施数据质量检查。
72
- - 适当地处理缺失数据(插补、删除或标记)。
73
- - 对于容易出错的操作使用 try-except 块,尤其是在读取外部数据时。
74
- - 验证数据类型和范围以确保数据完整性。
75
 
76
- **依赖项:**
77
- - pandas
78
- - numpy
79
- - matplotlib
80
- - seaborn
81
- - jupyter
82
- - scikit-learn(用于机器学习任务)
83
 
84
- **关键约定:**
85
- 1. 以数据探索和汇总统计开始分析。
86
- 2. 创建可重用的绘图函数以实现一致的可视化。
87
- 参考 pandas、matplotlib 和 Jupyter 的官方文档以获取最佳实践和最新的 API。
88
- """},
89
- {"role": "user", "content": f"""
90
- 根据接收的数据字段和类型:{data_info},{prompt},注意:我已经安装好了所有依赖;
91
- 请确保在代码中使用 'df' 变量来引用数据框;直接给我最终代码即可,不要写注释;请确保在代码中使用 'df' 变量来引用数据框。
92
- 使用 plotly.express 进行可视化,并使用 'px' 作为别名。
93
- 不要使用 df_filtered 变量,所有的过滤操作都应该直接在 df 上进行。
94
- """}
95
- ]
96
-
97
- response = client.chat.completions.create(
98
- model="deepseek-ai/DeepSeek-V2.5",
99
- messages=messages,
100
- stream=False
101
- )
102
-
103
- response_code = response.choices[0].message.content
104
- code_blocks = re.findall(r'```(.*?)```', response_code, re.DOTALL)
105
- cleaned_code_blocks = [code.replace("python\n", "") for code in code_blocks]
106
-
107
- results = []
108
- for code in cleaned_code_blocks:
109
- try:
110
- local_vars = {'df': df,'px': px}
111
- exec(code, globals(), local_vars)
112
- for var_name, var_value in local_vars.items():
113
- if var_name.startswith('fig'):
114
- results.append(pio.to_json(var_value))
115
- except Exception as e:
116
- print(f"执行代码时出错:{str(e)}")
117
-
118
- return jsonify({'plots': results})
 
 
 
119
 
 
120
  return jsonify({'error': '不支持的文件类型'}), 400
121
 
122
  if __name__ == '__main__':
123
- app.run(debug=True)
 
8
  import plotly.express as px
9
  import os
10
  from dotenv import load_dotenv
11
+ import logging
12
 
13
  # Load environment variables from .env file
14
  load_dotenv()
 
20
  app = Flask(__name__)
21
  CORS(app, resources={r"/analyze": {"origins": "https://viz.zhanglearning.com"}})
22
 
23
+ logging.basicConfig(level=logging.INFO)
24
+
25
  @app.route('/analyze', methods=['POST'])
26
  def analyze():
27
+ app.logger.info("Analyze function called")
28
  if 'file' not in request.files:
29
+ app.logger.error("No file uploaded")
30
  return jsonify({'error': '没有文件上传'}), 400
31
 
32
  file = request.files['file']
33
  prompt = request.form.get('prompt', '')
34
 
35
  if file.filename == '':
36
+ app.logger.error("No file selected")
37
  return jsonify({'error': '没有选择文件'}), 400
38
 
39
  if file and file.filename.endswith('.csv'):
40
+ try:
41
+ df = pd.read_csv(file)
42
+ app.logger.info(f"CSV file read successfully. Shape: {df.shape}")
43
+ data_info = df.dtypes.to_dict()
44
+
45
+ app.logger.info("Initializing OpenAI client")
46
+ client = OpenAI(api_key=api_key, base_url="https://api.siliconflow.cn/v1")
47
+
48
+ messages = [
49
+ {"role": "system", "content": """
50
+ 你是数据分析、可视化和 Jupyter Notebook 开发方面的专家,专注于 Python 库,如 pandas、matplotlib、seaborn 和 numpy。
51
+ **关键原则:**
52
+ - 用准确的 Python 示例写出简洁的技术回复。
53
+ - 在数据分析工作流中优先考虑可读性和可重复性。
54
+ - 在适当的时候使用函数式编程;避免不必要的类。
55
+ - 优先使用向量化操作而不是显式循环以获得更好的性能。
56
+ - 使用描述性的变量名以反映它们所包含的数据。
57
+ - 遵循 Python 代码的 PEP 8 风格指南。
58
 
59
+ **数据分析和操作:**
60
+ - 使用 pandas 进行数据操作和分析。
61
+ - 在可能的情况下,优先使用方法链进行数据转换。
62
+ - 使用 loc 和 iloc 进行明确的数据选择。
63
+ - 利用 groupby 操作进行高效的数据聚合。
64
 
65
+ **可视化:**
66
+ - 使用 matplotlib 进行低级绘图控制和自定义。
67
+ - 使用 seaborn 进行统计可视化和美观的默认设置。
68
+ - 创建带有适当标签、标题和图例的信息丰富且视觉上吸引人的图。
69
+ - 使用适当的配色方案并考虑色盲可访问性。
70
 
71
+ **Jupyter Notebook 最佳实践:**
72
+ - 使用 Markdown 单元格以清晰的部分结构笔记本。
73
+ - 使用有意义的单元格执行顺序以确保可重复��。
74
+ - 在 Markdown 单元格中包含解释性文本以记录分析步骤。
75
+ - 保持代码单元格专注且模块化,以便于理解和调试。
76
+ - 使用诸如 %matplotlib inline 之类的魔术命令进行内联绘图。
77
 
78
+ **错误处理和数据验证:**
79
+ - 在分析开始时实施数据质量检查。
80
+ - 适当地处理缺失数据(插补、删除或标记)。
81
+ - 对于容易出错的操作使用 try-except 块,尤其是在读取外部数据时。
82
+ - 验证数据类型和范围以确保数据完整性。
83
 
84
+ **依赖项:**
85
+ - pandas
86
+ - numpy
87
+ - matplotlib
88
+ - seaborn
89
+ - jupyter
90
+ - scikit-learn(用于机器学习任务)
91
 
92
+ **关键约定:**
93
+ 1. 以数据探索和汇总统计开始分析。
94
+ 2. 创建可重用的绘图函数以实现一致的可视化。
95
+ 参考 pandas、matplotlib 和 Jupyter 的官方文档以获取最佳实践和最新的 API。
96
+ """},
97
+ {"role": "user", "content": f"根据接收的数据字段和类型:{data_info},{prompt},注意:我已经安装好了所有依赖;请确保在代码中使用 'df' 变量来引用数据框;直接给我最终代码即可,不要写注释;请确保在代码中使用 'df' 变量来引用数据框。使用 plotly.express 进行可视化,并使用 'px' 作为别名。不要使用 df_filtered 变量,所有的过滤操作都应该直接在 df 上进行。"}
98
+ ]
99
+
100
+ app.logger.info("Sending request to OpenAI")
101
+ response = client.chat.completions.create(
102
+ model="deepseek-ai/DeepSeek-V2.5",
103
+ messages=messages,
104
+ stream=False
105
+ )
106
+
107
+ app.logger.info("Received response from OpenAI")
108
+ response_code = response.choices[0].message.content
109
+ code_blocks = re.findall(r'```(.*?)```', response_code, re.DOTALL)
110
+ cleaned_code_blocks = [code.replace("python\n", "") for code in code_blocks]
111
+
112
+ results = []
113
+ for code in cleaned_code_blocks:
114
+ try:
115
+ app.logger.info(f"Executing code block: {code[:100]}...") # Log first 100 chars of code
116
+ local_vars = {'df': df, 'px': px}
117
+ exec(code, globals(), local_vars)
118
+ for var_name, var_value in local_vars.items():
119
+ if var_name.startswith('fig'):
120
+ results.append(pio.to_json(var_value))
121
+ app.logger.info(f"Code block executed successfully. Results: {len(results)}")
122
+ except Exception as e:
123
+ app.logger.error(f"Error executing code: {str(e)}")
124
+
125
+ app.logger.info(f"Returning {len(results)} plots")
126
+ return jsonify({'plots': results})
127
+ except Exception as e:
128
+ app.logger.error(f"Error in analyze function: {str(e)}")
129
+ return jsonify({'error': str(e)}), 500
130
 
131
+ app.logger.error("Unsupported file type")
132
  return jsonify({'error': '不支持的文件类型'}), 400
133
 
134
  if __name__ == '__main__':
135
+ app.run(debug=True)