Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
|
@@ -8,6 +8,7 @@ import json
|
|
| 8 |
import plotly.express as px
|
| 9 |
import os
|
| 10 |
from dotenv import load_dotenv
|
|
|
|
| 11 |
|
| 12 |
# Load environment variables from .env file
|
| 13 |
load_dotenv()
|
|
@@ -19,105 +20,116 @@ pio.renderers.default = 'json'
|
|
| 19 |
app = Flask(__name__)
|
| 20 |
CORS(app, resources={r"/analyze": {"origins": "https://viz.zhanglearning.com"}})
|
| 21 |
|
|
|
|
|
|
|
| 22 |
@app.route('/analyze', methods=['POST'])
|
| 23 |
def analyze():
|
|
|
|
| 24 |
if 'file' not in request.files:
|
|
|
|
| 25 |
return jsonify({'error': '没有文件上传'}), 400
|
| 26 |
|
| 27 |
file = request.files['file']
|
| 28 |
prompt = request.form.get('prompt', '')
|
| 29 |
|
| 30 |
if file.filename == '':
|
|
|
|
| 31 |
return jsonify({'error': '没有选择文件'}), 400
|
| 32 |
|
| 33 |
if file and file.filename.endswith('.csv'):
|
| 34 |
-
|
| 35 |
-
|
| 36 |
-
|
| 37 |
-
|
| 38 |
-
|
| 39 |
-
|
| 40 |
-
|
| 41 |
-
|
| 42 |
-
|
| 43 |
-
|
| 44 |
-
|
| 45 |
-
|
| 46 |
-
|
| 47 |
-
|
| 48 |
-
|
| 49 |
-
|
|
|
|
|
|
|
| 50 |
|
| 51 |
-
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
|
| 56 |
|
| 57 |
-
|
| 58 |
-
|
| 59 |
-
|
| 60 |
-
|
| 61 |
-
|
| 62 |
|
| 63 |
-
|
| 64 |
-
|
| 65 |
-
|
| 66 |
-
|
| 67 |
-
|
| 68 |
-
|
| 69 |
|
| 70 |
-
|
| 71 |
-
|
| 72 |
-
|
| 73 |
-
|
| 74 |
-
|
| 75 |
|
| 76 |
-
|
| 77 |
-
|
| 78 |
-
|
| 79 |
-
|
| 80 |
-
|
| 81 |
-
|
| 82 |
-
|
| 83 |
|
| 84 |
-
|
| 85 |
-
|
| 86 |
-
|
| 87 |
-
|
| 88 |
-
|
| 89 |
-
|
| 90 |
-
|
| 91 |
-
|
| 92 |
-
|
| 93 |
-
|
| 94 |
-
|
| 95 |
-
|
| 96 |
-
|
| 97 |
-
|
| 98 |
-
|
| 99 |
-
|
| 100 |
-
|
| 101 |
-
|
| 102 |
-
|
| 103 |
-
|
| 104 |
-
|
| 105 |
-
|
| 106 |
-
|
| 107 |
-
|
| 108 |
-
|
| 109 |
-
|
| 110 |
-
|
| 111 |
-
|
| 112 |
-
|
| 113 |
-
|
| 114 |
-
|
| 115 |
-
|
| 116 |
-
|
| 117 |
-
|
| 118 |
-
|
|
|
|
|
|
|
|
|
|
| 119 |
|
|
|
|
| 120 |
return jsonify({'error': '不支持的文件类型'}), 400
|
| 121 |
|
| 122 |
if __name__ == '__main__':
|
| 123 |
-
app.run(debug=True)
|
|
|
|
| 8 |
import plotly.express as px
|
| 9 |
import os
|
| 10 |
from dotenv import load_dotenv
|
| 11 |
+
import logging
|
| 12 |
|
| 13 |
# Load environment variables from .env file
|
| 14 |
load_dotenv()
|
|
|
|
| 20 |
app = Flask(__name__)
|
| 21 |
CORS(app, resources={r"/analyze": {"origins": "https://viz.zhanglearning.com"}})
|
| 22 |
|
| 23 |
+
logging.basicConfig(level=logging.INFO)
|
| 24 |
+
|
| 25 |
@app.route('/analyze', methods=['POST'])
|
| 26 |
def analyze():
|
| 27 |
+
app.logger.info("Analyze function called")
|
| 28 |
if 'file' not in request.files:
|
| 29 |
+
app.logger.error("No file uploaded")
|
| 30 |
return jsonify({'error': '没有文件上传'}), 400
|
| 31 |
|
| 32 |
file = request.files['file']
|
| 33 |
prompt = request.form.get('prompt', '')
|
| 34 |
|
| 35 |
if file.filename == '':
|
| 36 |
+
app.logger.error("No file selected")
|
| 37 |
return jsonify({'error': '没有选择文件'}), 400
|
| 38 |
|
| 39 |
if file and file.filename.endswith('.csv'):
|
| 40 |
+
try:
|
| 41 |
+
df = pd.read_csv(file)
|
| 42 |
+
app.logger.info(f"CSV file read successfully. Shape: {df.shape}")
|
| 43 |
+
data_info = df.dtypes.to_dict()
|
| 44 |
+
|
| 45 |
+
app.logger.info("Initializing OpenAI client")
|
| 46 |
+
client = OpenAI(api_key=api_key, base_url="https://api.siliconflow.cn/v1")
|
| 47 |
+
|
| 48 |
+
messages = [
|
| 49 |
+
{"role": "system", "content": """
|
| 50 |
+
你是数据分析、可视化和 Jupyter Notebook 开发方面的专家,专注于 Python 库,如 pandas、matplotlib、seaborn 和 numpy。
|
| 51 |
+
**关键原则:**
|
| 52 |
+
- 用准确的 Python 示例写出简洁的技术回复。
|
| 53 |
+
- 在数据分析工作流中优先考虑可读性和可重复性。
|
| 54 |
+
- 在适当的时候使用函数式编程;避免不必要的类。
|
| 55 |
+
- 优先使用向量化操作而不是显式循环以获得更好的性能。
|
| 56 |
+
- 使用描述性的变量名以反映它们所包含的数据。
|
| 57 |
+
- 遵循 Python 代码的 PEP 8 风格指南。
|
| 58 |
|
| 59 |
+
**数据分析和操作:**
|
| 60 |
+
- 使用 pandas 进行数据操作和分析。
|
| 61 |
+
- 在可能的情况下,优先使用方法链进行数据转换。
|
| 62 |
+
- 使用 loc 和 iloc 进行明确的数据选择。
|
| 63 |
+
- 利用 groupby 操作进行高效的数据聚合。
|
| 64 |
|
| 65 |
+
**可视化:**
|
| 66 |
+
- 使用 matplotlib 进行低级绘图控制和自定义。
|
| 67 |
+
- 使用 seaborn 进行统计可视化和美观的默认设置。
|
| 68 |
+
- 创建带有适当标签、标题和图例的信息丰富且视觉上吸引人的图。
|
| 69 |
+
- 使用适当的配色方案并考虑色盲可访问性。
|
| 70 |
|
| 71 |
+
**Jupyter Notebook 最佳实践:**
|
| 72 |
+
- 使用 Markdown 单元格以清晰的部分结构笔记本。
|
| 73 |
+
- 使用有意义的单元格执行顺序以确保可重复��。
|
| 74 |
+
- 在 Markdown 单元格中包含解释性文本以记录分析步骤。
|
| 75 |
+
- 保持代码单元格专注且模块化,以便于理解和调试。
|
| 76 |
+
- 使用诸如 %matplotlib inline 之类的魔术命令进行内联绘图。
|
| 77 |
|
| 78 |
+
**错误处理和数据验证:**
|
| 79 |
+
- 在分析开始时实施数据质量检查。
|
| 80 |
+
- 适当地处理缺失数据(插补、删除或标记)。
|
| 81 |
+
- 对于容易出错的操作使用 try-except 块,尤其是在读取外部数据时。
|
| 82 |
+
- 验证数据类型和范围以确保数据完整性。
|
| 83 |
|
| 84 |
+
**依赖项:**
|
| 85 |
+
- pandas
|
| 86 |
+
- numpy
|
| 87 |
+
- matplotlib
|
| 88 |
+
- seaborn
|
| 89 |
+
- jupyter
|
| 90 |
+
- scikit-learn(用于机器学习任务)
|
| 91 |
|
| 92 |
+
**关键约定:**
|
| 93 |
+
1. 以数据探索和汇总统计开始分析。
|
| 94 |
+
2. 创建可重用的绘图函数以实现一致的可视化。
|
| 95 |
+
参考 pandas、matplotlib 和 Jupyter 的官方文档以获取最佳实践和最新的 API。
|
| 96 |
+
"""},
|
| 97 |
+
{"role": "user", "content": f"根据接收的数据字段和类型:{data_info},{prompt},注意:我已经安装好了所有依赖;请确保在代码中使用 'df' 变量来引用数据框;直接给我最终代码即可,不要写注释;请确保在代码中使用 'df' 变量来引用数据框。使用 plotly.express 进行可视化,并使用 'px' 作为别名。不要使用 df_filtered 变量,所有的过滤操作都应该直接在 df 上进行。"}
|
| 98 |
+
]
|
| 99 |
+
|
| 100 |
+
app.logger.info("Sending request to OpenAI")
|
| 101 |
+
response = client.chat.completions.create(
|
| 102 |
+
model="deepseek-ai/DeepSeek-V2.5",
|
| 103 |
+
messages=messages,
|
| 104 |
+
stream=False
|
| 105 |
+
)
|
| 106 |
+
|
| 107 |
+
app.logger.info("Received response from OpenAI")
|
| 108 |
+
response_code = response.choices[0].message.content
|
| 109 |
+
code_blocks = re.findall(r'```(.*?)```', response_code, re.DOTALL)
|
| 110 |
+
cleaned_code_blocks = [code.replace("python\n", "") for code in code_blocks]
|
| 111 |
+
|
| 112 |
+
results = []
|
| 113 |
+
for code in cleaned_code_blocks:
|
| 114 |
+
try:
|
| 115 |
+
app.logger.info(f"Executing code block: {code[:100]}...") # Log first 100 chars of code
|
| 116 |
+
local_vars = {'df': df, 'px': px}
|
| 117 |
+
exec(code, globals(), local_vars)
|
| 118 |
+
for var_name, var_value in local_vars.items():
|
| 119 |
+
if var_name.startswith('fig'):
|
| 120 |
+
results.append(pio.to_json(var_value))
|
| 121 |
+
app.logger.info(f"Code block executed successfully. Results: {len(results)}")
|
| 122 |
+
except Exception as e:
|
| 123 |
+
app.logger.error(f"Error executing code: {str(e)}")
|
| 124 |
+
|
| 125 |
+
app.logger.info(f"Returning {len(results)} plots")
|
| 126 |
+
return jsonify({'plots': results})
|
| 127 |
+
except Exception as e:
|
| 128 |
+
app.logger.error(f"Error in analyze function: {str(e)}")
|
| 129 |
+
return jsonify({'error': str(e)}), 500
|
| 130 |
|
| 131 |
+
app.logger.error("Unsupported file type")
|
| 132 |
return jsonify({'error': '不支持的文件类型'}), 400
|
| 133 |
|
| 134 |
if __name__ == '__main__':
|
| 135 |
+
app.run(debug=True)
|