File size: 2,204 Bytes
e15a3ce
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
---
title: 智能数据炼油厂
emoji: 🛢️
colorFrom: blue
colorTo: purple
sdk: docker
pinned: false
short_description: 一站式CSV/JSON数据清洗与转换工具,支持可视化流水线操作。
---

# 智能数据炼油厂 (Smart Data Refinery)

## 项目简介
**智能数据炼油厂** 是一个现代化的数据清洗与转换工具 (ETL Lite),专为非技术人员和数据分析师设计。通过直观的 Web 界面,用户可以上传 CSV、JSON 或 Excel 文件,构建数据处理“流水线” (Pipeline),实时预览清洗结果,并导出干净的数据。

本项目旨在解决企业和个人日常工作中遇到的“脏数据”痛点,提供无需编写代码即可完成的高级数据处理能力。

## 核心功能
1.  **多格式支持**: 支持 CSV, JSON, Excel 文件的导入与导出。
2.  **可视化流水线**:
    *   **筛选 (Filter)**: 按条件过滤数据 (>, <, ==, 包含等)。
    *   **去重 (Dedupe)**: 智能去除重复行,支持指定列。
    *   **缺失值处理 (Fill NA)**: 填充指定值,或使用前向/后向填充。
    *   **排序 (Sort)**: 多字段排序。
    *   **列操作**: 重命名、选择特定列。
3.  **实时预览**: 每一步操作后立即查看数据变化 (前 50 行)。
4.  **隐私安全**: 所有处理在容器内完成,不依赖外部 API。
5.  **高性能**: 基于 Pandas 引擎,处理百万级数据无压力 (受限于内存)。

## 商业价值
*   **效率工具**: 替代 Excel 繁琐的手动操作,自动化重复的数据清洗任务。
*   **数据资产**: 未来可扩展“清洗配方”保存功能,让数据处理标准化。
*   **适用场景**: 电商订单清洗、营销名单筛选、日志分析预处理。

## 快速开始

### Docker 部署 (推荐)

```bash
# 构建镜像
docker build -t smart-data-refinery .

# 运行容器
docker run -p 7860:7860 smart-data-refinery
```

访问 `http://localhost:7860` 即可使用。

### 本地开发

```bash
pip install -r requirements.txt
python app.py
```

## 技术栈
*   **后端**: Flask, Pandas, OpenPyxl
*   **前端**: Vue 3, Tailwind CSS (Dark Mode)
*   **部署**: Docker

## 许可证
MIT License