smart-data-refinery / README.md
3v324v23's picture
Initial commit with robust upload and demo data
e15a3ce
---
title: 智能数据炼油厂
emoji: 🛢️
colorFrom: blue
colorTo: purple
sdk: docker
pinned: false
short_description: 一站式CSV/JSON数据清洗与转换工具,支持可视化流水线操作。
---
# 智能数据炼油厂 (Smart Data Refinery)
## 项目简介
**智能数据炼油厂** 是一个现代化的数据清洗与转换工具 (ETL Lite),专为非技术人员和数据分析师设计。通过直观的 Web 界面,用户可以上传 CSV、JSON 或 Excel 文件,构建数据处理“流水线” (Pipeline),实时预览清洗结果,并导出干净的数据。
本项目旨在解决企业和个人日常工作中遇到的“脏数据”痛点,提供无需编写代码即可完成的高级数据处理能力。
## 核心功能
1. **多格式支持**: 支持 CSV, JSON, Excel 文件的导入与导出。
2. **可视化流水线**:
* **筛选 (Filter)**: 按条件过滤数据 (>, <, ==, 包含等)。
* **去重 (Dedupe)**: 智能去除重复行,支持指定列。
* **缺失值处理 (Fill NA)**: 填充指定值,或使用前向/后向填充。
* **排序 (Sort)**: 多字段排序。
* **列操作**: 重命名、选择特定列。
3. **实时预览**: 每一步操作后立即查看数据变化 (前 50 行)。
4. **隐私安全**: 所有处理在容器内完成,不依赖外部 API。
5. **高性能**: 基于 Pandas 引擎,处理百万级数据无压力 (受限于内存)。
## 商业价值
* **效率工具**: 替代 Excel 繁琐的手动操作,自动化重复的数据清洗任务。
* **数据资产**: 未来可扩展“清洗配方”保存功能,让数据处理标准化。
* **适用场景**: 电商订单清洗、营销名单筛选、日志分析预处理。
## 快速开始
### Docker 部署 (推荐)
```bash
# 构建镜像
docker build -t smart-data-refinery .
# 运行容器
docker run -p 7860:7860 smart-data-refinery
```
访问 `http://localhost:7860` 即可使用。
### 本地开发
```bash
pip install -r requirements.txt
python app.py
```
## 技术栈
* **后端**: Flask, Pandas, OpenPyxl
* **前端**: Vue 3, Tailwind CSS (Dark Mode)
* **部署**: Docker
## 许可证
MIT License