Spaces:
Sleeping
Sleeping
metadata
title: 智能数据炼油厂
emoji: 🛢️
colorFrom: blue
colorTo: purple
sdk: docker
pinned: false
short_description: 一站式CSV/JSON数据清洗与转换工具,支持可视化流水线操作。
智能数据炼油厂 (Smart Data Refinery)
项目简介
智能数据炼油厂 是一个现代化的数据清洗与转换工具 (ETL Lite),专为非技术人员和数据分析师设计。通过直观的 Web 界面,用户可以上传 CSV、JSON 或 Excel 文件,构建数据处理“流水线” (Pipeline),实时预览清洗结果,并导出干净的数据。
本项目旨在解决企业和个人日常工作中遇到的“脏数据”痛点,提供无需编写代码即可完成的高级数据处理能力。
核心功能
- 多格式支持: 支持 CSV, JSON, Excel 文件的导入与导出。
- 可视化流水线:
- 筛选 (Filter): 按条件过滤数据 (>, <, ==, 包含等)。
- 去重 (Dedupe): 智能去除重复行,支持指定列。
- 缺失值处理 (Fill NA): 填充指定值,或使用前向/后向填充。
- 排序 (Sort): 多字段排序。
- 列操作: 重命名、选择特定列。
- 实时预览: 每一步操作后立即查看数据变化 (前 50 行)。
- 隐私安全: 所有处理在容器内完成,不依赖外部 API。
- 高性能: 基于 Pandas 引擎,处理百万级数据无压力 (受限于内存)。
商业价值
- 效率工具: 替代 Excel 繁琐的手动操作,自动化重复的数据清洗任务。
- 数据资产: 未来可扩展“清洗配方”保存功能,让数据处理标准化。
- 适用场景: 电商订单清洗、营销名单筛选、日志分析预处理。
快速开始
Docker 部署 (推荐)
# 构建镜像
docker build -t smart-data-refinery .
# 运行容器
docker run -p 7860:7860 smart-data-refinery
访问 http://localhost:7860 即可使用。
本地开发
pip install -r requirements.txt
python app.py
技术栈
- 后端: Flask, Pandas, OpenPyxl
- 前端: Vue 3, Tailwind CSS (Dark Mode)
- 部署: Docker
许可证
MIT License