smart-data-refinery / README.md
3v324v23's picture
Initial commit with robust upload and demo data
e15a3ce
metadata
title: 智能数据炼油厂
emoji: 🛢️
colorFrom: blue
colorTo: purple
sdk: docker
pinned: false
short_description: 一站式CSV/JSON数据清洗与转换工具,支持可视化流水线操作。

智能数据炼油厂 (Smart Data Refinery)

项目简介

智能数据炼油厂 是一个现代化的数据清洗与转换工具 (ETL Lite),专为非技术人员和数据分析师设计。通过直观的 Web 界面,用户可以上传 CSV、JSON 或 Excel 文件,构建数据处理“流水线” (Pipeline),实时预览清洗结果,并导出干净的数据。

本项目旨在解决企业和个人日常工作中遇到的“脏数据”痛点,提供无需编写代码即可完成的高级数据处理能力。

核心功能

  1. 多格式支持: 支持 CSV, JSON, Excel 文件的导入与导出。
  2. 可视化流水线:
    • 筛选 (Filter): 按条件过滤数据 (>, <, ==, 包含等)。
    • 去重 (Dedupe): 智能去除重复行,支持指定列。
    • 缺失值处理 (Fill NA): 填充指定值,或使用前向/后向填充。
    • 排序 (Sort): 多字段排序。
    • 列操作: 重命名、选择特定列。
  3. 实时预览: 每一步操作后立即查看数据变化 (前 50 行)。
  4. 隐私安全: 所有处理在容器内完成,不依赖外部 API。
  5. 高性能: 基于 Pandas 引擎,处理百万级数据无压力 (受限于内存)。

商业价值

  • 效率工具: 替代 Excel 繁琐的手动操作,自动化重复的数据清洗任务。
  • 数据资产: 未来可扩展“清洗配方”保存功能,让数据处理标准化。
  • 适用场景: 电商订单清洗、营销名单筛选、日志分析预处理。

快速开始

Docker 部署 (推荐)

# 构建镜像
docker build -t smart-data-refinery .

# 运行容器
docker run -p 7860:7860 smart-data-refinery

访问 http://localhost:7860 即可使用。

本地开发

pip install -r requirements.txt
python app.py

技术栈

  • 后端: Flask, Pandas, OpenPyxl
  • 前端: Vue 3, Tailwind CSS (Dark Mode)
  • 部署: Docker

许可证

MIT License