Spaces:
Sleeping
Sleeping
| title: 智能数据炼油厂 | |
| emoji: 🛢️ | |
| colorFrom: blue | |
| colorTo: purple | |
| sdk: docker | |
| pinned: false | |
| short_description: 一站式CSV/JSON数据清洗与转换工具,支持可视化流水线操作。 | |
| # 智能数据炼油厂 (Smart Data Refinery) | |
| ## 项目简介 | |
| **智能数据炼油厂** 是一个现代化的数据清洗与转换工具 (ETL Lite),专为非技术人员和数据分析师设计。通过直观的 Web 界面,用户可以上传 CSV、JSON 或 Excel 文件,构建数据处理“流水线” (Pipeline),实时预览清洗结果,并导出干净的数据。 | |
| 本项目旨在解决企业和个人日常工作中遇到的“脏数据”痛点,提供无需编写代码即可完成的高级数据处理能力。 | |
| ## 核心功能 | |
| 1. **多格式支持**: 支持 CSV, JSON, Excel 文件的导入与导出。 | |
| 2. **可视化流水线**: | |
| * **筛选 (Filter)**: 按条件过滤数据 (>, <, ==, 包含等)。 | |
| * **去重 (Dedupe)**: 智能去除重复行,支持指定列。 | |
| * **缺失值处理 (Fill NA)**: 填充指定值,或使用前向/后向填充。 | |
| * **排序 (Sort)**: 多字段排序。 | |
| * **列操作**: 重命名、选择特定列。 | |
| 3. **实时预览**: 每一步操作后立即查看数据变化 (前 50 行)。 | |
| 4. **隐私安全**: 所有处理在容器内完成,不依赖外部 API。 | |
| 5. **高性能**: 基于 Pandas 引擎,处理百万级数据无压力 (受限于内存)。 | |
| ## 商业价值 | |
| * **效率工具**: 替代 Excel 繁琐的手动操作,自动化重复的数据清洗任务。 | |
| * **数据资产**: 未来可扩展“清洗配方”保存功能,让数据处理标准化。 | |
| * **适用场景**: 电商订单清洗、营销名单筛选、日志分析预处理。 | |
| ## 快速开始 | |
| ### Docker 部署 (推荐) | |
| ```bash | |
| # 构建镜像 | |
| docker build -t smart-data-refinery . | |
| # 运行容器 | |
| docker run -p 7860:7860 smart-data-refinery | |
| ``` | |
| 访问 `http://localhost:7860` 即可使用。 | |
| ### 本地开发 | |
| ```bash | |
| pip install -r requirements.txt | |
| python app.py | |
| ``` | |
| ## 技术栈 | |
| * **后端**: Flask, Pandas, OpenPyxl | |
| * **前端**: Vue 3, Tailwind CSS (Dark Mode) | |
| * **部署**: Docker | |
| ## 许可证 | |
| MIT License | |