Spaces:

new-human
/

multi-agent-train-lab

Running

App Files Files Community

multi-agent-train-lab / README.md

new-human

feat: 支持真实CSV数据训练与模型推理闭环

0bb564a 2 days ago

preview code

raw

history blame contribute delete

2.81 kB

	---
	title: 多 Agent 训练与调试实验室
	short_description: 多 Agent 训练与调试实验室
	sdk: docker
	app_port: 7860
	---

	# 多 Agent 训练与调试小实验（完整闭环版）

	一个“模型训练 + 调试 + 多 agent 协作 + 推理验证”的小而美项目：用纯 Python（标准库）实现二分类 Logistic Regression 的训练流水线，并用多 agent 编排完成闭环。
	新增升级：支持用户上传真实的 CSV 数据集，并在训练完成后进行实际的模型推理！

	数据生成/读取 → 训练 → 评估 → 自动诊断（debug）→ 自动修复（调参）→ 复训 → 生成报告与可复现产物 → 模型推理

	## 你能看到的技术点

	- 多 agent 协作框架（消息总线 + 共享产物仓库 + 编排器）
	- 真实数据接入闭环（支持 CSV 动态解析）
	- 可复现训练（seed 固化、配置落盘、指标 JSONL 记录）
	- 训练稳定性调试（NaN/发散/过拟合/欠拟合的规则诊断与自动修复策略）
	- 训练产物闭环（runs/ 下保留：config、transcript、metrics、report、模型参数）
	- 在线推理闭环（一键将最新模型拉起，进行数据预测）

	## 快速开始

	在本目录执行：

	```bash
	python3 app.py
	```

	或者使用命令行模式：

	```bash
	python3 -m multi_agent_lab --scenario unstable
	```

	你会看到第一次训练故意使用“偏激的学习率”导致不稳定，随后 DebuggerAgent 给出修复方案并自动复训，最后输出报告。

	也可以直接跑“稳定版”：

	```bash
	python3 -m multi_agent_lab --scenario stable
	```

	## 运行测试（冒烟）

	```bash
	python3 -m unittest discover -s tests -q
	```

	## Web UI 说明

	执行 `python3 app.py` 启动后会在 7860 端口提供一个强大的 Web UI：
	- 模型训练与多 Agent 调试：可一键跑 stable/unstable 场景，或者上传你自己的 `.csv` 数据集进行真实场景的模型训练。
	- 模型推理测试：使用最新跑完的模型，输入逗号分隔的特征，即可预测出类别和概率。

	## 目录结构

	- multi_agent_lab/：核心代码
	- agents/：不同角色 agent（数据、训练、评估、调试、报告）
	- ml/：最小可用的训练与数据处理实现（logreg + SGD + CSV解析）
	- runs/：每次运行自动生成（可忽略、可清理）
	- tests/：最小冒烟测试
	- app.py: 启动包含训练与推理双向闭环的 Web UI

	## 产物说明（runs/<run_id>/）

	- config.json：本次训练的最终配置（包含调试后的修复参数）
	- transcript.jsonl：多 agent 消息流水（协作过程可回放）
	- metrics.jsonl：每个 epoch 的训练/验证指标
	- report.md / report.json：可读报告 + 结构化摘要
	- model.attemptX.json：模型权重与偏置，用于下游推理