| # Qwen3-8B-Python-RAG-AgentCI | |
| 一个基于 **Qwen3-8B** 微调的中文 Python 学习与问答模型,结合 **AgentCI-RAG 架构**,从经典 Python 教材中自动构建高质量 QA 数据,用于增强模型在 Python 基础、进阶与工程实践方面的理解与表达能力。 | |
| * * * | |
| ## 📌 项目简介 | |
| 本项目以 **Qwen3-8B** 为基座模型,使用自行实现的 **AgentCI 改造版 RAG 系统**,从多本经典 Python 中文教材中: | |
| * 自动清洗文本 | |
| * 智能切分语义片段 | |
| * 构造高质量 Question–Answer 对 | |
| * 用于监督微调(SFT / QLoRA) | |
| 目标是得到一个: | |
| * **更擅长中文 Python 学习场景** | |
| * **回答风格清晰、教学友好** | |
| * **理解教材式知识结构**的通用 Python 助手模型。 | |
| * * * | |
| ## 🧠 基座模型 | |
| * **Base Model**:Qwen3-8B | |
| * **语言**:中文为主 | |
| * **微调方式**:SFT(基于 RAG 自动构建 QA 数据) | |
| * **参数规模**:8B | |
| * * * | |
| ## 📚 数据来源(文本级) | |
| 微调数据来源于以下公开出版的 Python 教材(仅用于研究与模型能力提升): | |
| * 《Python 基础教程 第3版》 | |
| * 《Python 编程:从入门到实践》 | |
| * 《Python 学习手册(原书第4版)》 | |
| * 《Python 设计模式 第2版》 | |
| * 《流畅的 Python(图灵程序设计丛书)》 | |
| * 《流畅的 Python》 | |
| > ⚠️ **说明**: | |
| > | |
| > * 本项目未直接发布原始书籍内容 | |
| > * 仅使用清洗、重构后的 QA 数据用于模型训练 | |
| > * 模型输出不保证与原文一一对应 | |
| * * * | |
| ## 🔧 数据构建流程(AgentCI-RAG) | |
| 数据并非人工编写,而是通过自研 AgentCI RAG 流程自动生成: | |
| 1. **文本清洗** | |
| * 去除目录、页眉页脚、无关说明 | |
| * 统一编码与格式 | |
| 2. **语义切分** | |
| * 基于语义长度与上下文完整性切块 | |
| * 避免硬切 token | |
| 3. **QA 自动生成** | |
| * 基于切分文本生成教学向 QA | |
| * 覆盖概念理解、示例解释、对比分析 | |
| 4. **质量过滤** | |
| * 去除重复、低信息量 QA | |
| * 清理格式异常数据 | |
| 5. **用于模型 SFT 微调** | |
| * * * | |
| ## 🧪 模型能力特点 | |
| * ✅ 更擅长回答 **Python 基础概念** | |
| * ✅ 对「为什么要这么写」解释更完整 | |
| * ✅ 偏教材式、教学式表达 | |
| * ✅ 适合: | |
| * 初学者学习 | |
| * 查漏补缺 | |
| * 中文 Python 问答 | |