File size: 2,341 Bytes
dc76bba | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 | # Qwen3-8B-Python-RAG-AgentCI
一个基于 **Qwen3-8B** 微调的中文 Python 学习与问答模型,结合 **AgentCI-RAG 架构**,从经典 Python 教材中自动构建高质量 QA 数据,用于增强模型在 Python 基础、进阶与工程实践方面的理解与表达能力。
* * *
## 📌 项目简介
本项目以 **Qwen3-8B** 为基座模型,使用自行实现的 **AgentCI 改造版 RAG 系统**,从多本经典 Python 中文教材中:
* 自动清洗文本
* 智能切分语义片段
* 构造高质量 Question–Answer 对
* 用于监督微调(SFT / QLoRA)
目标是得到一个:
* **更擅长中文 Python 学习场景**
* **回答风格清晰、教学友好**
* **理解教材式知识结构**的通用 Python 助手模型。
* * *
## 🧠 基座模型
* **Base Model**:Qwen3-8B
* **语言**:中文为主
* **微调方式**:SFT(基于 RAG 自动构建 QA 数据)
* **参数规模**:8B
* * *
## 📚 数据来源(文本级)
微调数据来源于以下公开出版的 Python 教材(仅用于研究与模型能力提升):
* 《Python 基础教程 第3版》
* 《Python 编程:从入门到实践》
* 《Python 学习手册(原书第4版)》
* 《Python 设计模式 第2版》
* 《流畅的 Python(图灵程序设计丛书)》
* 《流畅的 Python》
> ⚠️ **说明**:
>
> * 本项目未直接发布原始书籍内容
> * 仅使用清洗、重构后的 QA 数据用于模型训练
> * 模型输出不保证与原文一一对应
* * *
## 🔧 数据构建流程(AgentCI-RAG)
数据并非人工编写,而是通过自研 AgentCI RAG 流程自动生成:
1. **文本清洗**
* 去除目录、页眉页脚、无关说明
* 统一编码与格式
2. **语义切分**
* 基于语义长度与上下文完整性切块
* 避免硬切 token
3. **QA 自动生成**
* 基于切分文本生成教学向 QA
* 覆盖概念理解、示例解释、对比分析
4. **质量过滤**
* 去除重复、低信息量 QA
* 清理格式异常数据
5. **用于模型 SFT 微调**
* * *
## 🧪 模型能力特点
* ✅ 更擅长回答 **Python 基础概念**
* ✅ 对「为什么要这么写」解释更完整
* ✅ 偏教材式、教学式表达
* ✅ 适合:
* 初学者学习
* 查漏补缺
* 中文 Python 问答
|