Hunyuan-7B-Instruct 播客生成模型
模型简介
基于 Hunyuan-7B-Instruct 微调的中文播客对话生成系统,支持纯主题生成和 RAG 文档检索增强生成,可自动生成高质量的播客对话内容并合成音频。
模型架构
- 基座模型: Hunyuan-7B-Instruct (7.5B 参数)
- 微调方法: LoRA (Low-Rank Adaptation)
- Rank: 16
- Alpha: 32
- 可训练参数: 41.9M (0.56%)
- 训练数据: 202 条高质量播客对话样本
- 训练轮数: 6 epochs (~35分钟, RTX 3090Ti)
- 显存占用: ~23GB
训练效果
- Final Training Loss: 1.17
- Evaluation Loss: 1.278
- 质量评估: 达到原始数据质量的 87.4%
- 平均生成长度: 2200+ 字
- 播客结构: 3段式深度对话
核心功能
- 双模式生成
- 纯主题生成: 基于用户提供的主题快速生成播客内容
- RAG 增强生成: 基于文档检索,生成准确的知识密集型播客
- 文档理解 (RAG)
- 支持格式: PDF, PPTX, DOCX, MD, TXT
- 检索技术: FAISS + BGE-base-zh-v1.5 embeddings
- 检索策略: MMR 算法保证相关性和多样性
- 事实提取: 自动提取文档要点,避免信息杜撰
- TTS 音频合成
- 引擎: 腾讯云 TTS
- 音色配置:
- 主持人(女): 专业梓欣 (602005)
- 嘉宾(男): 知心大林 (603005)
- 音质: 24kHz 采样率, 192k 比特率
- 自动化: 一键生成 MP3 音频
使用方法
方法一: 基础主题生成
python generate_podcast.py "人工智能在医疗诊断中的应用"
输出: out/podcast_<主题>.json
方法二: RAG 文档增强生成
纯文档生成
python podcast_gen_rag.py --files paper.pdf slides.pptx
主题+文档生成
python podcast_gen_rag.py
--topic "AI在医疗领域的应用"
--files research.pdf data.docx
生成并合成音频
python podcast_gen_rag.py
--topic "大模型技术发展"
--files llm_paper.pdf
--audio
TTS 音频合成
配置密钥
export TENCENTCLOUD_SECRET_ID="your-id" export TENCENTCLOUD_SECRET_KEY="your-key"
从 JSON 生成音频
python tts/tts_synthesis.py out/your_podcast.json
输出格式
{ "podcastTitle": "节目名称", "episodeTitle": "本期主题", "host": "主持人姓名", "guests": ["嘉宾姓名"], "topic_summary": "内容概述", "segments": [ { "segmentIndex": 1, "segmentTitle": "第一幕标题", "summary": "段落概述", "transcript": [ {"speaker": "host", "line": "对话内容"}, {"speaker": "guest", "line": "对话内容"} ] } ] }
性能指标
| 指标 | 数值 |
|---|---|
| 平均字数 | 2200-3700 字 |
| 音频时长 | 4-7 分钟 |
| 生成时间 | ~30-60 秒 (纯主题) / ~60-120 秒 (RAG) |
| RAG 检索精度 | Top-10 召回,MMR 多样化至 6 chunks |
| 事实提取数量 | 最多 12 条关键事实 |
技术特点
- 结构化输出: 严格 3 段式播客结构,符合真实节目形态
- 角色一致性: 主持人与嘉宾角色分明,对话自然流畅
- 深度内容: 包含具体数据、案例和深度讨论
- 自然语言: 口语化表达,适合音频播放
- 文档忠实性: RAG 模式下基于事实生成,避免幻觉
- Downloads last month
- 2