Spaces:

LRU1
/

lec2note

Sleeping

App Files Files Community

lec2note / DEVELOPER_GUIDE.md

LRU1

sentence

dd9b31b 5 months ago

preview code

raw

history blame contribute delete

6.49 kB

	# Lec2Note 开发者指南 (Developer Guide)

	## 1. 项目概述
	Lec2Note 致力于提供一个端到端的 “视频讲座自动生成笔记” 解决方案。
	通过多模态分析技术，深度融合视频画面与音频内容，生成图文并茂、结构清晰的笔记。

	### 1.1 核心流程
	1. 基于字幕的精细分块：将 ASR 生成的每一句话视为独立的 micro-chunk，并在句末时间点精确截取关键帧。
	2. 分层合并策略
	- 阶段一·视觉预合并：仅根据视觉相似度合并连续 micro-chunks。
	- 阶段二·语义合并：在视觉合并结果上再根据文本语义相似度合并。
	3. 多模态信息提取与采样
	- 文本：拼接主题块包含的全部字幕文本。
	- 图像：采样该主题块的关键帧（最多 6 张）。
	4. 分块笔记生成：调用多模态 LLM，为每个主题块生成独立笔记。
	5. 全局笔记合成：再次调用 LLM，对所有分块笔记进行整合、去重与润色。

	### 1.2 目标使用场景
	- 学术课程录播
	- 会议 / 研讨会记录
	- 企业内部培训视频

	---

	## 2. 技术栈

	\| 层级 \| 主要技术 \| 说明 \|
	\|------\|----------\|------\|
	\| 语言 \| Python 3.9+ \| 主代码基于 Python \|
	\| 视频 / 图像处理 \| OpenCV, Pillow \| 截图、图像处理、图像相似度计算 (SSIM / pHash) \|
	\| OCR \| PaddleOCR / Tesseract \| 提取关键帧中的幻灯片文字 \|
	\| ASR \| Whisper / Faster-Whisper \| 生成句子级时间戳 \|
	\| 语义分析 \| Sentence Transformers \| 计算文本语义相似度 \|
	\| LLM \| Gemini-2.5-pro \| 多模态模型，生成笔记 \|
	\| Web 框架 \| FastAPI \| 提供 RESTful & WebSocket 服务 \|
	\| 任务编排 \| Prefect / Celery \| 批处理与重试机制 \|
	\| 数据库 \| SQLite (dev) / PostgreSQL (prod) \| 存储元数据与任务状态 \|
	\| 容器 \| Docker & Docker Compose \| 一键部署 \|

	---

	## 3. 目录结构与模块划分
	```text
	Lec2Note/
	├── docs/ # 设计文档 & 会议记录
	├── lec2note/ # 源码包 (Python)
	│ ├── ingestion/ # 音频处理 & ASR
	│ ├── vision/ # 视频画面处理模块
	│ │ ├── frame_extractor.py
	│ │ ├── image_comparator.py
	│ │ ├── image_sampler.py
	│ │ └── ocr_processor.py
	│ ├── segmentation/ # 分块与合并模块
	│ │ ├── sentence_chunker.py
	│ │ └── chunk_merger.py
	│ ├── processing/ # 多模态信息融合与 LLM 生成
	│ ├── synthesis/ # 全局笔记整合与导出
	│ ├── assets/ # 静态模板 (Markdown/HTML)
	│ └── api/ # FastAPI 路由
	├── scripts/ # CLI 脚本 & 任务调度
	├── tests/ # PyTest 单元与集成测试
	├── Dockerfile
	├── docker-compose.yml
	└── README.md
	```

	---

	## 4. 核心功能说明

	### 4.1 分块与合并策略
	1. 生成句块：`sentence_chunker.run()` 根据 ASR 输出生成 `{start, end, text, keyframe_path}` 的 sentence_chunks。
	2. 分层合并：`chunk_merger.run()` 先视觉预合并，再语义合并，得到 topic_chunks。
	3. 关键帧采样：`image_sampler.sample()` 均匀采样关键帧，最多保留 6 张。
	4. 输出：最终得到包含文本及代表性截图的 `final_chunks`。

	### 4.2 信息提取 (Extraction)
	对采样后的截图进行 OCR，丰富文本信息。

	### 4.3 图文融合与生成 (Processing)
	- Prompt 构建：在文本中插入 `[IMAGE_n]` 占位符，并附上对应图像列表。
	- LLM 调用：`processor.generate_note_chunk()` 使用多模态 LLM 生成 Markdown 格式笔记。

	### 4.4 笔记合成 (Synthesis)
	`assembler.merge()` 收集所有 `note_chunk` 文本，构建新 Prompt，调用 LLM 进行去重、重排与润色，输出完整笔记。

	### 4.5 API 一览

	\| 方法 \| 路径 \| 功能 \|
	\|------\|------\|------\|
	\| `POST` \| `/upload` \| 上传视频 → 返回任务 ID \|
	\| `GET` \| `/status/{id}` \| 查询任务进度 \|
	\| `GET` \| `/notes/{id}` \| 获取生成的图文笔记 \|

	### 4.6 内部模块接口

	\| 模块 \| 关键类 / 方法 \| 输入 \| 输出 \| 说明 \|
	\|------\|--------------\|------\|------\|------\|
	\| `ingestion.whisper_runner` \| `WhisperRunner.transcribe()` \| 音频路径 \| `[{start, end, text}, …]` \| 句子级 ASR 结果 \|
	\| `vision.frame_extractor` \| `FrameExtractor.capture_at()` \| 视频路径, 时间戳列表 \| 图片路径列表 \| 精确截图 \|
	\| `vision.image_comparator` \| `ImageComparator.get_similarity()` \| 两张图片路径 \| 相似度 (0-1) \| pHash / SSIM \|
	\| `vision.image_sampler` \| `ImageSampler.sample()` \| 图片路径列表, `max_n` \| 采样后路径列表 \| 均匀采样 \|
	\| `segmentation.sentence_chunker` \| `SentenceChunker.run()` \| 字幕列表, 视频路径 \| sentence_chunks \| 生成微型块 \|
	\| `segmentation.chunk_merger` \| `ChunkMerger.run()` \| sentence_chunks \| `final_chunks` \| 分层合并 \|
	\| `processing.processor` \| `Processor.generate_note()` \| `final_chunk` \| `NoteChunk` \| 调用 LLM \|
	\| `synthesis.assembler` \| `Assembler.merge()` \| `NoteChunk` 列表 \| Markdown/HTML \| 全局整合 \|

	### 4.7 数据格式示例
	```json
	{
	"start": 0.0,
	"end": 25.4,
	"text": "欢迎来到 Lec2Note 课程。今天我们介绍多模态笔记生成。首先，我们会讲解系统的核心流程...",
	"representative_frames": [
	"frames/kf_3.20s.png",
	"frames/kf_15.80s.png",
	"frames/kf_22.10s.png"
	]
	}
	```

	### 4.8 健壮性：错误处理与重试
	- 任务原子性：每步定义为独立任务。
	- 自动重试：针对网络/LLM 失败采用指数退避重试。
	- 失败隔离：单任务失败不会阻断整体流程，可记录后续排查。

	---

	## 5. 开发环境搭建
	```bash
	# 克隆仓库
	git clone git@github.com:your_org/lec2note.git
	cd lec2note

	# (可选) 创建虚拟环境
	python -m venv .venv && source .venv/bin/activate

	# 安装依赖
	pip install -r requirements.txt

	# 设置环境变量
	export OPENAI_API_KEY="YOUR_KEY"

	# 运行单元测试
	pytest -q
	```

	### 5.1 快速运行本地 Pipeline
	```bash
	python -m lec2note.scripts.run_pipeline \
	--video example.mp4 \
	--output notes.md
	```

	---

	## 6. 部署指南

	### 6.1 Docker Compose
	```bash
	docker compose up -d --build
	```