Final_Assignment_Agent

Sleeping

App Files Files Community

Final_Assignment_Agent / README.md

hugh2023

Add multi-modal agent system with media analysis, web scraping, and enhanced configuration management

adec1cb 7 months ago

preview code

raw

history blame contribute delete

8.31 kB

	---
	title: Template Final Assignment
	emoji: 🕵🏻‍♂️
	colorFrom: indigo
	colorTo: indigo
	sdk: gradio
	sdk_version: 5.25.2
	app_file: app.py
	pinned: false
	hf_oauth: true
	# optional, default duration is 8 hours/480 minutes. Max duration is 30 days/43200 minutes.
	hf_oauth_expiration_minutes: 480
	---

	# 多模态智能体系统 (Multi-Modal Agent System)

	一个基于Hugging Face和LangGraph的智能多模态智能体系统，能够理解视频、图片，并使用搜索引擎回答问题。

	## 🚀 功能特性

	### 🎥 视频理解与分析
	- 关键帧提取: 自动提取视频关键帧进行分析
	- 视频描述: 生成视频内容的自然语言描述
	- 音频分析: 分析视频的音频信息
	- 时长统计: 获取视频的基本信息（时长、帧率、分辨率等）

	### 🖼️ 图像识别与描述
	- 图像描述: 使用BLIP模型生成图像的自然语言描述
	- 对象检测: 检测图像中的物体和位置
	- 图像分类: 对图像进行分类识别
	- OCR文本提取: 从图像中提取文字内容
	- 情感分析: 分析图像中的情感元素

	### 📄 PDF文档处理
	- PDF下载: 从URL下载PDF文档
	- 文本提取: 从PDF中提取文本内容
	- 结构分析: 分析PDF文档结构和元数据
	- 内容搜索: 在PDF中搜索特定文本
	- 图像提取: 从PDF中提取图像
	- 内容总结: 自动总结PDF文档内容

	### 🌐 网页内容分析
	- 网页抓取: 获取网页内容和结构
	- 文本提取: 从网页中提取纯文本内容
	- 结构分析: 分析网页的标题、表单、表格等结构
	- 内容搜索: 在网页中搜索特定文本
	- 链接提取: 提取网页中的所有链接
	- 内容总结: 自动总结网页内容
	- 可访问性检查: 检查网页的可访问性问题

	### 📺 YouTube视频处理
	- 视频信息获取: 获取YouTube视频的标题、作者、时长、观看次数等
	- 视频下载: 下载YouTube视频到本地
	- 音频提取: 从YouTube视频中提取音频
	- 缩略图下载: 下载YouTube视频缩略图
	- 视频搜索: 搜索YouTube视频
	- 评论分析: 分析YouTube视频评论
	- 播放列表处理: 获取播放列表信息和视频列表

	### 📚 Wikipedia百科处理
	- 页面搜索: 搜索Wikipedia页面
	- 内容获取: 获取Wikipedia页面完整内容
	- 摘要提取: 获取页面摘要信息
	- 分类获取: 获取页面分类信息
	- 链接提取: 获取页面相关链接
	- 搜索建议: 获取搜索建议
	- 英文版本: 支持英文Wikipedia搜索
	- 随机页面: 获取随机Wikipedia页面
	- 地理搜索: 根据坐标搜索附近页面

	### 🔍 智能搜索引擎
	- 网络搜索: 使用DuckDuckGo进行实时网络搜索
	- 图像搜索: 搜索相关图像资源
	- 视频搜索: 搜索相关视频内容
	- 智能查询: 根据问题自动构建搜索查询

	### 🤖 LangGraph工作流编排
	- 状态管理: 使用AgentState管理智能体状态
	- 工作流节点: 媒体分类 → 媒体分析 → 信息搜索 → 工具使用 → 答案合成
	- 智能路由: 根据问题类型自动选择合适的处理路径

	### 🛠️ 丰富工具集
	- 文本分析: 情感分析、关键词提取、文本摘要
	- 翻译工具: 多语言文本翻译
	- 数学计算: 安全的数学表达式计算
	- 天气查询: 实时天气信息获取

	## 📋 系统架构

	```
	用户问题 → 媒体分类 → 媒体分析 → 信息搜索 → 工具使用 → 答案合成 → 最终答案
	↓ ↓ ↓ ↓ ↓ ↓
	文本/图片/视频/PDF/网页/YouTube/Wikipedia 图像/视频/PDF/网页/YouTube/Wikipedia处理网络搜索专用工具信息整合自然语言回答
	```

	## 🛠️ 安装与配置

	### 1. 环境要求
	- Python 3.8+
	- CUDA支持（可选，用于GPU加速）

	### 2. 安装依赖
	```bash
	pip install -r requirements.txt
	```

	### 3. 环境变量配置
	创建 `.env` 文件并配置以下变量：
	```env
	# OpenAI API配置
	OPENAI_API_KEY=your_openai_api_key_here

	# Hugging Face配置（可选）
	HUGGINGFACE_API_KEY=your_huggingface_api_key_here

	# 搜索引擎配置（可选）
	SERPER_API_KEY=your_serper_api_key_here

	# 调试配置
	DEBUG=True
	LOG_LEVEL=INFO
	```

	### 4. 运行系统
	```bash
	python app.py
	```

	## 🎯 使用示例

	### 基本使用
	```python
	from app import MultiModalAgent

	# 初始化智能体
	agent = MultiModalAgent()

	# 文本问题
	answer = agent("什么是人工智能？")

	# 图像问题
	answer = agent("这张图片里有什么？", "https://example.com/image.jpg")

	# 视频问题
	answer = agent("这个视频在讲什么？", "https://youtube.com/watch?v=example")

	# 网页问题
	answer = agent("这个网页的主要内容是什么？", "https://example.com")

	# YouTube问题
	answer = agent("这个YouTube视频的信息是什么？", "https://www.youtube.com/watch?v=example")

	# Wikipedia问题
	answer = agent("Wikipedia关于人工智能的信息是什么？")
	```

	### 高级功能
	```python
	# 情感分析
	answer = agent("分析这段文字的情感", "这是一段需要分析的文本")

	# 关键词提取
	answer = agent("提取这段文字的关键词", "这是一段需要提取关键词的文本")

	# 文本摘要
	answer = agent("总结这段文字", "这是一段很长的文字需要总结...")
	```

	## 📊 支持的模型

	### 图像处理模型
	- BLIP: Salesforce/blip-image-captioning-base
	- ResNet: microsoft/resnet-50
	- DETR: facebook/detr-resnet-50
	- GIT: microsoft/git-base

	### 文本处理模型
	- 情感分析: cardiffnlp/twitter-roberta-base-sentiment-latest
	- 命名实体识别: dbmdz/bert-large-cased-finetuned-conll03-english
	- 文本摘要: facebook/bart-large-cnn
	- 翻译: Helsinki-NLP/opus-mt-en-zh

	### 视频处理
	- MoviePy: 视频编辑和处理
	- OpenCV: 计算机视觉处理
	- PyTube: YouTube视频下载

	## 🔧 自定义扩展

	### 添加新工具
	```python
	from tools import ToolManager

	class CustomTools:
	@staticmethod
	@tool
	def custom_function(input_text: str) -> str:
	"""自定义工具函数"""
	# 实现你的逻辑
	return "处理结果"

	# 注册工具
	tool_manager = ToolManager()
	tool_manager.tools["custom_function"] = CustomTools.custom_function
	```

	### 修改工作流
	```python
	def _build_workflow(self) -> StateGraph:
	workflow = StateGraph(AgentState)

	# 添加自定义节点
	workflow.add_node("custom_node", self._custom_processing)

	# 修改工作流路径
	workflow.add_edge("analyze_media", "custom_node")
	workflow.add_edge("custom_node", "search_info")

	return workflow.compile()
	```

	## 📈 性能优化

	### GPU加速
	系统会自动检测CUDA可用性并使用GPU加速：
	```python
	device = 0 if torch.cuda.is_available() else -1
	```

	### 缓存机制
	- 模型缓存：自动缓存下载的模型
	- 结果缓存：缓存分析结果避免重复计算

	### 内存优化
	- 图像尺寸限制：自动调整大图像尺寸
	- 视频帧采样：智能选择关键帧进行分析

	## 🐛 故障排除

	### 常见问题

	1. OpenAI API错误
	- 检查API密钥是否正确
	- 确认账户余额充足

	2. 模型下载失败
	- 检查网络连接
	- 尝试使用镜像源

	3. 内存不足
	- 减少批处理大小
	- 使用CPU模式运行

	4. 视频处理失败
	- 检查视频格式是否支持
	- 确认视频文件完整性

	### 调试模式
	设置环境变量启用调试模式：
	```env
	DEBUG=True
	LOG_LEVEL=DEBUG
	```

	## 🤝 贡献指南

	欢迎提交Issue和Pull Request来改进这个项目！

	### 开发环境设置
	1. Fork项目
	2. 创建功能分支
	3. 提交更改
	4. 创建Pull Request

	## 📄 许可证

	本项目采用MIT许可证 - 查看 [LICENSE](LICENSE) 文件了解详情。

	## 🙏 致谢

	- [Hugging Face](https://huggingface.co/) - 提供优秀的预训练模型
	- [LangGraph](https://github.com/langchain-ai/langgraph) - 工作流编排框架
	- [LangChain](https://langchain.com/) - LLM应用开发框架
	- [Gradio](https://gradio.app/) - 快速构建Web界面

	---

	注意: 这是一个教育项目，请确保遵守相关API的使用条款和隐私政策。