File size: 1,019 Bytes
1ea26af
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
# 核心依赖
requests>=2.31.0
python-dotenv>=1.0.0
PyPDF2
pdfminer.six>=20240706  # PDF文本解析(mdconvert 使用)

# 数据处理
pandas>=2.0.0
numpy>=1.24.0
markdownify
mammoth>=1.7.0            # DOCX -> HTML/MD 转换
python-pptx>=0.6.21       # PPTX 处理
puremagic>=1.28           # 文件类型探测

# 可视化
matplotlib>=3.7.0
seaborn>=0.12.0

# 模板引擎
jinja2>=3.1.0

# 中文处理
jieba>=0.42.1

# Tokenization
tiktoken>=0.7.0

# Web自动化
playwright>=1.40.0
pdf2image>=1.17.0         # PDF -> image (needs poppler-utils)
beautifulsoup4>=4.12.0    # HTML parsing (bs4)
youtube-transcript-api>=0.6.2  # YouTube transcripts
pydub>=0.25.1             # Audio conversion (needs ffmpeg)
SpeechRecognition>=3.10.0 # Audio transcription

# 搜索功能
ddgs>=3.0.0  # DuckDuckGo搜索 - 外部库
# googlesearch-python>=1.2.0  # Google搜索 - 使用内置实现

# 数据验证
pydantic>=2.0.0

# Web界面
gradio>=5.44.1
gradio[oauth]

# 开发和测试
pytest>=7.4.0
pytest-asyncio>=0.21.0