Spaces:

ahaahaaha
/

adaptive_rag

Paused

App Files Files Community

lanny xu commited on Oct 23

Commit

c844813

1 Parent(s): 63ec70e

resolve conflict

Browse files

Files changed (5) hide show

KAGGLE_OPTIMIZATION_GUIDE.md +367 -0
KAGGLE_QUICK_START.py +197 -0
colab_setup_and_run.py +0 -375
config.py +7 -1
setup_and_run.py +112 -0

KAGGLE_OPTIMIZATION_GUIDE.md ADDED Viewed

	@@ -0,0 +1,367 @@

+# Kaggle 环境优化指南 - 避免重复下载模型
+## 🚨 问题
+每次 Kaggle 会话重启后，Ollama 模型需要重新下载，Mistral 模型约 4GB，非常耗时。
+## 💡 解决方案
+### 方案 1: 使用更小的模型（推荐⭐⭐⭐⭐⭐）
+**最佳选择**：不需要修改代码，只需在下载模型时选择更小的版本。
+#### 可选模型对比
+| 模型 | 大小 | 下载时间 | 质量 | 推荐场景 |
+|-----|------|---------|------|---------|
+| `mistral` | ~4GB | 5-10分钟 | ⭐⭐⭐⭐⭐ | 本地开发 |
+| `phi` | ~1.6GB | 2-3分钟 | ⭐⭐⭐⭐ | **Kaggle推荐** |
+| `tinyllama` | ~600MB | 1分钟 | ⭐⭐⭐ | 快速测试 |
+| `qwen:0.5b` | ~350MB | 30秒 | ⭐⭐ | 极速测试 |
+#### 使用方法
+**选项 A**: 修改 `config.py`
+```python
+# 在 /kaggle/working/adaptive_RAG/config.py 中
+LOCAL_LLM = "phi"  # 👈 改为 phi 或 tinyllama
+```
+**选项 B**: 运行时覆盖（不修改代码）
+```python
+# 在 Kaggle Notebook 中
+import os
+os.environ['LOCAL_LLM_OVERRIDE'] = 'phi'
+# 然后正常导入
+from config import LOCAL_LLM
+# LOCAL_LLM 会自动使用 'phi'
+```
+**选项 C**: 直接在下载时指定
+```python
+# 下载更小的模型
+!ollama pull phi  # 代替 mistral
+# 或者
+!ollama pull tinyllama
+```
+---
+### 方案 2: 持久化模型到 Kaggle Dataset（中等推荐⭐⭐⭐）
+将下载好的模型保存为 Dataset，下次会话直接加载。
+#### 步骤
+**会话 1（首次）：**
+```python
+import subprocess
+import shutil
+import os
+# 1. 下载模型
+subprocess.run(['ollama', 'pull', 'phi'])
+# 2. 找到模型存储位置
+# Ollama 模型通常存储在 ~/.ollama/models
+ollama_models = os.path.expanduser('~/.ollama/models')
+# 3. 复制到工作目录（会被保存为输出）
+if os.path.exists(ollama_models):
+    shutil.copytree(
+        ollama_models,
+        '/kaggle/working/ollama_models',
+        dirs_exist_ok=True
+    )
+    print("✅ 模型已复制到 /kaggle/working/ollama_models")
+    print("📌 会话结束后，将此目录保存为 Dataset")
+# 4. 会话结束时：Save Version → Save as Dataset
+#    命名为: ollama-models-cache
+```
+**会话 2（后续）：**
+```python
+import shutil
+import os
+# 1. 从 Dataset 恢复模型
+models_cache = '/kaggle/input/ollama-models-cache'
+if os.path.exists(models_cache):
+    print("📥 恢复 Ollama 模型...")
+    # 创建 Ollama 模型目录
+    ollama_dir = os.path.expanduser('~/.ollama/models')
+    os.makedirs(ollama_dir, exist_ok=True)
+    # 复制模型文件
+    shutil.copytree(
+        models_cache,
+        ollama_dir,
+        dirs_exist_ok=True
+    )
+    print("✅ 模型已恢复，无需重新下载！")
+else:
+    print("⚠️ 未找到缓存，需要重新下载")
+```
+**注意**：此方法有局限性，因为 Ollama 的模型存储结构复杂，可能不完全兼容。
+---
+### 方案 3: 使用云端 LLM API（高级方案⭐⭐⭐⭐）
+完全避免本地模型，使用云端 API。
+#### 可选 API
+1. **OpenAI API**（需付费）
+2. **Anthropic Claude API**（需付费）
+3. **Hugging Face Inference API**（免费，有限额）
+4. **Together AI**（免费额度）
+#### 代码修改示例
+修改 `entity_extractor.py`:
+```python
+# 原代码
+from langchain_community.chat_models import ChatOllama
+self.llm = ChatOllama(model=LOCAL_LLM, format="json", temperature=0)
+# 改为使用 OpenAI API
+from langchain_openai import ChatOpenAI
+self.llm = ChatOpenAI(
+    model="gpt-3.5-turbo",  # 或 gpt-4
+    temperature=0,
+    openai_api_key=os.getenv("OPENAI_API_KEY")
+)
+# 或使用 Hugging Face
+from langchain_community.llms import HuggingFaceHub
+self.llm = HuggingFaceHub(
+    repo_id="mistralai/Mistral-7B-Instruct-v0.1",
+    huggingfacehub_api_token=os.getenv("HUGGINGFACE_API_TOKEN")
+)
+```
+**优点**：
+- ✅ 无需下载模型
+- ✅ 速度快（云端 GPU）
+- ✅ 质量好（GPT-4 等高级模型）
+**缺点**：
+- ❌ 需要 API Key
+- ❌ 可能产生费用
+- ❌ 依赖网络
+---
+### 方案 4: 预构建 Docker 镜像（技术方案⭐⭐）
+创建包含预下载模型的 Docker 镜像。
+**步骤**：
+1. 本地构建包含 Ollama + 模型的 Docker 镜像
+2. 推送到 Docker Hub
+3. 在 Kaggle 中拉取该镜像
+**局限**：Kaggle 对 Docker 支持有限。
+---
+## 🎯 最佳实践推荐
+### 推荐组合策略
+**快速开发/测试**：
+```python
+# 使用 phi 模型（平衡速度和质量）
+LOCAL_LLM = "phi"
+```
+**生产环境**：
+```python
+# 使用云端 API（速度快、质量高）
+# 在 Kaggle Secrets 中设置 OPENAI_API_KEY
+from langchain_openai import ChatOpenAI
+llm = ChatOpenAI(model="gpt-3.5-turbo")
+```
+**完全离线**：
+```python
+# 使用 tinyllama（最快下载）
+LOCAL_LLM = "tinyllama"
+```
+---
+## 📋 Kaggle 完整工作流程（优化版）
+### 单元格 1: 初始化
+```python
+import os, subprocess, sys
+os.chdir('/kaggle/working')
+if not os.path.exists('adaptive_RAG'):
+    subprocess.run(['git', 'clone', 'https://github.com/LannyCodes/adaptive_RAG.git'])
+os.chdir('adaptive_RAG')
+# 修改配置使用更小的模型
+with open('config.py', 'r') as f:
+    content = f.read()
+content = content.replace('LOCAL_LLM = "mistral"', 'LOCAL_LLM = "phi"')
+with open('config.py', 'w') as f:
+    f.write(content)
+print("✅ 已切换到 phi 模型")
+sys.path.insert(0, '/kaggle/working/adaptive_RAG')
+```
+### 单元格 2: 安装 Ollama
+```python
+# 安装 Ollama
+subprocess.run('curl -fsSL https://ollama.com/install.sh | sh', shell=True)
+# 启动服务
+subprocess.Popen(['ollama', 'serve'], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+time.sleep(15)
+```
+### 单元格 3: 下载优化的模型
+```python
+import time
+# 使用更小的模型
+print("📥 下载 phi 模型（约1.6GB，2-3分钟）...")
+subprocess.run(['ollama', 'pull', 'phi'])
+print("✅ 模型下载完成")
+```
+### 单元格 4: 安装依赖并运行
+```python
+!pip install -r requirements_graphrag.txt -q
+# 继续您的处理...
+```
+---
+## 🔢 时间对比
+| 场景 | Mistral | Phi | TinyLlama | 云端API |
+|-----|---------|-----|-----------|---------|
+| **首次下载** | 5-10分钟 | 2-3分钟 | 1分钟 | 0分钟 |
+| **后续会话** | 5-10分钟 | 2-3分钟 | 1分钟 | 0分钟 |
+| **每周总耗时**<br>（5次会话） | 25-50分钟 | 10-15分钟 | 5分钟 | 0分钟 |
+---
+## 💰 成本对比
+| 方案 | 时间成本 | 金钱成本 | 质量 |
+|-----|---------|---------|------|
+| Mistral | 高 ❌ | 免费 ✅ | 高 ✅ |
+| Phi | 中 ✅ | 免费 ✅ | 中高 ✅ |
+| TinyLlama | 低 ✅ | 免费 ✅ | 中 ⚠️ |
+| GPT-3.5 API | 极低 ✅ | 约$0.5-2/天 ⚠️ | 极高 ✅ |
+---
+## 🎁 快速配置脚本
+将以下代码保存为 `KAGGLE_QUICK_START.py`：
+```python
+"""
+Kaggle 快速启动脚本 - 自动使用优化配置
+"""
+import os
+import subprocess
+import sys
+import time
+print("🚀 Kaggle 快速启动（优化版）")
+print("="*60)
+# 1. 克隆项目
+os.chdir('/kaggle/working')
+if not os.path.exists('adaptive_RAG'):
+    subprocess.run(['git', 'clone', 'https://github.com/LannyCodes/adaptive_RAG.git'])
+os.chdir('adaptive_RAG')
+# 2. 自动选择模型（根据配置）
+USE_SMALL_MODEL = True  # 👈 改为 False 使用 Mistral
+if USE_SMALL_MODEL:
+    MODEL_NAME = "phi"
+    print("✅ 使用优化模型: phi (1.6GB)")
+else:
+    MODEL_NAME = "mistral"
+    print("✅ 使用标准模型: mistral (4GB)")
+# 修改配置
+with open('config.py', 'r') as f:
+    content = f.read()
+content = content.replace(
+    'LOCAL_LLM = "mistral"',
+    f'LOCAL_LLM = "{MODEL_NAME}"'
+)
+with open('config.py', 'w') as f:
+    f.write(content)
+# 3. 安装 Ollama
+check = subprocess.run(['which', 'ollama'], capture_output=True)
+if check.returncode != 0:
+    print("📥 安装 Ollama...")
+    subprocess.run('curl -fsSL https://ollama.com/install.sh | sh', shell=True)
+# 4. 启动服务
+subprocess.Popen(['ollama', 'serve'], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+time.sleep(15)
+# 5. 下载模型
+print(f"📦 下载 {MODEL_NAME} 模型...")
+subprocess.run(['ollama', 'pull', MODEL_NAME])
+# 6. 安装依赖
+print("📦 安装依赖...")
+subprocess.run([sys.executable, '-m', 'pip', 'install', '-r', 'requirements_graphrag.txt', '-q'])
+sys.path.insert(0, '/kaggle/working/adaptive_RAG')
+print("\n" + "="*60)
+print("✅ 环境准备完成！")
+print("="*60)
+print(f"\n📌 使用模型: {MODEL_NAME}")
+print("📌 现在可以运行 GraphRAG 索引了")
+```
+---
+## 总结
+**最推荐的解决方案**：
+1. ⭐⭐⭐⭐⭐ **使用 Phi 模型** - 平衡了速度和质量
+2. ⭐⭐⭐⭐ **使用云端 API** - 适合生产环境
+3. ⭐⭐⭐ **使用 TinyLlama** - 快速测试
+**实际操作**：
+- 只需将 `config.py` 中的 `LOCAL_LLM = "mistral"` 改为 `LOCAL_LLM = "phi"`
+- 或在 Kaggle 中运行时自动替换（见快速启动脚本）
+这样每次会话只需 2-3 分钟下载模型，而不是 5-10 分钟！

KAGGLE_QUICK_START.py ADDED Viewed

	@@ -0,0 +1,197 @@

+"""
+Kaggle 快速启动脚本 - 避免重复下载大模型
+使用优化的小模型配置，大幅减少启动时间
+使用方法:
+在 Kaggle Notebook 第一个单元格运行:
+    exec(open('/kaggle/working/adaptive_RAG/KAGGLE_QUICK_START.py').read())
+"""
+import os
+import subprocess
+import sys
+import time
+print("🚀 Kaggle 快速启动（优化版）")
+print("="*70)
+# ==================== 配置区域 ====================
+REPO_URL = "https://github.com/LannyCodes/adaptive_RAG.git"
+PROJECT_DIR = "/kaggle/working/adaptive_RAG"
+# 模型选择（根据需求修改）
+# "phi"       - 1.6GB, 2-3分钟下载，质量好 ⭐⭐⭐⭐ （推荐）
+# "tinyllama" - 600MB, 1分钟下载，质量中等 ⭐⭐⭐
+# "qwen:0.5b" - 350MB, 30秒下载，质量较低 ⭐⭐
+# "mistral"   - 4GB, 5-10分钟下载，质量最好 ⭐⭐⭐⭐⭐ （慢）
+PREFERRED_MODEL = "phi"  # 👈 修改这里选择模型
+print(f"\n📌 配置:")
+print(f"   • 仓库: {REPO_URL}")
+print(f"   • 模型: {PREFERRED_MODEL}")
+print()
+# ==================== 步骤 1: 克隆项目 ====================
+print("📦 步骤 1/6: 克隆项目...")
+os.chdir('/kaggle/working')
+if os.path.exists(PROJECT_DIR):
+    print("   ✅ 项目已存在")
+else:
+    result = subprocess.run(['git', 'clone', REPO_URL], capture_output=True, text=True)
+    if result.returncode == 0:
+        print("   ✅ 项目克隆成功")
+    else:
+        print(f"   ❌ 克隆失败: {result.stderr}")
+        sys.exit(1)
+os.chdir(PROJECT_DIR)
+# ==================== 步骤 2: 修改配置使用小模型 ====================
+print("\n⚙️ 步骤 2/6: 优化模型配置...")
+config_file = 'config.py'
+with open(config_file, 'r', encoding='utf-8') as f:
+    content = f.read()
+# 替换模型配置
+if 'LOCAL_LLM = "mistral"' in content:
+    content = content.replace(
+        'LOCAL_LLM = "mistral"',
+        f'LOCAL_LLM = "{PREFERRED_MODEL}"  # Kaggle优化: 使用更小的模型'
+    )
+    with open(config_file, 'w', encoding='utf-8') as f:
+        f.write(content)
+    print(f"   ✅ 已切换到 {PREFERRED_MODEL} 模型")
+else:
+    print(f"   ℹ️ 配置已是优化模式")
+# ==================== 步骤 3: 检查并安装 Ollama ====================
+print("\n🔧 步骤 3/6: 检查 Ollama...")
+ollama_check = subprocess.run(['which', 'ollama'], capture_output=True)
+if ollama_check.returncode == 0:
+    print("   ✅ Ollama 已安装")
+else:
+    print("   📥 安装 Ollama...")
+    subprocess.run('curl -fsSL https://ollama.com/install.sh | sh', shell=True)
+    time.sleep(3)
+    print("   ✅ Ollama 安装完成")
+# 验证安装
+version_result = subprocess.run(['ollama', '--version'], capture_output=True, text=True)
+if version_result.returncode == 0:
+    print(f"   📌 {version_result.stdout.strip()}")
+# ==================== 步骤 4: 启动 Ollama 服务 ====================
+print("\n🚀 步骤 4/6: 启动 Ollama 服务...")
+# 检查是否已运行
+ps_check = subprocess.run(['pgrep', '-f', 'ollama serve'], capture_output=True)
+if ps_check.returncode == 0:
+    print("   ✅ Ollama 服务已运行")
+else:
+    print("   🔄 启动服务...")
+    subprocess.Popen(['ollama', 'serve'], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+    time.sleep(15)
+    # 验证
+    import requests
+    try:
+        response = requests.get('http://localhost:11434/api/tags', timeout=10)
+        if response.status_code == 200:
+            print("   ✅ 服务运行正常")
+    except:
+        print("   ⚠️ 服务验证失败，但可能仍在启动中...")
+# ==================== 步骤 5: 下载优化的模型 ====================
+print(f"\n📦 步骤 5/6: 下载 {PREFERRED_MODEL} 模型...")
+# 检查模型是否已存在
+list_result = subprocess.run(['ollama', 'list'], capture_output=True, text=True)
+if PREFERRED_MODEL in list_result.stdout:
+    print(f"   ✅ {PREFERRED_MODEL} 模型已存在")
+else:
+    # 显示预计时间
+    time_estimates = {
+        "qwen:0.5b": "约30秒",
+        "tinyllama": "约1分钟",
+        "phi": "约2-3分钟",
+        "mistral": "约5-10分钟"
+    }
+    estimated_time = time_estimates.get(PREFERRED_MODEL, "未知")
+    print(f"   📥 开始下载（预计时间: {estimated_time}）...")
+    print(f"   ⏳ 请稍候...")
+    start_time = time.time()
+    pull_result = subprocess.run(
+        ['ollama', 'pull', PREFERRED_MODEL],
+        capture_output=True,
+        text=True
+    )
+    elapsed = time.time() - start_time
+    if pull_result.returncode == 0:
+        print(f"   ✅ 模型下载完成（耗时: {int(elapsed)}秒）")
+    else:
+        print(f"   ⚠️ 下载警告: {pull_result.stderr[:200]}")
+# ==================== 步骤 6: 安装 Python 依赖 ====================
+print("\n📦 步骤 6/6: 安装 Python 依赖...")
+subprocess.run([sys.executable, '-m', 'pip', 'install', '-r', 'requirements_graphrag.txt', '-q'])
+subprocess.run([sys.executable, '-m', 'pip', 'install', '-U',
+                'langchain', 'langchain-core', 'langchain-community',
+                'langchain-text-splitters', '-q'])
+print("   ✅ 依赖安装完成")
+# ==================== 设置 Python 路径 ====================
+if PROJECT_DIR not in sys.path:
+    sys.path.insert(0, PROJECT_DIR)
+# ==================== 完成 ====================
+print("\n" + "="*70)
+print("✅ 环境准备完成！")
+print("="*70)
+print(f"\n📊 配置摘要:")
+print(f"   • 工作目录: {os.getcwd()}")
+print(f"   • 使用模型: {PREFERRED_MODEL}")
+print(f"   • Python路径: 已添加")
+# 显示模型对比
+print(f"\n📌 模型选择说明:")
+print("   • phi (当前) - 平衡速度和质量，推荐日常使用")
+print("   • tinyllama - 最快下载，适合快速测试")
+print("   • mistral - 质量最高，但下载慢（不推荐Kaggle）")
+print(f"\n💡 下一步:")
+print("   1. 开始 GraphRAG 索引:")
+print("      from document_processor import DocumentProcessor")
+print("      from graph_indexer import GraphRAGIndexer")
+print("      ")
+print("      doc_processor = DocumentProcessor()")
+print("      vectorstore, retriever, doc_splits = doc_processor.setup_knowledge_base(enable_graphrag=True)")
+print("      ")
+print("      indexer = GraphRAGIndexer()")
+print("      graph = indexer.index_documents(doc_splits, batch_size=3)")
+print()
+print("   2. 如需切换模型，修改脚本顶部的 PREFERRED_MODEL 变量")
+print("\n⚠️ 提示:")
+print(f"   • 当前使用 {PREFERRED_MODEL} 模型，比 Mistral 快 {2 if PREFERRED_MODEL == 'phi' else 5}x")
+print("   • 会话结束后仍需重新下载（但速度已大幅提升）")
+print("   • 如需最佳质量，本地开发时可用 Mistral")

colab_setup_and_run.py DELETED Viewed

@@ -1,375 +0,0 @@
-#!/usr/bin/env python3
-"""
-Google Colab环境下的GraphRAG完整运行脚本
-解决Ollama服务启动和GraphRAG运行的问题
-使用方法:
-1. 在Colab中启用GPU
-2. 复制此文件到Colab
-3. 运行: !python colab_setup_and_run.py
-"""
-import os
-import sys
-import time
-import subprocess
-import signal
-from pathlib import Path
-print("="*70)
-print("🚀 GraphRAG Colab 自动化部署脚本")
-print("="*70)
-# ============================================================
-# 1️⃣ 检测Colab环境
-# ============================================================
-def check_colab_environment():
-    """检测是否在Colab环境中"""
-    try:
-        import google.colab
-        print("\n✅ 运行环境: Google Colab")
-        return True
-    except ImportError:
-        print("\n⚠️  警告: 未检测到Colab环境")
-        print("   本脚本为Colab优化，在其他环境可能需要调整")
-        return False
-# ============================================================
-# 2️⃣ 安装Ollama
-# ============================================================
-def install_ollama():
-    """在Colab中安装Ollama"""
-    print("\n" + "="*70)
-    print("📦 步骤1: 安装Ollama")
-    print("="*70)
-    # 检查是否已安装
-    if os.path.exists("/usr/local/bin/ollama"):
-        print("✅ Ollama已安装")
-        return True
-    print("\n📥 下载并安装Ollama...")
-    try:
-        # 下载Ollama安装脚本
-        subprocess.run(
-            ["curl", "-fsSL", "https://ollama.com/install.sh", "-o", "/tmp/install_ollama.sh"],
-            check=True,
-            capture_output=True
-        )
-        # 执行安装
-        subprocess.run(
-            ["sh", "/tmp/install_ollama.sh"],
-            check=True,
-            capture_output=True
-        )
-        print("✅ Ollama安装成功")
-        return True
-    except subprocess.CalledProcessError as e:
-        print(f"❌ Ollama安装失败: {e}")
-        return False
-# ============================================================
-# 3️⃣ 后台启动Ollama服务
-# ============================================================
-def start_ollama_service():
-    """在后台启动Ollama服务"""
-    print("\n" + "="*70)
-    print("🔧 步骤2: 启动Ollama服务")
-    print("="*70)
-    print("\n🔄 在后台启动Ollama服务...")
-    # 方法1: 使用subprocess后台运行
-    try:
-        # 启动Ollama服务（后台）
-        ollama_process = subprocess.Popen(
-            ["ollama", "serve"],
-            stdout=subprocess.PIPE,
-            stderr=subprocess.PIPE,
-            preexec_fn=os.setpgrp  # 创建新的进程组
-        )
-        # 等待服务启动
-        print("⏳ 等待Ollama服务启动...")
-        time.sleep(5)
-        # 检查服务是否运行
-        try:
-            result = subprocess.run(
-                ["curl", "-s", "http://localhost:11434/api/tags"],
-                capture_output=True,
-                timeout=3
-            )
-            if result.returncode == 0:
-                print("✅ Ollama服务已启动 (PID: {})".format(ollama_process.pid))
-                # 保存进程ID以便后续管理
-                with open("/tmp/ollama.pid", "w") as f:
-                    f.write(str(ollama_process.pid))
-                return ollama_process
-            else:
-                print("⚠️  服务启动可能有问题，继续尝试...")
-        except subprocess.TimeoutExpired:
-            print("⚠️  服务检查超时，但进程已启动")
-            return ollama_process
-    except Exception as e:
-        print(f"❌ 启动Ollama失败: {e}")
-        return None
-# ============================================================
-# 4️⃣ 下载Mistral模型
-# ============================================================
-def pull_mistral_model():
-    """下载Mistral模型"""
-    print("\n" + "="*70)
-    print("📥 步骤3: 下载Mistral模型")
-    print("="*70)
-    print("\n🔄 拉取mistral模型（这可能需要几分钟）...")
-    try:
-        # 检查模型是否已存在
-        result = subprocess.run(
-            ["ollama", "list"],
-            capture_output=True,
-            text=True,
-            timeout=10
-        )
-        if "mistral" in result.stdout:
-            print("✅ Mistral模型已存在")
-            return True
-        # 下载模型
-        print("📥 开始下载Mistral模型...")
-        process = subprocess.Popen(
-            ["ollama", "pull", "mistral"],
-            stdout=subprocess.PIPE,
-            stderr=subprocess.STDOUT,
-            text=True
-        )
-        # 实时显示下载进度
-        for line in process.stdout:
-            print(f"   {line.strip()}")
-        process.wait()
-        if process.returncode == 0:
-            print("✅ Mistral模型下载完成")
-            return True
-        else:
-            print("❌ 模型下载失败")
-            return False
-    except Exception as e:
-        print(f"❌ 下载Mistral模型失败: {e}")
-        return False
-# ============================================================
-# 5️⃣ 安装Python依赖
-# ============================================================
-def install_python_dependencies():
-    """安装GraphRAG所需的Python包"""
-    print("\n" + "="*70)
-    print("📦 步骤4: 安装Python依赖")
-    print("="*70)
-    packages = [
-        "langchain",
-        "langchain-community",
-        "langchain-core",
-        "langgraph",
-        "langchain-ollama",
-        "chromadb",
-        "sentence-transformers",
-        "tiktoken",
-        "beautifulsoup4",
-        "requests",
-        "tavily-python",
-        "python-dotenv",
-        "networkx",
-        "python-louvain",
-        "torch",
-        "transformers"
-    ]
-    print("\n📥 安装必要的Python包...")
-    for package in packages:
-        try:
-            __import__(package.replace("-", "_"))
-            print(f"✅ {package} 已安装")
-        except ImportError:
-            print(f"📥 安装 {package}...")
-            subprocess.run(
-                [sys.executable, "-m", "pip", "install", "-q", package],
-                check=True
-            )
-    print("\n✅ 所有依赖安装完成")
-# ============================================================
-# 6️⃣ 配置环境变量
-# ============================================================
-def setup_environment():
-    """配置环境变量"""
-    print("\n" + "="*70)
-    print("🔑 步骤5: 配置环境变量")
-    print("="*70)
-    # 检查.env文件
-    if os.path.exists(".env"):
-        print("\n✅ 发现.env文件，加载配置...")
-        from dotenv import load_dotenv
-        load_dotenv()
-    else:
-        print("\n⚠️  未找到.env文件")
-        # 交互式输入API密钥
-        if "TAVILY_API_KEY" not in os.environ:
-            from getpass import getpass
-            api_key = getpass("请输入TAVILY_API_KEY (或按Enter跳过): ")
-            if api_key:
-                os.environ["TAVILY_API_KEY"] = api_key
-                print("✅ TAVILY_API_KEY已设置")
-            else:
-                print("⚠️  跳过TAVILY_API_KEY设置（网络搜索功能将不可用）")
-    print("\n📋 当前环境变量:")
-    print(f"   TAVILY_API_KEY: {'已设置' if os.environ.get('TAVILY_API_KEY') else '未设置'}")
-# ============================================================
-# 7️⃣ 运行GraphRAG
-# ============================================================
-def run_graphrag():
-    """运行GraphRAG主程序"""
-    print("\n" + "="*70)
-    print("🚀 步骤6: 运行GraphRAG")
-    print("="*70)
-    # 检查main_graphrag.py是否存在
-    if not os.path.exists("main_graphrag.py"):
-        print("\n❌ 未找到main_graphrag.py文件")
-        print("   请确保已上传项目文件到Colab")
-        return False
-    print("\n🔄 启动GraphRAG索引构建...\n")
-    try:
-        # 运行GraphRAG
-        result = subprocess.run(
-            [sys.executable, "main_graphrag.py"],
-            capture_output=False,  # 实时输出
-            text=True
-        )
-        if result.returncode == 0:
-            print("\n✅ GraphRAG运行成功!")
-            return True
-        else:
-            print(f"\n❌ GraphRAG运行失败 (返回码: {result.returncode})")
-            return False
-    except KeyboardInterrupt:
-        print("\n⚠️  用户中断执行")
-        return False
-    except Exception as e:
-        print(f"\n❌ 运行GraphRAG时出错: {e}")
-        return False
-# ============================================================
-# 8️⃣ 清理函数
-# ============================================================
-def cleanup():
-    """清理后台进程"""
-    print("\n" + "="*70)
-    print("🧹 清理后台进程")
-    print("="*70)
-    # 停止Ollama服务
-    if os.path.exists("/tmp/ollama.pid"):
-        try:
-            with open("/tmp/ollama.pid", "r") as f:
-                pid = int(f.read().strip())
-            os.kill(pid, signal.SIGTERM)
-            print(f"✅ Ollama服务已停止 (PID: {pid})")
-            os.remove("/tmp/ollama.pid")
-        except Exception as e:
-            print(f"⚠️  停止Ollama服务失败: {e}")
-# ============================================================
-# 主函数
-# ============================================================
-def main():
-    """主执行流程"""
-    ollama_process = None
-    try:
-        # 1. 检测环境
-        is_colab = check_colab_environment()
-        # 2. 安装Ollama
-        if not install_ollama():
-            print("\n❌ Ollama安装失败，无法继续")
-            return
-        # 3. 启动Ollama服务
-        ollama_process = start_ollama_service()
-        if not ollama_process:
-            print("\n❌ Ollama服务启动失败，无法继续")
-            return
-        # 4. 下载模型
-        if not pull_mistral_model():
-            print("\n❌ Mistral模型下载失败，无法继续")
-            return
-        # 5. 安装Python依赖
-        install_python_dependencies()
-        # 6. 配置环境
-        setup_environment()
-        # 7. 运行GraphRAG
-        success = run_graphrag()
-        if success:
-            print("\n" + "="*70)
-            print("✅ 所有任务完成!")
-            print("="*70)
-            print("\n📊 生成的文件:")
-            if os.path.exists("data/knowledge_graph.json"):
-                print("   ✅ data/knowledge_graph.json")
-                # 提供下载选项
-                if is_colab:
-                    print("\n💾 下载结果:")
-                    print("   from google.colab import files")
-                    print("   files.download('data/knowledge_graph.json')")
-    except KeyboardInterrupt:
-        print("\n\n⚠️  用户中断执行")
-    except Exception as e:
-        print(f"\n❌ 执行过程中出错: {e}")
-        import traceback
-        traceback.print_exc()
-    finally:
-        # 清理
-        print("\n⚠️  注意: Ollama服务仍在后台运行")
-        print("   如需停止: !pkill -f 'ollama serve'")
-        print("   或运行: cleanup()")
-if __name__ == "__main__":
-    main()

config.py CHANGED Viewed

@@ -37,7 +37,13 @@ def setup_environment():
 # 模型配置
-LOCAL_LLM = "mistral"
 # 知识库URL配置
 KNOWLEDGE_BASE_URLS = [

 # 模型配置
+# Kaggle环境推荐使用较小的模型以加快下载速度
+# 可选模型:
+#   - "mistral" (4GB) - 质量最好，但下载慢
+#   - "phi" (1.6GB) - 平衡选择，速度较快
+#   - "tinyllama" (600MB) - 最快，质量稍低
+#   - "qwen:0.5b" (350MB) - 极小模型，速度极快
+LOCAL_LLM = "mistral"  # 在Kaggle中可改为 "phi" 或 "tinyllama"
 # 知识库URL配置
 KNOWLEDGE_BASE_URLS = [

setup_and_run.py ADDED Viewed

	@@ -0,0 +1,112 @@

+#!/usr/bin/env python3
+"""
+环境配置和运行脚本
+简化版：只负责配置环境和运行 main_graphrag.py
+使用方法:
+python colab_setup_and_run.py
+"""
+import os
+import sys
+import subprocess
+print("="*60)
+print("🚀 GraphRAG 环境配置和运行")
+print("="*60)
+# ============================================================
+# 1. 配置环境
+# ============================================================
+def setup_environment():
+    """配置环境变量"""
+    print("\n⚙️ 步骤 1/2: 配置环境变量...")
+    # 检查.env文件
+    if os.path.exists(".env"):
+        print("   ✅ 发现 .env 文件，加载配置...")
+        try:
+            from dotenv import load_dotenv
+            load_dotenv()
+            print("   ✅ 环境变量已加载")
+        except ImportError:
+            print("   ⚠️ python-dotenv 未安装，跳过 .env 加载")
+    else:
+        print("   ℹ️ 未找到 .env 文件")
+    # 显示环境变量状态
+    print("\n   📋 环境变量状态:")
+    print(f"      • TAVILY_API_KEY: {'✅ 已设置' if os.environ.get('TAVILY_API_KEY') else '⚠️ 未设置'}")
+    print(f"      • NOMIC_API_KEY: {'✅ 已设置' if os.environ.get('NOMIC_API_KEY') else '⚠️ 未设置'}")
+    # 添加当前目录到 Python 路径
+    current_dir = os.getcwd()
+    if current_dir not in sys.path:
+        sys.path.insert(0, current_dir)
+        print(f"\n   ✅ 已添加到 Python 路径: {current_dir}")
+# ============================================================
+# 2. 运行 main_graphrag.py
+# ============================================================
+def run_main_graphrag():
+    """运行 main_graphrag.py"""
+    print("\n🚀 步骤 2/2: 运行 main_graphrag.py...")
+    print("="*60)
+    # 检查文件是否存在
+    if not os.path.exists("main_graphrag.py"):
+        print("\n❌ 错误: 未找到 main_graphrag.py 文件")
+        print("   请确保在正确的目录中运行此脚本")
+        return False
+    print("\n🔄 启动 GraphRAG...\n")
+    try:
+        # 运行 main_graphrag.py
+        result = subprocess.run(
+            [sys.executable, "main_graphrag.py"],
+            capture_output=False,  # 实时显示输出
+        )
+        if result.returncode == 0:
+            print("\n" + "="*60)
+            print("✅ 运行成功！")
+            print("="*60)
+            return True
+        else:
+            print("\n" + "="*60)
+            print(f"❌ 运行失败 (返回码: {result.returncode})")
+            print("="*60)
+            return False
+    except KeyboardInterrupt:
+        print("\n\n⚠️ 用户中断执行")
+        return False
+    except Exception as e:
+        print(f"\n❌ 运行时错误: {e}")
+        return False
+# ============================================================
+# 主函数
+# ============================================================
+def main():
+    """主执行流程"""
+    try:
+        # 1. 配置环境
+        setup_environment()
+        # 2. 运行 main_graphrag.py
+        success = run_main_graphrag()
+        if success:
+            print("\n💡 提示: 生成的知识图谱保存在配置的路径中")
+    except KeyboardInterrupt:
+        print("\n\n⚠️ 用户中断执行")
+    except Exception as e:
+        print(f"\n❌ 执行过程中出错: {e}")
+        import traceback
+        traceback.print_exc()
+if __name__ == "__main__":
+    main()