Spaces:

seachen
/

Intern_streamlit_rag

Build error

App Files Files Community

xiaoqianran commited on Jan 28, 2025

Commit

aed8ba9

1 Parent(s): e8eba5b

Add application file

Browse files

Files changed (6) hide show

app.py +69 -3
download_hf.py +14 -0
environment_setup.py +34 -0
nltk_setup.py +30 -0
requirements.txt +10 -0
test_internlm_api.py +28 -0

app.py CHANGED Viewed

@@ -1,5 +1,71 @@
-import streamlit as st
-x = st.slider('Select a value')
-st.write(x, 'squared is', x * x)

+# llamaindex_rag.py
+import os
+print(c)
+from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
+from llama_index.core.settings import Settings
+from llama_index.embeddings.huggingface import HuggingFaceEmbedding
+from llama_index.legacy.callbacks import CallbackManager
+from llama_index.llms.openai_like import OpenAILike
+# API 密钥和 Base URL 配置 (建议使用环境变量)
+api_key = os.getenv('INTERNLM_API_KEY') or "YOUR_API_KEY_HERE" # 替换为你的 API 密钥 或设置环境变量
+api_base_url = os.environ.get("INTERNLM_BASE_URL") or "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/" # 替换为你的 API Base URL 或设置环境变量
+model_name = "internlm2.5-latest"
+if api_key == "YOUR_API_KEY_HERE":
+    print("警告：请在脚本中或环境变量中配置您的 InternLM API 密钥。")
+# download_hf.py
+import os
+# 模型保存路径
+model_dir = "/teamspace/studios/this_studio/model/sentence-transformer"
+# 确保模型目录存在
+os.makedirs(model_dir, exist_ok=True)
+# 下载模型
+command = f'huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir {model_dir}'
+print(f"Downloading sentence-transformers model to {model_dir}...")
+os.system(command)
+print("Sentence-transformers model download completed.")
+# Callback 管理器
+callback_manager = CallbackManager()
+# 初始化 LLM
+llm = OpenAILike(
+    model=model_name,
+    api_base=api_base_url,
+    api_key=api_key,
+    is_chat_model=True,
+    callback_manager=callback_manager
+)
+# 初始化 HuggingFace 嵌入模型
+embed_model = HuggingFaceEmbedding(
+    model_name="/teamspace/studios/this_studio/model/sentence-transformer" # 确保模型已下载到此路径
+)
+Settings.embed_model = embed_model
+Settings.llm = llm
+# 数据文件路径 (请替换为你的数据文件路径)
+data_dir = "/teamspace/studios/this_studio/data"  # 假设数据文件在此目录下
+documents = SimpleDirectoryReader(data_dir).load_data()
+# 构建索引
+index = VectorStoreIndex.from_documents(documents)
+query_engine = index.as_query_engine()
+# 执行查询
+query_text = "燕知春和江若雪在什么地方认识，她们参加了什么比赛，创立了什么组织?"
+response = query_engine.query(query_text)
+print(response)

download_hf.py ADDED Viewed

	@@ -0,0 +1,14 @@

+# download_hf.py
+import os
+# 模型保存路径
+model_dir = "/teamspace/studios/this_studio/model/sentence-transformer"
+# 确保模型目录存在
+os.makedirs(model_dir, exist_ok=True)
+# 下载模型
+command = f'huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir {model_dir}'
+print(f"Downloading sentence-transformers model to {model_dir}...")
+os.system(command)
+print("Sentence-transformers model download completed.")

environment_setup.py ADDED Viewed

	@@ -0,0 +1,34 @@

+# environment_setup.py
+import subprocess
+import sys
+import os
+def install_packages():
+    packages = [
+        "einops==0.7.0",
+        "protobuf==5.26.1",
+        "llama-index==0.11.20",
+        "llama-index-llms-replicate==0.3.0",
+        "llama-index-llms-openai-like==0.2.0",
+        "llama-index-embeddings-huggingface==0.3.1",
+        "llama-index-embeddings-instructor==0.2.1",
+        "torch==2.5.0",
+        "torchvision==0.20.0",
+        "torchaudio==2.5.0"
+    ]
+    index_url = "https://download.pytorch.org/whl/cu121"  # 根据你的 CUDA 版本调整
+    for package in packages:
+        try:
+            if package.startswith("torch") or package.startswith("torchvision") or package.startswith("torchaudio"):
+                subprocess.check_call([sys.executable, "-m", "pip", "install", f"{package}", "--index-url", index_url, "-q"])
+            else:
+                subprocess.check_call([sys.executable, "-m", "pip", "install", f"{package}", "-q"])
+            print(f"Successfully installed {package}")
+        except subprocess.CalledProcessError as e:
+            print(f"Error installing {package}: {e}")
+if __name__ == "__main__":
+    print("Starting to install required packages...")
+    install_packages()
+    print("Package installation completed.")

nltk_setup.py ADDED Viewed

	@@ -0,0 +1,30 @@

+# nltk_setup.py
+import os
+nltk_data_path = "/teamspace/studios/this_studio/nltk_data"
+# 克隆 nltk_data 仓库
+if not os.path.exists(nltk_data_path):
+    print(f"Cloning nltk_data to {nltk_data_path}...")
+    os.system(f'git clone https://github.com/nltk/nltk_data.git --branch gh-pages {nltk_data_path}')
+else:
+    print(f"nltk_data already exists at {nltk_data_path}, skipping clone.")
+# 移动 packages 和解压必要的数据
+packages_src = os.path.join(nltk_data_path, 'packages')
+tokenizers_dir = os.path.join(nltk_data_path, 'tokenizers')
+taggers_dir = os.path.join(nltk_data_path, 'taggers')
+if os.path.exists(packages_src):
+    print("Moving packages...")
+    os.system(f'mv {packages_src}/* {nltk_data_path}/')
+if os.path.exists(os.path.join(tokenizers_dir, 'punkt.zip')):
+    print("Unzipping punkt tokenizer data...")
+    os.system(f'unzip {os.path.join(tokenizers_dir, "punkt.zip")} -d {tokenizers_dir}')
+if os.path.exists(os.path.join(taggers_dir, 'averaged_perceptron_tagger.zip')):
+    print("Unzipping averaged_perceptron_tagger data...")
+    os.system(f'unzip {os.path.join(taggers_dir, "averaged_perceptron_tagger.zip")} -d {taggers_dir}')
+print("NLTK data setup completed.")

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+einops==0.7.0
+protobuf==5.26.1
+llama-index==0.11.20
+llama-index-llms-replicate==0.3.0
+llama-index-llms-openai-like==0.2.0
+llama-index-embeddings-huggingface==0.3.1
+llama-index-embeddings-instructor==0.2.1
+torch==2.5.0
+torchvision==0.20.0
+torchaudio==2.5.0

test_internlm_api.py ADDED Viewed

	@@ -0,0 +1,28 @@

+# test_internlm_api.py
+from openai import OpenAI
+import os
+# 替换为你的 InternLM API Key 和 Base URL，或者设置为环境变量
+api_key = os.getenv('INTERNLM_API_KEY') or "YOUR_API_KEY_HERE"  # 建议使用环境变量
+base_url = os.getenv('INTERNLM_API_KEY')  or "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"
+model_name = "internlm2.5-latest"
+if api_key == "YOUR_API_KEY_HERE":
+    print("警告：请在脚本中或环境变量中配置您的 InternLM API 密钥。")
+client = OpenAI(
+    api_key=api_key,
+    base_url=base_url,
+)
+try:
+    chat_rsp = client.chat.completions.create(
+        model=model_name,
+        messages=[{"role": "user", "content": "燕知春和江若雪在什么地方认识，她们参加了什么比赛，创立了什么组织?"}],
+    )
+    for choice in chat_rsp.choices:
+        print(choice.message.content)
+except Exception as e:
+    print(f"API 调用失败: {e}")