Spaces:

seachen
/

Intern_streamlit_rag

Build error

App Files Files Community

xiaoqianran commited on Jan 28, 2025

Commit

d5f197c

1 Parent(s): aed8ba9

Add application file

Browse files

Files changed (6) hide show

app copy.py +71 -0
app.py +4 -4
data/shirizhongyan.txt +0 -0
download_hf.py +1 -1
environment_setup.py +31 -31
nltk_setup.py +23 -23

app copy.py ADDED Viewed

	@@ -0,0 +1,71 @@

+# llamaindex_rag.py
+import os
+print(os.getenv('INTERNLM_API_KEY'))
+from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
+from llama_index.core.settings import Settings
+from llama_index.embeddings.huggingface import HuggingFaceEmbedding
+from llama_index.legacy.callbacks import CallbackManager
+from llama_index.llms.openai_like import OpenAILike
+# API 密钥和 Base URL 配置 (建议使用环境变量)
+api_key = os.getenv('INTERNLM_API_KEY') or "YOUR_API_KEY_HERE" # 替换为你的 API 密钥 或设置环境变量
+api_base_url = os.environ.get("INTERNLM_BASE_URL") or "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/" # 替换为你的 API Base URL 或设置环境变量
+model_name = "internlm2.5-latest"
+if api_key == "YOUR_API_KEY_HERE":
+    print("警告：请在脚本中或环境变量中配置您的 InternLM API 密钥。")
+# download_hf.py
+import os
+# 模型保存路径
+model_dir = "/home/user/app/model/sentence-transformer"
+# 确保模型目录存在
+os.makedirs(model_dir, exist_ok=True)
+# 下载模型
+command = f'huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir {model_dir}'
+print(f"Downloading sentence-transformers model to {model_dir}...")
+os.system(command)
+print("Sentence-transformers model download completed.")
+# Callback 管理器
+callback_manager = CallbackManager()
+# 初始化 LLM
+llm = OpenAILike(
+    model=model_name,
+    api_base=api_base_url,
+    api_key=api_key,
+    is_chat_model=True,
+    callback_manager=callback_manager
+)
+# 初始化 HuggingFace 嵌入模型
+embed_model = HuggingFaceEmbedding(
+    model_name="/home/user/app/model/sentence-transformer" # 确保模型已下载到此路径
+)
+Settings.embed_model = embed_model
+Settings.llm = llm
+# 数据文件路径 (请替换为你的数据文件路径)
+data_dir = "/home/user/app/data"  # 假设数据文件在此目录下
+documents = SimpleDirectoryReader(data_dir).load_data()
+# 构建索引
+index = VectorStoreIndex.from_documents(documents)
+query_engine = index.as_query_engine()
+# 执行查询
+query_text = "燕知春和江若雪在什么地方认识，她们参加了什么比赛，创立了什么组织?"
+response = query_engine.query(query_text)
+print(response)

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 # llamaindex_rag.py
 import os
-print(c)
 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
 from llama_index.core.settings import Settings
@@ -23,7 +23,7 @@ if api_key == "YOUR_API_KEY_HERE":
 import os
 # 模型保存路径
-model_dir = "/teamspace/studios/this_studio/model/sentence-transformer"
 # 确保模型目录存在
 os.makedirs(model_dir, exist_ok=True)
@@ -51,13 +51,13 @@ llm = OpenAILike(
 # 初始化 HuggingFace 嵌入模型
 embed_model = HuggingFaceEmbedding(
-    model_name="/teamspace/studios/this_studio/model/sentence-transformer" # 确保模型已下载到此路径
 )
 Settings.embed_model = embed_model
 Settings.llm = llm
 # 数据文件路径 (请替换为你的数据文件路径)
-data_dir = "/teamspace/studios/this_studio/data"  # 假设数据文件在此目录下
 documents = SimpleDirectoryReader(data_dir).load_data()
 # 构建索引

 # llamaindex_rag.py
 import os
+print(os.getenv('INTERNLM_API_KEY'))
 from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
 from llama_index.core.settings import Settings
 import os
 # 模型保存路径
+model_dir = "/home/user/app/model/sentence-transformer"
 # 确保模型目录存在
 os.makedirs(model_dir, exist_ok=True)
 # 初始化 HuggingFace 嵌入模型
 embed_model = HuggingFaceEmbedding(
+    model_name="/home/user/app/model/sentence-transformer" # 确保模型已下载到此路径
 )
 Settings.embed_model = embed_model
 Settings.llm = llm
 # 数据文件路径 (请替换为你的数据文件路径)
+data_dir = "/home/user/app/data"  # 假设数据文件在此目录下
 documents = SimpleDirectoryReader(data_dir).load_data()
 # 构建索引

data/shirizhongyan.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

download_hf.py CHANGED Viewed

@@ -2,7 +2,7 @@
 import os
 # 模型保存路径
-model_dir = "/teamspace/studios/this_studio/model/sentence-transformer"
 # 确保模型目录存在
 os.makedirs(model_dir, exist_ok=True)

 import os
 # 模型保存路径
+model_dir = "/home/user/app/model/sentence-transformer"
 # 确保模型目录存在
 os.makedirs(model_dir, exist_ok=True)

environment_setup.py CHANGED Viewed

@@ -1,34 +1,34 @@
-# environment_setup.py
-import subprocess
-import sys
-import os
-def install_packages():
-    packages = [
-        "einops==0.7.0",
-        "protobuf==5.26.1",
-        "llama-index==0.11.20",
-        "llama-index-llms-replicate==0.3.0",
-        "llama-index-llms-openai-like==0.2.0",
-        "llama-index-embeddings-huggingface==0.3.1",
-        "llama-index-embeddings-instructor==0.2.1",
-        "torch==2.5.0",
-        "torchvision==0.20.0",
-        "torchaudio==2.5.0"
-    ]
-    index_url = "https://download.pytorch.org/whl/cu121"  # 根据你的 CUDA 版本调整
-    for package in packages:
-        try:
-            if package.startswith("torch") or package.startswith("torchvision") or package.startswith("torchaudio"):
-                subprocess.check_call([sys.executable, "-m", "pip", "install", f"{package}", "--index-url", index_url, "-q"])
-            else:
-                subprocess.check_call([sys.executable, "-m", "pip", "install", f"{package}", "-q"])
-            print(f"Successfully installed {package}")
-        except subprocess.CalledProcessError as e:
-            print(f"Error installing {package}: {e}")
-if __name__ == "__main__":
-    print("Starting to install required packages...")
-    install_packages()
-    print("Package installation completed.")

+# # environment_setup.py
+# import subprocess
+# import sys
+# import os
+# def install_packages():
+#     packages = [
+#         "einops==0.7.0",
+#         "protobuf==5.26.1",
+#         "llama-index==0.11.20",
+#         "llama-index-llms-replicate==0.3.0",
+#         "llama-index-llms-openai-like==0.2.0",
+#         "llama-index-embeddings-huggingface==0.3.1",
+#         "llama-index-embeddings-instructor==0.2.1",
+#         "torch==2.5.0",
+#         "torchvision==0.20.0",
+#         "torchaudio==2.5.0"
+#     ]
+#     index_url = "https://download.pytorch.org/whl/cu121"  # 根据你的 CUDA 版本调整
+#     for package in packages:
+#         try:
+#             if package.startswith("torch") or package.startswith("torchvision") or package.startswith("torchaudio"):
+#                 subprocess.check_call([sys.executable, "-m", "pip", "install", f"{package}", "--index-url", index_url, "-q"])
+#             else:
+#                 subprocess.check_call([sys.executable, "-m", "pip", "install", f"{package}", "-q"])
+#             print(f"Successfully installed {package}")
+#         except subprocess.CalledProcessError as e:
+#             print(f"Error installing {package}: {e}")
+# if __name__ == "__main__":
+#     print("Starting to install required packages...")
+#     install_packages()
+#     print("Package installation completed.")

nltk_setup.py CHANGED Viewed

@@ -1,30 +1,30 @@
-# nltk_setup.py
-import os
-nltk_data_path = "/teamspace/studios/this_studio/nltk_data"
-# 克隆 nltk_data 仓库
-if not os.path.exists(nltk_data_path):
-    print(f"Cloning nltk_data to {nltk_data_path}...")
-    os.system(f'git clone https://github.com/nltk/nltk_data.git --branch gh-pages {nltk_data_path}')
-else:
-    print(f"nltk_data already exists at {nltk_data_path}, skipping clone.")
-# 移动 packages 和解压必要的数据
-packages_src = os.path.join(nltk_data_path, 'packages')
-tokenizers_dir = os.path.join(nltk_data_path, 'tokenizers')
-taggers_dir = os.path.join(nltk_data_path, 'taggers')
-if os.path.exists(packages_src):
-    print("Moving packages...")
-    os.system(f'mv {packages_src}/* {nltk_data_path}/')
-if os.path.exists(os.path.join(tokenizers_dir, 'punkt.zip')):
-    print("Unzipping punkt tokenizer data...")
-    os.system(f'unzip {os.path.join(tokenizers_dir, "punkt.zip")} -d {tokenizers_dir}')
-if os.path.exists(os.path.join(taggers_dir, 'averaged_perceptron_tagger.zip')):
-    print("Unzipping averaged_perceptron_tagger data...")
-    os.system(f'unzip {os.path.join(taggers_dir, "averaged_perceptron_tagger.zip")} -d {taggers_dir}')
-print("NLTK data setup completed.")

+# # nltk_setup.py
+# import os
+# nltk_data_path = "/home/user/app/nltk_data"
+# # 克隆 nltk_data 仓库
+# if not os.path.exists(nltk_data_path):
+#     print(f"Cloning nltk_data to {nltk_data_path}...")
+#     os.system(f'git clone https://github.com/nltk/nltk_data.git --branch gh-pages {nltk_data_path}')
+# else:
+#     print(f"nltk_data already exists at {nltk_data_path}, skipping clone.")
+# # 移动 packages 和解压必要的数据
+# packages_src = os.path.join(nltk_data_path, 'packages')
+# tokenizers_dir = os.path.join(nltk_data_path, 'tokenizers')
+# taggers_dir = os.path.join(nltk_data_path, 'taggers')
+# if os.path.exists(packages_src):
+#     print("Moving packages...")
+#     os.system(f'mv {packages_src}/* {nltk_data_path}/')
+# if os.path.exists(os.path.join(tokenizers_dir, 'punkt.zip')):
+#     print("Unzipping punkt tokenizer data...")
+#     os.system(f'unzip {os.path.join(tokenizers_dir, "punkt.zip")} -d {tokenizers_dir}')
+# if os.path.exists(os.path.join(taggers_dir, 'averaged_perceptron_tagger.zip')):
+#     print("Unzipping averaged_perceptron_tagger data...")
+#     os.system(f'unzip {os.path.join(taggers_dir, "averaged_perceptron_tagger.zip")} -d {taggers_dir}')
+# print("NLTK data setup completed.")