Spaces:

X-Pipe
/

flash

Sleeping

App Files Files Community

Add Chinese-Large embedding optimize

by NickNYU - opened Jun 28, 2023

base: refs/heads/main

←

from: refs/pr/5

Discussion Files changed

+244

-46

Files changed (8) hide show

.gitattributes +35 -0
README.md +2 -1
app.py +44 -44
langchain_manager/__pycache__/__init__.cpython-310.pyc +0 -0
llama/context.py +125 -0
llama/index.py +18 -0
llama/vector_storage.py +18 -0
requirements.txt +2 -1

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -12,6 +12,7 @@ license: apache-2.0
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 Then, create a new Python virtual environment. The command below creates an environment in `.venv`,
 and activates it:
@@ -54,4 +55,4 @@ You can also make use of our pre-commit hooks by setting up git hook scripts:
 pre-commit install
 ```
-We run an assortment of linters: `black`, `ruff`, `mypy`.

 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 Then, create a new Python virtual environment. The command below creates an environment in `.venv`,
 and activates it:
 pre-commit install
 ```
+We run an assortment of linters: `black`, `ruff`, `mypy`.

app.py CHANGED Viewed

@@ -1,44 +1,44 @@
-import logging
-import sys
-import streamlit as st
-from dotenv import load_dotenv
-from xpipe_wiki.manager_factory import XPipeRobotManagerFactory, XPipeRobotRevision
-logging.basicConfig(
-    stream=sys.stdout, level=logging.INFO
-)  # logging.DEBUG for more verbose output
-logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
-# Sidebar contents
-with st.sidebar:
-    st.title("🤗💬 LLM Chat App")
-    st.markdown(
-        """
-    ## About
-    This app is an LLM-powered chatbot built using:
-    - [Streamlit](https://streamlit.io/)
-    - [LangChain](https://python.langchain.com/)
-    - [X-Pipe](https://github.com/ctripcorp/x-pipe)
-    """
-    )
-    # add_vertical_space(5)
-    st.write("Made by Nick")
-def main() -> None:
-    st.header("X-Pipe Wiki 机器人 💬")
-    robot_manager = XPipeRobotManagerFactory.get_or_create(
-        XPipeRobotRevision.HUGGINGFACE_VERSION_0
-    )
-    robot = robot_manager.get_robot()
-    query = st.text_input("X-Pipe Wiki 问题:")
-    if query:
-        response = robot.ask(question=query)
-        st.write(response)
-if __name__ == "__main__":
-    load_dotenv()
-    main()

+import logging
+import sys
+import streamlit as st
+from dotenv import load_dotenv
+from xpipe_wiki.manager_factory import XPipeRobotManagerFactory, XPipeRobotRevision
+logging.basicConfig(
+    stream=sys.stdout, level=logging.INFO
+)  # logging.DEBUG for more verbose output
+logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
+# Sidebar contents
+with st.sidebar:
+    st.title("🤗💬 LLM Chat App")
+    st.markdown(
+        """
+    ## About
+    This app is an LLM-powered chatbot built using:
+    - [Streamlit](https://streamlit.io/)
+    - [LangChain](https://python.langchain.com/)
+    - [X-Pipe](https://github.com/ctripcorp/x-pipe)
+    """
+    )
+    # add_vertical_space(5)
+    st.write("Made by Nick")
+def main() -> None:
+    st.header("X-Pipe Wiki 机器人 💬")
+    robot_manager = XPipeRobotManagerFactory.get_or_create(
+        XPipeRobotRevision.HUGGINGFACE_VERSION_0
+    )
+    robot = robot_manager.get_robot()
+    query = st.text_input("X-Pipe Wiki 问题:")
+    if query:
+        response = robot.ask(question=query)
+        st.write(response)
+if __name__ == "__main__":
+    load_dotenv()
+    main()

langchain_manager/__pycache__/__init__.cpython-310.pyc ADDED Viewed

Binary file (154 Bytes). View file

llama/context.py ADDED Viewed

	@@ -0,0 +1,125 @@

+from abc import abstractmethod, ABC
+from typing import List
+from llama_index import ServiceContext, LLMPredictor, LangchainEmbedding, Document
+from llama_index import StorageContext
+from core.lifecycle import Lifecycle
+from langchain_manager.manager import BaseLangChainManager
+class ServiceContextManager(Lifecycle, ABC):
+    @abstractmethod
+    def get_service_context(self) -> ServiceContext:
+        pass
+class AzureServiceContextManager(ServiceContextManager):
+    lc_manager: BaseLangChainManager
+    service_context: ServiceContext
+    def __init__(self, lc_manager: BaseLangChainManager):
+        super().__init__()
+        self.lc_manager = lc_manager
+    def get_service_context(self) -> ServiceContext:
+        if self.service_context is None:
+            raise ValueError(
+                "service context is not ready, check for lifecycle statement"
+            )
+        return self.service_context
+    def do_init(self) -> None:
+        # define embedding
+        embedding = LangchainEmbedding(self.lc_manager.get_embedding())
+        # define LLM
+        llm_predictor = LLMPredictor(llm=self.lc_manager.get_llm())
+        # configure service context
+        self.service_context = ServiceContext.from_defaults(
+            llm_predictor=llm_predictor, embed_model=embedding
+        )
+    def do_start(self) -> None:
+        self.logger.info(
+            "[do_start][embedding] last used usage: %d",
+            self.service_context.embed_model.total_tokens_used,
+        )
+        self.logger.info(
+            "[do_start][predict] last used usage: %d",
+            self.service_context.llm_predictor.total_tokens_used,
+        )
+    def do_stop(self) -> None:
+        self.logger.info(
+            "[do_stop][embedding] last used usage: %d",
+            self.service_context.embed_model.total_tokens_used,
+        )
+        self.logger.info(
+            "[do_stop][predict] last used usage: %d",
+            self.service_context.llm_predictor.total_tokens_used,
+        )
+    def do_dispose(self) -> None:
+        self.logger.info(
+            "[do_dispose] total used token: %d",
+            self.service_context.llm_predictor.total_tokens_used,
+        )
+class StorageContextManager(Lifecycle, ABC):
+    @abstractmethod
+    def get_storage_context(self) -> StorageContext:
+        pass
+class LocalStorageContextManager(StorageContextManager):
+    storage_context: StorageContext
+    def __init__(
+        self,
+        service_context_manager: ServiceContextManager,
+        dataset_path: str = "./dataset",
+    ) -> None:
+        super().__init__()
+        self.dataset_path = dataset_path
+        self.service_context_manager = service_context_manager
+    def get_storage_context(self) -> StorageContext:
+        return self.storage_context
+    def do_init(self) -> None:
+        from llama.utils import is_local_storage_files_ready
+        if is_local_storage_files_ready(self.dataset_path):
+            self.storage_context = StorageContext.from_defaults(
+                persist_dir=self.dataset_path
+            )
+        else:
+            docs = self._download()
+            self._indexing(docs)
+    def do_start(self) -> None:
+        # self.logger.info("[do_start]%", **self.storage_context.to_dict())
+        pass
+    def do_stop(self) -> None:
+        # self.logger.info("[do_stop]%", **self.storage_context.to_dict())
+        pass
+    def do_dispose(self) -> None:
+        self.storage_context.persist(self.dataset_path)
+    def _download(self) -> List[Document]:
+        from llama.data_loader import GithubLoader
+        loader = GithubLoader()
+        return loader.load()
+    def _indexing(self, docs: List[Document]) -> None:
+        from llama_index import GPTVectorStoreIndex
+        index = GPTVectorStoreIndex.from_documents(
+            docs, service_context=self.service_context_manager.get_service_context()
+        )
+        index.storage_context.persist(persist_dir=self.dataset_path)
+        self.storage_context = index.storage_context

llama/index.py ADDED Viewed

	@@ -0,0 +1,18 @@

+from core.lifecycle import Lifecycle
+from llama.context import ServiceContextManager
+from llama_index.indices.vector_store import VectorStoreIndex
+from typing import Optional
+class IndexManager(Lifecycle):
+    index: Optional[VectorStoreIndex]
+    def __init__(self, context_manager: ServiceContextManager) -> None:
+        super().__init__()
+        self.index = None
+        self.context_manager = context_manager
+    def get_index(self) -> Optional[VectorStoreIndex]:
+        if not self.lifecycle_state.is_started():
+            raise Exception("Lifecycle state is not correct")
+        return self.index

llama/vector_storage.py ADDED Viewed

	@@ -0,0 +1,18 @@

+from core.lifecycle import Lifecycle
+class VectorStorageManager(Lifecycle):
+    def __init__(self) -> None:
+        super().__init__()
+    def do_init(self) -> None:
+        pass
+    def do_start(self) -> None:
+        pass
+    def do_stop(self) -> None:
+        pass
+    def do_dispose(self) -> None:
+        pass

requirements.txt CHANGED Viewed

@@ -4,4 +4,5 @@ streamlit
 ruff
 black
 mypy
-accelerate

 ruff
 black
 mypy
+accelerate
+python-dotenv