Spaces:

anshumanpatil
/

ramayan_rag

Sleeping

App Files Files Community

anshumanpatil commited on Aug 25, 2025

Commit

25005d0

1 Parent(s): 664007d

add new

Browse files

Files changed (1) hide show

app.py +27 -20

app.py CHANGED Viewed

@@ -14,6 +14,12 @@ load_dotenv()
 model_name = os.getenv("MODEL_NAME")
 embedding_model_name = os.getenv("EMBEDDING_MODEL_NAME")
 # ------------------------------
 # Title
 # ------------------------------
@@ -29,17 +35,11 @@ def load_model():
     model = AutoModelForCausalLM.from_pretrained(model_name)
     return pipeline("text-generation", model=model, tokenizer=tokenizer)
-with st.spinner("🔄 Loading Model..."):
-    generator = load_model()
-# ------------------------------
-# Extract Text
-# ------------------------------
-uploaded_file = "./msci"
-def extract_text(folder_path):
     loader = DirectoryLoader(
-        path=folder_path,
         glob="**/*.txt",
         loader_cls=TextLoader,
         recursive=True
@@ -47,6 +47,18 @@ def extract_text(folder_path):
     documents = loader.load()
     return "\n".join([doc.page_content for doc in documents])
 # ------------------------------
 # Build FAISS Index
 # ------------------------------
@@ -55,19 +67,14 @@ def build_faiss(_docs):
     embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name)
     return FAISS.from_documents(_docs, embeddings)
-docs = []
-db = None
 query = st.text_input("💬 Ask a question about MSCI Indexes", placeholder="MSCI World IMI Index")
-if uploaded_file:
-    text = extract_text(uploaded_file)
-    if text:
-        splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-        docs = [Document(page_content=chunk) for chunk in splitter.split_text(text)]
-        db = build_faiss(docs)
-        st.success("✅ Knowledge Base ready! From :- https://www.msci.com/indexes#featured-indexes")
 if query and db:
     retriever = db.as_retriever(search_kwargs={"k": 3})
     retrieved_docs = retriever.get_relevant_documents(query)

 model_name = os.getenv("MODEL_NAME")
 embedding_model_name = os.getenv("EMBEDDING_MODEL_NAME")
+docs = []
+db = None
+extracted_text = None
 # ------------------------------
 # Title
 # ------------------------------
     model = AutoModelForCausalLM.from_pretrained(model_name)
     return pipeline("text-generation", model=model, tokenizer=tokenizer)
+@st.cache_resource
+def extract_text():
+    uploaded_data_path = "./msci"
     loader = DirectoryLoader(
+        path=uploaded_data_path,
         glob="**/*.txt",
         loader_cls=TextLoader,
         recursive=True
     documents = loader.load()
     return "\n".join([doc.page_content for doc in documents])
+with st.spinner("🔄 Loading Model..."):
+    generator = load_model()
+with st.spinner("🔄 Loading Knowldge Base..."):
+    extracted_text = extract_text()
+# ------------------------------
+# Extract Text
+# ------------------------------
 # ------------------------------
 # Build FAISS Index
 # ------------------------------
     embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name)
     return FAISS.from_documents(_docs, embeddings)
+if extracted_text:
+    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    docs = [Document(page_content=chunk) for chunk in splitter.split_text(extracted_text)]
+    db = build_faiss(docs)
+    st.success("✅ Knowledge Base ready! From :- https://www.msci.com/indexes#featured-indexes")
 query = st.text_input("💬 Ask a question about MSCI Indexes", placeholder="MSCI World IMI Index")
 if query and db:
     retriever = db.as_retriever(search_kwargs={"k": 3})
     retrieved_docs = retriever.get_relevant_documents(query)