Spaces:

anshumanpatil
/

ramayan_rag

Sleeping

App Files Files Community

anshumanpatil commited on Aug 25, 2025

Commit

664007d

1 Parent(s): 5d6cc94

add env vars

Browse files

Files changed (2) hide show

.gitignore +1 -0
app.py +8 -17

.gitignore CHANGED Viewed

@@ -8,3 +8,4 @@ wheels/
 # Virtual environments
 .venv

 # Virtual environments
 .venv
+.env

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import streamlit as st
 import pandas as pd
-import pypdf
 import docx2txt
 from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
 from langchain_community.vectorstores import FAISS
@@ -9,7 +9,11 @@ from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from sentence_transformers import SentenceTransformer
 from langchain_community.document_loaders import DirectoryLoader, TextLoader
 # ------------------------------
 # Title
 # ------------------------------
@@ -20,7 +24,7 @@ st.title("📚 RAG For MSCI Indexes")
 # ------------------------------
 @st.cache_resource
 def load_model():
-    model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(model_name)
     return pipeline("text-generation", model=model, tokenizer=tokenizer)
@@ -29,13 +33,10 @@ with st.spinner("🔄 Loading Model..."):
     generator = load_model()
 # ------------------------------
-# File Upload
 # ------------------------------
 uploaded_file = "./msci"
-# ------------------------------
-# Extract Text
-# ------------------------------
 def extract_text(folder_path):
     loader = DirectoryLoader(
         path=folder_path,
@@ -44,9 +45,6 @@ def extract_text(folder_path):
         recursive=True
     )
     documents = loader.load()
-    # doc_sources = [doc.metadata["source"] for doc in documents]
-    # loader = TextLoader(file, encoding = "utf-8")
-    # return doc_sources
     return "\n".join([doc.page_content for doc in documents])
 # ------------------------------
@@ -54,7 +52,7 @@ def extract_text(folder_path):
 # ------------------------------
 @st.cache_resource
 def build_faiss(_docs):
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     return FAISS.from_documents(_docs, embeddings)
 docs = []
@@ -62,8 +60,6 @@ db = None
 query = st.text_input("💬 Ask a question about MSCI Indexes", placeholder="MSCI World IMI Index")
-# placeholder = st.empty()
 if uploaded_file:
     text = extract_text(uploaded_file)
     if text:
@@ -71,12 +67,8 @@ if uploaded_file:
         docs = [Document(page_content=chunk) for chunk in splitter.split_text(text)]
         db = build_faiss(docs)
         st.success("✅ Knowledge Base ready! From :- https://www.msci.com/indexes#featured-indexes")
-        # st.info("You can ask any question regarding data feed to model is as below!")
-        # with placeholder:
-        #     long_text = st.text_area(text, height=150, disabled=True)
 if query and db:
-    # placeholder.empty()
     retriever = db.as_retriever(search_kwargs={"k": 3})
     retrieved_docs = retriever.get_relevant_documents(query)
     context = "\n".join([doc.page_content for doc in retrieved_docs])
@@ -89,7 +81,6 @@ if query and db:
             top_p=0.9
         )
-        # Extract only what comes after "Answer:"
         generated = result[0]["generated_text"]
         answer_only = generated.split("Answer:")[-1].strip()

 import streamlit as st
 import pandas as pd
+import os
 import docx2txt
 from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
 from langchain_community.vectorstores import FAISS
 from langchain.schema import Document
 from sentence_transformers import SentenceTransformer
 from langchain_community.document_loaders import DirectoryLoader, TextLoader
+from dotenv import load_dotenv
+load_dotenv()
+model_name = os.getenv("MODEL_NAME")
+embedding_model_name = os.getenv("EMBEDDING_MODEL_NAME")
 # ------------------------------
 # Title
 # ------------------------------
 # ------------------------------
 @st.cache_resource
 def load_model():
+    # model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(model_name)
     return pipeline("text-generation", model=model, tokenizer=tokenizer)
     generator = load_model()
 # ------------------------------
+# Extract Text
 # ------------------------------
 uploaded_file = "./msci"
 def extract_text(folder_path):
     loader = DirectoryLoader(
         path=folder_path,
         recursive=True
     )
     documents = loader.load()
     return "\n".join([doc.page_content for doc in documents])
 # ------------------------------
 # ------------------------------
 @st.cache_resource
 def build_faiss(_docs):
+    embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name)
     return FAISS.from_documents(_docs, embeddings)
 docs = []
 query = st.text_input("💬 Ask a question about MSCI Indexes", placeholder="MSCI World IMI Index")
 if uploaded_file:
     text = extract_text(uploaded_file)
     if text:
         docs = [Document(page_content=chunk) for chunk in splitter.split_text(text)]
         db = build_faiss(docs)
         st.success("✅ Knowledge Base ready! From :- https://www.msci.com/indexes#featured-indexes")
 if query and db:
     retriever = db.as_retriever(search_kwargs={"k": 3})
     retrieved_docs = retriever.get_relevant_documents(query)
     context = "\n".join([doc.page_content for doc in retrieved_docs])
             top_p=0.9
         )
         generated = result[0]["generated_text"]
         answer_only = generated.split("Answer:")[-1].strip()