Spaces:

anshumanpatil
/

ramayan_rag

Sleeping

App Files Files Community

anshumanpatil commited on Aug 22, 2025

Commit

0bde17f

1 Parent(s): afeb732

python ver changed annd code

Browse files

Files changed (3) hide show

app.py +59 -54
old_app.py +84 -0
requirements.txt +17 -56

app.py CHANGED Viewed

@@ -1,84 +1,89 @@
-import gradio as gr
-import random
-import time
 from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
 from langchain_community.vectorstores import FAISS
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from sentence_transformers import SentenceTransformer
-from langchain_community.document_loaders import DirectoryLoader, TextLoader
-docs = []
-db = None
-def extract_text(folder_path):
-    loader = DirectoryLoader(
-        path=folder_path,
-        glob="*.txt",
-        loader_cls=TextLoader,
-        recursive=True
-    )
-    documents = loader.load()
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-    chunks = text_splitter.split_documents(documents)
-    db = build_faiss(docs)
-    return db
-extract_text("msci")
 def load_model():
     model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(model_name)
     return pipeline("text-generation", model=model, tokenizer=tokenizer)
-def build_faiss(_docs):
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    return FAISS.from_documents(_docs, embeddings)
-with gr.Blocks() as demo:
-    gr.Markdown(
-    """
-    # Hello Everyone!
-    Ask questions about document which link is given below .
-    """)
-    gr.HTML(f"""<a href='https://www.msci.com/indexes#featured-indexes'> MSCI Indexes .</a>""")
-    chatbot = gr.Chatbot(type="messages", height=220, label="MSCI Chatbot")
-    msg = gr.Textbox()
-    clear = gr.Button("Clear", variant="secondary")
-    def user(user_message, history: list):
-        return "", history + [{"role": "user", "content": user_message}]
-    def bot(history: list):
-        bot_message = getMessage() + "..."
-        history.append({"role": "assistant", "content": ""})
-        for character in bot_message:
-            history[-1]['content'] += character
-            time.sleep(0.05)
-            yield history
-    msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False).then(
-        bot, chatbot, chatbot
-    )
-    clear.click(lambda: None, None, chatbot, queue=False)
-    def getMessage():
-        query = msg.value
-        retriever = db.as_retriever(search_kwargs={"k": 3})
-        retrieved_docs = retriever.get_relevant_documents(query)
-        context = "\n".join([doc.page_content for doc in retrieved_docs])
         result = generator(
             f"Context:\n{context}\n\nQuestion: {query}\nAnswer:",
             max_new_tokens=150,
             temperature=0.5,
             top_p=0.9
         )
         generated = result[0]["generated_text"]
         answer_only = generated.split("Answer:")[-1].strip()
-        return answer_only
-demo.launch(share=True)

+import streamlit as st
+import pandas as pd
+import pypdf
+import docx2txt
 from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
 from langchain_community.vectorstores import FAISS
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from sentence_transformers import SentenceTransformer
+# ------------------------------
+# Title
+# ------------------------------
+st.title("📚 RAG Chatbot with TinyLlama")
+# ------------------------------
+# Load TinyLlama
+# ------------------------------
+@st.cache_resource
 def load_model():
     model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(model_name)
     return pipeline("text-generation", model=model, tokenizer=tokenizer)
+with st.spinner("🔄 Loading TinyLlama..."):
+    generator = load_model()
+# ------------------------------
+# File Upload
+# ------------------------------
+uploaded_file = st.file_uploader("📂 Upload a file (PDF, DOCX, CSV)", type=["pdf", "docx", "csv"])
+# ------------------------------
+# Extract Text
+# ------------------------------
+def extract_text(file):
+    if file.type == "application/pdf":
+        pdf_reader = pypdf.PdfReader(file)
+        return "\n".join([page.extract_text() for page in pdf_reader.pages if page.extract_text()])
+    elif file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
+        return docx2txt.process(file)
+    elif file.type == "text/csv":
+        df = pd.read_csv(file)
+        return df.to_string(index=False)
+    return ""
+# ------------------------------
+# Build FAISS Index
+# ------------------------------
+@st.cache_resource
+def build_faiss(_docs):
+    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    return FAISS.from_documents(_docs, embeddings)
+docs = []
+db = None
+if uploaded_file:
+    text = extract_text(uploaded_file)
+    if text:
+        splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+        docs = [Document(page_content=chunk) for chunk in splitter.split_text(text)]
+        db = build_faiss(docs)
+        st.success("✅ Knowledge Base ready!")
+# ------------------------------
+# Chat
+# ------------------------------
+query = st.text_input("💬 Ask a question about the uploaded document:")
+if query and db:
+    retriever = db.as_retriever(search_kwargs={"k": 3})
+    retrieved_docs = retriever.get_relevant_documents(query)
+    context = "\n".join([doc.page_content for doc in retrieved_docs])
+    with st.spinner("🤔 Generating answer..."):
         result = generator(
             f"Context:\n{context}\n\nQuestion: {query}\nAnswer:",
             max_new_tokens=150,
             temperature=0.5,
             top_p=0.9
         )
+        # Extract only what comes after "Answer:"
         generated = result[0]["generated_text"]
         answer_only = generated.split("Answer:")[-1].strip()
+    st.write("📝 Answer:", answer_only)

old_app.py ADDED Viewed

	@@ -0,0 +1,84 @@

+import gradio as gr
+import random
+import time
+from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
+from langchain_community.vectorstores import FAISS
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.schema import Document
+from sentence_transformers import SentenceTransformer
+from langchain_community.document_loaders import DirectoryLoader, TextLoader
+docs = []
+db = None
+def extract_text(folder_path):
+    loader = DirectoryLoader(
+        path=folder_path,
+        glob="*.txt",
+        loader_cls=TextLoader,
+        recursive=True
+    )
+    documents = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    chunks = text_splitter.split_documents(documents)
+    db = build_faiss(docs)
+    return db
+extract_text("msci")
+def load_model():
+    model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForCausalLM.from_pretrained(model_name)
+    return pipeline("text-generation", model=model, tokenizer=tokenizer)
+def build_faiss(_docs):
+    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    return FAISS.from_documents(_docs, embeddings)
+with gr.Blocks() as demo:
+    gr.Markdown(
+    """
+    # Hello Everyone!
+    Ask questions about document which link is given below .
+    """)
+    gr.HTML(f"""<a href='https://www.msci.com/indexes#featured-indexes'> MSCI Indexes .</a>""")
+    chatbot = gr.Chatbot(type="messages", height=220, label="MSCI Chatbot")
+    msg = gr.Textbox()
+    clear = gr.Button("Clear", variant="secondary")
+    def user(user_message, history: list):
+        return "", history + [{"role": "user", "content": user_message}]
+    def bot(history: list):
+        bot_message = getMessage() + "..."
+        history.append({"role": "assistant", "content": ""})
+        for character in bot_message:
+            history[-1]['content'] += character
+            time.sleep(0.05)
+            yield history
+    msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False).then(
+        bot, chatbot, chatbot
+    )
+    clear.click(lambda: None, None, chatbot, queue=False)
+    def getMessage():
+        query = msg.value
+        retriever = db.as_retriever(search_kwargs={"k": 3})
+        retrieved_docs = retriever.get_relevant_documents(query)
+        context = "\n".join([doc.page_content for doc in retrieved_docs])
+        result = generator(
+            f"Context:\n{context}\n\nQuestion: {query}\nAnswer:",
+            max_new_tokens=150,
+            temperature=0.5,
+            top_p=0.9
+        )
+        generated = result[0]["generated_text"]
+        answer_only = generated.split("Answer:")[-1].strip()
+        return answer_only
+demo.launch(share=True)

requirements.txt CHANGED Viewed

@@ -1,56 +1,17 @@
-aiofiles==24.1.0
-annotated-types==0.7.0
-anyio==4.10.0
-audioop-lts==0.2.2
-Brotli==1.1.0
-certifi==2025.8.3
-charset-normalizer==3.4.3
-click==8.2.1
-colorama==0.4.6
-fastapi==0.116.1
-ffmpy==0.6.1
-filelock==3.19.1
-fsspec==2025.7.0
-gradio==5.43.1
-gradio_client==1.12.1
-groovy==0.1.2
-h11==0.16.0
-httpcore==1.0.9
-httpx==0.28.1
-huggingface-hub==0.34.4
-idna==3.10
-Jinja2==3.1.6
-markdown-it-py==4.0.0
-MarkupSafe==3.0.2
-mdurl==0.1.2
-numpy==2.3.2
-orjson==3.11.2
-packaging==25.0
-pandas==2.3.2
-pillow==11.3.0
-pydantic==2.11.7
-pydantic_core==2.33.2
-pydub==0.25.1
-Pygments==2.19.2
-python-dateutil==2.9.0.post0
-python-multipart==0.0.20
-pytz==2025.2
-PyYAML==6.0.2
-requests==2.32.5
-rich==14.1.0
-ruff==0.12.9
-safehttpx==0.1.6
-semantic-version==2.10.0
-shellingham==1.5.4
-six==1.17.0
-sniffio==1.3.1
-starlette==0.47.2
-tomlkit==0.13.3
-tqdm==4.67.1
-typer==0.16.1
-typing-inspection==0.4.1
-typing_extensions==4.14.1
-tzdata==2025.2
-urllib3==2.5.0
-uvicorn==0.35.0
-websockets==15.0.1

+streamlit==1.48.1
+pandas>=2.2.2
+torch>=2.4.1
+transformers==4.43.3
+langchain>=0.3.3
+langchain-community>=0.3.3
+faiss-cpu>=1.8.0
+pypdf>=3.12.0
+docx2txt>=0.8
+sentencepiece>=0.2.0
+huggingface-hub>=0.23.0
+scikit-learn>=1.5.0
+numpy>=1.26.4
+requests>=2.32.3
+sentence-transformers>=2.3.0
+langchain-huggingface>=0.0.3
+accelerate>=0.34.2