Spaces:

tdecae
/

chatbot

Sleeping

App Files Files Community

tdecae commited on Jul 5, 2025

Commit

687fccd

verified ·

1 Parent(s): 82134da

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -18

app.py CHANGED Viewed

@@ -4,15 +4,15 @@ from langchain.chains import ConversationalRetrievalChain
 from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.vectorstores import Chroma
-from sentence_transformers import SentenceTransformer
 from transformers import pipeline
 import gradio as gr
-# Workaround for sqlite in HuggingFace Spaces
 __import__('pysqlite3')
 sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')
-# 📄 Load documents
 docs = []
 for f in os.listdir("multiple_docs"):
     if f.endswith(".pdf"):
@@ -25,26 +25,30 @@ for f in os.listdir("multiple_docs"):
         loader = TextLoader(os.path.join("multiple_docs", f))
         docs.extend(loader.load())
-# 🔗 Split into chunks
 splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=10)
 docs = splitter.split_documents(docs)
-# 🧠 Compute embeddings
-embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
 texts = [doc.page_content for doc in docs]
 metadatas = [{"id": i} for i in range(len(texts))]
-embeddings = embedding_model.encode(texts)
-# 🗃️ Save in Chroma vectorstore
-vectorstore = Chroma(persist_directory="./db")
-vectorstore.add_texts(texts=texts, metadatas=metadatas, embeddings=embeddings)
 vectorstore.persist()
-# 🤖 Load free LLM with pipeline
-model_name = "google/flan-t5-large"  # small enough for CPU
 generator = pipeline("text2text-generation", model=model_name, device=-1)  # -1 → CPU
-# 🔗 Wrap the pipeline for langchain
 class HuggingFaceLLMWrapper:
     def __init__(self, generator):
         self.generator = generator
@@ -55,7 +59,7 @@ class HuggingFaceLLMWrapper:
 llm = HuggingFaceLLMWrapper(generator)
-# 🔗 Create the conversational chain
 chain = ConversationalRetrievalChain.from_llm(
     llm,
     retriever=vectorstore.as_retriever(search_kwargs={'k': 6}),
@@ -63,7 +67,7 @@ chain = ConversationalRetrievalChain.from_llm(
     verbose=False
 )
-# 💬 Gradio UI
 chat_history = []
 with gr.Blocks() as demo:
@@ -71,13 +75,11 @@ with gr.Blocks() as demo:
         [("", "Hello, I'm Thierry Decae's chatbot. Ask me about my experience, skills, eligibility, etc.")],
         avatar_images=["./multiple_docs/Guest.jpg", "./multiple_docs/Thierry Picture.jpg"]
     )
-    msg = gr.Textbox()
     clear = gr.Button("Clear")
     def user(query, chat_history):
-        # convert chat history to tuples
         chat_history_tuples = [(m[0], m[1]) for m in chat_history]
-        # get answer
         result = chain({"question": query, "chat_history": chat_history_tuples})
         chat_history.append((query, result["answer"]))
         return gr.update(value=""), chat_history

 from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.vectorstores import Chroma
+from langchain.embeddings import HuggingFaceEmbeddings
 from transformers import pipeline
 import gradio as gr
+# Workaround for sqlite in HuggingFace Spaces & environments without sqlite3
 __import__('pysqlite3')
 sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')
+# 📄 Load documents from multiple_docs folder
 docs = []
 for f in os.listdir("multiple_docs"):
     if f.endswith(".pdf"):
         loader = TextLoader(os.path.join("multiple_docs", f))
         docs.extend(loader.load())
+# 🔗 Split into smaller chunks
 splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=10)
 docs = splitter.split_documents(docs)
+# 🧠 Prepare texts and metadata
 texts = [doc.page_content for doc in docs]
 metadatas = [{"id": i} for i in range(len(texts))]
+# 🧬 Embeddings
+embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+# 🗃️ Vectorstore
+vectorstore = Chroma(
+    persist_directory="./db",
+    embedding_function=embedding_function
+)
+vectorstore.add_texts(texts=texts, metadatas=metadatas)
 vectorstore.persist()
+# 🤖 Load free LLM using pipeline
+model_name = "google/flan-t5-large"  # or flan-t5-base if you prefer faster
 generator = pipeline("text2text-generation", model=model_name, device=-1)  # -1 → CPU
+# 🔗 Wrap pipeline in a callable for LangChain
 class HuggingFaceLLMWrapper:
     def __init__(self, generator):
         self.generator = generator
 llm = HuggingFaceLLMWrapper(generator)
+# 🔗 Create Conversational QA chain
 chain = ConversationalRetrievalChain.from_llm(
     llm,
     retriever=vectorstore.as_retriever(search_kwargs={'k': 6}),
     verbose=False
 )
+# 💬 Gradio interface
 chat_history = []
 with gr.Blocks() as demo:
         [("", "Hello, I'm Thierry Decae's chatbot. Ask me about my experience, skills, eligibility, etc.")],
         avatar_images=["./multiple_docs/Guest.jpg", "./multiple_docs/Thierry Picture.jpg"]
     )
+    msg = gr.Textbox(placeholder="Type your question here...")
     clear = gr.Button("Clear")
     def user(query, chat_history):
         chat_history_tuples = [(m[0], m[1]) for m in chat_history]
         result = chain({"question": query, "chat_history": chat_history_tuples})
         chat_history.append((query, result["answer"]))
         return gr.update(value=""), chat_history