Spaces:

kdevoe
/

ResolveAI

Sleeping

App Files Files Community

kdevoe commited on Apr 12, 2025

Commit

810c787

verified ·

1 Parent(s): e13dd34

Cleanup and removal of unused code

Browse files

Files changed (1) hide show

app.py +5 -31

app.py CHANGED Viewed

@@ -9,46 +9,34 @@ from langchain.document_loaders import DataFrameLoader
 from langchain.embeddings import OpenAIEmbeddings
 from langchain.vectorstores import Chroma
-import kagglehub
-from kagglehub import KaggleDatasetAdapter
 import pandas as pd
 from sklearn.model_selection import train_test_split
-# # Download dataset
 file_path = "dataset-tickets-multi-lang-4-20k.csv"
 df = pd.read_csv(file_path)
 df = df[df['language'] == 'en']
-# Check for non-string items in body
 non_string_body = df[~df['body'].apply(lambda x: isinstance(x, str))].index
 non_string_answers = df[~df['answer'].apply(lambda x: isinstance(x, str))].index
 non_string_ids = non_string_body.union(non_string_answers)
-# Drop those rows
 df = df.drop(index=non_string_ids)
 df['q_and_a'] = 'Question: ' + df['body'] + ' Answer: ' + df['answer']
 df_train, df_holdout = train_test_split(df, test_size=0.2, random_state=42)
-df_val, df_test = train_test_split(df_holdout, test_size=0.5, random_state=42)
 persist_directory = './chroma_db'
 loader = DataFrameLoader(
     df_train,
     page_content_column="q_and_a")
 documents = loader.load()
 # Get OpenAI setup
 openai_api_key = os.getenv("openai_token")
-# embedding = OpenAIEmbeddings(openai_api_key=openai_api_key)
-# vectordb = Chroma.from_documents(
-#     documents=documents,
-#     embedding=embedding,
-#     persist_directory=persist_directory
-# )
 @st.cache_resource
 def get_vectordb():
     embedding = OpenAIEmbeddings(openai_api_key=os.getenv("openai_token"))
@@ -59,16 +47,6 @@ def get_vectordb():
 vectordb = get_vectordb()
-# @st.cache_resource
-# def get_vectordb():
-#     embedding = OpenAIEmbeddings(openai_api_key=os.getenv("openai_token"))
-#     return Chroma(persist_directory="./chroma_db", embedding_function=embedding)
-# vectordb = get_vectordb()
-# # Setup vector database
-# persist_directory = './chroma_db'
-# vectordb = Chroma(persist_directory=persist_directory, embedding_function=embedding)
 llm_name = "gpt-3.5-turbo"
@@ -80,8 +58,7 @@ qa_chain = RetrievalQA.from_chain_type(
     retriever=vectordb.as_retriever(search_kwargs={"k": 5})
 )
-# Streamed response emulator
 def response_generator(prompt):
     response = qa_chain({"query": prompt})['result']
@@ -89,7 +66,6 @@ def response_generator(prompt):
         yield word + " "
         time.sleep(0.05)
 st.title("Technical Support Chatbot")
 # Initialize chat history
@@ -109,8 +85,6 @@ if prompt := st.chat_input("Enter your question here"):
     with st.chat_message("user"):
         st.markdown(prompt)
-    # Display assistant response in chat message container
     with st.chat_message("assistant"):
         response = st.write_stream(response_generator(prompt))
-    # Add assistant response to chat history
     st.session_state.messages.append({"role": "assistant", "content": response})

 from langchain.embeddings import OpenAIEmbeddings
 from langchain.vectorstores import Chroma
 import pandas as pd
 from sklearn.model_selection import train_test_split
+# Download dataset
 file_path = "dataset-tickets-multi-lang-4-20k.csv"
 df = pd.read_csv(file_path)
+# Pre-processing of the dataset to prepare for VectorDB creation
 df = df[df['language'] == 'en']
 non_string_body = df[~df['body'].apply(lambda x: isinstance(x, str))].index
 non_string_answers = df[~df['answer'].apply(lambda x: isinstance(x, str))].index
 non_string_ids = non_string_body.union(non_string_answers)
 df = df.drop(index=non_string_ids)
 df['q_and_a'] = 'Question: ' + df['body'] + ' Answer: ' + df['answer']
 df_train, df_holdout = train_test_split(df, test_size=0.2, random_state=42)
+# Setup of chromadb database
 persist_directory = './chroma_db'
 loader = DataFrameLoader(
     df_train,
     page_content_column="q_and_a")
 documents = loader.load()
 # Get OpenAI setup
 openai_api_key = os.getenv("openai_token")
+# Cache the creation of chroma_db so it only runs at app startup
 @st.cache_resource
 def get_vectordb():
     embedding = OpenAIEmbeddings(openai_api_key=os.getenv("openai_token"))
 vectordb = get_vectordb()
 llm_name = "gpt-3.5-turbo"
     retriever=vectordb.as_retriever(search_kwargs={"k": 5})
 )
+# Emulate a streamed response
 def response_generator(prompt):
     response = qa_chain({"query": prompt})['result']
         yield word + " "
         time.sleep(0.05)
 st.title("Technical Support Chatbot")
 # Initialize chat history
     with st.chat_message("user"):
         st.markdown(prompt)
     with st.chat_message("assistant"):
         response = st.write_stream(response_generator(prompt))
     st.session_state.messages.append({"role": "assistant", "content": response})