Spaces:

jonathanjordan21
/

lmd_chatbot

Runtime error

App Files Files Community

jonathanjordan21 commited on Oct 31, 2023

Commit

7eea2bf

1 Parent(s): d7743fd

Create streamlit app

Browse files

Files changed (1) hide show

app.py +75 -0

app.py ADDED Viewed

	@@ -0,0 +1,75 @@

+from InstructorEmbedding import INSTRUCTOR
+import streamlit as st
+import pandas as pd
+from sklearn.metrics.pairwise import cosine_similarity
+# if 'model' is not in st.session_state:
+#     st.session_state['model'] = INSTRUCTOR('hkunlp/instructor-large')
+@st.cache_resource
+def load_model():
+    return INSTRUCTOR('hkunlp/instructor-large')
+model = load_model()
+def process_data(df, desc, message, embed=False):
+    data = [
+        [
+            f'Represent the document for retrieval of {x[desc]]} information : ',
+            x[message]
+        ] for _,x in df.iterrows()
+    ]
+    if embed :
+        corpus_embeddings = embed_data(data)
+    question = st.text_input("Question : ")
+    btn_q = st.button("Submit")
+    if btn_q :
+        query  = [['Represent the question for retrieving supporting documents: ',question]]
+        query_embeddings = model.encode(query)
+        similarities = cosine_similarity(query_embeddings,corpus_embeddings)
+        retrieved_doc_id = np.argmax(similarities)
+        st.text(f"{data[retrieved_doc_id][-1]}")
+opt = st.radio("Choose Data : ", ["intent.csv", "upload file CSV"], captions=["LMD CSV intent data", "Custom upload CSV data"])
+if opt == "intent.csv":
+    df = pd.read_csv("intent.csv", delimiter=";")
+    process_data(df, desc, message, embed=True)
+else :
+    f = st.file_uploader("Upload CSV File with at least 2 columns", ['xlsx', 'csv'])
+    delim = st.text_input('CSV File Delimiter')
+    btn = st.button("Submit")
+    @st.cache_data(presist='disk')
+    def embed_data(data):
+        corpus_embeddings = model.encode(data)
+    if btn:
+        df = pd.read_csv(f, delimiter=delim)
+        cols = list(df.columns)
+        if len(cols) < 2 :
+            st.write("FAILED! At least 2 columns needed. Please check your dataset")
+        else :
+            desc = st.radio("Description Column", cols)
+            message = st.radio("Template Column", cols)
+            btn_col = st.button("Submit")
+            if btn_col:
+                process_data(df, desc, message, embed=True)