Spaces:

jonathanjordan21
/

lmd_chatbot_embedding

Sleeping

jonathanjordan21 commited on Nov 2, 2023

Commit

4208ff2

1 Parent(s): 47eb45b

Change model and Add multi_label option

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,8 @@ import pandas as pd
 from sklearn.metrics.pairwise import cosine_similarity
 from InstructorEmbedding import INSTRUCTOR
-pipe = pipeline(model="facebook/bart-large-mnli")
 model = INSTRUCTOR('hkunlp/instructor-large')
 df = pd.read_csv('intent.csv', delimiter=';')
@@ -20,14 +21,14 @@ data = [
 corpus_embeddings = model.encode(data)
-def predict(question, lower_threshold, tags):
   query  = [['Represent the question for retrieving supporting documents: ',question]]
   query_embeddings = model.encode(query)
   similarities = cosine_similarity(query_embeddings,corpus_embeddings)
   retrieved_doc_id = np.argmax(similarities)
   if similarities[0][retrieved_doc_id] < float(lower_threshold):
-    ans = pipe(question, candidate_labels=[x.strip() for x in tags.split(",") if x.strip()!=""])
     ans['query_similarity_score'] = similarities[0][retrieved_doc_id]
     return ans
   return {"sequence" : data[retrieved_doc_id][-1], 'query_similarity_score' : similarities[0][retrieved_doc_id]}
@@ -37,7 +38,7 @@ def predict(question, lower_threshold, tags):
 gr.Interface(fn=predict,
-             inputs=["text", "number", "text"],
              outputs="json").launch()

 from sklearn.metrics.pairwise import cosine_similarity
 from InstructorEmbedding import INSTRUCTOR
+# pipe = pipeline(model="facebook/bart-large-mnli")
+pipe = pipeline("zero-shot-classification", model="MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7")
 model = INSTRUCTOR('hkunlp/instructor-large')
 df = pd.read_csv('intent.csv', delimiter=';')
 corpus_embeddings = model.encode(data)
+def predict(question, lower_threshold, tags, multi_label):
   query  = [['Represent the question for retrieving supporting documents: ',question]]
   query_embeddings = model.encode(query)
   similarities = cosine_similarity(query_embeddings,corpus_embeddings)
   retrieved_doc_id = np.argmax(similarities)
   if similarities[0][retrieved_doc_id] < float(lower_threshold):
+    ans = pipe(question, candidate_labels=[x.strip() for x in tags.split(",") if x.strip()!=""], multi_label=multi_label)
     ans['query_similarity_score'] = similarities[0][retrieved_doc_id]
     return ans
   return {"sequence" : data[retrieved_doc_id][-1], 'query_similarity_score' : similarities[0][retrieved_doc_id]}
 gr.Interface(fn=predict,
+             inputs=["text", "number", "text", "boolean"],
              outputs="json").launch()