Spaces:

wb-droid
/

SentenceEmbedding

Sleeping

App Files Files Community

wb-droid commited on Apr 30, 2024

Commit

fe60887

1 Parent(s): a6bffe9

use pre-built vector table for performance.

Browse files

Files changed (2) hide show

app.py +6 -14
vector_database.pkl +3 -0

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from transformers import BertModel, BertTokenizer
 #import gzip
 #import pandas as pd
 import requests
 class EmbeddingModel(nn.Module):
     def __init__(self, bertName = "bert-base-uncased"): # other bert models can also be supported
@@ -117,35 +117,27 @@ class TrainStudent(nn.Module):
 student_model=torch.load("myTextEmbeddingStudent.pt",map_location='cpu').student_model.eval()
-#new_chunk_data = []
-#new_chunk_emb = tensor([])
 def addNewConcepts(user_concepts):
     return user_concepts
 def search(input, user_concepts):
-    if user_concepts:
-        new_chunk_data = generate_chunk_data(user_concepts.split(","))
-        new_chunk_emb = generate_chunk_emb(student_model, new_chunk_data)
-        result = search_document(input, new_chunk_data, new_chunk_emb, student_model)
-    else:
-        chunk_data = generate_chunk_data(["machine learning","moon","brain"])
-        # create the embedding vector database
-        chunk_emb = generate_chunk_emb(student_model, chunk_data)
-        result = search_document(input, chunk_data, chunk_emb, student_model)
     return " ".join(result)
 with gr.Blocks() as demo:
     gr.HTML("""<h1 align="center">Sentence Embedding and Vector Database</h1>""")
     search_result = gr.Textbox(show_label=False, placeholder="Search Result", lines=8)
     with gr.Row():
         with gr.Column(scale=1):
-            new_concept_box = gr.Textbox(show_label=False, placeholder="Add new concepts", lines=8)
             #addConceptBtn = gr.Button("Add concepts")
         with gr.Column(scale=4):
             user_input = gr.Textbox(show_label=False, placeholder="Enter question on the concept...", lines=8)

 #import gzip
 #import pandas as pd
 import requests
+import pickle
 class EmbeddingModel(nn.Module):
     def __init__(self, bertName = "bert-base-uncased"): # other bert models can also be supported
 student_model=torch.load("myTextEmbeddingStudent.pt",map_location='cpu').student_model.eval()
+with open("vector_database.pkl","rb") as f:
+    vector_database=pickle.load(f)
 def addNewConcepts(user_concepts):
     return user_concepts
 def search(input, user_concepts):
+    result = search_document(input, vector_database["chunk_data"], vector_database["chunk_emb"], student_model)
     return " ".join(result)
 with gr.Blocks() as demo:
     gr.HTML("""<h1 align="center">Sentence Embedding and Vector Database</h1>""")
     search_result = gr.Textbox(show_label=False, placeholder="Search Result", lines=8)
     with gr.Row():
         with gr.Column(scale=1):
+            new_concept_box = gr.Textbox(show_label=False, placeholder="Currently supported concepts in vector database:" + str(vector_database["concepts"]), lines=8)
             #addConceptBtn = gr.Button("Add concepts")
         with gr.Column(scale=4):
             user_input = gr.Textbox(show_label=False, placeholder="Enter question on the concept...", lines=8)

vector_database.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:866d44a1dc61f3ec63382d40c3dda54f30463ed02d293631b474b86ca61178e2
+size 339130