Spaces:

mikesoylu
/

embed

Sleeping

mikesoylu commited on Apr 2, 2023

Commit

d1afd99

1 Parent(s): ef4c9c2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,8 +13,32 @@ class NumpyEncoder(json.JSONEncoder):
         return json.JSONEncoder.default(self, obj)
 def text_to_embedding(text):
-    embedding = model.encode(text)
-    return json.dumps(embedding, cls=NumpyEncoder)
 inputs = gr.inputs.Textbox(default="Type text here.")
 outputs = gr.outputs.Textbox()

         return json.JSONEncoder.default(self, obj)
 def text_to_embedding(text):
+    # Tokenize the input text
+    tokens = model.tokenize(text)
+    # Check if the token count exceeds the model's maximum sequence length
+    if len(tokens) > model.max_seq_length:
+        # Split the input text into chunks
+        chunks = []
+        for i in range(0, len(tokens), model.max_seq_length):
+            chunk = tokens[i:i + model.max_seq_length]
+            chunks.append(model.tokenizer.convert_tokens_to_string(chunk))
+        # Encode each chunk and store the embeddings
+        embeddings = []
+        for chunk in chunks:
+            embedding = model.encode(chunk)
+            embeddings.append(embedding)
+        # Calculate the average embedding
+        avg_embedding = np.mean(embeddings, axis=0)
+    else:
+        # If the token count is within the limit, just encode the input text
+        avg_embedding = model.encode(text)
+    return json.dumps(avg_embedding, cls=NumpyEncoder)
 inputs = gr.inputs.Textbox(default="Type text here.")
 outputs = gr.outputs.Textbox()