Spaces:

Almaatla
/

fastAPI

Sleeping

Almaatla commited on Aug 9, 2024

Commit

97f5451

verified ·

1 Parent(s): 3a1f579

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -39,6 +39,37 @@ def read_root(request: Request):
 @app.post("/embed")
 def embed_strings(request: EmbedRequest):
     new_documents = request.texts
     new_embeddings = model.encode(new_documents)
     index.add(np.array(new_embeddings))

 @app.post("/embed")
 def embed_strings(request: EmbedRequest):
+    new_documents = request.texts
+    batch_size = 20
+    # Split the new_documents list into batches of 10 documents
+    batches = [new_documents[i:i+batch_size] for i in range(0, len(new_documents), batch_size)]
+    # Perform embedding for each batch
+    new_embeddings = []
+    for batch in batches:
+        batch_embeddings = model.encode(batch)
+        new_embeddings.extend(batch_embeddings)
+        print(f"embeded {batch_size} docs")
+    # Handle remaining documents less than batch_size
+    remaining_docs = len(new_documents) % batch_size
+    print(f"embedind remaining {remaining_docs} docs")
+    if remaining_docs > 0:
+        remaining_batch = new_documents[-remaining_docs:]
+        remaining_embeddings = model.encode(remaining_batch)
+        new_embeddings.extend(remaining_embeddings)
+    index.add(np.array(new_embeddings))
+    new_size = index.ntotal
+    documents.extend(new_documents)
+    print(f"End embedding {len(new_documents)} docs, new DB size: {new_size}")
+    return {
+        "message": f"{len(new_documents)} new strings embedded and added to FAISS database. New size of the database: {new_size}"
+    }
+def embed_strings_v0(request: EmbedRequest):
     new_documents = request.texts
     new_embeddings = model.encode(new_documents)
     index.add(np.array(new_embeddings))