Spaces:

fahmiaziz
/

api-embedding

Running

App Files Files Community

fahmiaziz98 commited on Nov 2

Commit

36e672d

1 Parent(s): f435ac4

[UPDATE] Response query

Browse files

Files changed (2) hide show

src/api/routers/embedding.py +26 -15
src/config/settings.py +2 -2

src/api/routers/embedding.py CHANGED Viewed

@@ -229,43 +229,54 @@ async def create_query_embedding(
             )
             processing_time = time.time() - start_time
-            sparse_result = sparse_results[0]
-            sparse_embedding = SparseEmbedding(
-                text=request.texts[0],
-                indices=sparse_result["indices"],
-                values=sparse_result["values"],
-            )
             response = SparseEmbedResponse(
-                sparse_embedding=sparse_embedding,
                 model_id=request.model_id,
                 processing_time=processing_time,
             )
         else:
-            # Dense embedding
-            embeddings = model.embed_query(
                 texts=request.texts, prompt=request.prompt, **kwargs
             )
             processing_time = time.time() - start_time
             response = DenseEmbedResponse(
                 embeddings=embeddings,
-                dimension=len(embeddings[0]),
                 model_id=request.model_id,
                 processing_time=processing_time,
-                count=len(embeddings),
             )
-        # Cache the result
-        if cache is not None:
             cache.set(
-                texts=request.texts,
                 model_id=request.model_id,
                 result=response,
                 prompt=request.prompt,
-                **cache_key_kwargs,
             )
         return response
     except (ValidationError, ModelNotFoundError) as e:

             )
             processing_time = time.time() - start_time
+            # Convert to SparseEmbedding objects
+            sparse_embeddings = []
+            for idx, sparse_result in enumerate(sparse_results):
+                sparse_embeddings.append(
+                    SparseEmbedding(
+                        text=request.texts[idx],
+                        indices=sparse_result["indices"],
+                        values=sparse_result["values"],
+                    )
+                )
             response = SparseEmbedResponse(
+                embeddings=sparse_embeddings,
+                count=len(sparse_embeddings),
                 model_id=request.model_id,
                 processing_time=processing_time,
             )
         else:
+            # Dense batch embeddings
+            embeddings = model.embed_documents(
                 texts=request.texts, prompt=request.prompt, **kwargs
             )
             processing_time = time.time() - start_time
             response = DenseEmbedResponse(
                 embeddings=embeddings,
+                dimension=len(embeddings[0]) if embeddings else 0,
+                count=len(embeddings),
                 model_id=request.model_id,
                 processing_time=processing_time,
             )
+        # Cache small batches
+        if cache is not None and len(request.texts) <= 10:
+            cache_key = str(sorted(request.texts))
             cache.set(
+                texts=cache_key,
                 model_id=request.model_id,
                 result=response,
                 prompt=request.prompt,
+                **kwargs,
             )
+        logger.info(
+            f"Generated {len(request.texts)} embeddings "
+            f"in {processing_time:.3f}s ({len(request.texts) / processing_time:.1f} texts/s)"
+        )
         return response
     except (ValidationError, ModelNotFoundError) as e:

src/config/settings.py CHANGED Viewed

@@ -36,12 +36,12 @@ class Settings(BaseSettings):
     PRELOAD_MODELS: bool = True  # Load all models at startup
     # Request Limits
-    MAX_TEXT_LENGTH: int = 8192  # Maximum characters per text
     MAX_BATCH_SIZE: int = 100  # Maximum texts per batch request
     REQUEST_TIMEOUT: int = 30  # Request timeout in seconds
     # Cache Configuration
-    ENABLE_CACHE: bool = False  # Enable response caching (Phase 2)
     CACHE_TTL: int = 3600  # Cache time-to-live in seconds
     CACHE_MAX_SIZE: int = 1000  # Maximum cache entries

     PRELOAD_MODELS: bool = True  # Load all models at startup
     # Request Limits
+    MAX_TEXT_LENGTH: int = 32000  # Maximum characters per text
     MAX_BATCH_SIZE: int = 100  # Maximum texts per batch request
     REQUEST_TIMEOUT: int = 30  # Request timeout in seconds
     # Cache Configuration
+    ENABLE_CACHE: bool = True  # Enable response caching (Phase 2)
     CACHE_TTL: int = 3600  # Cache time-to-live in seconds
     CACHE_MAX_SIZE: int = 1000  # Maximum cache entries