Spaces:

DataEyond
/

Agentic-Service-Data-Eyond

Sleeping

[NOTICKET][document] add updated_at on metadata and delete vector embedding if user delete document on knowledge

#11

by sofhiaazzhr - opened 17 days ago

←

Files changed (3) hide show

src/document/document_service.py CHANGED Viewed

@@ -1,7 +1,7 @@
 """Service for managing documents."""
 from sqlalchemy.ext.asyncio import AsyncSession
-from sqlalchemy import select, delete
 from src.db.postgres.models import Document
 from src.storage.az_blob.az_blob import blob_storage
 from src.middlewares.logging import get_logger
@@ -77,6 +77,12 @@ class DocumentService:
         # Delete from blob storage
         await blob_storage.delete_file(document.blob_name)
         # Delete from database
         await db.execute(
             delete(Document).where(Document.id == document_id)

 """Service for managing documents."""
 from sqlalchemy.ext.asyncio import AsyncSession
+from sqlalchemy import select, delete, text
 from src.db.postgres.models import Document
 from src.storage.az_blob.az_blob import blob_storage
 from src.middlewares.logging import get_logger
         # Delete from blob storage
         await blob_storage.delete_file(document.blob_name)
+        # Delete vector embeddings from pgvector
+        await db.execute(
+            text("DELETE FROM langchain_pg_embedding WHERE cmetadata->'data'->>'document_id' = :doc_id"),
+            {"doc_id": document_id}
+        )
         # Delete from database
         await db.execute(
             delete(Document).where(Document.id == document_id)

src/knowledge/processing_service.py CHANGED Viewed

@@ -8,6 +8,7 @@ from src.db.postgres.models import Document as DBDocument
 from sqlalchemy.ext.asyncio import AsyncSession
 from src.middlewares.logging import get_logger
 from typing import List
 import sys
 import docx
 import pandas as pd
@@ -15,6 +16,8 @@ import pytesseract
 from pdf2image import convert_from_bytes
 from io import BytesIO
 logger = get_logger("knowledge_processing")
@@ -55,6 +58,7 @@ class KnowledgeProcessingService:
                         metadata={
                             "user_id": db_doc.user_id,
                             "source_type": "document",
                             "data": {
                                 "document_id": db_doc.id,
                                 "filename": db_doc.filename,
@@ -103,6 +107,7 @@ class KnowledgeProcessingService:
                     metadata={
                         "user_id": db_doc.user_id,
                         "source_type": "document",
                         "data": {
                             "document_id": db_doc.id,
                             "filename": db_doc.filename,
@@ -150,6 +155,7 @@ class KnowledgeProcessingService:
                 metadata={
                     "user_id": db_doc.user_id,
                     "source_type": "document",
                     "data": {
                         "document_id": db_doc.id,
                         "filename": db_doc.filename,

 from sqlalchemy.ext.asyncio import AsyncSession
 from src.middlewares.logging import get_logger
 from typing import List
+from datetime import datetime, timezone, timedelta
 import sys
 import docx
 import pandas as pd
 from pdf2image import convert_from_bytes
 from io import BytesIO
+_JAKARTA_TZ = timezone(timedelta(hours=7))
 logger = get_logger("knowledge_processing")
                         metadata={
                             "user_id": db_doc.user_id,
                             "source_type": "document",
+                            "updated_at": datetime.now(_JAKARTA_TZ).isoformat(),
                             "data": {
                                 "document_id": db_doc.id,
                                 "filename": db_doc.filename,
                     metadata={
                         "user_id": db_doc.user_id,
                         "source_type": "document",
+                        "updated_at": datetime.now(_JAKARTA_TZ).isoformat(),
                         "data": {
                             "document_id": db_doc.id,
                             "filename": db_doc.filename,
                 metadata={
                     "user_id": db_doc.user_id,
                     "source_type": "document",
+                    "updated_at": datetime.now(_JAKARTA_TZ).isoformat(),
                     "data": {
                         "document_id": db_doc.id,
                         "filename": db_doc.filename,

src/pipeline/document_pipeline/document_pipeline.py CHANGED Viewed

@@ -32,7 +32,7 @@ class DocumentPipeline:
         if file_type not in SUPPORTED_FILE_TYPES:
             raise HTTPException(
                 status_code=400,
-                detail=f"Unsupported file type. Supported: {SUPPORTED_FILE_TYPES}",
             )
         blob_name = await blob_storage.upload_file(content, file.filename, user_id)

         if file_type not in SUPPORTED_FILE_TYPES:
             raise HTTPException(
                 status_code=400,
+                detail=f"Unsupported file type. Supported: {', '.join(SUPPORTED_FILE_TYPES)}",
             )
         blob_name = await blob_storage.upload_file(content, file.filename, user_id)