Spaces:

TradaAI
/

Chatopus

Running

App Files Files Community

VietCat commited on Jul 7, 2025

Commit

6723e05

1 Parent(s): 329eb9f

fix metadata

Browse files

Files changed (3) hide show

app/gemini_client.py +3 -3
app/law_document_chunker.py +25 -9
app/main.py +1 -0

app/gemini_client.py CHANGED Viewed

@@ -103,7 +103,7 @@ class GeminiClient:
             logger.error(f"[GEMINI] Error counting tokens: {e}")
             return 0
-    def create_embedding(self, text: str, model: Optional[str] = None) -> list:
         last_error = None
         max_retries = 3
@@ -117,13 +117,13 @@ class GeminiClient:
                 if not use_model:
                     raise ValueError("No model specified for embedding")
-                logger.info(f"[GEMINI][EMBEDDING] Using model={use_model} (requested={model}, default={default_model})")
                 configure(api_key=key)
                 response = embed_content(
                     model=use_model,
                     content=text,
-                    task_type="retrieval_query"
                 )
                 self.limit_manager.log_request(key, use_model, success=True)

             logger.error(f"[GEMINI] Error counting tokens: {e}")
             return 0
+    def create_embedding(self, text: str, model: Optional[str] = None, task_type: str = "retrieval_query") -> list:
         last_error = None
         max_retries = 3
                 if not use_model:
                     raise ValueError("No model specified for embedding")
+                logger.info(f"[GEMINI][EMBEDDING] Using model={use_model} (requested={model}, default={default_model}), task_type={task_type}")
                 configure(api_key=key)
                 response = embed_content(
                     model=use_model,
                     content=text,
+                    task_type=task_type
                 )
                 self.limit_manager.log_request(key, use_model, success=True)

app/law_document_chunker.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import re
 import os
 import uuid
-from typing import List, Dict, Optional, Tuple
 from dataclasses import dataclass
 from loguru import logger
 from .supabase_db import SupabaseClient
@@ -30,6 +30,7 @@ class LawDocumentChunker:
         settings = get_settings()
         self.supabase_client = SupabaseClient(settings.supabase_url, settings.supabase_key)
         self.embedding_client = EmbeddingClient()
         # Regex patterns cho các cấp độ cấu trúc - SỬA LẠI ĐỂ CHÍNH XÁC HƠN
         # Đảm bảo mỗi pattern có đúng số group
@@ -417,17 +418,14 @@ class LawDocumentChunker:
         for i, chunk in enumerate(chunks, 1):
             try:
-                # # Tạo embedding
-                # embedding = await self.embedding_client.create_embedding(chunk.content)
-                # # Tạo context_summary bằng LLM
-                # context_summary = await self._create_context_summary_with_llm(chunk.content, chunk)
                 # Chuẩn bị data cho Supabase
                 chunk_dict = {
                     'id': chunk.id,
                     'content': chunk.content,
-                    'embedding': [0.0] * 768,  # Dummy embedding vector 768 chiều cho Supabase
                     'vanbanid': chunk.vanbanid,
                     'cha': chunk.cha,
                     'document_title': chunk.document_title,
@@ -435,7 +433,7 @@ class LawDocumentChunker:
                     'article_title': chunk.article_title,
                     'clause_number': chunk.clause_number,
                     'sub_clause_letter': chunk.sub_clause_letter,
-                    'context_summary': f"Structure: Test | Semantic: Test"  # Test context_summary
                 }
                 # Lưu ngay lập tức vào Supabase
@@ -508,4 +506,22 @@ class LawDocumentChunker:
         except Exception as e:
             logger.error(f"[CHUNKER] Error processing document {document_id}: {e}") ##
-            return False

 import re
 import os
 import uuid
+from typing import List, Dict, Optional, Tuple, Any
 from dataclasses import dataclass
 from loguru import logger
 from .supabase_db import SupabaseClient
         settings = get_settings()
         self.supabase_client = SupabaseClient(settings.supabase_url, settings.supabase_key)
         self.embedding_client = EmbeddingClient()
+        self.llm_client: Optional[Any] = None
         # Regex patterns cho các cấp độ cấu trúc - SỬA LẠI ĐỂ CHÍNH XÁC HƠN
         # Đảm bảo mỗi pattern có đúng số group
         for i, chunk in enumerate(chunks, 1):
             try:
+                # Tạo embedding
+                embedding = await self.embedding_client.create_embedding(chunk.content, task_type="retrieval_document")
                 # Chuẩn bị data cho Supabase
                 chunk_dict = {
                     'id': chunk.id,
                     'content': chunk.content,
+                    'embedding': embedding if embedding is not None else [0.0] * 768,  # Sử dụng embedding thực tế nếu có
                     'vanbanid': chunk.vanbanid,
                     'cha': chunk.cha,
                     'document_title': chunk.document_title,
                     'article_title': chunk.article_title,
                     'clause_number': chunk.clause_number,
                     'sub_clause_letter': chunk.sub_clause_letter,
+                    'context_summary': f"Structure: {chunk.context_summary}|Semantic: {chunk.content}"
                 }
                 # Lưu ngay lập tức vào Supabase
         except Exception as e:
             logger.error(f"[CHUNKER] Error processing document {document_id}: {e}") ##
+            return False
+    async def _create_semantic_summary_with_llm(self, chunk_content: str) -> str:
+        """
+        Sinh semantic summary ngắn gọn, súc tích cho chunk bằng LLM.
+        """
+        if not hasattr(self, "llm_client") or self.llm_client is None:
+            logger.warning("[CHUNKER] llm_client chưa được gán, bỏ qua semantic summary.")
+            return ""
+        prompt = (
+            "Tóm tắt thật ngắn gọn, súc tích nội dung luật sau (1-2 câu, không lặp lại tiêu đề, không giải thích):\n"
+            f"{chunk_content.strip()}"
+        )
+        try:
+            summary = await self.llm_client.generate_text(prompt)
+            return summary.strip() if summary else ""
+        except Exception as e:
+            logger.error(f"[CHUNKER] Lỗi khi sinh semantic summary bằng LLM: {e}")
+            return ""

app/main.py CHANGED Viewed

@@ -77,6 +77,7 @@ reranker = Reranker()
 # Khởi tạo LawDocumentChunker
 law_chunker = LawDocumentChunker()
 logger.info("[STARTUP] Mount health router...")
 app.include_router(health_router)

 # Khởi tạo LawDocumentChunker
 law_chunker = LawDocumentChunker()
+law_chunker.llm_client = llm_client
 logger.info("[STARTUP] Mount health router...")
 app.include_router(health_router)