Spaces:

Chatbot-TLU
/

M_chatbot

Sleeping

App Files Files Community

minh-4T commited on Apr 12

Commit

148671a

1 Parent(s): fac5584

RollBack

Browse files

Files changed (12) hide show

core/analyze_and_expand.py +2 -6
core/chunking.py +5 -5
core/collection_router_retriever.py +4 -56
core/collection_utils.py +4 -7
core/config.py +4 -4
core/document_ingest_service.py +41 -224
core/prompting.py +8 -6
core/qa_pipeline.py +54 -145
core/rerank.py +6 -13
core/retriever.py +2 -60
core/text_utils.py +7 -17
main.py +0 -4

core/analyze_and_expand.py CHANGED Viewed

@@ -126,15 +126,11 @@ def analyze_and_expand_query(question: str) -> Dict[str, Any]:
             "expanded_queries": queries
         }
-        logger.info(
-            "Phân loại: %s | Số truy vấn: %s",
-            final_result["question_type"],
-            len(final_result["expanded_queries"]),
-        )
         return final_result
     except Exception as e:
-        logger.warning("Lỗi phân tích (%s). Mặc định chuyển sang tìm kiếm.", e)
         return {
             "question_type": "simple",
             "answer": None,

             "expanded_queries": queries
         }
+        print(f"Phân loại: {final_result['question_type']} | Queries: {len(final_result['expanded_queries'])}")
         return final_result
     except Exception as e:
+        print(f" Lỗi phân tích ({e}). Mặc định chuyển sang tìm kiếm.")
         return {
             "question_type": "simple",
             "answer": None,

core/chunking.py CHANGED Viewed

@@ -28,7 +28,7 @@ LIST_PATTERNS = [
     (r"(?m)^\s*•\s+", "<LIST_BULLET>"),
 ]
-# Tách và thêm các thẻ <table> để bảo vệ cấu trúc bảng khỏi bị chia cắt trong quá trình chunking.
 def extract_and_protect_tables(text: str) -> Tuple[str, dict]:
     table_pattern = re.compile(r"(?:\|.*\|[\r\n]+)+")
     tables = {}
@@ -41,7 +41,7 @@ def extract_and_protect_tables(text: str) -> Tuple[str, dict]:
     protected_text = re.sub(table_pattern, replace_table, text)
     return protected_text, tables
-# Bảo vệ các phần tử của danh sách khỏi bị chia cắt trong quá trình chunking
 def protect_lists(text: str) -> Tuple[str, dict]:
     placeholders = {}
     protected = text
@@ -55,14 +55,14 @@ def protect_lists(text: str) -> Tuple[str, dict]:
     return protected, placeholders
-# Khôi phục các phần từ được bảo vệ về nội dung gốc bằng cách thay thế các placeholder
 def restore_placeholders(text: str, placeholders: dict) -> str:
     restored = text
     for placeholder, original in placeholders.items():
         restored = restored.replace(placeholder, original)
     return restored
-# Tách văn bản dựa trên cấu trúc được xây dựng từ đầu
 def split_by_structure(text: str) -> List[str]:
     parts = [text]
@@ -91,7 +91,7 @@ def split_by_structure(text: str) -> List[str]:
     return [part for part in parts if part.strip()]
-# Hàm chính thực hiện chunking thông minh
 def smart_chunking(docs: List) -> List:
     logger.info("Chunking theo cau truc + do dai...")
     length_splitter = RecursiveCharacterTextSplitter(

     (r"(?m)^\s*•\s+", "<LIST_BULLET>"),
 ]
 def extract_and_protect_tables(text: str) -> Tuple[str, dict]:
     table_pattern = re.compile(r"(?:\|.*\|[\r\n]+)+")
     tables = {}
     protected_text = re.sub(table_pattern, replace_table, text)
     return protected_text, tables
 def protect_lists(text: str) -> Tuple[str, dict]:
     placeholders = {}
     protected = text
     return protected, placeholders
 def restore_placeholders(text: str, placeholders: dict) -> str:
     restored = text
     for placeholder, original in placeholders.items():
         restored = restored.replace(placeholder, original)
     return restored
 def split_by_structure(text: str) -> List[str]:
     parts = [text]
     return [part for part in parts if part.strip()]
 def smart_chunking(docs: List) -> List:
     logger.info("Chunking theo cau truc + do dai...")
     length_splitter = RecursiveCharacterTextSplitter(

core/collection_router_retriever.py CHANGED Viewed

@@ -1,10 +1,8 @@
 import hashlib
 import logging
-import re
-from typing import List, Optional
 from langchain_core.documents import Document as LangChainDocument
-from qdrant_client.models import Filter, FieldCondition, HasIdCondition, MatchAny
 from .collection_utils import collection_matches_year
 from .document_db import SessionLocal, list_active_collection_names
@@ -12,47 +10,6 @@ from .document_db import SessionLocal, list_active_collection_names
 logger = logging.getLogger(__name__)
-def _build_year_filter(year_scope: Optional[str]) -> Optional[Filter]:
-    """Tạo Qdrant Filter từ year_scope (ví dụ: '2023-2024' hoặc '2023')."""
-    if not year_scope:
-        return None
-    year_targets = []
-    year_scope = year_scope.strip()
-    # Parse year_scope: có thể là "2023-2024" hoặc "2023"
-    if "-" in year_scope:
-        parts = year_scope.split("-")
-        for p in parts:
-            try:
-                year_targets.append(int(p.strip()))
-            except ValueError:
-                pass
-    else:
-        try:
-            year_targets.append(int(year_scope))
-        except ValueError:
-            pass
-    if not year_targets:
-        return None
-    # Sử dụng MatchAny để filter theo danh sách years
-    from qdrant_client.models import HasIdCondition as QdrantHasId
-    try:
-        return Filter(
-            must=[
-                FieldCondition(
-                    key="years",
-                    match=MatchAny(any=year_targets),
-                )
-            ]
-        )
-    except Exception:
-        # Fallback nếu MatchAny không work
-        return None
 class CollectionRouterRetriever:
     def __init__(
         self,
@@ -104,7 +61,7 @@ class CollectionRouterRetriever:
         return active_collections[: self.top_n_collections]
-    def _search_target_collections(self, query: str, collections: List[str], limit: int, year_scope: Optional[str] = None) -> List:
         if not collections:
             return []
@@ -114,11 +71,6 @@ class CollectionRouterRetriever:
             logger.exception("Failed to embed query for collection routing")
             return []
-        # Tạo filter Qdrant nếu có year_scope
-        year_filter = _build_year_filter(year_scope)
-        if year_filter:
-            logger.info(f"Áp dụng Qdrant Filter cho year_scope: {year_scope}")
         scored_docs = []
         for collection_name in collections:
             try:
@@ -127,10 +79,9 @@ class CollectionRouterRetriever:
                     query_vector=query_vector,
                     limit=limit,
                     with_payload=True,
-                    query_filter=year_filter,  # NEW: Áp dụng Qdrant Filter native
                 )
-            except Exception as e:
-                logger.exception(f"Qdrant search failed for collection={collection_name}: {e}")
                 continue
             for point in points:
@@ -144,11 +95,9 @@ class CollectionRouterRetriever:
                     "source_file": payload.get("filename") or payload.get("stored_name") or "",
                     "source_relpath": payload.get("object_path") or payload.get("path") or "",
                     "object_path": payload.get("object_path") or "",
-                    "source_url": payload.get("source_url") or "",  # NEW: Thêm source_url
                     "folder_key": payload.get("folder_key") or "",
                     "collection_name": collection_name,
                     "academic_year": payload.get("academic_year") or "",
-                    "years": payload.get("years") or [],  # NEW: Thêm years array
                     "chunk_index": payload.get("chunk_index"),
                     "page_number": payload.get("page_number"),
                 }
@@ -177,7 +126,6 @@ class CollectionRouterRetriever:
             query=query,
             collections=target_collections,
             limit=candidate_k,
-            year_scope=year_scope,  # NEW: Pass year_scope để Qdrant Filter
         )
         if year_scoped:

 import hashlib
 import logging
+from typing import List
 from langchain_core.documents import Document as LangChainDocument
 from .collection_utils import collection_matches_year
 from .document_db import SessionLocal, list_active_collection_names
 logger = logging.getLogger(__name__)
 class CollectionRouterRetriever:
     def __init__(
         self,
         return active_collections[: self.top_n_collections]
+    def _search_target_collections(self, query: str, collections: List[str], limit: int) -> List:
         if not collections:
             return []
             logger.exception("Failed to embed query for collection routing")
             return []
         scored_docs = []
         for collection_name in collections:
             try:
                     query_vector=query_vector,
                     limit=limit,
                     with_payload=True,
                 )
+            except Exception:
+                logger.exception("Qdrant search failed for collection=%s", collection_name)
                 continue
             for point in points:
                     "source_file": payload.get("filename") or payload.get("stored_name") or "",
                     "source_relpath": payload.get("object_path") or payload.get("path") or "",
                     "object_path": payload.get("object_path") or "",
                     "folder_key": payload.get("folder_key") or "",
                     "collection_name": collection_name,
                     "academic_year": payload.get("academic_year") or "",
                     "chunk_index": payload.get("chunk_index"),
                     "page_number": payload.get("page_number"),
                 }
             query=query,
             collections=target_collections,
             limit=candidate_k,
         )
         if year_scoped:

core/collection_utils.py CHANGED Viewed

@@ -14,13 +14,10 @@ def normalize_folder_key(folder_key: str) -> str:
 def build_collection_name(folder_key: str, prefix: str = "rag") -> str:
-    """
-    OPTIMIZED: Always return single collection name regardless of folder_key.
-    This ensures all documents go into ONE collection for deduplication and efficient querying.
-    Folder structure is preserved in payload metadata (folder_key), not as separate collections.
-    """
-    # ✅ Force single collection: always return "rag_docs"
-    return f"{prefix}_docs"
 def extract_year_tokens(value: str) -> Set[str]:

 def build_collection_name(folder_key: str, prefix: str = "rag") -> str:
+    normalized = normalize_folder_key(folder_key)
+    base = f"{prefix}_{normalized}"
+    # Qdrant collection names should stay short and simple.
+    return base[:63]
 def extract_year_tokens(value: str) -> Set[str]:

core/config.py CHANGED Viewed

@@ -39,14 +39,14 @@ GEMINI_API_KEYS = os.getenv('GEMINI_API_KEYS', '').strip()
 # Name models
 LLM_MODEL = os.getenv('LLM_MODEL', 'llama-3.1-70b-versatile')
 FAST_LLM_MODEL = os.getenv('FAST_LLM_MODEL', 'llama-3.1-8b-instant')
-EMBED_MODEL = os.getenv('EMBED_MODEL', 'bkai-foundation-models/vietnamese-bi-encoder')
-CROSS_ENCODER_MODEL = os.getenv('CROSS_ENCODER_MODEL', 'itdainb/PhoRanker')
 # Chunking and retrieval settings
 CHUNK_SIZE = int(os.getenv('CHUNK_SIZE', '800'))
 CHUNK_OVERLAP = int(os.getenv('CHUNK_OVERLAP', '150'))
-TOP_K_RESULTS = int(os.getenv('TOP_K_RESULTS', '15'))
-FINAL_TOP_K = int(os.getenv('FINAL_TOP_K', '3'))
 QDRANT_COLLECTION = os.getenv('QDRANT_COLLECTION', 'rag_docs')
 DOCUMENTS_DATABASE_URL = os.getenv('DOCUMENTS_DATABASE_URL', _default_documents_db_url())

 # Name models
 LLM_MODEL = os.getenv('LLM_MODEL', 'llama-3.1-70b-versatile')
 FAST_LLM_MODEL = os.getenv('FAST_LLM_MODEL', 'llama-3.1-8b-instant')
+EMBED_MODEL = os.getenv('EMBED_MODEL', 'BAAI/bge-m3')
+CROSS_ENCODER_MODEL = os.getenv('CROSS_ENCODER_MODEL', 'BAAI/bge-reranker-v2-m3')
 # Chunking and retrieval settings
 CHUNK_SIZE = int(os.getenv('CHUNK_SIZE', '800'))
 CHUNK_OVERLAP = int(os.getenv('CHUNK_OVERLAP', '150'))
+TOP_K_RESULTS = int(os.getenv('TOP_K_RESULTS', '10'))
+FINAL_TOP_K = int(os.getenv('FINAL_TOP_K', '5'))
 QDRANT_COLLECTION = os.getenv('QDRANT_COLLECTION', 'rag_docs')
 DOCUMENTS_DATABASE_URL = os.getenv('DOCUMENTS_DATABASE_URL', _default_documents_db_url())

core/document_ingest_service.py CHANGED Viewed

@@ -1,7 +1,5 @@
-import hashlib
 import logging
 import os
-import re
 import uuid
 from datetime import datetime, timezone
 from typing import List, Optional
@@ -20,7 +18,7 @@ from qdrant_client.models import (
 )
 from .chunking import smart_chunking
-from .config import QDRANT_API_KEY, QDRANT_COLLECTION, QDRANT_URL, SUPABASE_URL, SUPABASE_STORAGE_BUCKET
 from .document_db import Document, DocumentChunk, SessionLocal
 from .models import embeddings
 from .text_utils import clean_text
@@ -28,36 +26,7 @@ from .vectorstore import extract_academic_year, load_documents_from_file
 logger = logging.getLogger(__name__)
-ACTIVE_CODE_PATTERN = re.compile(r"(20\d{2})\s*[-_/]\s*(20\d{2})")
 _ALLOWED_EXTENSIONS = {".pdf", ".docx", ".txt"}
-_ENSURED_PAYLOAD_INDEX_COLLECTIONS = set()
-def _build_supabase_file_url(object_path: str) -> str:
-    """Tạo URL đầy đủ cho tài liệu từ Supabase Storage."""
-    if not SUPABASE_URL or not SUPABASE_STORAGE_BUCKET or not object_path:
-        return ""
-    clean_path = object_path.lstrip("/")
-    return f"{SUPABASE_URL}/storage/v1/object/public/{SUPABASE_STORAGE_BUCKET}/{clean_path}"
-def _extract_years_from_academic_year(academic_year: str) -> List[int]:
-    """Trích xuất danh sách năm từ chuỗi năm học (ví dụ '2023-2024' -> [2023, 2024])."""
-    if not academic_year or academic_year == "ALL":
-        return []
-    years = []
-    match = ACTIVE_CODE_PATTERN.search(academic_year)
-    if match:
-        try:
-            start_year = int(match.group(1))
-            end_year = int(match.group(2))
-            years = [start_year, end_year]
-        except (ValueError, IndexError):
-            pass
-    return years
 def _load_documents_for_ingest(path: str, extension: str) -> List[LangChainDocument]:
@@ -138,33 +107,13 @@ def _ensure_qdrant_collection(client: QdrantClient, vector_size: int, collection
 def _ensure_payload_indexes(client: QdrantClient, collection_name: str) -> None:
-    if collection_name in _ENSURED_PAYLOAD_INDEX_COLLECTIONS:
-        return
-    # KEYWORD indexes cho filtering nhanh
-    for field_name in ("object_path", "document_id", "content_hash"):
-        try:
-            client.create_payload_index(
-                collection_name=collection_name,
-                field_name=field_name,
-                field_schema=PayloadSchemaType.KEYWORD,
-                wait=True,
-            )
-        except Exception as e:
-            logger.warning(f"Failed to create KEYWORD index for {field_name}: {e}")
-    # INTEGER array index cho years
-    try:
         client.create_payload_index(
             collection_name=collection_name,
-            field_name="years",
-            field_schema=PayloadSchemaType.INTEGER,
             wait=True,
         )
-    except Exception as e:
-        logger.warning(f"Failed to create INTEGER index for years: {e}")
-    _ENSURED_PAYLOAD_INDEX_COLLECTIONS.add(collection_name)
 def _is_missing_payload_index_error(error: Exception) -> bool:
@@ -172,152 +121,6 @@ def _is_missing_payload_index_error(error: Exception) -> bool:
     return "Index required but not found" in message
-def _get_or_create_deduplicated_points(
-    client: QdrantClient,
-    collection_name: str,
-    chunk_docs: List[LangChainDocument],
-    vectors: List,
-    source_object_ref: str,
-    document: Document,
-    source_updated_at: Optional[str],
-    source_etag: Optional[str],
-    created_at: str,
-    effective_source_path: Optional[str] = None,
-) -> tuple[List[PointStruct], List[DocumentChunk]]:
-    """
-    Tích hợp MD5 deduplication: nếu content hash trùng, cập nhật years array thay vì tạo mới.
-    """
-    points: List[PointStruct] = []
-    db_chunk_rows: List[DocumentChunk] = []
-    for index, (chunk_doc, vector) in enumerate(zip(chunk_docs, vectors)):
-        chunk_text = chunk_doc.page_content
-        metadata = chunk_doc.metadata if isinstance(chunk_doc.metadata, dict) else {}
-        # Tính content hash
-        content_hash = hashlib.md5(chunk_text.encode('utf-8')).hexdigest()
-        # Trích académie năm học
-        academic_year = metadata.get("academic_year") or "ALL"
-        years = _extract_years_from_academic_year(academic_year)
-        # Tạo source URL
-        source_url = _build_supabase_file_url(source_object_ref)
-        # Kiểm tra xem content_hash đã tồn tại
-        existing_point_id = None
-        try:
-            existing_points = client.scroll(
-                collection_name=collection_name,
-                limit=1,
-                scroll_filter=Filter(
-                    must=[
-                        FieldCondition(
-                            key="content_hash",
-                            match=MatchValue(value=content_hash),
-                        )
-                    ]
-                ),
-            )
-            if existing_points and existing_points[0]:
-                # Nếu tìm thấy point với hash trùng
-                existing_point_id = existing_points[0][0].id
-                logger.info(f"Tìm thấy content đã tồn tại hash={content_hash[:8]}..., sẽ cập nhật years")
-        except Exception as e:
-            logger.debug(f"Không thể tìm kiếm existing points: {e}")
-        if existing_point_id:
-            # Merge years array
-            try:
-                existing_payload = client.retrieve(collection_name, [existing_point_id])[0].payload
-                existing_years = set(existing_payload.get("years", []))
-                merged_years = sorted(list(set(years) | existing_years))
-                # Update payload với years mới
-                updated_payload = {
-                    **existing_payload,
-                    "years": merged_years,
-                    "document_id": document.id,  # Update document_id nếu tài liệu mới
-                    "source_updated_at": source_updated_at or existing_payload.get("source_updated_at"),
-                }
-                # ✅ Dùng set_payload để cập nhật payload
-                client.set_payload(
-                    collection_name=collection_name,
-                    payload=updated_payload,
-                    points=[existing_point_id],
-                )
-                logger.info(f"Đã cập nhật years cho hash {content_hash[:8]}...: {merged_years}")
-                # ✅ QUAN TRỌNG: Bỏ qua tạo point mới - vì đã cập nhật point đã tồn tại
-                continue
-            except Exception as e:
-                logger.warning(f"Lỗi cập nhật years cho point đã tồn tại: {e}, sẽ tạo point mới")
-                # Fallback: tạo point mới nếu cập nhật thất bại
-                pass
-        # Tạo point mới
-        point_id = str(uuid.uuid4())
-        payload = _build_payload(
-            document, source_object_ref, chunk_text, index, metadata,
-            academic_year, years, content_hash, source_url,
-            source_updated_at, source_etag, created_at, effective_source_path
-        )
-        points.append(PointStruct(id=point_id, vector=vector, payload=payload))
-        db_chunk_rows.append(
-            DocumentChunk(
-                document_id=document.id,
-                chunk_index=index,
-                content_preview=chunk_text[:200],
-                qdrant_point_id=point_id,
-            )
-        )
-    return points, db_chunk_rows
-def _build_payload(
-    document: Document,
-    source_object_ref: str,
-    chunk_text: str,
-    index: int,
-    metadata: dict,
-    academic_year: str,
-    years: List[int],
-    content_hash: str,
-    source_url: str,
-    source_updated_at: Optional[str],
-    source_etag: Optional[str],
-    created_at: str,
-    effective_source_path: Optional[str] = None,
-) -> dict:
-    """Xây dựng payload dictionary cho point."""
-    source_name = os.path.basename(source_object_ref) if source_object_ref else document.stored_name
-    source_relpath = source_object_ref or source_name
-    return {
-        "document_id": document.id,
-        "filename": document.original_name,
-        "stored_effective_source_path or name": document.stored_name,
-        "path": document.path,
-        "object_path": source_object_ref,
-        "folder_key": document.folder_key,
-        "collection_name": document.collection_name or "",
-        "source_file": metadata.get("source_file") or source_name,
-        "source_relpath": metadata.get("source_relpath") or source_relpath,
-        "source_url": source_url,
-        "academic_year": academic_year,
-        "years": years,
-        "content_hash": content_hash,
-        "page_number": metadata.get("page_number"),
-        "source_updated_at": source_updated_at,
-        "source_etag": source_etag,
-        "chunk_index": index,
-        "created_at": created_at,
-        "content": chunk_text,
-    }
 def _delete_existing_document_points(
     client: QdrantClient,
     collection_name: str,
@@ -357,7 +160,6 @@ def _delete_existing_document_points(
             "Missing payload index detected while deleting old points in collection=%s. Rebuilding indexes and retrying once.",
             collection_name,
         )
-        _ENSURED_PAYLOAD_INDEX_COLLECTIONS.discard(collection_name)
         _ensure_payload_indexes(client, collection_name)
         client.delete(
             collection_name=collection_name,
@@ -433,30 +235,46 @@ def process_document_ingest(
         _delete_existing_document_points(client, target_collection, source_object_ref, document.id)
         created_at = datetime.now(timezone.utc).isoformat()
-        # NEW: Sử dụng deduplication logic
-        points, db_chunk_rows = _get_or_create_deduplicated_points(
-            client=client,
-            collection_name=target_collection,
-            chunk_docs=chunk_docs,
-            vectors=vectors,
-            source_object_ref=source_object_ref,
-            document=document,
-            source_updated_at=source_updated_at,
-            source_etag=source_etag,
-            created_at=created_at,
-            effective_source_path=effective_source_path,
-        )
-        # ✅ Chỉ upsert nếu có points mới (không phải cập nhật existing)
-        if points:
-            client.upsert(collection_name=target_collection, points=points, wait=True)
         db.query(DocumentChunk).filter(DocumentChunk.document_id == document.id).delete()
-        # ✅ Chỉ bulk save nếu có chunks mới
-        if db_chunk_rows:
-            db.bulk_save_objects(db_chunk_rows)
         if effective_source_path:
             document.path = effective_source_path
@@ -540,7 +358,6 @@ def delete_vectors_for_object_path(collection_name: str, object_path: str) -> bo
             "Missing payload index detected while deleting object_path in collection=%s. Rebuilding indexes and retrying once.",
             target_collection,
         )
-        _ENSURED_PAYLOAD_INDEX_COLLECTIONS.discard(target_collection)
         _ensure_payload_indexes(client, target_collection)
         client.delete(
             collection_name=target_collection,

 import logging
 import os
 import uuid
 from datetime import datetime, timezone
 from typing import List, Optional
 )
 from .chunking import smart_chunking
+from .config import QDRANT_API_KEY, QDRANT_COLLECTION, QDRANT_URL
 from .document_db import Document, DocumentChunk, SessionLocal
 from .models import embeddings
 from .text_utils import clean_text
 logger = logging.getLogger(__name__)
 _ALLOWED_EXTENSIONS = {".pdf", ".docx", ".txt"}
 def _load_documents_for_ingest(path: str, extension: str) -> List[LangChainDocument]:
 def _ensure_payload_indexes(client: QdrantClient, collection_name: str) -> None:
+    for field_name in ("object_path", "document_id"):
         client.create_payload_index(
             collection_name=collection_name,
+            field_name=field_name,
+            field_schema=PayloadSchemaType.KEYWORD,
             wait=True,
         )
 def _is_missing_payload_index_error(error: Exception) -> bool:
     return "Index required but not found" in message
 def _delete_existing_document_points(
     client: QdrantClient,
     collection_name: str,
             "Missing payload index detected while deleting old points in collection=%s. Rebuilding indexes and retrying once.",
             collection_name,
         )
         _ensure_payload_indexes(client, collection_name)
         client.delete(
             collection_name=collection_name,
         _delete_existing_document_points(client, target_collection, source_object_ref, document.id)
         created_at = datetime.now(timezone.utc).isoformat()
+        points: List[PointStruct] = []
+        db_chunk_rows: List[DocumentChunk] = []
+        for index, (chunk_doc, vector) in enumerate(zip(chunk_docs, vectors)):
+            chunk_text = chunk_doc.page_content
+            metadata = chunk_doc.metadata if isinstance(chunk_doc.metadata, dict) else {}
+            point_id = str(uuid.uuid4())
+            payload = {
+                "document_id": document.id,
+                "filename": document.original_name,
+                "stored_name": document.stored_name,
+                "path": effective_source_path or document.path,
+                "object_path": source_object_ref,
+                "folder_key": document.folder_key,
+                "collection_name": target_collection,
+                "source_file": metadata.get("source_file") or source_name,
+                "source_relpath": metadata.get("source_relpath") or source_relpath,
+                "academic_year": metadata.get("academic_year") or "ALL",
+                "page_number": metadata.get("page_number"),
+                "source_updated_at": source_updated_at,
+                "source_etag": source_etag,
+                "chunk_index": index,
+                "created_at": created_at,
+                "content": chunk_text,
+            }
+            points.append(PointStruct(id=point_id, vector=vector, payload=payload))
+            db_chunk_rows.append(
+                DocumentChunk(
+                    document_id=document.id,
+                    chunk_index=index,
+                    content_preview=chunk_text[:200],
+                    qdrant_point_id=point_id,
+                )
+            )
+        client.upsert(collection_name=target_collection, points=points, wait=True)
         db.query(DocumentChunk).filter(DocumentChunk.document_id == document.id).delete()
+        db.bulk_save_objects(db_chunk_rows)
         if effective_source_path:
             document.path = effective_source_path
             "Missing payload index detected while deleting object_path in collection=%s. Rebuilding indexes and retrying once.",
             target_collection,
         )
         _ensure_payload_indexes(client, target_collection)
         client.delete(
             collection_name=target_collection,

core/prompting.py CHANGED Viewed

@@ -85,7 +85,7 @@ Về vấn đề [Chủ đề], theo **Điều [Số]**, các trường hợp ng
     # Lấy ví dụ phù hợp (Fallback về simple nếu không khớp)
     example = examples.get(question_type, examples['simple'])
-    # TOPIC INSTRUCTION: Rào chắn ngữ cảnh (Context Guardrail)
     if topic:
         topic_instr = (
             f"\n\n **LƯU Ý ĐẶC BIỆT VỀ CHỦ ĐỀ MỞ RỘNG:**\n"
@@ -97,17 +97,19 @@ Về vấn đề [Chủ đề], theo **Điều [Số]**, các trường hợp ng
     else:
         topic_instr = ""
     if year_scope:
         year_instr = (
-            f"\n\n **RÀNG BUỘC NĂM HỌC (LƯU Ý QUAN TRỌNG):**\n"
-            f"- Người dùng đang hỏi cho năm học: **{year_scope}**.\n"
-            f"- Nếu trong `TÀI LIỆU THAM KHẢO` có nội dung khớp với năm này, hãy dùng nó làm đáp án chính.\n"
-            f"- Nếu KHÔNG CÓ nội dung đúng năm, BẮT BUỘC SỬ DỤNG tài liệu có nhãn 'Áp dụng nhiều năm' hoặc quy chế gần nhất có trong context. Khi trả lời, hãy rào trước một câu thân thiện: *'Hệ thống hiện ghi nhận quy chế dùng chung/năm [Năm của tài liệu] quy định như sau...'*. TUYỆT ĐỐI KHÔNG TỪ CHỐI trả lời nếu vẫn có bản dùng chung.\n"
         )
     else:
         year_instr = ""
-    # Gộp Prompt
     full_prompt = f"""{base_system}
 ----------------
 {example}

     # Lấy ví dụ phù hợp (Fallback về simple nếu không khớp)
     example = examples.get(question_type, examples['simple'])
+    # 3. TOPIC INSTRUCTION: Rào chắn ngữ cảnh (Context Guardrail)
     if topic:
         topic_instr = (
             f"\n\n **LƯU Ý ĐẶC BIỆT VỀ CHỦ ĐỀ MỞ RỘNG:**\n"
     else:
         topic_instr = ""
+    # [YEAR-AWARE CHANGE] Rang buoc cau tra loi theo nam hoc duoc hoi.
     if year_scope:
         year_instr = (
+            f"\n\n **RÀNG BUỘC NĂM HỌC (BẮT BUỘC):**\n"
+            f"- Người dùng đang hỏi trong phạm vi năm: **{year_scope}**.\n"
+            f"- Ưu tiên các đoạn có nhãn nguồn cùng năm trong context (ví dụ: [Năm 2022-2023 | ...]).\n"
+            f"- Nếu chưa đủ bằng chứng đúng năm, được phép dùng đoạn có nhãn 'Áp dụng nhiều năm' hoặc quy định gần nhất và phải ghi chú rõ phạm vi áp dụng.\n"
+            f"- Không kết luận 'không có dữ liệu' chỉ vì thiếu đúng nhãn năm nếu vẫn có quy định bao quát liên quan.\n"
         )
     else:
         year_instr = ""
+    # 4. Gộp Prompt
     full_prompt = f"""{base_system}
 ----------------
 {example}

core/qa_pipeline.py CHANGED Viewed

@@ -1,10 +1,10 @@
-from typing import List, Generator, Optional
 import os, re, hashlib
 import logging
 import groq
 import google.generativeai as genai
 import json
-import unicodedata
 from .models import llm
 from .config import TOP_K_RESULTS, FINAL_TOP_K
 from .rerank import advanced_rerank
@@ -12,7 +12,6 @@ from .prompting import create_advanced_prompt
 from .retriever import HybridRetriever
 from .analyze_and_expand import analyze_and_expand_query
 from .llm_utils import safe_invoke, safe_stream
-import concurrent.futures
 logger = logging.getLogger(__name__)
@@ -23,15 +22,6 @@ MAX_OUT_CHARS = 3000
 # [YEAR-AWARE CHANGE] Pattern nhan dien nam hoc trong cau hoi.
 ACADEMIC_YEAR_PATTERN = re.compile(r"\b(20\d{2})\s*[-_/]\s*(20\d{2})\b")
 SINGLE_YEAR_PATTERN = re.compile(r"\b(20\d{2})\b")
-_SOCIAL_KEYWORDS = {
-    "hello", "hi", "xin chao", "chao", "alo", "hey", "thanks", "cam on", "tam biet", "bye"
-}
-_PERSONAL_NON_DOMAIN_PATTERNS = [
-    re.compile(r"\bb(ạn|an)\s+c[oó]\s+bi[eế]t\s+t[oô]i\s+l[aà]\s+ai\b", re.IGNORECASE),
-    re.compile(r"\bb(ạn|an)\s+l[aà]\s+ai\b", re.IGNORECASE),
-    re.compile(r"\bai\s+t[aạ]o\s+ra\s+b(ạn|an)\b", re.IGNORECASE),
-    re.compile(r"\b(ăn|an)\s+c[oơ]m\s+ch(ưa|ua)\b", re.IGNORECASE),
-]
 # Quản lý API Keys cho Groq và Gemini với xoay tua tự động khi gặp lỗi hoặc hết hạn
 class AIProviderManager:
@@ -140,48 +130,6 @@ def sanitize_for_prompt(text: str) -> str:
     text = re.sub(r"\b\d{8,12}\b", "[ID]", text)
     return text.strip()
-def remove_accents(input_str: str) -> str:
-    s1 = unicodedata.normalize('NFKD', input_str).encode('ASCII', 'ignore').decode('utf-8')
-    return s1.lower()
-def _normalize_for_router(message: str) -> str:
-    compact = remove_accents(message or "")
-    compact = re.sub(r"[^\w\s]", " ", compact, flags=re.UNICODE)
-    return re.sub(r"\s+", " ", compact).strip()
-def _quick_non_domain_reply(message: str) -> Optional[str]:
-    normalized = _normalize_for_router(message)
-    if not normalized:
-        return None
-    if normalized in _SOCIAL_KEYWORDS:
-        return "Chào bạn. Mình hỗ trợ tra cứu quy chế đào tạo, bạn cần hỏi nội dung nào?"
-    for pattern in _PERSONAL_NON_DOMAIN_PATTERNS:
-        if pattern.search(normalized):
-            return "Mình không có thông tin cá nhân của bạn. Mình chỉ hỗ trợ giải đáp về quy chế đào tạo."
-    return None
-def _was_recently_prompted_for_year(history: List) -> bool:
-    if not history:
-        return False
-    reminder_snippet = "Vui lòng nhập kèm năm học để tra cứu nhanh hơn"
-    for item in reversed(history[-6:]):
-        if not isinstance(item, dict):
-            continue
-        if str(item.get("role") or "").strip().lower() != "assistant":
-            continue
-        content = str(item.get("content") or "")
-        if reminder_snippet in content:
-            return True
-    return False
 def generate_standalone_query(message: str, history: List) -> str:
     """Tái tạo câu hỏi từ lịch sử """
     if not history:
@@ -283,60 +231,24 @@ def ask_ai_improved(message: str, history: List, hybrid_retriever) -> Generator[
         yield full_response
 def ask_ai_stream_delta(message: str, history: List, hybrid_retriever) -> Generator[str, None, None]:
-    #  Kiểm tra rỗng
     if not message.strip():
-        yield "Bạn chưa nhập câu hỏi."
         return
-    #  Xử lý các câu giao tiếp/xã giao nhanh (đã được sửa lỗi dấu tiếng Việt)
-    quick_reply = _quick_non_domain_reply(message)
-    if quick_reply:
-        logger.info("Bỏ qua truy xuất tài liệu cho câu hỏi giao tiếp/ngoài phạm vi")
-        yield quick_reply
         return
-    # Song song  : generate_standalone_query + analyze_and_expand_query cùng 1 lúc, không chờ đợi lẫn nhau, giảm độ trễ tổng thể
-    logger.info(f"CÂU HỎI GỐC: {message}")
-    try:
-        with concurrent.futures.ThreadPoolExecutor(max_workers=2) as executor:
-            # Call 1: Tạo standalone question từ history
-            future_standalone = executor.submit(
-                generate_standalone_query,
-                message,
-                history
-            )
-            # Call 2: Phân loại & mở rộng (song parallel)
-            # Dùng message gốc luôn, LLM sẽ handle context từ message
-            future_classify = executor.submit(
-                analyze_and_expand_query,
-                message  # ✅ Dùng message gốc, không chờ standalone xong
-            )
-            # Chờ cả 2 xong (timeout 15s)
-            question = future_standalone.result(timeout=15)
-            processed_data = future_classify.result(timeout=15)
-    except concurrent.futures.TimeoutError:
-        logger.warning("Timeout khi gọi LLM song parallel, fallback...")
-        question = message
-        processed_data = {
-            "question_type": "simple",
-            "answer": None,
-            "expanded_queries": [message]
-        }
-    except Exception as e:
-        logger.warning(f"Lỗi parallel execution: {e}, fallback...")
-        question = message
-        processed_data = {
-            "question_type": "simple",
-            "answer": None,
-            "expanded_queries": [message]
-        }
     requested_year_range, mentioned_years = detect_requested_year(f"{message}\n{question}")
-    year_scope_hint = requested_year_range or (", ".join(sorted(mentioned_years)) if mentioned_years else None)
     if processed_data.get("question_type") == "normal":
         ans = processed_data.get("answer") or "Chào bạn 👋 Mình hỗ trợ tra cứu quy chế đào tạo."
@@ -347,57 +259,57 @@ def ask_ai_stream_delta(message: str, history: List, hybrid_retriever) -> Genera
     queries = processed_data['expanded_queries']
     logger.info(f"Các truy vấn tìm kiếm: {queries}")
-    def fetch_docs(year_hint):
-        docs_temp = []
-        seen_temp = set()
-        def single_search(query):
-            current_alpha = 0.4 if "CNTT" in query.upper() else 0.5
-            return hybrid_retriever.search(query, k=TOP_K_RESULTS, alpha=current_alpha, year_scope=year_hint)
-        # Bắn đồng loạt các truy vấn cùng 1 lúc
-        with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
-            results = executor.map(single_search, queries)
-        for retrieved in results:
-            for doc in retrieved:
-                # Tối ưu: Dùng id của Qdrant (nếu có) hoặc hash nội dung
-                content_hash = hashlib.sha256(doc.page_content.encode("utf-8")).hexdigest()
-                if content_hash not in seen_temp:
-                    docs_temp.append(doc)
-                    seen_temp.add(content_hash)
-        return docs_temp
-    # Tìm tài liệu
-    # Cố gắng tìm tài liệu khớp chính xác với năm học người dùng nhắc đến
-    all_docs = fetch_docs(year_scope_hint)
-    # Nếu lớp 1 tìm không ra hoặc người dùng hoàn toàn không nhập năm, hệ thống sẽ tự động hạ chuẩn, tìm trên toàn bộ cơ sở dữ liệu chung (ALL)
-    if not all_docs and year_scope_hint:
-        logger.info(f"Bộ lọc năm '{year_scope_hint}' quá gắt không ra kết quả. Tự động Fallback tìm trên bản chung...")
-        year_scope_hint = None  # Reset lại biến hint để quét toàn bộ VectorDB
-        all_docs = fetch_docs(None)
     logger.info(f"Tìm thấy tổng {len(all_docs)} documents.")
-    # Xử lý lịch sự nếu Vector DB thực sự "bó tay"
     if not all_docs:
-        yield f"Dạ, hiện tại hệ thống không tìm thấy quy định nào liên quan đến vấn đề này. Bạn có thể dùng các từ khóa mang tính hành chính hơn được không ạ?"
         return
-    # Rerank lại kết quả để chống ảo giác
     final_docs = advanced_rerank(question, all_docs, top_k=FINAL_TOP_K)
-    # Gắn nhãn năm học vào Context cho LLM đọc
     context_parts = []
     total_chars = 0
     for doc in final_docs:
         page = doc.metadata.get('page_number', 'N/A')
         file_name = doc.metadata.get('source_file') or doc.metadata.get('source')
         doc_year = infer_doc_academic_year(doc)
         year_label = f"Năm {doc_year}" if doc_year != "ALL" else "Áp dụng nhiều năm"
         source = f"[{year_label} | {os.path.basename(file_name)} | Trang {page}]" if file_name else f"[{year_label} | Trang {page}]"
         block = f"{source}\n{doc.page_content}"
         if total_chars + len(block) > MAX_CONTEXT_CHARS:
             break
@@ -407,14 +319,12 @@ def ask_ai_stream_delta(message: str, history: List, hybrid_retriever) -> Genera
     context = "\n\n---\n\n".join(context_parts)
     topic_hint = processed_data.get('topic') or processed_data.get('root_question') or question
-    # Truyền year_scope_hint vào prompt để LLM biết đường rào đón
-    prompt = create_advanced_prompt(question, context, question_type, topic_hint, year_scope=year_scope_hint)
     logger.info("Đang tạo câu trả lời cuối cùng ...")
     success = False
-    # Streaming qua Groq (Có xoay tua khi gặp lỗi 429)
     for _ in range(len(api_manager.groq_keys)):
         try:
             client = api_manager.get_groq_client()
@@ -436,7 +346,7 @@ def ask_ai_stream_delta(message: str, history: List, hybrid_retriever) -> Genera
             logger.error(f"Lỗi Groq: {e}")
             break
-    # Streaming dự phòng qua Gemini
     if not success:
         logger.warning("Chuyển sang Gemini ...")
         for _ in range(max(1, len(api_manager.gemini_keys))):
@@ -453,6 +363,5 @@ def ask_ai_stream_delta(message: str, history: List, hybrid_retriever) -> Genera
                 api_manager.rotate_gemini()
                 logger.error(f"Lỗi Gemini: {e}")
-    # Báo lỗi khi cả 2 API đều sập
     if not success:
-        yield "Đã xảy ra lỗi hệ thống hoặc quá tải API. Vui lòng thử lại sau giây lát!"

+from typing import List, Generator
 import os, re, hashlib
 import logging
 import groq
 import google.generativeai as genai
 import json
 from .models import llm
 from .config import TOP_K_RESULTS, FINAL_TOP_K
 from .rerank import advanced_rerank
 from .retriever import HybridRetriever
 from .analyze_and_expand import analyze_and_expand_query
 from .llm_utils import safe_invoke, safe_stream
 logger = logging.getLogger(__name__)
 # [YEAR-AWARE CHANGE] Pattern nhan dien nam hoc trong cau hoi.
 ACADEMIC_YEAR_PATTERN = re.compile(r"\b(20\d{2})\s*[-_/]\s*(20\d{2})\b")
 SINGLE_YEAR_PATTERN = re.compile(r"\b(20\d{2})\b")
 # Quản lý API Keys cho Groq và Gemini với xoay tua tự động khi gặp lỗi hoặc hết hạn
 class AIProviderManager:
     text = re.sub(r"\b\d{8,12}\b", "[ID]", text)
     return text.strip()
 def generate_standalone_query(message: str, history: List) -> str:
     """Tái tạo câu hỏi từ lịch sử """
     if not history:
         yield full_response
 def ask_ai_stream_delta(message: str, history: List, hybrid_retriever) -> Generator[str, None, None]:
     if not message.strip():
+        yield " Bạn chưa nhập câu hỏi."
         return
+    if message.strip().lower() in {"hello", "hi", "xin chào", "chào"}:
+        yield "Chào bạn 👋 Mình hỗ trợ tra cứu quy chế đào tạo. Bạn cần hỏi điều gì?"
         return
+    logger.info(f" CÂU HỎI GỐC: {message}")
+    question = generate_standalone_query(message, history)
+    # [YEAR-AWARE CHANGE] Xac dinh pham vi nam ma nguoi dung yeu cau.
     requested_year_range, mentioned_years = detect_requested_year(f"{message}\n{question}")
+    if requested_year_range:
+        logger.info(f"Lọc theo năm học yêu cầu: {requested_year_range}")
+    elif mentioned_years:
+        logger.info(f"Lọc theo năm được nhắc tới: {sorted(mentioned_years)}")
+    processed_data = analyze_and_expand_query(question)
     if processed_data.get("question_type") == "normal":
         ans = processed_data.get("answer") or "Chào bạn 👋 Mình hỗ trợ tra cứu quy chế đào tạo."
     queries = processed_data['expanded_queries']
     logger.info(f"Các truy vấn tìm kiếm: {queries}")
+    all_docs: List = []
+    seen = set()
+    year_scope_hint = requested_year_range or (", ".join(sorted(mentioned_years)) if mentioned_years else None)
+    for query in queries:
+        #Giữ nguyên logic alpha ngành CNTT của Minh
+        current_alpha = 0.4 if "CNTT" in query.upper() else 0.5
+        docs = hybrid_retriever.search(
+            query,
+            k=TOP_K_RESULTS,
+            alpha=current_alpha,
+            year_scope=year_scope_hint,
+        )
+        for doc in docs:
+            content_hash = hashlib.sha256(doc.page_content.encode("utf-8")).hexdigest()
+            if content_hash not in seen:
+                all_docs.append(doc)
+                seen.add(content_hash)
     logger.info(f"Tìm thấy tổng {len(all_docs)} documents.")
     if not all_docs:
+        yield "Không tìm thấy thông tin liên quan trong tài liệu."
         return
+    # [YEAR-AWARE CHANGE] Lọc theo năm nhưng vẫn fallback nếu không có tài liệu đúng năm.
+    year_scope = None
+    year_filter_requested = bool(requested_year_range or mentioned_years)
+    year_filtered_docs = filter_docs_by_year(all_docs, requested_year_range, mentioned_years)
+    if year_filter_requested:
+        if year_filtered_docs:
+            if len(year_filtered_docs) != len(all_docs):
+                logger.info(f"Đã lọc theo năm: còn {len(year_filtered_docs)}/{len(all_docs)} documents")
+            all_docs = year_filtered_docs
+            if requested_year_range:
+                year_scope = requested_year_range
+            elif mentioned_years:
+                year_scope = ", ".join(sorted(mentioned_years))
+        else:
+            logger.warning("Không tìm thấy tài liệu đúng năm yêu cầu, fallback sang tập tài liệu tổng quát")
     final_docs = advanced_rerank(question, all_docs, top_k=FINAL_TOP_K)
     context_parts = []
     total_chars = 0
     for doc in final_docs:
         page = doc.metadata.get('page_number', 'N/A')
         file_name = doc.metadata.get('source_file') or doc.metadata.get('source')
+        # [YEAR-AWARE CHANGE] Gan nhan nam trong context de LLM bam dung nguon.
         doc_year = infer_doc_academic_year(doc)
         year_label = f"Năm {doc_year}" if doc_year != "ALL" else "Áp dụng nhiều năm"
         source = f"[{year_label} | {os.path.basename(file_name)} | Trang {page}]" if file_name else f"[{year_label} | Trang {page}]"
         block = f"{source}\n{doc.page_content}"
         if total_chars + len(block) > MAX_CONTEXT_CHARS:
             break
     context = "\n\n---\n\n".join(context_parts)
     topic_hint = processed_data.get('topic') or processed_data.get('root_question') or question
+    prompt = create_advanced_prompt(question, context, question_type, topic_hint, year_scope=year_scope)
     logger.info("Đang tạo câu trả lời cuối cùng ...")
     success = False
+    # Thử với Groq
     for _ in range(len(api_manager.groq_keys)):
         try:
             client = api_manager.get_groq_client()
             logger.error(f"Lỗi Groq: {e}")
             break
+    # Dự phòng sang Gemini (nếu Groq lỗi hoặc hết key)
     if not success:
         logger.warning("Chuyển sang Gemini ...")
         for _ in range(max(1, len(api_manager.gemini_keys))):
                 api_manager.rotate_gemini()
                 logger.error(f"Lỗi Gemini: {e}")
     if not success:
+        yield "Đã xảy ra lỗi hệ thống hoặc quá tải. Vui lòng thử lại sau giây lát!"

core/rerank.py CHANGED Viewed

@@ -1,22 +1,15 @@
 from typing import List
-import logging
 from .models import cross_encoder
-MAX_RERANK_CHARS = 800
-logger = logging.getLogger(__name__)
 def advanced_rerank(question: str, docs: List, top_k: int = 5) -> List:
     if not docs:
         return []
-    MAX_DOCS_TO_RERANK = 15
-    pruned_docs = docs[:MAX_DOCS_TO_RERANK]
-    logger.info("Đang rerank %s tài liệu với Cross-Encoder...", len(pruned_docs))
-    pairs = [(question, (doc.page_content or "")[:MAX_RERANK_CHARS]) for doc in pruned_docs]
-    scores = cross_encoder.predict(pairs, show_progress_bar=False)
-    ranked = sorted(zip(scores, pruned_docs), key=lambda x: x[0], reverse=True)
-    logger.info("Top 3 điểm: %s", [f"{s:.3f}" for s, _ in ranked[:3]])
     return [doc for score, doc in ranked[:top_k]]

 from typing import List
 from .models import cross_encoder
+MAX_RERANK_CHARS = 1200
 def advanced_rerank(question: str, docs: List, top_k: int = 5) -> List:
     if not docs:
         return []
+    print(f"Đang rerank {len(docs)} documents với Cross-Encoder...")
+    pairs = [(question, (doc.page_content or "")[:MAX_RERANK_CHARS]) for doc in docs]
+    scores = cross_encoder.predict(pairs)
+    ranked = sorted(zip(scores, docs), key=lambda x: x[0], reverse=True)
+    print(f" Top 3 scores: {[f'{s:.3f}' for s, _ in ranked[:3]]}")
     return [doc for score, doc in ranked[:top_k]]

core/retriever.py CHANGED Viewed

@@ -13,57 +13,6 @@ class HybridRetriever:
         self.rrf_c = 60
         print(" BM25 sẵn sàng!")
-    @staticmethod
-    def _filter_by_year_scope(documents: List, year_scope: str | None) -> List:
-        """Filter documents theo year_scope (ví dụ: '2023-2024' hoặc '2023')."""
-        if not year_scope:
-            return documents
-        filtered = []
-        year_targets = set()
-        # Parse year_scope: có thể là "2023-2024" hoặc "2023"
-        if "-" in year_scope:
-            parts = year_scope.split("-")
-            try:
-                year_targets = {int(p.strip()) for p in parts if p.strip()}
-            except ValueError:
-                return documents
-        else:
-            try:
-                year_targets = {int(year_scope.strip())}
-            except ValueError:
-                return documents
-        for doc in documents:
-            metadata = doc.metadata if isinstance(doc.metadata, dict) else {}
-            # Check years array (mới)
-            doc_years = metadata.get("years", [])
-            if isinstance(doc_years, list) and any(y in year_targets for y in doc_years):
-                filtered.append(doc)
-                continue
-            # Check academic_year string (cũ, để backwards compatibility)
-            academic_year = metadata.get("academic_year", "")
-            if academic_year and academic_year != "ALL":
-                doc_year_tokens = set()
-                for potential_year in academic_year.split("-"):
-                    try:
-                        doc_year_tokens.add(int(potential_year.strip()))
-                    except ValueError:
-                        pass
-                if doc_year_tokens.intersection(year_targets):
-                    filtered.append(doc)
-                    continue
-            # Include ALL documents không có year info
-            if not doc_years and academic_year == "ALL":
-                filtered.append(doc)
-        return filtered if filtered else documents
     @staticmethod
     def _doc_key(doc) -> str:
         metadata = doc.metadata if isinstance(doc.metadata, dict) else {}
@@ -74,6 +23,7 @@ class HybridRetriever:
         return f"{source}|{page}|{digest}"
     def search(self, query: str, k: int = 10, alpha: float = 0.6, year_scope: str | None = None) -> List:
         if not self.documents or k <= 0:
             return []
@@ -84,15 +34,7 @@ class HybridRetriever:
         # Lấy top k từ BM25
         tokenized_query = query.lower().split()
         candidate_k = min(max(k * 4, k), len(self.documents))
-        # Filter documents theo year_scope nếu có
-        docs_to_search = self.documents
-        if year_scope:
-            docs_to_search = self._filter_by_year_scope(self.documents, year_scope)
-            if not docs_to_search:
-                docs_to_search = self.documents  # Fallback nếu không có doc match year
-        bm25_top_docs = self.bm25.get_top_n(tokenized_query, docs_to_search, n=candidate_k)
         bm25_ranked = {}
         all_retrieved = {}

         self.rrf_c = 60
         print(" BM25 sẵn sàng!")
     @staticmethod
     def _doc_key(doc) -> str:
         metadata = doc.metadata if isinstance(doc.metadata, dict) else {}
         return f"{source}|{page}|{digest}"
     def search(self, query: str, k: int = 10, alpha: float = 0.6, year_scope: str | None = None) -> List:
+        del year_scope
         if not self.documents or k <= 0:
             return []
         # Lấy top k từ BM25
         tokenized_query = query.lower().split()
         candidate_k = min(max(k * 4, k), len(self.documents))
+        bm25_top_docs = self.bm25.get_top_n(tokenized_query, self.documents, n=candidate_k)
         bm25_ranked = {}
         all_retrieved = {}

core/text_utils.py CHANGED Viewed

@@ -1,34 +1,24 @@
 import re
-#Compile regex patterns một lần toàn cục - tránh recompile mỗi lần gọi
-_HYPHENATED_WORD_PATTERN = re.compile(r'(\w+)-\s*\n\s*(\w+)')
-_INVALID_CHARS_PATTERN = re.compile(r'[^\w\s\.,;:!?\-$$\"\'\À-ỹ\n\|<>]')
-_MULTIPLE_SPACES_PATTERN = re.compile(r'[ \t]+')
-_SPACE_BEFORE_NEWLINE_PATTERN = re.compile(r' +\n')
-_SPACE_AFTER_NEWLINE_PATTERN = re.compile(r'\n +')
-_MULTIPLE_NEWLINES_PATTERN = re.compile(r'\n{3,}')
-_SPACE_BEFORE_PUNCTUATION_PATTERN = re.compile(r'\s+([.,;:!?])')
 def clean_text(text: str) -> str:
     if not text or not text.strip():
         return ""
     # Nối các từ bị gãy ngang do xuống dòng
-    text = _HYPHENATED_WORD_PATTERN.sub(r'\1\2', text)
     # \| và < > vào để bảo vệ khung Bảng Markdown và các Placeholder
-    text = _INVALID_CHARS_PATTERN.sub(' ', text)
     # Chuẩn hóa khoảng trắng
-    text = _MULTIPLE_SPACES_PATTERN.sub(' ', text)
-    text = _SPACE_BEFORE_NEWLINE_PATTERN.sub('\n', text)
-    text = _SPACE_AFTER_NEWLINE_PATTERN.sub('\n', text)
     # Giới hạn tối đa 2 dòng trống liên tiếp
-    text = _MULTIPLE_NEWLINES_PATTERN.sub('\n\n', text)
     # Sửa lỗi dư khoảng trắng trước dấu câu
-    text = _SPACE_BEFORE_PUNCTUATION_PATTERN.sub(r'\1', text)
     return text.strip()

 import re
 def clean_text(text: str) -> str:
     if not text or not text.strip():
         return ""
     # Nối các từ bị gãy ngang do xuống dòng
+    text = re.sub(r'(\w+)-\s*\n\s*(\w+)', r'\1\2', text)
     # \| và < > vào để bảo vệ khung Bảng Markdown và các Placeholder
+    text = re.sub(r'[^\w\s\.,;:!?\-$$\"\'\À-ỹ\n\|<>]', ' ', text)
     # Chuẩn hóa khoảng trắng
+    text = re.sub(r'[ \t]+', ' ', text)
+    text = re.sub(r' +\n', '\n', text)
+    text = re.sub(r'\n +', '\n', text)
     # Giới hạn tối đa 2 dòng trống liên tiếp
+    text = re.sub(r'\n{3,}', '\n\n', text)
     # Sửa lỗi dư khoảng trắng trước dấu câu
+    text = re.sub(r'\s+([.,;:!?])', r'\1', text)
     return text.strip()

main.py CHANGED Viewed

@@ -37,10 +37,6 @@ from api.admin_sync_router import router as admin_sync_router
 # Hàm log lỗi an toàn
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-logging.getLogger("httpx").setLevel(logging.WARNING)
-logging.getLogger("httpcore").setLevel(logging.WARNING)
-logging.getLogger("qdrant_client").setLevel(logging.WARNING)
-logging.getLogger("sentence_transformers").setLevel(logging.WARNING)
 MAX_HISTORY_MESSAGES = int(os.getenv("MAX_HISTORY_MESSAGES", "20"))
 POOL_MIN_SIZE = int(os.getenv("DB_POOL_MIN_SIZE", "1"))
 POOL_MAX_SIZE = int(os.getenv("DB_POOL_MAX_SIZE", "10"))

 # Hàm log lỗi an toàn
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 MAX_HISTORY_MESSAGES = int(os.getenv("MAX_HISTORY_MESSAGES", "20"))
 POOL_MIN_SIZE = int(os.getenv("DB_POOL_MIN_SIZE", "1"))
 POOL_MAX_SIZE = int(os.getenv("DB_POOL_MAX_SIZE", "10"))