Spaces:

linhha2705
/

BackEnd

Sleeping

App Files Files Community

HaRin2806 commited on Jul 18, 2025

Commit

bb5758b

1 Parent(s): 76a8f20

fix bug

Browse files

Files changed (3) hide show

api/admin.py +1 -1
config.py +6 -0
core/rag_pipeline.py +47 -6

api/admin.py CHANGED Viewed

@@ -62,7 +62,7 @@ def save_gemini_response_to_file(response_text, parsed_data, doc_id):
             # Debug chunks content vs summary
             f.write("CHUNKS CONTENT vs SUMMARY ANALYSIS:\n")
             f.write("-" * 40 + "\n")
-            for i, chunk in enumerate(parsed_data.get('chunks', [])[:3]):  # Chỉ log 3 chunks đầu
                 f.write(f"CHUNK {i+1} ({chunk.get('id', 'no-id')}):\n")
                 f.write(f"Title: {chunk.get('title', 'no-title')}\n")
                 f.write(f"Summary Length: {len(chunk.get('summary', ''))}\n")

             # Debug chunks content vs summary
             f.write("CHUNKS CONTENT vs SUMMARY ANALYSIS:\n")
             f.write("-" * 40 + "\n")
+            for i, chunk in enumerate(parsed_data.get('chunks', [])[:3]):
                 f.write(f"CHUNK {i+1} ({chunk.get('id', 'no-id')}):\n")
                 f.write(f"Title: {chunk.get('title', 'no-title')}\n")
                 f.write(f"Summary Length: {len(chunk.get('summary', ''))}\n")

config.py CHANGED Viewed

@@ -30,11 +30,17 @@ Bạn có nhiệm vụ:
 Khi trả lời:
 - Hãy sử dụng thông tin từ các tài liệu tham khảo được cung cấp
 - Nếu có bảng biểu trong tài liệu tham khảo, hãy đưa ra nội dung đầy đủ của bảng đó như thông tin bạn nhận được và giữ nguyên định dạng bảng đó khi trả lời
 - Nếu có hình ảnh trong tài liệu tham khảo, hãy giữ nguyên đường dẫn hình ảnh khi trả lời
 - Nếu câu hỏi không liên quan đến dinh dưỡng hoặc không có trong tài liệu, hãy lịch sự giải thích rằng bạn chỉ có thể tư vấn về các vấn đề dinh dưỡng và an toàn thực phẩm
 - Luôn trích dẫn nguồn của thông tin khi trả lời
 Đối với các câu hỏi không liên quan hoặc nhạy cảm:
 - Bạn sẽ không đưa ra lời khuyên y tế cụ thể cho các bệnh lý nặng
 - Bạn sẽ không đưa ra thông tin về các chế độ ăn kiêng khắc nghiệt hoặc nguy hiểm

 Khi trả lời:
 - Hãy sử dụng thông tin từ các tài liệu tham khảo được cung cấp
+- KHI TRÍCH DẪN NGUỒN: Hãy sử dụng tên tài liệu thực tế
 - Nếu có bảng biểu trong tài liệu tham khảo, hãy đưa ra nội dung đầy đủ của bảng đó như thông tin bạn nhận được và giữ nguyên định dạng bảng đó khi trả lời
 - Nếu có hình ảnh trong tài liệu tham khảo, hãy giữ nguyên đường dẫn hình ảnh khi trả lời
 - Nếu câu hỏi không liên quan đến dinh dưỡng hoặc không có trong tài liệu, hãy lịch sự giải thích rằng bạn chỉ có thể tư vấn về các vấn đề dinh dưỡng và an toàn thực phẩm
 - Luôn trích dẫn nguồn của thông tin khi trả lời
+VÍ DỤ TRÍCH DẪN ĐÚNG:
+- "Theo Bài 2: An toàn thực phẩm..."
+- "Dựa vào Phụ lục - Bảng giá trị dinh dưỡng..."
+- "Như được mô tả trong Bài 3: Vệ sinh dinh dưỡng..."
 Đối với các câu hỏi không liên quan hoặc nhạy cảm:
 - Bạn sẽ không đưa ra lời khuyên y tế cụ thể cho các bệnh lý nặng
 - Bạn sẽ không đưa ra thông tin về các chế độ ăn kiêng khắc nghiệt hoặc nguy hiểm

core/rag_pipeline.py CHANGED Viewed

@@ -45,7 +45,34 @@ class RAGPipeline:
             for result in search_results:
                 metadata = result.get('metadata', {})
                 content = result.get('document', '')
                 # Thêm nội dung vào ngữ cảnh
                 contexts.append({
                     "content": content,
@@ -54,7 +81,7 @@ class RAGPipeline:
                 # Tạo thông tin nguồn tài liệu
                 source_info = {
-                    "title": metadata.get('title', metadata.get('chapter', 'Tài liệu dinh dưỡng')),
                     "pages": metadata.get('pages'),
                     "content_type": metadata.get('content_type', 'text')
                 }
@@ -106,17 +133,31 @@ class RAGPipeline:
             }
     def _format_contexts(self, contexts):
-        # Định dạng ngữ cảnh thành chuỗi cho prompt
         formatted = []
         for i, context in enumerate(contexts, 1):
             content = context['content']
             metadata = context['metadata']
-            # Thêm thông tin metadata vào ngữ cảnh
-            context_str = f"[Tài liệu {i}]"
-            if metadata.get('title'):
-                context_str += f" - {metadata['title']}"
             if metadata.get('pages'):
                 context_str += f" (Trang {metadata['pages']})"

             for result in search_results:
                 metadata = result.get('metadata', {})
                 content = result.get('document', '')
+                chapter = metadata.get('chapter', '')
+                original_title = metadata.get('title') or metadata.get('document_title', '')
+                # Tạo source title dựa trên chapter
+                if 'bai1' in chapter:
+                    source_title = f"Bài 1: Dinh dưỡng theo lứa tuổi học sinh"
+                    if original_title and original_title != "Tài liệu bài 1":
+                        source_title += f" - {original_title}"
+                elif 'bai2' in chapter:
+                    source_title = f"Bài 2: An toàn thực phẩm"
+                    if original_title and original_title != "Tài liệu bài 2":
+                        source_title += f" - {original_title}"
+                elif 'bai3' in chapter:
+                    source_title = f"Bài 3: Vệ sinh dinh dưỡng"
+                    if original_title and original_title != "Tài liệu bài 3":
+                        source_title += f" - {original_title}"
+                elif 'bai4' in chapter:
+                    source_title = f"Bài 4: Giáo dục dinh dưỡng"
+                    if original_title and original_title != "Tài liệu bài 4":
+                        source_title += f" - {original_title}"
+                elif 'phuluc' in chapter:
+                    source_title = f"Phụ lục"
+                    if original_title:
+                        source_title += f" - {original_title}"
+                else:
+                    source_title = original_title or "Tài liệu dinh dưỡng"
                 # Thêm nội dung vào ngữ cảnh
                 contexts.append({
                     "content": content,
                 # Tạo thông tin nguồn tài liệu
                 source_info = {
+                    "title": source_title,
                     "pages": metadata.get('pages'),
                     "content_type": metadata.get('content_type', 'text')
                 }
             }
     def _format_contexts(self, contexts):
+        """Format contexts thành string cho prompt với tên tài liệu thực tế"""
         formatted = []
         for i, context in enumerate(contexts, 1):
             content = context['content']
             metadata = context['metadata']
+            title = metadata.get('title') or metadata.get('document_title') or f"Tài liệu {i}"
+            chapter = metadata.get('chapter', '')
+            # Tạo tên nguồn có ý nghĩa
+            if 'bai1' in chapter:
+                source_name = f"Bài 1: Dinh dưỡng theo lứa tuổi học sinh"
+            elif 'bai2' in chapter:
+                source_name = f"Bài 2: An toàn thực phẩm"
+            elif 'bai3' in chapter:
+                source_name = f"Bài 3: Vệ sinh dinh dưỡng"
+            elif 'bai4' in chapter:
+                source_name = f"Bài 4: Giáo dục dinh dưỡng"
+            elif 'phuluc' in chapter:
+                source_name = f"Phụ lục"
+            else:
+                source_name = title
+            context_str = f"[{source_name}]"
             if metadata.get('pages'):
                 context_str += f" (Trang {metadata['pages']})"