Spaces:

PBThuong96
/

chatbot

Sleeping

App Files Files Community

PBThuong96 commited on Nov 19, 2025

Commit

87c3fc4

verified ·

1 Parent(s): c4a14d2

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -47

app.py CHANGED Viewed

@@ -5,6 +5,11 @@ sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')
 import os
 import gradio as gr
 # --- IMPORT CÁC THƯ VIỆN ---
 from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain_chroma import Chroma
@@ -40,74 +45,78 @@ if not GOOGLE_API_KEY:
 # XỬ LÝ DỮ LIỆU ĐA ĐỊNH DẠNG (BẢN SỬA LỖI TXT)
 # ==========================================
 def load_documents_from_folder(folder_path):
-    """Hàm đọc nhiều loại file khác nhau từ thư mục, hỗ trợ dò bảng mã TXT"""
     documents = []
     if not os.path.exists(folder_path):
         os.makedirs(folder_path)
         return []
     for filename in os.listdir(folder_path):
         file_path = os.path.join(folder_path, filename)
-        loader = None
-        # Chuyển tên file về chữ thường để so sánh (.TXT cũng như .txt)
         filename_lower = filename.lower()
         try:
             if filename_lower.endswith(".pdf"):
                 loader = PyPDFLoader(file_path)
-            elif filename_lower.endswith(".docx") or filename_lower.endswith(".doc"):
-                loader = Docx2txtLoader(file_path)
             elif filename_lower.endswith(".xlsx") or filename_lower.endswith(".xls"):
-                # Xử lý Excel: Chuyển thành text để tránh lỗi
-                import pandas as pd
                 try:
                     df = pd.read_excel(file_path)
                     text_data = df.to_string(index=False)
-                    # Tạo loader giả lập từ text
-                    from langchain_community.docstore.document import Document
-                    loader = type('obj', (object,), {'load': lambda: [Document(page_content=text_data, metadata={"source": filename})]})
                 except Exception as e:
-                    print(f"Lỗi đọc Excel {filename}: {e}")
-                    continue
             elif filename_lower.endswith(".txt"):
-                # --- SỬA LỖI TXT: Thử lần lượt các bảng mã ---
-                encodings = ['utf-8', 'utf-16', 'cp1258', 'latin-1']
-                success = False
-                for enc in encodings:
-                    try:
-                        # Thử load với bảng mã này
-                        temp_loader = TextLoader(file_path, encoding=enc)
-                        docs = temp_loader.load()
-                        documents.extend(docs) # Nếu đọc được thì lưu luôn
-                        print(f"-> Đọc file {filename} thành công (Encoding: {enc})")
-                        success = True
-                        break
-                    except Exception:
-                        continue
-                if not success:
-                    print(f"Lỗi: Không thể đọc file {filename} với bất kỳ bảng mã nào.")
-                # Vì đã xử lý add documents trong vòng lặp, ta continue để skip đoạn code chung bên dưới
-                continue
-            # Xử lý chung cho PDF, DOCX (vì TXT đã xử lý riêng ở trên)
-            if loader:
-                print(f"-> Đang đọc file: {filename}")
-                docs = loader.load()
-                for doc in docs:
-                    if "source" not in doc.metadata:
-                        doc.metadata["source"] = filename
-                documents.extend(docs)
         except Exception as e:
-            print(f"Lỗi không xác định khi đọc file {filename}: {e}")
     return documents
 def get_retriever():

 import os
 import gradio as gr
+import pandas as pd
+import docx2txt
+from langchain_community.document_loaders import PyPDFLoader, TextLoader
+from langchain_core.documents import Document
 # --- IMPORT CÁC THƯ VIỆN ---
 from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain_chroma import Chroma
 # XỬ LÝ DỮ LIỆU ĐA ĐỊNH DẠNG (BẢN SỬA LỖI TXT)
 # ==========================================
 def load_documents_from_folder(folder_path):
+    print(f"--- Bắt đầu quét thư mục: {folder_path} ---")
     documents = []
     if not os.path.exists(folder_path):
         os.makedirs(folder_path)
         return []
     for filename in os.listdir(folder_path):
         file_path = os.path.join(folder_path, filename)
         filename_lower = filename.lower()
         try:
+            # 1. XỬ LÝ PDF
             if filename_lower.endswith(".pdf"):
+                print(f"-> Đang xử lý PDF: {filename}")
                 loader = PyPDFLoader(file_path)
+                docs = loader.load()
+                documents.extend(docs)
+            # 2. XỬ LÝ WORD (.docx)
+            elif filename_lower.endswith(".docx"):
+                print(f"-> Đang xử lý Word: {filename}")
+                # Dùng docx2txt trực tiếp để lấy text
+                text = docx2txt.process(file_path)
+                if text.strip():
+                    doc = Document(page_content=text, metadata={"source": filename})
+                    documents.append(doc)
+                else:
+                    print(f"   Cảnh báo: File Word rỗng ({filename})")
+            # 3. XỬ LÝ EXCEL (.xlsx, .xls) - Dùng Pandas
             elif filename_lower.endswith(".xlsx") or filename_lower.endswith(".xls"):
+                print(f"-> Đang xử lý Excel: {filename}")
                 try:
+                    # Đọc Excel thành DataFrame rồi chuyển thành Text
                     df = pd.read_excel(file_path)
+                    # Chuyển toàn bộ bảng thành chuỗi string
                     text_data = df.to_string(index=False)
+                    if text_data.strip():
+                        doc = Document(page_content=text_data, metadata={"source": filename})
+                        documents.append(doc)
+                    else:
+                        print(f"   Cảnh báo: File Excel rỗng ({filename})")
                 except Exception as e:
+                    print(f"   Lỗi đọc Excel {filename}: {e}")
+            # 4. XỬ LÝ TEXT (.txt)
             elif filename_lower.endswith(".txt"):
+                print(f"-> Đang xử lý Text: {filename}")
+                text = ""
+                # Thử đọc với UTF-8 trước
+                try:
+                    with open(file_path, "r", encoding="utf-8") as f:
+                        text = f.read()
+                except UnicodeDecodeError:
+                    # Nếu lỗi, thử đọc với Latin-1 (Windows cũ)
+                    print(f"   Encoding UTF-8 thất bại, thử Latin-1...")
+                    with open(file_path, "r", encoding="latin-1") as f:
+                        text = f.read()
+                if text.strip():
+                    doc = Document(page_content=text, metadata={"source": filename})
+                    documents.append(doc)
+            else:
+                print(f"-> Bỏ qua file không hỗ trợ: {filename}")
         except Exception as e:
+            print(f"❌ LỖI NGHIÊM TRỌNG khi đọc file {filename}: {e}")
+    print(f"--- Hoàn tất! Tổng số tài liệu load được: {len(documents)} ---")
     return documents
 def get_retriever():