Spaces:

PBThuong96
/

chatbot

Sleeping

App Files Files Community

PBThuong96 commited on Nov 19, 2025

Commit

c4a14d2

verified ·

1 Parent(s): b9dec91

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -10

app.py CHANGED Viewed

@@ -37,10 +37,10 @@ if not GOOGLE_API_KEY:
     print("CẢNH BÁO: Chưa thiết lập GOOGLE_API_KEY!")
 # ==========================================
-# XỬ LÝ DỮ LIỆU ĐA ĐỊNH DẠNG
 # ==========================================
 def load_documents_from_folder(folder_path):
-    """Hàm đọc nhiều loại file khác nhau từ thư mục"""
     documents = []
     if not os.path.exists(folder_path):
         os.makedirs(folder_path)
@@ -50,26 +50,63 @@ def load_documents_from_folder(folder_path):
         file_path = os.path.join(folder_path, filename)
         loader = None
         try:
-            if filename.endswith(".pdf"):
                 loader = PyPDFLoader(file_path)
-            elif filename.endswith(".docx") or filename.endswith(".doc"):
                 loader = Docx2txtLoader(file_path)
-            elif filename.endswith(".txt"):
-                loader = TextLoader(file_path, encoding="utf-8")
-            elif filename.endswith(".xlsx") or filename.endswith(".xls"):
-                loader = UnstructuredExcelLoader(file_path)
             if loader:
                 print(f"-> Đang đọc file: {filename}")
                 docs = loader.load()
-                # Thêm tên file vào metadata nếu chưa có (để trích dẫn sau này)
                 for doc in docs:
                     if "source" not in doc.metadata:
                         doc.metadata["source"] = filename
                 documents.extend(docs)
         except Exception as e:
-            print(f"Lỗi khi đọc file {filename}: {e}")
     return documents

     print("CẢNH BÁO: Chưa thiết lập GOOGLE_API_KEY!")
 # ==========================================
+# XỬ LÝ DỮ LIỆU ĐA ĐỊNH DẠNG (BẢN SỬA LỖI TXT)
 # ==========================================
 def load_documents_from_folder(folder_path):
+    """Hàm đọc nhiều loại file khác nhau từ thư mục, hỗ trợ dò bảng mã TXT"""
     documents = []
     if not os.path.exists(folder_path):
         os.makedirs(folder_path)
         file_path = os.path.join(folder_path, filename)
         loader = None
+        # Chuyển tên file về chữ thường để so sánh (.TXT cũng như .txt)
+        filename_lower = filename.lower()
         try:
+            if filename_lower.endswith(".pdf"):
                 loader = PyPDFLoader(file_path)
+            elif filename_lower.endswith(".docx") or filename_lower.endswith(".doc"):
                 loader = Docx2txtLoader(file_path)
+            elif filename_lower.endswith(".xlsx") or filename_lower.endswith(".xls"):
+                # Xử lý Excel: Chuyển thành text để tránh lỗi
+                import pandas as pd
+                try:
+                    df = pd.read_excel(file_path)
+                    text_data = df.to_string(index=False)
+                    # Tạo loader giả lập từ text
+                    from langchain_community.docstore.document import Document
+                    loader = type('obj', (object,), {'load': lambda: [Document(page_content=text_data, metadata={"source": filename})]})
+                except Exception as e:
+                    print(f"Lỗi đọc Excel {filename}: {e}")
+                    continue
+            elif filename_lower.endswith(".txt"):
+                # --- SỬA LỖI TXT: Thử lần lượt các bảng mã ---
+                encodings = ['utf-8', 'utf-16', 'cp1258', 'latin-1']
+                success = False
+                for enc in encodings:
+                    try:
+                        # Thử load với bảng mã này
+                        temp_loader = TextLoader(file_path, encoding=enc)
+                        docs = temp_loader.load()
+                        documents.extend(docs) # Nếu đọc được thì lưu luôn
+                        print(f"-> Đọc file {filename} thành công (Encoding: {enc})")
+                        success = True
+                        break
+                    except Exception:
+                        continue
+                if not success:
+                    print(f"Lỗi: Không thể đọc file {filename} với bất kỳ bảng mã nào.")
+                # Vì đã xử lý add documents trong vòng lặp, ta continue để skip đoạn code chung bên dưới
+                continue
+            # Xử lý chung cho PDF, DOCX (vì TXT đã xử lý riêng ở trên)
             if loader:
                 print(f"-> Đang đọc file: {filename}")
                 docs = loader.load()
                 for doc in docs:
                     if "source" not in doc.metadata:
                         doc.metadata["source"] = filename
                 documents.extend(docs)
         except Exception as e:
+            print(f"Lỗi không xác định khi đọc file {filename}: {e}")
     return documents