Spaces:

wayne0603
/

space

Sleeping

wayne0603 commited on Sep 1, 2025

Commit

0f0afda

verified ·

1 Parent(s): 1beff81

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,14 +37,24 @@ def load_file(file_obj):
     docs = []
     text_data = ""
-    if file_obj.name.endswith(".pdf"):
-        reader = PdfReader(file_obj.name)
-        for page in reader.pages:
-            text_data += page.extract_text() + "\n"
-    elif file_obj.name.endswith(".txt"):
-        text_data = file_obj.read().decode("utf-8")
-    else:
-        return "仅支持 PDF 或 TXT 文件", None
     # 切块
     chunks = [text_data[i:i+500] for i in range(0, len(text_data), 500)]
@@ -56,7 +66,6 @@ def load_file(file_obj):
     index.add(doc_embeddings)
     return f"已加载 {len(docs)} 个文本块", None
 # ===== RAG 查询函数 =====
 def rag_query(query):
     if index is None:

     docs = []
     text_data = ""
+    ext = os.path.splitext(file_obj.name)[1].lower()
+    try:
+        if ext == ".pdf":
+            reader = PdfReader(file_obj.name)
+            for page in reader.pages:
+                page_text = page.extract_text()
+                if page_text:
+                    text_data += page_text + "\n"
+        elif ext == ".txt":
+            text_data = file_obj.read().decode("utf-8", errors="ignore")
+        else:
+            return "仅支持 PDF 或 TXT 文件", None
+    except Exception as e:
+        return f"文件解析失败: {str(e)}", None
+    if not text_data.strip():
+        return "未能从文件中提取到文本", None
     # 切块
     chunks = [text_data[i:i+500] for i in range(0, len(text_data), 500)]
     index.add(doc_embeddings)
     return f"已加载 {len(docs)} 个文本块", None
 # ===== RAG 查询函数 =====
 def rag_query(query):
     if index is None: