Spaces:

AlauStone
/

rag-assistant

Sleeping

App Files Files Community

AlauStone commited on Apr 2

Commit

df8e3ca

verified ·

1 Parent(s): 8d51928

Upload app.py

Browse files

Files changed (1) hide show

app.py +14 -3

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import time
 import logging
 import hashlib
 import uuid
-import threading
 from datetime import datetime
 logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
@@ -1026,29 +1025,35 @@ def process_upload(uploaded_files, target_prefix, scope):
     try:
         all_new_chunks = []
         all_new_sources = []
-        with st.spinner("正在处理文档，请稍候..."):
             for f in uploaded_files:
                 try:
                     f.seek(0)
                     _save_uploaded_file_to_storage(scope, f)
                     f.seek(0)
                     raw_text = extract_text(f)
                     if not raw_text.strip():
                         continue
                     chunks = _get_text_splitter().split_text(raw_text)
                     all_new_chunks.extend(chunks)
                     all_new_sources.extend([f.name] * len(chunks))
                 except Exception as file_err:
                     logger.error(f"文件 {f.name} 处理失败: {file_err}", exc_info=True)
             if all_new_chunks:
                 batch_size = 64
                 all_vecs = []
                 for i in range(0, len(all_new_chunks), batch_size):
                     batch = all_new_chunks[i:i + batch_size]
                     all_vecs.extend(encode_texts(batch))
                 file_groups = {}
                 for chunk, vec, src in zip(all_new_chunks, all_vecs, all_new_sources):
                     file_groups.setdefault(src, ([], []))
@@ -1058,9 +1063,12 @@ def process_upload(uploaded_files, target_prefix, scope):
                 for src_file, (chunks, vecs) in file_groups.items():
                     _save_chunks_to_db(scope, chunks, vecs, src_file)
                 ukey = f"_upload_ver_{target_prefix}"
                 st.session_state[ukey] = st.session_state.get(ukey, 0) + 1
                 st.session_state[f"_sync_count_{target_prefix}"] = _count_chunks(scope)
                 _list_uploaded_files_db.clear()
                 st.toast(f"✅ 导入 {len(all_new_chunks)} 个切片")
                 st.rerun()
@@ -1075,6 +1083,7 @@ def process_upload(uploaded_files, target_prefix, scope):
 # =========================
 # 6.5 聊天记录持久化（Supabase chat_history 表）
 # =========================
 def _async_run(fn, *args):
@@ -1273,6 +1282,7 @@ with st.sidebar:
                     col_del.button("🗑", key=f"delpriv_{fname}")
             priv_upload_key = f"upload_private_{st.session_state.get('_upload_ver_private', 0)}"
             def _on_priv_upload_change():
                 st.session_state["_pending_upload_private"] = True
             priv_files = st.file_uploader(
@@ -1283,6 +1293,7 @@ with st.sidebar:
                 key=priv_upload_key,
                 on_change=_on_priv_upload_change,
             )
             if priv_files and st.session_state.pop("_pending_upload_private", False):
                 process_upload(priv_files, "private", PRIVATE_SCOPE)

 import logging
 import hashlib
 import uuid
 from datetime import datetime
 logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
     try:
         all_new_chunks = []
         all_new_sources = []
+        with st.spinner("正在自动解析文档并更新索引..."):
             for f in uploaded_files:
                 try:
+                    # 保存原始文件到 Supabase Storage
                     f.seek(0)
                     _save_uploaded_file_to_storage(scope, f)
+                    # 解析文本
                     f.seek(0)
                     raw_text = extract_text(f)
                     if not raw_text.strip():
+                        st.warning(f"文件 {f.name} 内容为空，已跳过。")
                         continue
                     chunks = _get_text_splitter().split_text(raw_text)
                     all_new_chunks.extend(chunks)
                     all_new_sources.extend([f.name] * len(chunks))
                 except Exception as file_err:
                     logger.error(f"文件 {f.name} 处理失败: {file_err}", exc_info=True)
+                    st.warning(f"⚠️ 文件 {f.name} 处理失败：{str(file_err)[:100]}，已跳过。")
             if all_new_chunks:
+                # 分批编码
                 batch_size = 64
                 all_vecs = []
                 for i in range(0, len(all_new_chunks), batch_size):
                     batch = all_new_chunks[i:i + batch_size]
                     all_vecs.extend(encode_texts(batch))
+                # 按 source_file 分组写入 Supabase
                 file_groups = {}
                 for chunk, vec, src in zip(all_new_chunks, all_vecs, all_new_sources):
                     file_groups.setdefault(src, ([], []))
                 for src_file, (chunks, vecs) in file_groups.items():
                     _save_chunks_to_db(scope, chunks, vecs, src_file)
+                # 递增上传组件 key
                 ukey = f"_upload_ver_{target_prefix}"
                 st.session_state[ukey] = st.session_state.get(ukey, 0) + 1
+                # 立即刷新缓存的切片计数
                 st.session_state[f"_sync_count_{target_prefix}"] = _count_chunks(scope)
+                # 清除文件列表缓存
                 _list_uploaded_files_db.clear()
                 st.toast(f"✅ 导入 {len(all_new_chunks)} 个切片")
                 st.rerun()
 # =========================
 # 6.5 聊天记录持久化（Supabase chat_history 表）
 # =========================
+import threading
 def _async_run(fn, *args):
                     col_del.button("🗑", key=f"delpriv_{fname}")
             priv_upload_key = f"upload_private_{st.session_state.get('_upload_ver_private', 0)}"
+            # 使用 on_change 回调标记有新文件上传
             def _on_priv_upload_change():
                 st.session_state["_pending_upload_private"] = True
             priv_files = st.file_uploader(
                 key=priv_upload_key,
                 on_change=_on_priv_upload_change,
             )
+            # 检查是否有待处理的上传（通过 on_change 标记）
             if priv_files and st.session_state.pop("_pending_upload_private", False):
                 process_upload(priv_files, "private", PRIVATE_SCOPE)