Spaces:

ss900371tw
/

HM

Sleeping

App Files Files Community

ss900371tw commited on Dec 22, 2025

Commit

fff69cd

verified ·

1 Parent(s): c692541

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +81 -128

src/streamlit_app.py CHANGED Viewed

@@ -517,140 +517,93 @@ elif 'json_data_for_batch' in st.session_state:
 if st.session_state.execute_batch_analysis and 'json_data_for_batch' in st.session_state and st.session_state.json_data_for_batch is not None:
     st.session_state.execute_batch_analysis = False
     start_time = time.time()
-    # 執行前確保清空結果
-    st.session_state.batch_results = []
-    if inference_client is None:
-        st.error("Client 未連線，無法執行。請檢查 HF_TOKEN 和模型設定。")
-    else:
-        logs_list = st.session_state.json_data_for_batch
-        if logs_list:
-            vs = st.session_state.get("vector_store", None)
-            # 將 Log 條目轉換為 JSON 字串，用於 LLM 輸入
-            formatted_logs = [json.dumps(log, indent=2, ensure_ascii=False) for log in logs_list]
-            analysis_sequences = []
-            # --- 核心修改：基於 IP 關聯的 Log Sequence 建構 ---
-            for i in range(len(formatted_logs)):
-                current_log_entry = logs_list[i]
-                current_log_str = formatted_logs[i]
-                # 嘗試從當前 Log 條目中提取 IP 地址 (優先 W3C 格式，然後是一般日誌格式)
-                # 這裡需要根據您的日誌格式調整 key，常見的有 c_ip, remote_addr, source_ip 等
-                # 我們使用 W3C 和一般日誌中常見的 key
-                target_ip = (current_log_entry.get('c_ip') or
-                             current_log_entry.get('c_ip') or
-                             current_log_entry.get('remote_addr') or
-                             current_log_entry.get('source_ip') or
-                             current_log_entry.get('client_ip'))
-                sequence_text = []
-                correlated_logs = []
-                # 檢查 IP 是否有效
-                if target_ip and target_ip != "-":
-                    # 篩選過去的 Log，最多 WINDOW_SIZE - 1 個，且 IP 必須匹配
-                    # 從 i-1 倒序檢查到 0
-                    for j in range(i - 1, -1, -1):
-                        prior_log_entry = logs_list[j]
-                        prior_ip = (prior_log_entry.get('c_ip') or
-                                    prior_log_entry.get('c_ip') or
-                                    prior_log_entry.get('remote_addr') or
-                                    prior_log_entry.get('source_ip') or
-                                    prior_log_entry.get('client_ip'))
-                        # 檢查 IP 是否匹配
-                        if prior_ip == target_ip:
-                            # 插入到最前面，保持時間順序
-                            correlated_logs.insert(0, formatted_logs[j])
-                            # 限制累積的 Log 數量（不包含當前 Log）
-                            if len(correlated_logs) >= WINDOW_SIZE - 1:
-                                break
-                    # 1. 加入相關聯的 Log (時間較早的)
-                    for log_str in correlated_logs:
-                        sequence_text.append(f"--- Correlated Log (IP:{target_ip}) ---\n{log_str}")
-                else:
-                    # 如果沒有找到 IP，只分析當前 Log (確保 sequence_text 不是空的)
-                    pass # sequence_text 最終只會包含 TARGET LOG
-                # 2. 加入當前的目標 Log
-                sequence_text.append(f"--- TARGET LOG TO ANALYZE (Index {i+1}) ---\n{current_log_str}")
-                analysis_sequences.append({
-                    "sequence_text": "\n\n".join(sequence_text),
-                    "target_log_id": i + 1,
-                    "original_log_entry": logs_list[i]
-                })
-            # --- LLM 執行迴圈 ---
-            total_sequences = len(analysis_sequences)
-            st.header(f"⚡ 批量分析執行中 (IP 關聯視窗 $N={WINDOW_SIZE}$)...")
-            progress_bar = st.progress(0, text=f"準備處理 {total_sequences} 個序列...")
-            # 使用一個佔位符來顯示即時進度或警告，而不是結果
-            status_placeholder = st.empty()
-            for i, seq_data in enumerate(analysis_sequences):
-                log_id = seq_data["target_log_id"]
-                # 顯示進度
-                progress_bar.progress((i + 1) / total_sequences, text=f"Processing {i + 1}/{total_sequences} (Log #{log_id})...")
-                status_placeholder.text(f"正在分析 Log #{log_id} (IP 序列長度: {seq_data['sequence_text'].count('---')})...")
-                try:
-                    response, retrieved_ctx = generate_rag_response_hf_for_log(
-                        client=inference_client,
-                        model_id=MODEL_ID,
-                        log_sequence_text=seq_data["sequence_text"],
-                        user_prompt=analysis_prompt,
-                        sys_prompt=system_prompt,
-                        vector_store=vs,
-                        threshold=similarity_threshold,
-                        max_output_tokens=max_output_tokens,
-                        temperature=temperature,
-                        top_p=top_p
-                    )
-                    item = {
-                        "log_id": log_id,
-                        "log_content": seq_data["original_log_entry"],
-                        "sequence_analyzed": seq_data["sequence_text"],
-                        "analysis_result": response,
-                        "context": retrieved_ctx
-                    }
-                    st.session_state.batch_results.append(item)
-                except Exception as e:
-                    st.session_state.batch_results.append({
-                         "log_id": log_id,
-                         "log_content": seq_data["original_log_entry"],
-                         "sequence_analyzed": seq_data["sequence_text"],
-                         "analysis_result": f"Model Execution Error: {e}",
-                         "context": ""
-                    })
-                    status_placeholder.error(f"Error Log {log_id}: {e}")
-            end_time = time.time()
-            progress_bar.empty()
-            status_placeholder.empty()
-            st.success(f"完成！耗時 {end_time - start_time:.2f} 秒。")
-            # 由於結果已在 session state 中，觸發一次重新運行以顯示歷史結果
-            # 這是必要的，因為批量分析在一個 if 區塊內執行，需要重新執行腳本來執行後續的顯示邏輯。
-            st.rerun()
-        else:
-            st.error("無法提取有效 Log，請檢查檔案格式。")
 # === 顯示結果 (歷史紀錄) - 已修改為持久顯示結果，而非僅在執行時顯示 ===
 if st.session_state.get("batch_results") and isinstance(st.session_state.batch_results, list) and st.session_state.batch_results:
     st.header("⚡ 歷史分析結果")

 if st.session_state.execute_batch_analysis and 'json_data_for_batch' in st.session_state and st.session_state.json_data_for_batch is not None:
     st.session_state.execute_batch_analysis = False
     start_time = time.time()
+    # ... (前面的初始化和序列建構邏輯保持不變) ...
+    if logs_list:
+        # ... (序列建構邏輯保持不變) ...
+        # --- LLM 執行迴圈 ---
+        total_sequences = len(analysis_sequences)
+        st.header(f"⚡ 批量分析執行中 (IP 關聯視窗 $N={WINDOW_SIZE}$)...")
+        progress_bar = st.progress(0, text=f"準備處理 {total_sequences} 個序列...")
+        # 【修改點 1】創建一個佔位符來顯示即時結果
+        st.subheader("即時���析結果")
+        results_placeholder = st.empty() # 使用 st.empty() 或 st.container()
+        # 【修改點 2】使用一個清單來累積即時顯示的內容 (Markdown 格式)
+        # 這樣可以避免每次都重畫整個容器，但 Streamlit 的限制是 'empty' 每次都會覆蓋
+        # 最好的方式是使用 st.container() 並在其內部 append 內容
+        real_time_container = st.container() # 創建一個新的容器用於即時輸出
+        for i, seq_data in enumerate(analysis_sequences):
+            log_id = seq_data["target_log_id"]
+            # 顯示進度
+            progress_bar.progress((i + 1) / total_sequences, text=f"Processing {i + 1}/{total_sequences} (Log #{log_id})...")
+            # results_placeholder.text(f"正在分析 Log #{log_id} (IP 序列長度: {seq_data['sequence_text'].count('---')})...")
+            # 移除 text 狀態顯示，改用容器顯示結果
+            try:
+                # ... (模型呼叫邏輯保持不變) ...
+                response, retrieved_ctx = generate_rag_response_hf_for_log(
+                    # ... (參數保持不變) ...
+                )
+                item = {
+                    "log_id": log_id,
+                    "log_content": seq_data["original_log_entry"],
+                    "sequence_analyzed": seq_data["sequence_text"],
+                    "analysis_result": response,
+                    "context": retrieved_ctx
+                }
+                st.session_state.batch_results.append(item)
+                # 【修改點 3】即時渲染當前 Log 的分析結果到 real_time_container 內
+                with real_time_container:
+                    response_lower = response.lower()
+                    is_high = 'high-risk detected!' in response_lower
+                    is_medium = 'medium-risk detected!' in response_lower
+                    if is_high:
+                        header_text = f"Log/Alert #{log_id} (HIGH RISK DETECTED) 🔴"
+                        st.subheader(header_text)
+                        st.error(response)
+                    elif is_medium:
+                        header_text = f"Log/Alert #{log_id} (MEDIUM RISK DETECTED) 🟠"
+                        st.subheader(header_text)
+                        st.warning(response)
+                    else:
+                        header_text = f"Log/Alert #{log_id} (Low/No Risk Detected) ⚪"
+                        st.subheader(header_text)
+                        st.info(response) # 使用 info ��顯示不具備高/中風險的結果
+                    # 為了視覺區隔
+                    st.markdown("---")
+            except Exception as e:
+                # ... (錯誤處理邏輯保持不變) ...
+                with real_time_container:
+                    st.subheader(f"Log/Alert #{log_id} (Execution Error) ❌")
+                    st.exception(e)
+                    st.markdown("---")
+        # ... (迴圈結束後的清理邏輯) ...
+        end_time = time.time()
+        progress_bar.empty()
+        # status_placeholder.empty() # 由於我們移除了 status_placeholder，這裡也移除
+        st.success(f"完成！耗時 {end_time - start_time:.2f} 秒。")
+        # 【修改點 4】移除 st.rerun()。因為結果已經即時顯示，不需要額外的重新運行。
+        # st.rerun() # <--- 移除此行
+    else:
+        st.error("無法提取有效 Log，請檢查檔案格式。")
 # === 顯示結果 (歷史紀錄) - 已修改為持久顯示結果，而非僅在執行時顯示 ===
 if st.session_state.get("batch_results") and isinstance(st.session_state.batch_results, list) and st.session_state.batch_results:
     st.header("⚡ 歷史分析結果")