Spaces:

lllouo
/

BD_framework_test

Sleeping

App Files Files Community

lllouo commited on Dec 16, 2025

Commit

b335dbb

1 Parent(s): 66b1f5b

Switch to requests library for API calls (stable version)

Browse files

Files changed (2) hide show

app.py +51 -33
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -1,24 +1,44 @@
-# app.py - 基于真实清洗逻辑的 Gradio 版本
 import gradio as gr
 import json
 import pandas as pd
 import os
 from typing import Optional
 import tempfile
-# 延迟导入 OpenAI，避免启动时就要求 API key
-def get_client():
-    """延迟初始化OpenAI客户端"""
-    from openai import OpenAI
-    api_key = os.getenv("DEEPSEEK_API_KEY", "")
-    if not api_key:
         raise ValueError("⚠️ 请在 Space Settings 中配置 DEEPSEEK_API_KEY！\n\n前往：Settings → Repository secrets → New secret")
-    return OpenAI(
-        api_key=api_key,
-        base_url="https://api.deepseek.com/v1"
-    )
 # 预置的Leaderboard数据
 LEADERBOARD_DATA = [
@@ -134,9 +154,9 @@ def extract_output_content(item):
 def clean_dataset(file_path, question_column, model_choice, temperature, max_samples, progress=gr.Progress()):
     """清洗数据集的核心函数"""
     try:
-        # 初始化客户端
         try:
-            client = get_client()
         except ValueError as e:
             return str(e), None, None
@@ -156,7 +176,7 @@ def clean_dataset(file_path, question_column, model_choice, temperature, max_sam
         progress(0.1, desc=f"🚀 开始清洗 {total} 个样本...")
         # 预处理：添加标记
-        data_corrupt = [process_sentence(item) for item in data_ori]
         # 清洗结果
         results = []
@@ -167,25 +187,20 @@ def clean_dataset(file_path, question_column, model_choice, temperature, max_sam
         for idx in range(total):
             progress((0.1 + 0.8 * idx / total), desc=f"处理中: {idx+1}/{total}")
-            unprocess_text = data_ori[idx]
             original_text = data_corrupt[idx]
             response_content = ""
             retry_count = 0
             while retry_count < max_retries:
                 try:
-                    completion = client.chat.completions.create(
                         model=model_choice,
-                        messages=[{"role": "user", "content": PROMPT_TEMPLATE + original_text}],
-                        stream=True,
                         temperature=float(temperature)
                     )
-                    response_content = ""
-                    for chunk in completion:
-                        if chunk.choices and chunk.choices[0].delta.content:
-                            response_content += chunk.choices[0].delta.content
                     # 验证输出格式
                     if is_valid_output(response_content, original_text, unprocess_text):
                         results.append(response_content)
@@ -193,10 +208,11 @@ def clean_dataset(file_path, question_column, model_choice, temperature, max_sam
                         break
                     else:
                         retry_count += 1
                 except Exception as e:
                     retry_count += 1
-                    log_text += f"⚠️ 样本 {idx+1} 重试 {retry_count}/{max_retries}: {str(e)}\n"
             else:
                 # 重试次数用尽
                 results.append(f"[ERROR] Failed to process: {original_text}")
@@ -212,7 +228,7 @@ def clean_dataset(file_path, question_column, model_choice, temperature, max_sam
         for i, item in enumerate(results):
             extracted = extract_output_content(item)
             if extracted is None:
-                lst_extracted.append(data_ori[i])
                 unknown_count += 1
             else:
                 lst_extracted.append(extracted)
@@ -222,7 +238,7 @@ def clean_dataset(file_path, question_column, model_choice, temperature, max_sam
         # 恢复多行格式
         lst_final = []
         for i in range(len(data_ori)):
-            item = data_ori[i]
             if '\n' in item:
                 tmp_lines = [line.strip() for line in item.strip().split('\n') if line.strip()]
                 tmp_lines[-1] = lst_extracted[i]
@@ -255,8 +271,8 @@ def clean_dataset(file_path, question_column, model_choice, temperature, max_sam
         # 生成预览数据
         preview_df = pd.DataFrame({
-            '原始问题': data_ori[:10],
-            '清洗后问题': lst_final[:10]
         })
         progress(1.0, desc="✅ 完成！")
@@ -264,7 +280,9 @@ def clean_dataset(file_path, question_column, model_choice, temperature, max_sam
         return log_text, output_path, preview_df
     except Exception as e:
-        return f"❌ 处理出错: {str(e)}", None, None
 def show_leaderboard():
     """显示Leaderboard"""
@@ -392,7 +410,7 @@ with gr.Blocks(title="数据集清洗框架展示系统") as demo:
             2. **LLM清洗**
                - 使用 DeepSeek API 进行语法、拼写、空格错误修正
                - 重试机制：最多重试3次
-               - 流式响应处理
             3. **格式验证 (is_valid_output)**
                - 验证输出格式正确性
@@ -418,6 +436,7 @@ with gr.Blocks(title="数据集清洗框架展示系统") as demo:
             - **LLM**: DeepSeek API (deepseek-chat / deepseek-coder)
             - **前端**: Gradio 4.16.0
             - **数据处理**: Pandas + PyArrow (Parquet)
             - **部署**: Hugging Face Spaces
             ### 研究成果
@@ -438,12 +457,11 @@ with gr.Blocks(title="数据集清洗框架展示系统") as demo:
             - Demo版本限制最多处理100个样本
             - 完整版本可处理数万样本
             - 建议 temperature=0.1 以获得稳定输出
             ---
             **研究生毕业论文成果展示** | Powered by DeepSeek API
-            GitHub: [添加你的项目链接]
             """)
 # 启动应用

+# app.py - 使用 requests 调用 DeepSeek API（稳定版本）
 import gradio as gr
 import json
 import pandas as pd
 import os
 from typing import Optional
 import tempfile
+import requests
+# DeepSeek API配置
+DEEPSEEK_API_KEY = os.getenv("DEEPSEEK_API_KEY", "")
+DEEPSEEK_BASE_URL = "https://api.deepseek.com/v1/chat/completions"
+def check_api_key():
+    """检查API Key是否配置"""
+    if not DEEPSEEK_API_KEY:
         raise ValueError("⚠️ 请在 Space Settings 中配置 DEEPSEEK_API_KEY！\n\n前往：Settings → Repository secrets → New secret")
+def call_deepseek_api(prompt, model="deepseek-chat", temperature=0.1):
+    """使用 requests 调用 DeepSeek API"""
+    check_api_key()
+    headers = {
+        "Content-Type": "application/json",
+        "Authorization": f"Bearer {DEEPSEEK_API_KEY}"
+    }
+    data = {
+        "model": model,
+        "messages": [
+            {"role": "user", "content": prompt}
+        ],
+        "temperature": temperature,
+        "stream": False  # 简化处理，不使用流式
+    }
+    response = requests.post(DEEPSEEK_BASE_URL, headers=headers, json=data, timeout=60)
+    response.raise_for_status()
+    result = response.json()
+    return result['choices'][0]['message']['content']
 # 预置的Leaderboard数据
 LEADERBOARD_DATA = [
 def clean_dataset(file_path, question_column, model_choice, temperature, max_samples, progress=gr.Progress()):
     """清洗数据集的核心函数"""
     try:
+        # 检查 API Key
         try:
+            check_api_key()
         except ValueError as e:
             return str(e), None, None
         progress(0.1, desc=f"🚀 开始清洗 {total} 个样本...")
         # 预处理：添加标记
+        data_corrupt = [process_sentence(str(item)) for item in data_ori]
         # 清洗结果
         results = []
         for idx in range(total):
             progress((0.1 + 0.8 * idx / total), desc=f"处理中: {idx+1}/{total}")
+            unprocess_text = str(data_ori[idx])
             original_text = data_corrupt[idx]
             response_content = ""
             retry_count = 0
             while retry_count < max_retries:
                 try:
+                    # 调用 DeepSeek API
+                    response_content = call_deepseek_api(
+                        PROMPT_TEMPLATE + original_text,
                         model=model_choice,
                         temperature=float(temperature)
                     )
                     # 验证输出格式
                     if is_valid_output(response_content, original_text, unprocess_text):
                         results.append(response_content)
                         break
                     else:
                         retry_count += 1
+                        log_text += f"⚠️ 样本 {idx+1} 格式验证失败，重试 {retry_count}/{max_retries}\n"
                 except Exception as e:
                     retry_count += 1
+                    log_text += f"⚠️ 样本 {idx+1} API错误，重试 {retry_count}/{max_retries}: {str(e)}\n"
             else:
                 # 重试次数用尽
                 results.append(f"[ERROR] Failed to process: {original_text}")
         for i, item in enumerate(results):
             extracted = extract_output_content(item)
             if extracted is None:
+                lst_extracted.append(str(data_ori[i]))
                 unknown_count += 1
             else:
                 lst_extracted.append(extracted)
         # 恢复多行格式
         lst_final = []
         for i in range(len(data_ori)):
+            item = str(data_ori[i])
             if '\n' in item:
                 tmp_lines = [line.strip() for line in item.strip().split('\n') if line.strip()]
                 tmp_lines[-1] = lst_extracted[i]
         # 生成预览数据
         preview_df = pd.DataFrame({
+            '原始问题': [str(x)[:100] for x in data_ori[:10]],
+            '清洗后问题': [str(x)[:100] for x in lst_final[:10]]
         })
         progress(1.0, desc="✅ 完成！")
         return log_text, output_path, preview_df
     except Exception as e:
+        import traceback
+        error_detail = traceback.format_exc()
+        return f"❌ 处理出错: {str(e)}\n\n详细错误:\n{error_detail}", None, None
 def show_leaderboard():
     """显示Leaderboard"""
             2. **LLM清洗**
                - 使用 DeepSeek API 进行语法、拼写、空格错误修正
                - 重试机制：最多重试3次
+               - 稳定的 REST API 调用
             3. **格式验证 (is_valid_output)**
                - 验证输出格式正确性
             - **LLM**: DeepSeek API (deepseek-chat / deepseek-coder)
             - **前端**: Gradio 4.16.0
             - **数据处理**: Pandas + PyArrow (Parquet)
+            - **API调用**: Requests (稳定版本)
             - **部署**: Hugging Face Spaces
             ### 研究成果
             - Demo版本限制最多处理100个样本
             - 完整版本可处理数万样本
             - 建议 temperature=0.1 以获得稳定输出
+            - 使用稳定的 REST API，避免兼容性问题
             ---
             **研究生毕业论文成果展示** | Powered by DeepSeek API
             """)
 # 启动应用

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
 gradio==4.16.0
-openai==1.54.3
 pandas==2.0.3
 pyarrow==14.0.1

 gradio==4.16.0
+requests==2.31.0
 pandas==2.0.3
 pyarrow==14.0.1