Spaces:

ccwtt
/

my-second-space

Sleeping

App Files Files Community

陈文韬 commited on Mar 5

Commit

f81a1f8

1 Parent(s): 7e9488a

first commit

Browse files

Files changed (5) hide show

.gitignore +11 -0
app.py +36 -0
config.py +19 -0
eval_qwen3_vl.py +102 -0
requirements.txt +19 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,11 @@

+# 缓存/日志
+cache/
+*.log
+__pycache__/
+*.pyc
+# 结果文件（可选：如果想保留结果，删掉这行）
+results/
+# 环境变量
+.env

app.py ADDED Viewed

	@@ -0,0 +1,36 @@

+import gradio as gr
+import json
+from eval_qwen3_vl import run_evaluation
+from config import OUTPUT_PATH
+def start_evaluation():
+    """启动评测，返回准确率和结果"""
+    try:
+        acc, results = run_evaluation()
+        # 提取前10题展示（避免界面太长）
+        sample_results = results[:10] if len(results) > 10 else results
+        return (
+            f"✅ 评测完成！总准确率：{acc:.2%}\n"
+            f"📊 共评测 {len(results)-1} 题（VisuLogic 1000题）\n"
+            f"📁 完整结果已保存到：{OUTPUT_PATH}",
+            json.dumps(sample_results, ensure_ascii=False, indent=2)
+        )
+    except Exception as e:
+        return f"❌ 评测出错：{str(e)}", ""
+# 创建Gradio界面
+with gr.Blocks(title="Qwen3-VL VisuLogic 评测") as demo:
+    gr.Markdown("# Qwen3-VL VisuLogic 评测工具")
+    gr.Markdown("### 一键运行 VisuLogic 1000题 视觉逻辑推理评测")
+    with gr.Row():
+        run_btn = gr.Button("🚀 开始评测", size="large")
+        acc_output = gr.Textbox(label="评测结果", lines=5)
+        sample_output = gr.Textbox(label="前10题详情", lines=10)
+    # 绑定按钮事件
+    run_btn.click(start_evaluation, outputs=[acc_output, sample_output])
+# 启动Gradio（Space自动适配端口）
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)

config.py ADDED Viewed

	@@ -0,0 +1,19 @@

+# 配置文件：修改这里的参数即可，不用改核心代码
+import os
+from dotenv import load_dotenv
+# 加载环境变量（Space的Secrets里配置DASHSCOPE_API_KEY）
+load_dotenv()
+# 1. API 配置（阿里云DashScope，优先用API，不用本地跑大模型）
+DASHSCOPE_API_KEY = os.getenv("DASHSCOPE_API_KEY")
+QWEN_VL_MODEL = "qwen-vl-plus"  # 可选：qwen-vl-max/qwen-vl-turbo
+# 2. 数据集配置
+VISULOGIC_DATASET = "Sellopale/VisuLogic"  # HF数据集地址
+DATASET_CACHE_DIR = "./cache/VisuLogic"
+# 3. 评测配置
+TEMPERATURE = 0.0  # 固定温度，保证结果可复现
+MAX_TOKENS = 10    # 只输出A/B/C/D，不用多token
+OUTPUT_PATH = "./results/qwen3-vl-visulogic.json"

eval_qwen3_vl.py ADDED Viewed

	@@ -0,0 +1,102 @@

+import json
+import os
+import dashscope
+from dashscope import MultiModalConversation
+from datasets import load_dataset
+from config import *
+# 初始化DashScope
+dashscope.api_key = DASHSCOPE_API_KEY
+def load_visulogic_dataset():
+    """加载VisuLogic数据集（自动下载到缓存）"""
+    dataset = load_dataset(VISULOGIC_DATASET, cache_dir=DATASET_CACHE_DIR)
+    return dataset["test"]  # VisuLogic的测试集是1000题
+def qwen3_vl_predict(image_url, question, options):
+    """调用Qwen3-VL API预测答案（只返回A/B/C/D）"""
+    # 构造prompt：强制只输出选项字母，避免判错
+    prompt = f"""
+    视觉逻辑推理题，请严格按照要求回答：
+    问题：{question}
+    选项：
+    A: {options[0]}
+    B: {options[1]}
+    C: {options[2]}
+    D: {options[3]}
+    要求：仅输出答案对应的字母（A/B/C/D），不要任何多余文字！
+    """
+    # 调用Qwen3-VL多模态API
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                {"image": image_url},  # 图片URL（数据集里的远程地址）
+                {"text": prompt}
+            ]
+        }
+    ]
+    response = MultiModalConversation.call(
+        model=QWEN_VL_MODEL,
+        messages=messages,
+        temperature=TEMPERATURE,
+        max_tokens=MAX_TOKENS
+    )
+    # 提取答案（处理可能的多余字符）
+    answer = response.output.choices[0].message.content.strip().upper()
+    # 只保留A/B/C/D，过滤其他字符
+    answer = [c for c in answer if c in ["A", "B", "C", "D"]]
+    return answer[0] if answer else "A"  # 兜底：默认A
+def run_evaluation():
+    """运行完整评测：加载数据→预测→计算准确率→保存结果"""
+    # 1. 加载数据集
+    dataset = load_visulogic_dataset()
+    results = []
+    total = len(dataset)
+    correct = 0
+    # 2. 批量预测（可加进度条，这里简化）
+    for idx, sample in enumerate(dataset):
+        # 数据集字段：image_url/question/options/answer（标准答案）
+        image_url = sample["image_url"]
+        question = sample["question"]
+        options = [sample["A"], sample["B"], sample["C"], sample["D"]]
+        gt_answer = sample["answer"]  # 标准答案（A/B/C/D）
+        # 调用模型预测
+        pred_answer = qwen3_vl_predict(image_url, question, options)
+        # 统计正确数
+        is_correct = (pred_answer == gt_answer)
+        if is_correct:
+            correct += 1
+        # 保存单题结果
+        results.append({
+            "idx": idx,
+            "image_url": image_url,
+            "question": question,
+            "options": options,
+            "gt_answer": gt_answer,
+            "pred_answer": pred_answer,
+            "is_correct": is_correct
+        })
+        # 打印进度
+        if (idx + 1) % 10 == 0:
+            print(f"进度：{idx+1}/{total}，当前准确率：{correct/(idx+1):.2%}")
+    # 3. 计算总准确率
+    total_acc = correct / total
+    results.append({"total_accuracy": total_acc})
+    # 4. 保存结果到文件（创建results目录）
+    os.makedirs("./results", exist_ok=True)
+    with open(OUTPUT_PATH, "w", encoding="utf-8") as f:
+        json.dump(results, f, ensure_ascii=False, indent=2)
+    return total_acc, results

requirements.txt ADDED Viewed

	@@ -0,0 +1,19 @@

+# 基础依赖
+gradio>=4.20.0
+python-dotenv>=1.0.1
+requests>=2.31.0
+numpy>=1.26.0
+pandas>=2.1.0
+# 多模态/模型依赖
+torch>=2.1.0
+transformers>=4.38.0
+accelerate>=0.27.0
+Pillow>=10.2.0
+# Hugging Face 数据集
+datasets>=2.17.0
+huggingface-hub>=0.20.0
+# 阿里云DashScope（调用Qwen3-VL API用）
+dashscope>=1.14.0