Spaces:

tuandunghcmut
/

viscot-demo

Running on Zero

dung-vpt-uney commited on Oct 12

Commit

0e3c28d

1 Parent(s): 69afdf8

Update Visual-CoT demo - 2025-10-12 23:45:35

Fixes:
- Fix LLaVA config registration error (compatibility with newer transformers)
- Update Gradio to latest version (security fixes)
- Auto-deployed via update script

Files changed (1) hide show

app.py +32 -9

app.py CHANGED Viewed

@@ -64,8 +64,8 @@ AVAILABLE_MODELS = {
     "VisCoT-13B-336 (Best)": "deepcs233/VisCoT-13b-336",
 }
-MODEL_PATH = "deepcs233/VisCoT-7b-224"  # Default: smallest/fastest
-CURRENT_MODEL_NAME = "VisCoT-7B-224 (Fastest)"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Benchmark datasets from Visual Chain-of-Thought Reasoning Benchmarks Collection
@@ -73,38 +73,56 @@ DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 BENCHMARK_DATASETS = {
     "Visual-CoT": {
         "path": "deepcs233/Visual-CoT",
         "description": "Main Visual-CoT dataset with 438K question-answer pairs",
     },
     "GQA": {
         "path": "lmms-lab/GQA",
-        "description": "Scene graph question answering (24.2M examples)",
     },
     "RefCOCO": {
         "path": "lmms-lab/RefCOCO",
         "description": "Referring expression comprehension (17.6K examples)",
     },
     "RefCOCO+": {
         "path": "lmms-lab/RefCOCOplus",
         "description": "RefCOCO with no location words (7.58K examples)",
     },
     "RefCOCOg": {
         "path": "lmms-lab/RefCOCOg",
         "description": "RefCOCO with longer expressions (12.6K examples)",
     },
     "POPE": {
         "path": "lmms-lab/POPE",
-        "description": "Polling-based Object Probing Evaluation (18K examples)",
     },
     "ScienceQA": {
         "path": "lmms-lab/ScienceQA",
         "description": "Science question answering (12.6K examples)",
     },
     "MM-GCoT": {
         "path": "AQUA6/MM-GCoT",
         "description": "Multi-Modal Graph Chain-of-Thought (64.9K examples)",
     },
     "VGR": {
         "path": "BytedanceDouyinContent/VGR",
         "description": "Visual Grounding & Reasoning (90K examples)",
     },
 }
@@ -201,10 +219,15 @@ def load_benchmark_example(dataset_name, index=0):
             return None, "Dataset not found", "", "", ""
         dataset_path = dataset_info["path"]
-        # Load dataset
-        print(f"Loading {dataset_name} from {dataset_path}...")
-        dataset = load_dataset(dataset_path, split="train", streaming=True)
         # Get specific index (for streaming, we need to iterate)
         for i, example in enumerate(dataset):
@@ -506,8 +529,8 @@ def create_demo():
         # Header
         gr.HTML("""
         <div class="header">
-            <h1>🌋 Visual-CoT: Chain-of-Thought Reasoning</h1>
-            <p style="font-size: 18px; margin: 10px 0;">
                 Advancing Multi-Modal Language Models with Visual Chain-of-Thought
             </p>
             <p style="font-size: 14px; opacity: 0.9;">

     "VisCoT-13B-336 (Best)": "deepcs233/VisCoT-13b-336",
 }
+MODEL_PATH = "deepcs233/VisCoT-7b-336"  # Default: balanced quality/speed
+CURRENT_MODEL_NAME = "VisCoT-7B-336 (Balanced)"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Benchmark datasets from Visual Chain-of-Thought Reasoning Benchmarks Collection
 BENCHMARK_DATASETS = {
     "Visual-CoT": {
         "path": "deepcs233/Visual-CoT",
+        "config": None,
+        "split": "train",
         "description": "Main Visual-CoT dataset with 438K question-answer pairs",
     },
     "GQA": {
         "path": "lmms-lab/GQA",
+        "config": "train_balanced_images",
+        "split": "train",
+        "description": "Scene graph question answering (balanced training set)",
     },
     "RefCOCO": {
         "path": "lmms-lab/RefCOCO",
+        "config": None,
+        "split": "train",
         "description": "Referring expression comprehension (17.6K examples)",
     },
     "RefCOCO+": {
         "path": "lmms-lab/RefCOCOplus",
+        "config": None,
+        "split": "train",
         "description": "RefCOCO with no location words (7.58K examples)",
     },
     "RefCOCOg": {
         "path": "lmms-lab/RefCOCOg",
+        "config": None,
+        "split": "train",
         "description": "RefCOCO with longer expressions (12.6K examples)",
     },
     "POPE": {
         "path": "lmms-lab/POPE",
+        "config": None,
+        "split": "test",
+        "description": "Polling-based Object Probing Evaluation (18K test examples)",
     },
     "ScienceQA": {
         "path": "lmms-lab/ScienceQA",
+        "config": None,
+        "split": "train",
         "description": "Science question answering (12.6K examples)",
     },
     "MM-GCoT": {
         "path": "AQUA6/MM-GCoT",
+        "config": None,
+        "split": "train",
         "description": "Multi-Modal Graph Chain-of-Thought (64.9K examples)",
     },
     "VGR": {
         "path": "BytedanceDouyinContent/VGR",
+        "config": None,
+        "split": "train",
         "description": "Visual Grounding & Reasoning (90K examples)",
     },
 }
             return None, "Dataset not found", "", "", ""
         dataset_path = dataset_info["path"]
+        dataset_config = dataset_info.get("config")
+        dataset_split = dataset_info.get("split", "train")
+        # Load dataset with config and split
+        print(f"Loading {dataset_name} from {dataset_path} (config={dataset_config}, split={dataset_split})...")
+        if dataset_config:
+            dataset = load_dataset(dataset_path, dataset_config, split=dataset_split, streaming=True)
+        else:
+            dataset = load_dataset(dataset_path, split=dataset_split, streaming=True)
         # Get specific index (for streaming, we need to iterate)
         for i, example in enumerate(dataset):
         # Header
         gr.HTML("""
         <div class="header">
+            <h1 style="color: white;">🌋 Visual-CoT: Chain-of-Thought Reasoning</h1>
+            <p style="font-size: 18px; margin: 10px 0; color: white;">
                 Advancing Multi-Modal Language Models with Visual Chain-of-Thought
             </p>
             <p style="font-size: 14px; opacity: 0.9;">