Spaces:

Jiaqi-hkust
/

Robust-R1

Running on Zero

App Files Files Community

Jiaqi-hkust commited on 8 days ago

Commit

edc87ef

verified ·

1 Parent(s): 29ab1d7

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

app.py +4 -54

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
 from qwen_vl_utils import process_vision_info
 import html
-# 导入 spaces 模块用于 GPU 检测
 is_spaces = os.getenv("SPACE_ID") is not None
 spaces_available = False
 GPU = None
@@ -15,11 +14,9 @@ if is_spaces:
         from spaces import GPU
         spaces_available = True
     except ImportError:
-        print("⚠️ spaces module not available, GPU detection may not work")
-# 创建条件装饰器
 def gpu_decorator(func):
-    """条件应用 GPU 装饰器"""
     if spaces_available and GPU is not None:
         return GPU(func)
     return func
@@ -40,42 +37,27 @@ if not is_spaces:
 MODEL_PATH = os.getenv("MODEL_PATH", "Jiaqi-hkust/Robust-R1-RL")
-print(f"==========================================")
-print(f"Initializing application...")
-print(f"==========================================")
 class ModelHandler:
     def __init__(self, model_path):
         self.model_path = model_path
         self.model = None
         self.processor = None
-        # 不在 __init__ 中加载模型，延迟到实际使用时
     def _load_model(self):
-        """延迟加载模型，在 GPU 装饰器函数内部调用"""
         if self.model is not None:
-            return  # 已经加载过了
         try:
-            print(f"⏳ Loading model weights, this may take a few minutes...")
             self.processor = AutoProcessor.from_pretrained(self.model_path)
-            # 在 ZeroGPU 环境中，避免过早检查 CUDA
-            # 让 device_map="auto" 自动处理设备分配
             try:
                 cuda_available = torch.cuda.is_available()
                 if cuda_available:
-                    device_capability = torch.cuda.get_device_capability()
-                    print(f"🔧 CUDA available, device capability: {device_capability}")
                     torch_dtype = torch.bfloat16
                 else:
-                    print(f"🔧 Using CPU or non-CUDA device")
                     torch_dtype = torch.float32
             except RuntimeError:
-                # ZeroGPU 环境中可能暂时无法检查 CUDA
-                print(f"🔧 CUDA check skipped (ZeroGPU environment)")
-                torch_dtype = torch.bfloat16  # 假设有 GPU，让 device_map 处理
             self.model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
                 self.model_path,
@@ -84,13 +66,10 @@ class ModelHandler:
                 attn_implementation="sdpa",
                 trust_remote_code=True
             )
-            print("✅ Model loaded successfully!")
         except Exception as e:
-            print(f"❌ Model loading failed: {e}")
             raise e
     def predict(self, message_dict, history, temperature, max_tokens):
-        # 确保模型已加载
         if self.model is None:
             self._load_model()
@@ -100,7 +79,6 @@ class ModelHandler:
         messages = []
         if history:
-            print(f"Processing {len(history)} previous messages from history")
             for msg in history:
                 role = msg.get("role", "")
                 content = msg.get("content", "")
@@ -140,9 +118,6 @@ class ModelHandler:
         if current_content:
             messages.append({"role": "user", "content": current_content})
-        print(f"Total messages for model: {len(messages)}")
-        print(f"Message roles: {[m['role'] for m in messages]}")
         text_prompt = self.processor.apply_chat_template(
             messages, tokenize=False, add_generation_prompt=True
@@ -168,44 +143,32 @@ class ModelHandler:
         )
         try:
-            print("Starting model generation...")
             with torch.no_grad():
                 generated_ids = self.model.generate(**generation_kwargs)
             input_length = inputs['input_ids'].shape[1]
             generated_ids = generated_ids[0][input_length:]
-            print(f"Input length: {input_length}, Generated token count: {len(generated_ids)}")
             generated_text = self.processor.tokenizer.decode(
                 generated_ids,
                 skip_special_tokens=True
             )
-            print(f"Generation completed. Output length: {len(generated_text)}, Content preview: {repr(generated_text[:200])}")
             if generated_text and generated_text.strip():
-                print(f"Yielding generated text: {generated_text[:100]}...")
                 yield generated_text
             else:
                 warning_msg = "⚠️ No output generated. The model may not have produced any response."
-                print(warning_msg)
                 yield warning_msg
         except Exception as e:
-            import traceback
-            error_details = traceback.format_exc()
-            print(f"Error in model.generate: {error_details}")
             yield f"❌ Generation error: {str(e)}"
             return
 model_handler = None
 def get_model_handler():
-    """Get model handler with lazy loading"""
     global model_handler
     if model_handler is None:
-        print("🔄 Initializing model handler...")
         model_handler = ModelHandler(MODEL_PATH)
     return model_handler
@@ -216,30 +179,21 @@ custom_css = """
 @gpu_decorator
 def respond(user_msg, history, temp, tokens):
-    print("user_msg:")
-    print(user_msg)
     text = user_msg.get("text", "").strip()
     files = user_msg.get("files", [])
-    # 按照参考代码的格式：文件使用 {"path": x}，文本直接使用字符串
     user_message = {"role": "user", "content": []}
-    # 添加图像文件，使用 {"path": file_path} 格式
     for file_path in files:
         if file_path:
-            # 确保使用绝对路径
             abs_path = os.path.abspath(file_path) if not os.path.isabs(file_path) else file_path
             user_message["content"].append({"path": abs_path})
-    # 添加文本，直接使用字符串
     if text:
         user_message["content"].append(text)
-    # 如果只有文本没有文件，content 保持为列表；如果都没有，content 为空列表
-    # 如果只有文本，也可以直接使用字符串（参考 Gradio 的常见用法）
     if not files and text:
         user_message["content"] = text
-    print("user_message:")
-    print(user_message)
     history.append(user_message)
     yield history, gr.MultimodalTextbox(value=None, interactive=False)
@@ -259,8 +213,6 @@ def respond(user_msg, history, temp, tokens):
             yield history, gr.MultimodalTextbox(interactive=False)
     except Exception as e:
-        import traceback
-        traceback.print_exc()
         history[-1]["content"] = f"❌ Inference error: {str(e)}"
         yield history, gr.MultimodalTextbox(interactive=True)
@@ -345,7 +297,6 @@ if __name__ == "__main__":
     demo = create_chat_ui()
     if is_spaces:
-        print(f"🚀 Running on Hugging Face Spaces: {os.getenv('SPACE_ID')}")
         allowed_paths = [project_dir] if project_dir else None
         demo.launch(
             theme=gr.themes.Soft(),
@@ -354,7 +305,6 @@ if __name__ == "__main__":
             allowed_paths=allowed_paths
         )
     else:
-        print(f"🚀 Service is starting, please visit: http://localhost:7860")
         demo.launch(
             theme=gr.themes.Soft(),
             css=custom_css,

 from qwen_vl_utils import process_vision_info
 import html
 is_spaces = os.getenv("SPACE_ID") is not None
 spaces_available = False
 GPU = None
         from spaces import GPU
         spaces_available = True
     except ImportError:
+        pass
 def gpu_decorator(func):
     if spaces_available and GPU is not None:
         return GPU(func)
     return func
 MODEL_PATH = os.getenv("MODEL_PATH", "Jiaqi-hkust/Robust-R1-RL")
 class ModelHandler:
     def __init__(self, model_path):
         self.model_path = model_path
         self.model = None
         self.processor = None
     def _load_model(self):
         if self.model is not None:
+            return
         try:
             self.processor = AutoProcessor.from_pretrained(self.model_path)
             try:
                 cuda_available = torch.cuda.is_available()
                 if cuda_available:
                     torch_dtype = torch.bfloat16
                 else:
                     torch_dtype = torch.float32
             except RuntimeError:
+                torch_dtype = torch.bfloat16
             self.model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
                 self.model_path,
                 attn_implementation="sdpa",
                 trust_remote_code=True
             )
         except Exception as e:
             raise e
     def predict(self, message_dict, history, temperature, max_tokens):
         if self.model is None:
             self._load_model()
         messages = []
         if history:
             for msg in history:
                 role = msg.get("role", "")
                 content = msg.get("content", "")
         if current_content:
             messages.append({"role": "user", "content": current_content})
         text_prompt = self.processor.apply_chat_template(
             messages, tokenize=False, add_generation_prompt=True
         )
         try:
             with torch.no_grad():
                 generated_ids = self.model.generate(**generation_kwargs)
             input_length = inputs['input_ids'].shape[1]
             generated_ids = generated_ids[0][input_length:]
             generated_text = self.processor.tokenizer.decode(
                 generated_ids,
                 skip_special_tokens=True
             )
             if generated_text and generated_text.strip():
                 yield generated_text
             else:
                 warning_msg = "⚠️ No output generated. The model may not have produced any response."
                 yield warning_msg
         except Exception as e:
             yield f"❌ Generation error: {str(e)}"
             return
 model_handler = None
 def get_model_handler():
     global model_handler
     if model_handler is None:
         model_handler = ModelHandler(MODEL_PATH)
     return model_handler
 @gpu_decorator
 def respond(user_msg, history, temp, tokens):
     text = user_msg.get("text", "").strip()
     files = user_msg.get("files", [])
     user_message = {"role": "user", "content": []}
     for file_path in files:
         if file_path:
             abs_path = os.path.abspath(file_path) if not os.path.isabs(file_path) else file_path
             user_message["content"].append({"path": abs_path})
     if text:
         user_message["content"].append(text)
     if not files and text:
         user_message["content"] = text
     history.append(user_message)
     yield history, gr.MultimodalTextbox(value=None, interactive=False)
             yield history, gr.MultimodalTextbox(interactive=False)
     except Exception as e:
         history[-1]["content"] = f"❌ Inference error: {str(e)}"
         yield history, gr.MultimodalTextbox(interactive=True)
     demo = create_chat_ui()
     if is_spaces:
         allowed_paths = [project_dir] if project_dir else None
         demo.launch(
             theme=gr.themes.Soft(),
             allowed_paths=allowed_paths
         )
     else:
         demo.launch(
             theme=gr.themes.Soft(),
             css=custom_css,