Spaces:

HorizonRobotics
/

EmbodiedGen-Image-to-3D

Running on Zero

App Files Files Community

xinjjj commited on 10 days ago

Commit

92a557f

1 Parent(s): a7dabe5

feat(gpt): add GPT-5.4 support

Browse files

Files changed (2) hide show

embodied_gen/utils/gpt_clients.py +56 -16
embodied_gen/utils/gpt_config.yaml +7 -1

embodied_gen/utils/gpt_clients.py CHANGED Viewed

@@ -46,6 +46,9 @@ __all__ = [
 _CURRENT_DIR = os.path.dirname(os.path.abspath(__file__))
 CONFIG_FILE = os.path.join(_CURRENT_DIR, "gpt_config.yaml")
 DEFAULT_GPT_TIMEOUT = float(os.environ.get("GPT_TIMEOUT", 120))
 def combine_images_to_grid(
@@ -148,6 +151,11 @@ class GPTclient:
         logger.info(f"Using GPT model: {self.model_name}.")
     @retry(
         retry=retry_if_not_exception_type(openai.BadRequestError),
         wait=wait_random_exponential(min=1, max=10),
@@ -215,21 +223,49 @@ class GPTclient:
                     }
                 )
-        payload = {
-            "messages": [
-                {"role": "system", "content": system_role},
-                {"role": "user", "content": content_user},
-            ],
-            "temperature": 0.1,
-            "max_tokens": 500,
-            "top_p": 0.1,
-            "frequency_penalty": 0,
-            "presence_penalty": 0,
-            "stop": None,
-            "model": self.model_name,
-        }
         if params:
             payload.update(params)
         response = None
@@ -253,15 +289,19 @@ class GPTclient:
             ConnectionError: If connection fails.
         """
         try:
-            response = self.completion_with_backoff(
                 messages=[
                     {"role": "system", "content": "You are a test system."},
                     {"role": "user", "content": "Hello"},
                 ],
                 model=self.model_name,
-                temperature=0,
-                max_tokens=100,
             )
             response.choices[0].message.content
             logger.info("Connection check success.")
         except Exception:

 _CURRENT_DIR = os.path.dirname(os.path.abspath(__file__))
 CONFIG_FILE = os.path.join(_CURRENT_DIR, "gpt_config.yaml")
 DEFAULT_GPT_TIMEOUT = float(os.environ.get("GPT_TIMEOUT", 120))
+# GPT-5.x counts reasoning tokens against this cap, so it must be high
+# enough to leave room for both reasoning and the visible reply.
+GPT5_DEFAULT_MAX_COMPLETION_TOKENS = 8192
 def combine_images_to_grid(
         logger.info(f"Using GPT model: {self.model_name}.")
+    @staticmethod
+    def _is_gpt5_model(model_name: str) -> bool:
+        name = (model_name or "").lower()
+        return "gpt-5" in name or "gpt5" in name
     @retry(
         retry=retry_if_not_exception_type(openai.BadRequestError),
         wait=wait_random_exponential(min=1, max=10),
                     }
                 )
+        is_gpt5 = self._is_gpt5_model(self.model_name)
+        if is_gpt5:
+            # GPT-5.x only supports default temperature/top_p and uses
+            # `max_completion_tokens` instead of `max_tokens`.
+            payload = {
+                "messages": [
+                    {"role": "system", "content": system_role},
+                    {"role": "user", "content": content_user},
+                ],
+                "max_completion_tokens": GPT5_DEFAULT_MAX_COMPLETION_TOKENS,
+                "model": self.model_name,
+            }
+        else:
+            payload = {
+                "messages": [
+                    {"role": "system", "content": system_role},
+                    {"role": "user", "content": content_user},
+                ],
+                "temperature": 0.1,
+                "max_tokens": 500,
+                "top_p": 0.1,
+                "frequency_penalty": 0,
+                "presence_penalty": 0,
+                "stop": None,
+                "model": self.model_name,
+            }
         if params:
+            params = dict(params)
+            if is_gpt5:
+                # GPT-5.x rejects custom temperature/top_p/penalty/stop and
+                # uses `max_completion_tokens` instead of `max_tokens`.
+                if "max_tokens" in params and "max_completion_tokens" not in params:
+                    params["max_completion_tokens"] = params.pop("max_tokens")
+                for k in (
+                    "temperature",
+                    "top_p",
+                    "frequency_penalty",
+                    "presence_penalty",
+                    "stop",
+                    "max_tokens",
+                ):
+                    params.pop(k, None)
             payload.update(params)
         response = None
             ConnectionError: If connection fails.
         """
         try:
+            probe_kwargs = dict(
                 messages=[
                     {"role": "system", "content": "You are a test system."},
                     {"role": "user", "content": "Hello"},
                 ],
                 model=self.model_name,
             )
+            if self._is_gpt5_model(self.model_name):
+                probe_kwargs["max_completion_tokens"] = 100
+            else:
+                probe_kwargs["temperature"] = 0
+                probe_kwargs["max_tokens"] = 100
+            response = self.completion_with_backoff(**probe_kwargs)
             response.choices[0].message.content
             logger.info("Connection check success.")
         except Exception:

embodied_gen/utils/gpt_config.yaml CHANGED Viewed

@@ -1,5 +1,5 @@
 # config.yaml
-agent_type: "qwen2.5-vl" # gpt-4o or qwen2.5-vl
 gpt-4o:
   endpoint: https://xxx.openai.azure.com
@@ -7,6 +7,12 @@ gpt-4o:
   api_version: 2025-xx-xx
   model_name: yfb-gpt-4o
 qwen2.5-vl:
   endpoint: https://openrouter.ai/api/v1
   api_key: sk-or-v1-xxx

 # config.yaml
+agent_type: "gpt-5.4" # gpt-4o, gpt-5.4 or qwen2.5-vl
 gpt-4o:
   endpoint: https://xxx.openai.azure.com
   api_version: 2025-xx-xx
   model_name: yfb-gpt-4o
+gpt-5.4:
+  endpoint: https://yfb-openai-sweden.openai.azure.com/
+  api_key: xxx
+  api_version: 2024-12-01-preview
+  model_name: gpt-5.4
 qwen2.5-vl:
   endpoint: https://openrouter.ai/api/v1
   api_key: sk-or-v1-xxx