Spaces:

owlgebra-ai
/

EcomRLVE-Gym

Running

owlgebra-ai Claude Opus 4.6 (1M context) commited on 26 days ago

Commit

eb1ba78

1 Parent(s): 06e59e9

Fix thinking tokens in chat + format specifier error

- Strip <think>...</think> blocks from conversation display
- Pass enable_thinking=False to Qwen3 pipeline
- Handle incomplete think blocks (no closing tag)
- Fix f-string format specifier for bool values in reward banner

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

Files changed (2) hide show

app.py +9 -3
src/shop_rlve/simulator/llm_backend.py +6 -1

app.py CHANGED Viewed

@@ -334,7 +334,7 @@ def _fmt_reward_banner(reward: float, info: dict) -> str:
     if details:
         html += "\n\n| Metric | Value |\n|--------|-------|\n"
         for k, v in details.items():
-            html += f"| {k} | {v:.4f if isinstance(v, float) else v} |\n"
     return html
@@ -397,12 +397,18 @@ def _fmt_episode(session: SessionState) -> str:
 def _fmt_chat(session: SessionState) -> list[dict]:
     out = []
     for m in session.conversation:
         role = m.get("role", "user")
         content = m.get("content", "")
-        out.append({"role": "user" if role == "user" else "assistant",
-                     "content": content})
     return out

     if details:
         html += "\n\n| Metric | Value |\n|--------|-------|\n"
         for k, v in details.items():
+            html += f"| {k} | {f'{v:.4f}' if isinstance(v, float) else v} |\n"
     return html
 def _fmt_chat(session: SessionState) -> list[dict]:
+    import re as _re
     out = []
     for m in session.conversation:
         role = m.get("role", "user")
         content = m.get("content", "")
+        # Strip any thinking tokens from LLM responses
+        content = _re.sub(r"<think>.*?</think>", "", content, flags=_re.DOTALL)
+        content = _re.sub(r"<think>.*", "", content, flags=_re.DOTALL)
+        content = content.strip()
+        if content:
+            out.append({"role": "user" if role == "user" else "assistant",
+                         "content": content})
     return out

src/shop_rlve/simulator/llm_backend.py CHANGED Viewed

@@ -93,12 +93,17 @@ def _transformers_generate(
             temperature=max(temperature, 0.01),
             do_sample=True,
             return_full_text=False,
         )
         text = result[0]["generated_text"]
         if isinstance(text, list):
             # chat pipeline returns list of message dicts
             text = text[-1].get("content", "") if text else ""
-        text = re.sub(r"<think>.*?</think>", "", str(text), flags=re.DOTALL).strip()
         return text if text else None
     except Exception as exc:
         logger.warning("Transformers generation failed: %s", exc)

             temperature=max(temperature, 0.01),
             do_sample=True,
             return_full_text=False,
+            enable_thinking=False,  # Disable Qwen3 thinking tokens
         )
         text = result[0]["generated_text"]
         if isinstance(text, list):
             # chat pipeline returns list of message dicts
             text = text[-1].get("content", "") if text else ""
+        text = str(text)
+        # Strip complete and incomplete thinking blocks
+        text = re.sub(r"<think>.*?</think>", "", text, flags=re.DOTALL)
+        text = re.sub(r"<think>.*", "", text, flags=re.DOTALL)
+        text = text.strip()
         return text if text else None
     except Exception as exc:
         logger.warning("Transformers generation failed: %s", exc)