THU-KEG
/

LongTraceRL-4B

@@ -1,15 +1,17 @@
 ---
-license: apache-2.0
 language:
 - en
 tags:
 - long-context
 - reinforcement-learning
 - reasoning
 - rubric-reward
 - qwen3
-base_model:
-- Qwen/Qwen3-4B
 ---
 # LongTraceRL-4B
@@ -19,7 +21,7 @@ base_model:
 ## Model Description
-**LongTraceRL-4B** is a 4-billion parameter reasoning model trained with reinforcement learning on long-context multi-hop QA tasks using trajectory-based tiered distractors and entity-level rubric rewards.
 ## Model Details
@@ -61,4 +63,4 @@ tokenizer = AutoTokenizer.from_pretrained("THU-KEG/LongTraceRL-4B")
       primaryClass={cs.CL},
       url={https://arxiv.org/abs/2605.31584},
 }
-```

 ---
+base_model:
+- Qwen/Qwen3-4B
 language:
 - en
+license: apache-2.0
+library_name: transformers
+pipeline_tag: text-generation
 tags:
 - long-context
 - reinforcement-learning
 - reasoning
 - rubric-reward
 - qwen3
 ---
 # LongTraceRL-4B
 ## Model Description
+**LongTraceRL-4B** is a 4-billion parameter reasoning model introduced in the paper [LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards](https://arxiv.org/abs/2605.31584). It is trained with reinforcement learning on long-context multi-hop QA tasks using trajectory-based tiered distractors and entity-level rubric rewards.
 ## Model Details
       primaryClass={cs.CL},
       url={https://arxiv.org/abs/2605.31584},
 }
+```