caiyuchen
/

DAPO-step-21

@@ -55,20 +55,3 @@ inputs = tokenizer(prompt, return_tensors="pt")
 outputs = model.generate(**inputs, max_new_tokens=256)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
-## 📎 Reference
-If you find this model useful, please consider citing our paper:
-[**On Predictability of Reinforcement Learning Dynamics for Large Language Models**](https://huggingface.co/papers/2510.00553)
-```bibtex
-@misc{{cai2025predictabilityreinforcementlearningdynamics,
-      title={{On Predictability of Reinforcement Learning Dynamics for Large Language Models}},
-      author={{Yuchen Cai and Ding Cao and Xin Xu and Zijun Yao and Yuqing Huang and Zhenyu Tan and Benyi Zhang and Guiquan Liu and Junfeng Fang}},
-      year={{2025}},
-      eprint={{2510.00553}},
-      archivePrefix={{arXiv}},
-      primaryClass={{cs.LG}},
-      url={{https://arxiv.org/abs/2510.00553}},
-}}


55	outputs = model.generate(**inputs, max_new_tokens=256)
56	print(tokenizer.decode(outputs[0], skip_special_tokens=True))
57