zhaoyibo's picture

zhaoyibo

ybyby624

https://yibozhao624.github.io/

AI & ML interests

RL, LLM-based Agents

Recent Activity

updated a collection about 12 hours ago

Search Agent Review

updated a model about 12 hours ago

ybyby624/Qwen2_5-7B-Base-TreeGRPO-SearchR19k-1epoch-60steps-0517

published a model about 12 hours ago

ybyby624/Qwen2_5-7B-Base-TreeGRPO-SearchR19k-1epoch-60steps-0517

View all activity

Organizations

None yet

ybyby624 's models 12

ybyby624/Qwen2_5-7B-Base-TreeGRPO-SearchR19k-1epoch-60steps-0517

8B • Updated about 12 hours ago

ybyby624/Qwen2_5-7B-Base-SearchR1-SearchR19k-1epoch-160steps-0409

8B • Updated about 12 hours ago

ybyby624/Qwen2_5-7B-Base-SearchR1-Hermes9k-1epoch-281steps-0402

8B • Updated about 12 hours ago

ybyby624/Qwen2_5-7B-Base-SearchR1-Hermes9k-1epoch-20steps-0402

8B • Updated about 12 hours ago

ybyby624/Qwen2_5-7B-Base-IGPO-SearchR19k-1epoch-160steps-0411

8B • Updated about 12 hours ago

ybyby624/Qwen2_5-7B-Base-IGPO-Hermes9k-1epoch-40steps-0404

8B • Updated about 12 hours ago

ybyby624/Qwen2_5-7B-Base-IGPO-Hermes9k-1epoch-281steps-0404

8B • Updated about 13 hours ago

ybyby624/Qwen2_5-7B-Base-GiGPO-SearchR19k-1epoch-280steps-0410

8B • Updated about 13 hours ago

ybyby624/Qwen2_5-7B-Base-GiGPO-Hermes9k-1epoch-20steps-0408

8B • Updated about 13 hours ago

ybyby624/Qwen3-8B-SearchR1-Hermes-9k-1epoch-260steps-0315

Updated about 13 hours ago

ybyby624/Grace-Qwen3-4B-QASPER

4B • Updated Mar 6 • 5

ybyby624/Grace-Qwen3-4B-Hotpot

4B • Updated Mar 5 • 1