Wenbo Zhang

Wenboz

https://onepounchman.github.io/

AI & ML interests

Trustworthy AI, LLMs

Recent Activity

upvoted a paper about 23 hours ago

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

updated a dataset 4 months ago

Wenboz/mistral-base-dpo-iter2-reward-logps-ultrafeedback

published a dataset 4 months ago

Wenboz/mistral-base-dpo-iter2-reward-logps-ultrafeedback

View all activity

Organizations

None yet

upvoted a paper about 23 hours ago

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Paper • 2603.13985 • Published 4 days ago • 9

updated a dataset 4 months ago

Wenboz/mistral-base-dpo-iter2-reward-logps-ultrafeedback

Viewer • Updated Nov 27, 2025 • 20.6k • 10

published a dataset 4 months ago

Wenboz/mistral-base-dpo-iter2-reward-logps-ultrafeedback

Viewer • Updated Nov 27, 2025 • 20.6k • 10

updated a dataset 4 months ago

Wenboz/mistral-base-dpo-iter1-reward-logps-ultrafeedback

Viewer • Updated Nov 27, 2025 • 20.6k • 8

published a dataset 4 months ago

Wenboz/mistral-base-dpo-iter1-reward-logps-ultrafeedback

Viewer • Updated Nov 27, 2025 • 20.6k • 8

updated a dataset 8 months ago

Wenboz/rm_r1_example

Viewer • Updated Jul 7, 2025 • 1k • 6

published a dataset 9 months ago

Wenboz/rm_r1_example

Viewer • Updated Jul 7, 2025 • 1k • 6

updated a dataset 10 months ago

Wenboz/ultrafeedback_rationale_Qwen2.5-3B-Instruct_cot_v3

Viewer • Updated May 24, 2025 • 6 • 7

published a dataset 10 months ago

Wenboz/ultrafeedback_rationale_Qwen2.5-3B-Instruct_cot_v3

Viewer • Updated May 24, 2025 • 6 • 7

published a dataset about 1 year ago

Wenboz/ultrafeedback_rationale_Qwen2.5-3B-Instruct_ultra_filter_2e-5_thre-0.8_packing_42_cot

Updated Mar 3, 2025 • 7

updated a dataset about 1 year ago

Wenboz/ultrafeedback_rationale_Qwen2.5-3B-Instruct_ultra_sft_2e-5_thre-0.7_packing_42_cot

Viewer • Updated Mar 1, 2025 • 63.1k • 10

published a dataset about 1 year ago

Wenboz/ultrafeedback_rationale_Qwen2.5-3B-Instruct_ultra_sft_2e-5_thre-0.7_packing_42_cot

Viewer • Updated Mar 1, 2025 • 63.1k • 10

updated a dataset about 1 year ago

Wenboz/ultrafeedback_rationale_gemma-2-2b-it_cot

Viewer • Updated Feb 21, 2025 • 10 • 7

published a dataset about 1 year ago

Wenboz/ultrafeedback_rationale_gemma-2-2b-it_cot

Viewer • Updated Feb 21, 2025 • 10 • 7

updated 3 datasets about 1 year ago

published 2 datasets about 1 year ago

Wenboz/ultrafeedback_rationale_Qwen2.5-3B-Instruct_direct

Viewer • Updated Feb 20, 2025 • 61.1k • 4

Wenboz/ultrafeedback_rationale_Qwen2.5-3B-Instruct_cot

Viewer • Updated Feb 21, 2025 • 63.1k • 7

updated a dataset about 1 year ago

Wenboz/ultrafeedback_rationale_Qwen2.5-14B-Instruct

Viewer • Updated Feb 17, 2025 • 8 • 8

Wenbo Zhang

AI & ML interests

Recent Activity

Organizations

Wenboz's activity