rewardfm
/

libero_testset_prog_pref_fail_4frames_fixdata

preference_comparisons

Model card Files Files and versions

libero_testset_prog_pref_fail_4frames_fixdata / README.md

aliangdw's picture

Upload RFM model

dbdecea verified about 1 month ago

|

history blame contribute delete

549 Bytes

	---
	license: apache-2.0
	base_model: Qwen/Qwen3-VL-4B-Instruct
	tags:
	- reward_model
	- rfm
	- preference_comparisons
	library_name: transformers
	---

	# rewardfm/libero_90_prog_pref_fail_4frames_fixdata

	## Model Details

	- Base Model: Qwen/Qwen3-VL-4B-Instruct
	- Model Type: qwen3_vl

	## Training Run

	- Wandb Run: [libero_ablation_prog_pref_fail_4frames_fixdata](https://wandb.ai/clvr/rfm/runs/gw667gsc)
	- Wandb ID: `gw667gsc`
	- Project: rfm
	- Notes: libero prog_pref_fail only

	## Citation

	If you use this model, please cite: