laion
/

SweSmith-8B-SFT-Rope-step62

Text Generation

reinforcement-learning

text-generation-inference

Model card Files Files and versions

SweSmith-8B-SFT-Rope-step62 / README.md

marianna13's picture

Update README.md

5bddf43 verified 7 days ago

|

history blame contribute delete

849 Bytes

	---
	license: apache-2.0
	base_model: laion/r2egym-nl2bash-stack-bugsseq-fixthink-again
	tags:
	- reinforcement-learning
	- code
	- swesmith
	- rl
	- rloo
	datasets:
	- DCAgent/swesmith-oracle-verified-120s-2500
	language:
	- en
	pipeline_tag: text-generation
	library_name: transformers
	---

	# SweSmith-8B-SFT-Rope-step62

	RL-trained Qwen3-8B on SWEsmith tasks (65k context with YaRN rope scaling factor=4.0, 62 steps). Best evaluated at 65k context.

	## Training Details

	- Base model: [laion/r2egym-nl2bash-stack-bugsseq-fixthink-again](https://huggingface.co/laion/r2egym-nl2bash-stack-bugsseq-fixthink-again) (Qwen3-8B SFT)
	- Training method: RLOO-N
	- Training data: 2,500 SWEsmith tasks (oracle-verified, 120s timeout)
	- Framework: BenSkyRL + Harbor
	- Sandbox: Apptainer containers with proxychains for internet access