laion
/

SweSmith-8B-SFT-Rope-step62

Text Generation

reinforcement-learning

text-generation-inference

Model card Files Files and versions

marianna13 commited on 20 days ago

Commit

5bddf43

·

verified ·

1 Parent(s): 0020fe4

Update README.md

Files changed (1) hide show

README.md +2 -13

README.md CHANGED Viewed

@@ -22,20 +22,9 @@ RL-trained Qwen3-8B on SWEsmith tasks (65k context with YaRN rope scaling factor
 ## Training Details
 - **Base model**: [laion/r2egym-nl2bash-stack-bugsseq-fixthink-again](https://huggingface.co/laion/r2egym-nl2bash-stack-bugsseq-fixthink-again) (Qwen3-8B SFT)
-- **Training method**: RLOO-N (Reinforcement Learning with Leave-One-Out baselines)
 - **Training data**: 2,500 SWEsmith tasks (oracle-verified, 120s timeout)
-- **Framework**: BenSkyRL + Harbor (Apptainer Bridge on JUWELS)
 - **Sandbox**: Apptainer containers with proxychains for internet access
-## Eval Results (dev_set_71_tasks, n=3)
-See results_20260316.md for full comparison tables.
-## Usage
-```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
-model = AutoModelForCausalLM.from_pretrained("laion/SweSmith-8B-SFT-Rope-step62")
-tokenizer = AutoTokenizer.from_pretrained("laion/SweSmith-8B-SFT-Rope-step62")
-```

 ## Training Details
 - **Base model**: [laion/r2egym-nl2bash-stack-bugsseq-fixthink-again](https://huggingface.co/laion/r2egym-nl2bash-stack-bugsseq-fixthink-again) (Qwen3-8B SFT)
+- **Training method**: RLOO-N
 - **Training data**: 2,500 SWEsmith tasks (oracle-verified, 120s timeout)
+- **Framework**: BenSkyRL + Harbor
 - **Sandbox**: Apptainer containers with proxychains for internet access