Harryis
/

SCOUT_multitask

Reinforcement Learning

Model card Files Files and versions

Harryis commited on Feb 1

Commit

d421d96

·

verified ·

1 Parent(s): cb1ba2a

Update README.md

Files changed (1) hide show

README.md +7 -1

README.md CHANGED Viewed

@@ -6,6 +6,8 @@ tags:
 - multi-task
 - scout
 - ppo
 ---
 # SCOUT-Multitask Sequential RL Agent
@@ -51,4 +53,8 @@ model_name = "Harryis/SCOUT_multitask"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
-# Example: Prompt the model for a Sudoku move or Sokoban action

 - multi-task
 - scout
 - ppo
+papers:
+- 2601.21754
 ---
 # SCOUT-Multitask Sequential RL Agent
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
+# Example: Prompt the model for a Sudoku move or Sokoban action
+**Links:**
+- 📄 **Paper:** [SCOUT: Sequential RL with Exploration & Distillation](https://huggingface.co/papers/2601.21754)
+- 💻 **Code:** [Github](https://github.com/Harry-mic/SCOUT)