Spaces:

XcodeAddy
/

sentinel-env

Running

App Files Files Community

XcodeAddy commited on 18 days ago

Commit

c47715e

1 Parent(s): 1835d90

Fix HF training deps and Space API fallback

Browse files

Files changed (4) hide show

requirements-train.txt +6 -6
training/launch_hf_job.py +18 -15
training/train.py +2 -0
ui/app/hooks/useSentinel.ts +6 -4

requirements-train.txt CHANGED Viewed

@@ -1,10 +1,10 @@
 unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git
-trl<0.13
-transformers>=4.46
-datasets
-accelerate
-peft
-bitsandbytes
 matplotlib
 seaborn
 pandas

 unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git
+trl>=0.18.2,<0.25,!=0.19.0
+transformers>=4.56,<5
+datasets>=3.0,<5
+accelerate>=1.4
+peft>=0.14
+bitsandbytes>=0.45
 matplotlib
 seaborn
 pandas

training/launch_hf_job.py CHANGED Viewed

@@ -48,12 +48,28 @@ def train_command(args: argparse.Namespace) -> str:
                 f"--batch-size {args.batch_size}",
                 f"--learning-rate {args.learning_rate}",
                 f"--lora-rank {args.lora_rank}",
                 f"--max-seq-length {args.max_seq_length}",
                 f"--output-dir {shlex.quote(args.output_dir)}",
             ]
         )
     )
     if args.mode == "train-full":
         lines.extend(
             [
                 "python -c \"from training.replay import record_trained_actions; "
@@ -67,21 +83,7 @@ def train_command(args: argparse.Namespace) -> str:
                 "cp outputs/eval_post.json outputs/evaluation_results.json",
                 "python -m training.plots --pre outputs/eval_pre.json "
                 "--post outputs/eval_post.json --out-dir outputs/charts",
-                "python - <<'PY'\n"
-                "import os\n"
-                "from huggingface_hub import HfApi\n"
-                "token = os.environ.get('HF_TOKEN')\n"
-                "api = HfApi(token=token)\n"
-                "model_repo = os.environ.get('SENTINEL_MODEL_REPO', 'XcodeAddy/sentinel-grpo-qwen05')\n"
-                "artifact_repo = os.environ.get('SENTINEL_ARTIFACT_REPO', 'XcodeAddy/sentinel-env-artifacts')\n"
-                "job_id = os.environ.get('JOB_ID', 'manual')\n"
-                "api.create_repo(model_repo, repo_type='model', exist_ok=True)\n"
-                f"api.upload_folder(folder_path='{args.output_dir}', repo_id=model_repo, repo_type='model')\n"
-                "api.create_repo(artifact_repo, repo_type='dataset', exist_ok=True)\n"
-                "api.upload_folder(folder_path='outputs', repo_id=artifact_repo, repo_type='dataset', path_in_repo=f'job-{job_id}/outputs')\n"
-                "print('Uploaded model adapter to', model_repo)\n"
-                "print('Uploaded outputs to', artifact_repo, 'under', f'job-{job_id}/outputs')\n"
-                "PY",
             ]
         )
     return shell_join(lines)
@@ -105,6 +107,7 @@ def parse_args() -> argparse.Namespace:
     parser.add_argument("--batch-size", type=int, default=2)
     parser.add_argument("--learning-rate", type=float, default=5e-6)
     parser.add_argument("--lora-rank", type=int, default=8)
     parser.add_argument("--max-seq-length", type=int, default=1024)
     parser.add_argument("--output-dir", default="training/sentinel_qwen05_grpo")
     return parser.parse_args()

                 f"--batch-size {args.batch_size}",
                 f"--learning-rate {args.learning_rate}",
                 f"--lora-rank {args.lora_rank}",
+                f"--num-generations {args.num_generations}",
                 f"--max-seq-length {args.max_seq_length}",
                 f"--output-dir {shlex.quote(args.output_dir)}",
             ]
         )
     )
     if args.mode == "train-full":
+        upload_code = (
+            "import os; "
+            "from huggingface_hub import HfApi; "
+            "token=os.environ.get('HF_TOKEN'); "
+            "api=HfApi(token=token); "
+            "model_repo=os.environ.get('SENTINEL_MODEL_REPO','XcodeAddy/sentinel-grpo-qwen05'); "
+            "artifact_repo=os.environ.get('SENTINEL_ARTIFACT_REPO','XcodeAddy/sentinel-env-artifacts'); "
+            "job_id=os.environ.get('JOB_ID','manual'); "
+            "api.create_repo(model_repo, repo_type='model', exist_ok=True); "
+            f"api.upload_folder(folder_path='{args.output_dir}', repo_id=model_repo, repo_type='model'); "
+            "api.create_repo(artifact_repo, repo_type='dataset', exist_ok=True); "
+            "api.upload_folder(folder_path='outputs', repo_id=artifact_repo, repo_type='dataset', path_in_repo=f'job-{job_id}/outputs'); "
+            "print('Uploaded model adapter to', model_repo); "
+            "print('Uploaded outputs to', artifact_repo, 'under', f'job-{job_id}/outputs')"
+        )
         lines.extend(
             [
                 "python -c \"from training.replay import record_trained_actions; "
                 "cp outputs/eval_post.json outputs/evaluation_results.json",
                 "python -m training.plots --pre outputs/eval_pre.json "
                 "--post outputs/eval_post.json --out-dir outputs/charts",
+                f"python -c {shlex.quote(upload_code)}",
             ]
         )
     return shell_join(lines)
     parser.add_argument("--batch-size", type=int, default=2)
     parser.add_argument("--learning-rate", type=float, default=5e-6)
     parser.add_argument("--lora-rank", type=int, default=8)
+    parser.add_argument("--num-generations", type=int, default=2)
     parser.add_argument("--max-seq-length", type=int, default=1024)
     parser.add_argument("--output-dir", default="training/sentinel_qwen05_grpo")
     return parser.parse_args()

training/train.py CHANGED Viewed

@@ -174,6 +174,7 @@ def run_grpo(args) -> None:
         learning_rate=args.learning_rate,
         num_train_epochs=args.epochs,
         per_device_train_batch_size=args.batch_size,
         logging_steps=10,
         save_steps=50,
         max_prompt_length=args.max_seq_length,
@@ -210,6 +211,7 @@ def main() -> None:
     parser.add_argument("--learning-rate", type=float, default=5e-6)
     parser.add_argument("--max-seq-length", type=int, default=1024)
     parser.add_argument("--lora-rank", type=int, default=16)
     args = parser.parse_args()
     if args.dry_run:

         learning_rate=args.learning_rate,
         num_train_epochs=args.epochs,
         per_device_train_batch_size=args.batch_size,
+        num_generations=args.num_generations,
         logging_steps=10,
         save_steps=50,
         max_prompt_length=args.max_seq_length,
     parser.add_argument("--learning-rate", type=float, default=5e-6)
     parser.add_argument("--max-seq-length", type=int, default=1024)
     parser.add_argument("--lora-rank", type=int, default=16)
+    parser.add_argument("--num-generations", type=int, default=2)
     args = parser.parse_args()
     if args.dry_run:

ui/app/hooks/useSentinel.ts CHANGED Viewed

@@ -9,6 +9,8 @@ import type {
 /* ── helpers ──────────────────────────────────────────── */
 function bestSpec(obs: Observation | null): string {
   if (!obs) return "S0";
   return [...obs.available_specialists].sort(
@@ -92,12 +94,12 @@ export function useSentinel() {
   /* load evaluation data once */
   useEffect(() => {
-    fetch(`${process.env.NEXT_PUBLIC_API_URL}/assets/evaluation_results.json`)
       .then((r) => r.json())
       .then(setEval)
       .catch(() => null);
-    fetch(`${process.env.NEXT_PUBLIC_API_URL}/assets/trained_policy_replay.jsonl`)
       .then((r) => r.ok ? r.text() : "")
       .then((txt) => {
         const table = new Map<string, ReplayRow>();
@@ -151,7 +153,7 @@ export function useSentinel() {
       const payload = { task_type: t, seed: s };
       setLastReq({ method: "POST", path: "/reset", body: payload });
       try {
-        const res  = await fetch(`${process.env.NEXT_PUBLIC_API_URL}/reset`, {
           method: "POST",
           headers: { "Content-Type": "application/json" },
           body: JSON.stringify(payload),
@@ -203,7 +205,7 @@ export function useSentinel() {
       };
       setLastReq({ method: "POST", path: `/step?session_id=${sid}`, body: payload });
       try {
-        const res  = await fetch(`${process.env.NEXT_PUBLIC_API_URL}/step?session_id=${encodeURIComponent(sid)}`, {
           method: "POST",
           headers: { "Content-Type": "application/json" },
           body: JSON.stringify(payload),

 /* ── helpers ──────────────────────────────────────────── */
+const API_BASE = process.env.NEXT_PUBLIC_API_URL || "";
 function bestSpec(obs: Observation | null): string {
   if (!obs) return "S0";
   return [...obs.available_specialists].sort(
   /* load evaluation data once */
   useEffect(() => {
+    fetch(`${API_BASE}/assets/evaluation_results.json`)
       .then((r) => r.json())
       .then(setEval)
       .catch(() => null);
+    fetch(`${API_BASE}/assets/trained_policy_replay.jsonl`)
       .then((r) => r.ok ? r.text() : "")
       .then((txt) => {
         const table = new Map<string, ReplayRow>();
       const payload = { task_type: t, seed: s };
       setLastReq({ method: "POST", path: "/reset", body: payload });
       try {
+        const res  = await fetch(`${API_BASE}/reset`, {
           method: "POST",
           headers: { "Content-Type": "application/json" },
           body: JSON.stringify(payload),
       };
       setLastReq({ method: "POST", path: `/step?session_id=${sid}`, body: payload });
       try {
+        const res  = await fetch(`${API_BASE}/step?session_id=${encodeURIComponent(sid)}`, {
           method: "POST",
           headers: { "Content-Type": "application/json" },
           body: JSON.stringify(payload),