Spaces:

openenv-community
/

test-local-nested-envs

Running on T4

Commit History

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Claude commited on 3 days ago

Commit History

Cap prompt generation at 512 tokens and add version print ee71a24 unverified

Add SFT warm start before GRPO and DB connectivity init check c2dc160 unverified

Add local model inference backend for Layer 2 10418d0 unverified

Make Supabase uploads incremental — upload after every step 76f180f unverified

Add Supabase upload for training results (Storage + DB) 28bcb40 unverified

Add raw training summary output and adjust training scale 71b0977 unverified

Add volume verification, fsync, and stdout fallback for training outputs f703ff1 unverified

Clean up dead code, unused imports, and move hardcoded values to config.yaml 3dc48b7 unverified

Add --llm-agent and other legacy CLI flags for backwards compatibility 03d9529 unverified

Centralize all training params in config.yaml (single source of truth) 4e2b74e unverified

Remove mock mode: only real GRPO RL training remains 288d9a2 unverified

Add clear training progress logging with technical + domain names 4b89b89 unverified

Update docstrings to reflect LLM-only training pipeline 01518e0 unverified

Align GRPOConfig defaults with CLI: 10 steps, 7 episodes ca36c02 unverified

Remove all rule-based fallback systems, require LLM inference 21da591 unverified

Reduce training defaults for fast iteration: steps=10, episodes=7 b1d7ca2 unverified

Add training report & logging system with reward charts and conversation comparisons 506d641 unverified

Wire up real LLM integration via HF Inference API 4ac72af unverified

Fix critical gaps: prompt-sensitive agent, adversarial customers, executable GRPO, OpenEnv wrapper b259333 unverified

Cap prompt generation at 512 tokens and add version print

ee71a24
unverified

Add SFT warm start before GRPO and DB connectivity init check

c2dc160
unverified

Add local model inference backend for Layer 2

10418d0
unverified

Make Supabase uploads incremental — upload after every step

76f180f
unverified

Add Supabase upload for training results (Storage + DB)

28bcb40
unverified

Add raw training summary output and adjust training scale

71b0977
unverified

Add volume verification, fsync, and stdout fallback for training outputs

f703ff1
unverified

Clean up dead code, unused imports, and move hardcoded values to config.yaml

3dc48b7
unverified

Add --llm-agent and other legacy CLI flags for backwards compatibility

03d9529
unverified

Centralize all training params in config.yaml (single source of truth)

4e2b74e
unverified

Remove mock mode: only real GRPO RL training remains

288d9a2
unverified

Add clear training progress logging with technical + domain names

4b89b89
unverified

Update docstrings to reflect LLM-only training pipeline

01518e0
unverified

Align GRPOConfig defaults with CLI: 10 steps, 7 episodes

ca36c02
unverified

Remove all rule-based fallback systems, require LLM inference

21da591
unverified

Reduce training defaults for fast iteration: steps=10, episodes=7

b1d7ca2
unverified

Add training report & logging system with reward charts and conversation comparisons

506d641
unverified

Wire up real LLM integration via HF Inference API

4ac72af
unverified

Fix critical gaps: prompt-sensitive agent, adversarial customers, executable GRPO, OpenEnv wrapper

b259333
unverified