Spaces:

Pandaisop
/

codesensei-env

Sleeping

App Files Files Community

codesensei-env / training /colab_train.py

Commit History

chore: test trial run for colab script with 10 dataset size and fixed dependencies

a59d79f

vineetshukla.work@gmail.com commited on Apr 12

fix: downgrade TRL to 0.15.0 and nuke ghost vLLM install to prevent import crashes

b119c82

vineetshukla.work@gmail.com commited on Apr 11

fix: correct trl version pin to 0.17.0

a46eca2

vineetshukla.work@gmail.com commited on Apr 11

fix: vLLM/TRL version conflict in Colab Cell 1

0b9cc90

vineetshukla.work@gmail.com commited on Apr 11

fix: training reward bounds to (0.01, 0.99) — prevents loss=0 from zero variance

545acf0

vineetshukla.work@gmail.com commited on Apr 11

fix: increase num_generations=6, temperature=0.9, lr=2e-5 to fix zero-loss GRPO

b3bf487

vineetshukla.work@gmail.com commited on Mar 28

fix: remove fp16=True, use paged_adamw_8bit for QLoRA BFloat16 compatibility

038f1b4

vineetshukla.work@gmail.com commited on Mar 28

fix: add 4-bit quantization + LoRA to fit GRPO training in T4 15GB VRAM

90d6d56

vineetshukla.work@gmail.com commited on Mar 28

refactor: rewrite training script - remove rollout_func, use inline reward evaluation

d81cba7

vineetshukla.work@gmail.com commited on Mar 27

fix: remove deprecated GRPOConfig params for latest TRL compatibility

0589e5e

vineetshukla.work@gmail.com commited on Mar 27

fix: set live HF Space URL in training script and demo app

d12dd6e

vineetshukla.work@gmail.com commited on Mar 27

feat: CodeSensei - GRPO-trained LLM code debugger on OpenEnv

c47c81c

vineetshukla.work@gmail.com commited on Mar 27

Commit History

chore: test trial run for colab script with 10 dataset size and fixed dependencies a59d79f

fix: downgrade TRL to 0.15.0 and nuke ghost vLLM install to prevent import crashes b119c82

fix: correct trl version pin to 0.17.0 a46eca2

fix: vLLM/TRL version conflict in Colab Cell 1 0b9cc90

fix: training reward bounds to (0.01, 0.99) — prevents loss=0 from zero variance 545acf0

fix: increase num_generations=6, temperature=0.9, lr=2e-5 to fix zero-loss GRPO b3bf487

fix: remove fp16=True, use paged_adamw_8bit for QLoRA BFloat16 compatibility 038f1b4

fix: add 4-bit quantization + LoRA to fit GRPO training in T4 15GB VRAM 90d6d56

refactor: rewrite training script - remove rollout_func, use inline reward evaluation d81cba7

fix: remove deprecated GRPOConfig params for latest TRL compatibility 0589e5e

fix: set live HF Space URL in training script and demo app d12dd6e

feat: CodeSensei - GRPO-trained LLM code debugger on OpenEnv c47c81c

chore: test trial run for colab script with 10 dataset size and fixed dependencies

a59d79f

fix: downgrade TRL to 0.15.0 and nuke ghost vLLM install to prevent import crashes

b119c82

fix: correct trl version pin to 0.17.0

a46eca2

fix: vLLM/TRL version conflict in Colab Cell 1

0b9cc90

fix: training reward bounds to (0.01, 0.99) — prevents loss=0 from zero variance

545acf0

fix: increase num_generations=6, temperature=0.9, lr=2e-5 to fix zero-loss GRPO

b3bf487

fix: remove fp16=True, use paged_adamw_8bit for QLoRA BFloat16 compatibility

038f1b4

fix: add 4-bit quantization + LoRA to fit GRPO training in T4 15GB VRAM

90d6d56

refactor: rewrite training script - remove rollout_func, use inline reward evaluation

d81cba7

fix: remove deprecated GRPOConfig params for latest TRL compatibility

0589e5e

fix: set live HF Space URL in training script and demo app

d12dd6e

feat: CodeSensei - GRPO-trained LLM code debugger on OpenEnv

c47c81c