Spaces:

CodeReview
/

codereview-env

Sleeping

SyamSashank commited on Apr 5

Commit

df58858

verified ·

1 Parent(s): d934356

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -14,6 +14,7 @@ tags:
   - openenv
 ---
 # CodeReviewEnv
 A realistic OpenEnv environment where an AI agent performs code review on Python code snippets.
@@ -44,18 +45,25 @@ git clone <your-space-url>
 cd codereview-env
 docker build -t codereview-env .
 docker run -p 7860:7860 codereview-env
-Baseline Inference
-bash
-export OPENAI_API_KEY=your_key
 export ENV_URL=http://localhost:7860
 python inference.py
-Expected baseline scores (GPT-4o-mini):
-Easy: ~0.92
-Medium: ~0.78
-Hard: ~0.54
-Deploy to HF Spaces
-Create a Space with Docker, push this repo, and set environment variables API_BASE_URL, MODEL_NAME, HF_TOKEN.

   - openenv
 ---
 # CodeReviewEnv
 A realistic OpenEnv environment where an AI agent performs code review on Python code snippets.
 cd codereview-env
 docker build -t codereview-env .
 docker run -p 7860:7860 codereview-env
+```
+## Baseline Inference
+```bash
+export GROQ_API_KEY=your_key
 export ENV_URL=http://localhost:7860
 python inference.py
+```
+Expected baseline scores (Llama-3-70B-8192):
+- Easy: ~0.95
+- Medium: ~0.82
+- Hard: ~0.60
+## Deploy to HF Spaces
+Create a Space with Docker, push this repo, and set environment variables `API_BASE_URL`, `MODEL_NAME`, `HF_TOKEN`.
+---
+This implementation satisfies all OpenEnv requirements, including real-world utility, varying difficulty, 0.0-1.0 grading, and reproducible baseline inference.