Spaces:

LLM-course
/

lipogram_private

Running

App Files Files Community

nathanael-fijalkow commited on Jan 5

Commit

429074d

1 Parent(s): 116756e

added debug output

Browse files

Files changed (1) hide show

app.py +34 -10

app.py CHANGED Viewed

@@ -168,6 +168,12 @@ def evaluate_submission(file_obj, debug=False):
         # 2. ISOLATED LOADING
         # We use a unique name for each import to avoid namespace collisions
         file_path = file_obj if isinstance(file_obj, str) else file_obj.name
         spec = importlib.util.spec_from_file_location("student_module", file_path)
         student_module = importlib.util.module_from_spec(spec)
         spec.loader.exec_module(student_module)
@@ -179,9 +185,13 @@ def evaluate_submission(file_obj, debug=False):
         ex1_timeout = False
         ex1_outputs = []
         try:
             ex1_instance = student_module.LaDisparition(model, tokenizer)
             for i, prompt in enumerate(TEST_CASES["exercise_1"]):
                 try:
                     # We limit tokens to keep evaluation fast
                     output = run_with_timeout(
                         ex1_instance,
@@ -191,21 +201,26 @@ def evaluate_submission(file_obj, debug=False):
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
-                    passed = 'e' not in cleaned_output.lower() and len(cleaned_output.strip()) > 10
                     if passed:
                         ex1_passed += 1
-                    ex1_outputs.append({"prompt": prompt, "output": cleaned_output, "passed": passed})
                     if debug:
                         print(f"Ex1 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
-                        print(f"  Output: {cleaned_output}")
                         print()
                 except TimeoutException:
                     ex1_timeout = True
                     ex1_outputs.append({"prompt": prompt, "output": "TIMEOUT", "passed": False})
-                    if debug:
-                        print(f"Ex1 Test {i+1}: ✗ TIMEOUT")
                     break
             if ex1_timeout:
                 report.append(f" **Ex 1 (No 'e'):** TIMEOUT - evaluation exceeded {TIMEOUT_SECONDS}s limit")
             else:
@@ -223,9 +238,13 @@ def evaluate_submission(file_obj, debug=False):
         ex2_timeout = False
         ex2_outputs = []
         try:
             ex2_instance = student_module.ToulouseSequence(model, tokenizer)
             for i, prompt in enumerate(TEST_CASES["exercise_2"]):
                 try:
                     output = run_with_timeout(
                         ex2_instance,
                         args=(prompt,),
@@ -234,21 +253,26 @@ def evaluate_submission(file_obj, debug=False):
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
-                    passed = "toulouse" not in cleaned_output.lower() and len(cleaned_output.strip()) > 10
                     if passed:
                         ex2_passed += 1
-                    ex2_outputs.append({"prompt": prompt, "output": cleaned_output, "passed": passed})
                     if debug:
                         print(f"Ex2 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
-                        print(f"  Output: {cleaned_output}")
                         print()
                 except TimeoutException:
                     ex2_timeout = True
                     ex2_outputs.append({"prompt": prompt, "output": "TIMEOUT", "passed": False})
-                    if debug:
-                        print(f"Ex2 Test {i+1}: ✗ TIMEOUT")
                     break
             if ex2_timeout:
                 report.append(f" **Ex 2 (No Toulouse):** TIMEOUT - evaluation exceeded {TIMEOUT_SECONDS}s limit")
             else:

         # 2. ISOLATED LOADING
         # We use a unique name for each import to avoid namespace collisions
         file_path = file_obj if isinstance(file_obj, str) else file_obj.name
+        # Always print who is being evaluated
+        print(f"\n{'='*60}")
+        print(f"EVALUATING: {file_path}")
+        print(f"{'='*60}\n")
         spec = importlib.util.spec_from_file_location("student_module", file_path)
         student_module = importlib.util.module_from_spec(spec)
         spec.loader.exec_module(student_module)
         ex1_timeout = False
         ex1_outputs = []
         try:
+            print("### EXERCISE 1 - La Disparition (No 'e')")
             ex1_instance = student_module.LaDisparition(model, tokenizer)
             for i, prompt in enumerate(TEST_CASES["exercise_1"]):
                 try:
+                    print(f"\nTest {i+1}/{len(TEST_CASES['exercise_1'])}")
+                    print(f"Prompt: {prompt}")
                     # We limit tokens to keep evaluation fast
                     output = run_with_timeout(
                         ex1_instance,
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
+                    assistant_response = extract_assistant_response(cleaned_output)
+                    print(f"Response: {assistant_response}")
+                    passed = 'e' not in assistant_response.lower() and len(assistant_response.strip()) > 10
                     if passed:
                         ex1_passed += 1
+                    ex1_outputs.append({"prompt": prompt, "output": assistant_response, "passed": passed})
                     if debug:
                         print(f"Ex1 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
+                        print(f"  Output: {assistant_response}")
                         print()
                 except TimeoutException:
                     ex1_timeout = True
                     ex1_outputs.append({"prompt": prompt, "output": "TIMEOUT", "passed": False})
+                    print(f"Result: ✗ TIMEOUT")
                     break
+            print(f"\nExercise 1 Score: {ex1_passed}/5")
             if ex1_timeout:
                 report.append(f" **Ex 1 (No 'e'):** TIMEOUT - evaluation exceeded {TIMEOUT_SECONDS}s limit")
             else:
         ex2_timeout = False
         ex2_outputs = []
         try:
+            print("\n### EXERCISE 2 - Toulouse Sequence (No 'Toulouse')")
             ex2_instance = student_module.ToulouseSequence(model, tokenizer)
             for i, prompt in enumerate(TEST_CASES["exercise_2"]):
                 try:
+                    print(f"\nTest {i+1}/{len(TEST_CASES['exercise_2'])}")
+                    print(f"Prompt: {prompt}")
                     output = run_with_timeout(
                         ex2_instance,
                         args=(prompt,),
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
+                    assistant_response = extract_assistant_response(cleaned_output)
+                    print(f"Response: {assistant_response}")
+                    passed = "toulouse" not in assistant_response.lower() and len(assistant_response.strip()) > 10
                     if passed:
                         ex2_passed += 1
+                    ex2_outputs.append({"prompt": prompt, "output": assistant_response, "passed": passed})
                     if debug:
                         print(f"Ex2 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
+                        print(f"  Output: {assistant_response}")
                         print()
                 except TimeoutException:
                     ex2_timeout = True
                     ex2_outputs.append({"prompt": prompt, "output": "TIMEOUT", "passed": False})
+                    print(f"Result: ✗ TIMEOUT")
                     break
+            print(f"\nExercise 2 Score: {ex2_passed}/5")
             if ex2_timeout:
                 report.append(f" **Ex 2 (No Toulouse):** TIMEOUT - evaluation exceeded {TIMEOUT_SECONDS}s limit")
             else: