Spaces:

LLM-course
/

lipogram_private

Running

App Files Files Community

nathanael-fijalkow commited on Jan 5

Commit

2b9263c

1 Parent(s): d320f70

fixed prompt removal bug

Browse files

Files changed (1) hide show

app.py +10 -18

app.py CHANGED Viewed

@@ -73,14 +73,6 @@ def strip_prompt_from_output(output, prompt):
         result = output_stripped[len(prompt_stripped):].strip()
         return result
-    # If exact match didn't work, try finding where prompt ends in output
-    # This handles cases where there might be formatting differences
-    prompt_words = prompt_stripped.split()
-    if prompt_words and output_stripped.split()[:len(prompt_words)] == prompt_words:
-        # Remove matching words at the beginning
-        result = ' '.join(output_stripped.split()[len(prompt_words):])
-        return result
     return output
@@ -221,18 +213,18 @@ def evaluate_submission(file_obj, debug=False):
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
-                    assistant_response = extract_assistant_response(cleaned_output)
-                    print(f"Response: {assistant_response}")
-                    passed = 'e' not in assistant_response.lower() and len(assistant_response.strip()) > 10
                     if passed:
                         ex1_passed += 1
-                    ex1_outputs.append({"prompt": prompt, "output": assistant_response, "passed": passed})
                     if debug:
                         print(f"Ex1 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
-                        print(f"  Output: {assistant_response}")
                         print()
                 except TimeoutException:
                     ex1_timeout = True
@@ -273,18 +265,18 @@ def evaluate_submission(file_obj, debug=False):
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
-                    assistant_response = extract_assistant_response(cleaned_output)
-                    print(f"Response: {assistant_response}")
-                    passed = "toulouse" not in assistant_response.lower() and len(assistant_response.strip()) > 10
                     if passed:
                         ex2_passed += 1
-                    ex2_outputs.append({"prompt": prompt, "output": assistant_response, "passed": passed})
                     if debug:
                         print(f"Ex2 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
-                        print(f"  Output: {assistant_response}")
                         print()
                 except TimeoutException:
                     ex2_timeout = True

         result = output_stripped[len(prompt_stripped):].strip()
         return result
     return output
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
+                    # assistant_response = extract_assistant_response(cleaned_output)
+                    print(f"Response: {cleaned_output}")
+                    passed = 'e' not in cleaned_output.lower() and len(cleaned_output.strip()) > 3
                     if passed:
                         ex1_passed += 1
+                    ex1_outputs.append({"prompt": prompt, "output": cleaned_output, "passed": passed})
                     if debug:
                         print(f"Ex1 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
+                        print(f"  Output: {output}")
                         print()
                 except TimeoutException:
                     ex1_timeout = True
                     )
                     # Remove prompt from output to only validate generated text
                     cleaned_output = strip_prompt_from_output(output, prompt)
+                    # assistant_response = extract_assistant_response(cleaned_output)
+                    print(f"Response: {cleaned_output}")
+                    passed = "toulouse" not in cleaned_output.lower() and len(cleaned_output.strip()) > 3
                     if passed:
                         ex2_passed += 1
+                    ex2_outputs.append({"prompt": prompt, "output": output, "passed": passed})
                     if debug:
                         print(f"Ex2 Test {i+1}: {'✓' if passed else '✗'}")
                         print(f"  Prompt: {prompt}")
+                        print(f"  Output: {output}")
                         print()
                 except TimeoutException:
                     ex2_timeout = True