Spaces:

heerjtdev
/

try_answer

Running

App Files Files Community

heerjtdev commited on 1 day ago

Commit

3fff356

verified ·

1 Parent(s): d2523b4

Update app.py

Browse files

Files changed (1) hide show

app.py +109 -84

app.py CHANGED Viewed

@@ -1280,60 +1280,60 @@ Provide your grading following the mandatory output format.
 # 4. NEW: SUPERVISOR AGGREGATOR
 # Paper insight: Merge ensemble outputs into final decision
 # ---------------------------------------------------------
-class SupervisorAggregator:
-    """
-    Aggregates multiple grader outputs into a final consensus grade.
-    Paper uses another LLM call; we use statistical aggregation for CPU efficiency.
-    """
-    def aggregate(self, grader_results: List[Dict], max_marks: int) -> Dict:
-        """
-        Aggregate K=3 grader results into final score.
-        Returns:
-        - final_score: int (median of ensemble)
-        - disagreement: int (max - min score)
-        - needs_review: bool (high disagreement flag)
-        - consensus_analysis: str
-        """
-        scores = [r['score'] for r in grader_results]
-        # Use median for robustness (paper uses supervisor LLM call)
-        final_score = int(np.median(scores))
-        # Calculate disagreement
-        disagreement = max(scores) - min(scores)
-        # Flag for manual review if disagreement too high
-        # Paper uses Dmax thresholds; we use 40% of max marks
-        needs_review = disagreement >= (0.4 * max_marks)
-        # Merge analyses
-        consensus_analysis = self._merge_analyses(grader_results, final_score, disagreement)
-        return {
-            "final_score": final_score,
-            "individual_scores": scores,
-            "disagreement": disagreement,
-            "needs_review": needs_review,
-            "consensus_analysis": consensus_analysis,
-            "grader_details": grader_results
-        }
-    def _merge_analyses(self, results: List[Dict], final_score: int, disagreement: int) -> str:
-        """Create consensus analysis from multiple graders."""
-        output = f"**Ensemble Grading Results** (Final: {final_score}, Disagreement: ±{disagreement})\n\n"
-        for i, result in enumerate(results, 1):
-            output += f"**Grader {i} ({result['score']} points):**\n{result['analysis']}\n\n"
-        if disagreement > 0:
-            output += f"\n⚠️ **Note:** Graders disagreed by {disagreement} points. "
-            if disagreement >= 5:
-                output += "Consider manual review."
-        return output
 # ---------------------------------------------------------
@@ -1390,7 +1390,7 @@ class EnhancedVectorSystem:
         self.llm = LLMEvaluator()
         self.reranker = OnnxReranker()
         self.presence_checker = AnswerPresenceChecker()
-        self.supervisor = SupervisorAggregator()
         self.all_chunks = []
         self.total_chunks = 0
         self.reference_summary = None  # Store reference answer summary
@@ -1449,7 +1449,8 @@ class EnhancedVectorSystem:
         self.reference_summary = reference_text.strip()
         return f"✅ Reference answer set ({len(self.reference_summary)} chars). Will be used to calibrate grading."
-    def process_query(self, question, student_answer, max_marks, enable_ensemble=True):
         """
         Enhanced grading pipeline with multi-stage processing.
         """
@@ -1473,51 +1474,69 @@ class EnhancedVectorSystem:
         evidence_display += f"> {expanded_context[:500]}..."
         # Stage 3: Ensemble Grading (Paper's key innovation)
-        if not student_answer:
-            return evidence_display, "Please enter a student answer to grade."
-        if enable_ensemble:
-            # Run K=3 independent graders
-            grader_results = []
-            for grader_id in range(1, 4):  # K=3 ensemble
-                result = self.llm.evaluate_single(
-                    context=expanded_context,
-                    question=question,
-                    student_answer=student_answer,
-                    max_marks=max_marks,
-                    grader_id=grader_id,
-                    reference_summary=self.reference_summary
-                )
-                grader_results.append(result)
-            # Stage 4: Supervisor Aggregation
-            final_result = self.supervisor.aggregate(grader_results, max_marks)
-            # Format output
-            llm_feedback = f"# 🎓 Final Grade: {final_result['final_score']}/{max_marks}\n\n"
-            if final_result['needs_review']:
-                llm_feedback += "⚠️ **Manual Review Recommended** (High grader disagreement)\n\n"
-            llm_feedback += final_result['consensus_analysis']
-            # Add statistics
-            llm_feedback += f"\n\n---\n**Grading Statistics:**\n"
-            llm_feedback += f"- Individual Scores: {final_result['individual_scores']}\n"
-            llm_feedback += f"- Score Range: {min(final_result['individual_scores'])}-{max(final_result['individual_scores'])}\n"
-            llm_feedback += f"- Disagreement: ±{final_result['disagreement']} points\n"
-        else:
-            # Single grader mode (for comparison)
-            result = self.llm.evaluate_single(
-                context=expanded_context,
-                question=question,
-                student_answer=student_answer,
-                max_marks=max_marks,
-                grader_id=1,
-                reference_summary=self.reference_summary
-            )
-            llm_feedback = f"# 🎓 Grade: {result['score']}/{max_marks}\n\n{result['analysis']}"
         return evidence_display, llm_feedback
@@ -1587,9 +1606,15 @@ with gr.Blocks(title="EduGenius AI Grader - Enhanced", theme=gr.themes.Soft()) a
         outputs=[ref_status]
     )
     run_btn.click(
         system.process_query,
-        inputs=[q_input, a_input, max_marks, ensemble_check],
         outputs=[evidence_box, grade_box]
     )

 # 4. NEW: SUPERVISOR AGGREGATOR
 # Paper insight: Merge ensemble outputs into final decision
 # ---------------------------------------------------------
+# class SupervisorAggregator:
+#     """
+#     Aggregates multiple grader outputs into a final consensus grade.
+#     Paper uses another LLM call; we use statistical aggregation for CPU efficiency.
+#     """
+#     def aggregate(self, grader_results: List[Dict], max_marks: int) -> Dict:
+#         """
+#         Aggregate K=3 grader results into final score.
+#         Returns:
+#         - final_score: int (median of ensemble)
+#         - disagreement: int (max - min score)
+#         - needs_review: bool (high disagreement flag)
+#         - consensus_analysis: str
+#         """
+#         scores = [r['score'] for r in grader_results]
+#         # Use median for robustness (paper uses supervisor LLM call)
+#         final_score = int(np.median(scores))
+#         # Calculate disagreement
+#         disagreement = max(scores) - min(scores)
+#         # Flag for manual review if disagreement too high
+#         # Paper uses Dmax thresholds; we use 40% of max marks
+#         needs_review = disagreement >= (0.4 * max_marks)
+#         # Merge analyses
+#         consensus_analysis = self._merge_analyses(grader_results, final_score, disagreement)
+#         return {
+#             "final_score": final_score,
+#             "individual_scores": scores,
+#             "disagreement": disagreement,
+#             "needs_review": needs_review,
+#             "consensus_analysis": consensus_analysis,
+#             "grader_details": grader_results
+#         }
+#     def _merge_analyses(self, results: List[Dict], final_score: int, disagreement: int) -> str:
+#         """Create consensus analysis from multiple graders."""
+#         output = f"**Ensemble Grading Results** (Final: {final_score}, Disagreement: ±{disagreement})\n\n"
+#         for i, result in enumerate(results, 1):
+#             output += f"**Grader {i} ({result['score']} points):**\n{result['analysis']}\n\n"
+#         if disagreement > 0:
+#             output += f"\n⚠️ **Note:** Graders disagreed by {disagreement} points. "
+#             if disagreement >= 5:
+#                 output += "Consider manual review."
+#         return output
 # ---------------------------------------------------------
         self.llm = LLMEvaluator()
         self.reranker = OnnxReranker()
         self.presence_checker = AnswerPresenceChecker()
+        # self.supervisor = SupervisorAggregator()
         self.all_chunks = []
         self.total_chunks = 0
         self.reference_summary = None  # Store reference answer summary
         self.reference_summary = reference_text.strip()
         return f"✅ Reference answer set ({len(self.reference_summary)} chars). Will be used to calibrate grading."
+    # def process_query(self, question, student_answer, max_marks, enable_ensemble=True):
+    def process_query(self, question, student_answer, max_marks):
         """
         Enhanced grading pipeline with multi-stage processing.
         """
         evidence_display += f"> {expanded_context[:500]}..."
         # Stage 3: Ensemble Grading (Paper's key innovation)
+        # if not student_answer:
+        #     return evidence_display, "Please enter a student answer to grade."
+        # if enable_ensemble:
+        #     # Run K=3 independent graders
+        #     grader_results = []
+        #     for grader_id in range(1, 4):  # K=3 ensemble
+        #         result = self.llm.evaluate_single(
+        #             context=expanded_context,
+        #             question=question,
+        #             student_answer=student_answer,
+        #             max_marks=max_marks,
+        #             grader_id=grader_id,
+        #             reference_summary=self.reference_summary
+        #         )
+        #         grader_results.append(result)
+        #     # Stage 4: Supervisor Aggregation
+        #     final_result = self.supervisor.aggregate(grader_results, max_marks)
+        #     # Format output
+        #     llm_feedback = f"# 🎓 Final Grade: {final_result['final_score']}/{max_marks}\n\n"
+        #     if final_result['needs_review']:
+        #         llm_feedback += "⚠️ **Manual Review Recommended** (High grader disagreement)\n\n"
+        #     llm_feedback += final_result['consensus_analysis']
+        #     # Add statistics
+        #     llm_feedback += f"\n\n---\n**Grading Statistics:**\n"
+        #     llm_feedback += f"- Individual Scores: {final_result['individual_scores']}\n"
+        #     llm_feedback += f"- Score Range: {min(final_result['individual_scores'])}-{max(final_result['individual_scores'])}\n"
+        #     llm_feedback += f"- Disagreement: ±{final_result['disagreement']} points\n"
+        # else:
+        #     # Single grader mode (for comparison)
+        #     result = self.llm.evaluate_single(
+        #         context=expanded_context,
+        #         question=question,
+        #         student_answer=student_answer,
+        #         max_marks=max_marks,
+        #         grader_id=1,
+        #         reference_summary=self.reference_summary
+        #     )
+        #     llm_feedback = f"# 🎓 Grade: {result['score']}/{max_marks}\n\n{result['analysis']}"
+        # return evidence_display, llm_feedback
+        # Stage 3: Single Grading
+        if not student_answer:
+            return evidence_display, "Please enter a student answer to grade."
+        # Single grader call
+        result = self.llm.evaluate_single(
+            context=expanded_context,
+            question=question,
+            student_answer=student_answer,
+            max_marks=max_marks,
+            grader_id=1,
+            reference_summary=self.reference_summary
+        )
+        llm_feedback = f"# 🎓 Grade: {result['score']}/{max_marks}\n\n{result['analysis']}"
         return evidence_display, llm_feedback
         outputs=[ref_status]
     )
+    # run_btn.click(
+    #     system.process_query,
+    #     inputs=[q_input, a_input, max_marks, ensemble_check],
+    #     outputs=[evidence_box, grade_box]
+    # )
     run_btn.click(
         system.process_query,
+        inputs=[q_input, a_input, max_marks],  # Removed ensemble_check
         outputs=[evidence_box, grade_box]
     )