Spaces:

MrSimple01
/

RuSimulBench_arena

Sleeping

App Files Files Community

MrSimple01 commited on Mar 17, 2025

Commit

21711d5

verified ·

1 Parent(s): 050fdc5

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -44

app.py CHANGED Viewed

@@ -25,7 +25,7 @@ class EvaluationConfig:
 class EvaluationPrompts:
     @staticmethod
     def get_first_check(original_prompt: str, response: str) -> str:
-        return f"""Оцените следующий ответ по шкале от 0 до 100:
 Оригинальный запрос: {original_prompt}
 Ответ: {response}
 Оцените по критериям:
@@ -48,7 +48,7 @@ class EvaluationPrompts:
 {response}
 ## **Инструкция по оценке**
-Оцените ответ по шкале от 0 до 100 по трем критериям:
 1. **Креативность** – Насколько ответ уникален и оригинален? Есть ли неожиданные, но уместные идеи?
 2. **Разнообразие** – Использует ли ответ различные стилистические приемы, примеры, аналогии, синонимы? Насколько он выразителен?
@@ -306,48 +306,48 @@ class BenchmarkEvaluator:
         self.results_history.append(results)
         return results, creative_df
-def evaluate_all_models(self, df, models=None, model_columns=None, prompt_col='rus_prompt'):
-    """Evaluate multiple models from the dataframe"""
-    if models is not None and model_columns is not None:
-        model_mapping = dict(zip(models, model_columns))
-    elif models is not None:
-        model_mapping = {model: f"{model}_answers" for model in models}
-    else:
-        answer_cols = [col for col in df.columns if col.endswith('_answers')]
-        models = [col.replace('_answers', '') for col in answer_cols]
-        model_mapping = dict(zip(models, answer_cols))
-    results = []
-    detail_dfs = []
-    for model, column in model_mapping.items():
-        try:
-            model_results, detail_df = self.evaluate_model(df, model, prompt_col, column)
-            results.append(model_results)
-            detail_dfs.append(detail_df)
-            print(f"Completed evaluation for {model}")
-        except Exception as e:
-            print(f"Error evaluating {model}: {str(e)}")
-    # Create combined results DataFrame
-    benchmark_df = pd.DataFrame([{
-        'model': r['model'],
-        'creativity_score': r['creativity_score'],
-        'stability_score': r['stability_score'],
-        'combined_score': r['combined_score'],
-        'evaluation_timestamp': r['evaluation_timestamp']
-    } for r in results])
-    timestamp = pd.Timestamp.now().strftime('%Y%m%d_%H%M%S')
-    benchmark_df.to_csv(f'results/benchmark_results_{timestamp}.csv', index=False)
-    print(f"Benchmark completed. Results saved to results/benchmark_results_{timestamp}.csv")
-    if detail_dfs:
-        combined_details = pd.concat(detail_dfs)
-        combined_details.to_csv(f'results/detailed_evaluation_{timestamp}.csv', index=False)
-        print(f"Detailed evaluation saved to results/detailed_evaluation_{timestamp}.csv")
-    return benchmark_df, self.leaderboard_df
 def get_leaderboard(self):
     """Return the current leaderboard"""

 class EvaluationPrompts:
     @staticmethod
     def get_first_check(original_prompt: str, response: str) -> str:
+        return f"""Оцените следующий ответ по шкале от 0 до 10:
 Оригинальный запрос: {original_prompt}
 Ответ: {response}
 Оцените по критериям:
 {response}
 ## **Инструкция по оценке**
+Оцените ответ по шкале от 0 до 10 по трем критериям:
 1. **Креативность** – Насколько ответ уникален и оригинален? Есть ли неожиданные, но уместные идеи?
 2. **Разнообразие** – Использует ли ответ различные стилистические приемы, примеры, аналогии, синонимы? Насколько он выразителен?
         self.results_history.append(results)
         return results, creative_df
+    def evaluate_all_models(self, df, models=None, model_columns=None, prompt_col='rus_prompt'):
+        """Evaluate multiple models from the dataframe"""
+        if models is not None and model_columns is not None:
+            model_mapping = dict(zip(models, model_columns))
+        elif models is not None:
+            model_mapping = {model: f"{model}_answers" for model in models}
+        else:
+            answer_cols = [col for col in df.columns if col.endswith('_answers')]
+            models = [col.replace('_answers', '') for col in answer_cols]
+            model_mapping = dict(zip(models, answer_cols))
+        results = []
+        detail_dfs = []
+        for model, column in model_mapping.items():
+            try:
+                model_results, detail_df = self.evaluate_model(df, model, prompt_col, column)
+                results.append(model_results)
+                detail_dfs.append(detail_df)
+                print(f"Completed evaluation for {model}")
+            except Exception as e:
+                print(f"Error evaluating {model}: {str(e)}")
+        # Create combined results DataFrame
+        benchmark_df = pd.DataFrame([{
+            'model': r['model'],
+            'creativity_score': r['creativity_score'],
+            'stability_score': r['stability_score'],
+            'combined_score': r['combined_score'],
+            'evaluation_timestamp': r['evaluation_timestamp']
+        } for r in results])
+        timestamp = pd.Timestamp.now().strftime('%Y%m%d_%H%M%S')
+        benchmark_df.to_csv(f'results/benchmark_results_{timestamp}.csv', index=False)
+        print(f"Benchmark completed. Results saved to results/benchmark_results_{timestamp}.csv")
+        if detail_dfs:
+            combined_details = pd.concat(detail_dfs)
+            combined_details.to_csv(f'results/detailed_evaluation_{timestamp}.csv', index=False)
+            print(f"Detailed evaluation saved to results/detailed_evaluation_{timestamp}.csv")
+        return benchmark_df, self.leaderboard_df
 def get_leaderboard(self):
     """Return the current leaderboard"""