SnifferCaptain
/

YModel2-s-2

@@ -49,10 +49,68 @@ YModel2 is the most powerful large language model (LLM) trained by SnifferCaptai
 ## 模型性能 Model Performance
 模型在多个数据集上跑分，仅供娱乐参考：
-模型跑分结果如下，使用lm_eval框架：
 <details style="color:rgb(128,128,128)">
 <summary>ceval bench result</summary>
-null
 </details>
 以下是模型的问答输出（由于模型过小，推荐加大repetition penalty）：

 ## 模型性能 Model Performance
 模型在多个数据集上跑分，仅供娱乐参考：
+模型跑分结果如下，使用lm_eval框架：
+|  Groups   |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
+|-----------|------:|------|------|--------|---|-----:|---|-----:|
+|ceval-valid|      2|none  |      |acc     |↑  |0.2452|±  |0.0117|
 <details style="color:rgb(128,128,128)">
 <summary>ceval bench result</summary>
+|                       Tasks                        |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
+|----------------------------------------------------|------:|------|-----:|--------|---|-----:|---|-----:|
+|ceval-valid                                         |      2|none  |      |acc     |↑  |0.2452|±  |0.0117|
+|ceval-valid_accountant                              |      2|none  |     0|acc     |↑  |0.2449|±  |0.0621|
+|ceval-valid_advanced_mathematics                    |      2|none  |     0|acc     |↑  |0.2632|±  |0.1038|
+|ceval-valid_art_studies                             |      2|none  |     0|acc     |↑  |0.1212|±  |0.0577|
+|ceval-valid_basic_medicine                          |      2|none  |     0|acc     |↑  |0.0000|±  |0.0000|
+|ceval-valid_business_administration                 |      2|none  |     0|acc     |↑  |0.3636|±  |0.0850|
+|ceval-valid_chinese_language_and_literature         |      2|none  |     0|acc     |↑  |0.2609|±  |0.0936|
+|ceval-valid_civil_servant                           |      2|none  |     0|acc     |↑  |0.2766|±  |0.0660|
+|ceval-valid_clinical_medicine                       |      2|none  |     0|acc     |↑  |0.2273|±  |0.0914|
+|ceval-valid_college_chemistry                       |      2|none  |     0|acc     |↑  |0.1250|±  |0.0690|
+|ceval-valid_college_economics                       |      2|none  |     0|acc     |↑  |0.3818|±  |0.0661|
+|ceval-valid_college_physics                         |      2|none  |     0|acc     |↑  |0.2632|±  |0.1038|
+|ceval-valid_college_programming                     |      2|none  |     0|acc     |↑  |0.2973|±  |0.0762|
+|ceval-valid_computer_architecture                   |      2|none  |     0|acc     |↑  |0.2381|±  |0.0952|
+|ceval-valid_computer_network                        |      2|none  |     0|acc     |↑  |0.0526|±  |0.0526|
+|ceval-valid_discrete_mathematics                    |      2|none  |     0|acc     |↑  |0.3125|±  |0.1197|
+|ceval-valid_education_science                       |      2|none  |     0|acc     |↑  |0.4828|±  |0.0944|
+|ceval-valid_electrical_engineer                     |      2|none  |     0|acc     |↑  |0.2703|±  |0.0740|
+|ceval-valid_environmental_impact_assessment_engineer|      2|none  |     0|acc     |↑  |0.1935|±  |0.0721|
+|ceval-valid_fire_engineer                           |      2|none  |     0|acc     |↑  |0.3871|±  |0.0889|
+|ceval-valid_high_school_biology                     |      2|none  |     0|acc     |↑  |0.3684|±  |0.1137|
+|ceval-valid_high_school_chemistry                   |      2|none  |     0|acc     |↑  |0.1579|±  |0.0859|
+|ceval-valid_high_school_chinese                     |      2|none  |     0|acc     |↑  |0.2632|±  |0.1038|
+|ceval-valid_high_school_geography                   |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_high_school_history                     |      2|none  |     0|acc     |↑  |0.3000|±  |0.1051|
+|ceval-valid_high_school_mathematics                 |      2|none  |     0|acc     |↑  |0.2222|±  |0.1008|
+|ceval-valid_high_school_physics                     |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_high_school_politics                    |      2|none  |     0|acc     |↑  |0.3684|±  |0.1137|
+|ceval-valid_ideological_and_moral_cultivation       |      2|none  |     0|acc     |↑  |0.3684|±  |0.1137|
+|ceval-valid_law                                     |      2|none  |     0|acc     |↑  |0.2083|±  |0.0847|
+|ceval-valid_legal_professional                      |      2|none  |     0|acc     |↑  |0.1304|±  |0.0718|
+|ceval-valid_logic                                   |      2|none  |     0|acc     |↑  |0.2727|±  |0.0972|
+|ceval-valid_mao_zedong_thought                      |      2|none  |     0|acc     |↑  |0.2500|±  |0.0903|
+|ceval-valid_marxism                                 |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_metrology_engineer                      |      2|none  |     0|acc     |↑  |0.0833|±  |0.0576|
+|ceval-valid_middle_school_biology                   |      2|none  |     0|acc     |↑  |0.2381|±  |0.0952|
+|ceval-valid_middle_school_chemistry                 |      2|none  |     0|acc     |↑  |0.2500|±  |0.0993|
+|ceval-valid_middle_school_geography                 |      2|none  |     0|acc     |↑  |0.2500|±  |0.1306|
+|ceval-valid_middle_school_history                   |      2|none  |     0|acc     |↑  |0.2727|±  |0.0972|
+|ceval-valid_middle_school_mathematics               |      2|none  |     0|acc     |↑  |0.1579|±  |0.0859|
+|ceval-valid_middle_school_physics                   |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_middle_school_politics                  |      2|none  |     0|acc     |↑  |0.1905|±  |0.0878|
+|ceval-valid_modern_chinese_history                  |      2|none  |     0|acc     |↑  |0.1304|±  |0.0718|
+|ceval-valid_operating_system                        |      2|none  |     0|acc     |↑  |0.4211|±  |0.1164|
+|ceval-valid_physician                               |      2|none  |     0|acc     |↑  |0.2449|±  |0.0621|
+|ceval-valid_plant_protection                        |      2|none  |     0|acc     |↑  |0.3182|±  |0.1016|
+|ceval-valid_probability_and_statistics              |      2|none  |     0|acc     |↑  |0.1111|±  |0.0762|
+|ceval-valid_professional_tour_guide                 |      2|none  |     0|acc     |↑  |0.3448|±  |0.0898|
+|ceval-valid_sports_science                          |      2|none  |     0|acc     |↑  |0.2632|±  |0.1038|
+|ceval-valid_tax_accountant                          |      2|none  |     0|acc     |↑  |0.1633|±  |0.0533|
+|ceval-valid_teacher_qualification                   |      2|none  |     0|acc     |↑  |0.1364|±  |0.0523|
+|ceval-valid_urban_and_rural_planner                 |      2|none  |     0|acc     |↑  |0.2174|±  |0.0615|
+|ceval-valid_veterinary_medicine                     |      2|none  |     0|acc     |↑  |0.2609|±  |0.0936|
 </details>
 以下是模型的问答输出（由于模型过小，推荐加大repetition penalty）：