SnifferCaptain
/

YModel2-s0

@@ -50,7 +50,73 @@ YModel2 is the most powerful Large Language Model (LLM) trained by SnifferCaptai
 - For Supervised Fine-Tuning (SFT), the model was trained at the following sequence length and learning rate combinations: 512/1e-5, 1024/3e-6, 2048/1e-6, and 2048/5e-7 (Length/LR). This stage was also accelerated with bf16 AMP.
 ## 模型性能 Model Performance
-模型没有经过任何跑分。模型在训练集上最终ppl约为3.0。
 以下是模型的问答输出：
 ---

 - For Supervised Fine-Tuning (SFT), the model was trained at the following sequence length and learning rate combinations: 512/1e-5, 1024/3e-6, 2048/1e-6, and 2048/5e-7 (Length/LR). This stage was also accelerated with bf16 AMP.
 ## 模型性能 Model Performance
+模型在多个数据集上跑分，仅供娱乐参考：
+模型跑分结果如下，使用lm_eval框架：
+|  Groups   |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
+|-----------|------:|------|------|--------|---|-----:|---|-----:|
+|ceval-valid|      2|none  |     0|acc     |↑  |0.2303|±  |0.0115|
+<details style="color:rgb(128,128,128)">
+<summary>ceval bench result</summary>
+|                       Tasks                        |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
+|----------------------------------------------------|------:|------|-----:|--------|---|-----:|---|-----:|
+|ceval-valid                                         |      2|none  |      |acc     |↑  |0.2303|±  |0.0115|
+|ceval-valid_accountant                              |      2|none  |     0|acc     |↑  |0.2245|±  |0.0602|
+|ceval-valid_advanced_mathematics                    |      2|none  |     0|acc     |↑  |0.3158|±  |0.1096|
+|ceval-valid_art_studies                             |      2|none  |     0|acc     |↑  |0.4545|±  |0.0880|
+|ceval-valid_basic_medicine                          |      2|none  |     0|acc     |↑  |0.0526|±  |0.0526|
+|ceval-valid_business_administration                 |      2|none  |     0|acc     |↑  |0.2424|±  |0.0758|
+|ceval-valid_chinese_language_and_literature         |      2|none  |     0|acc     |↑  |0.2174|±  |0.0879|
+|ceval-valid_civil_servant                           |      2|none  |     0|acc     |↑  |0.2553|±  |0.0643|
+|ceval-valid_clinical_medicine                       |      2|none  |     0|acc     |↑  |0.2273|±  |0.0914|
+|ceval-valid_college_chemistry                       |      2|none  |     0|acc     |↑  |0.1667|±  |0.0777|
+|ceval-valid_college_economics                       |      2|none  |     0|acc     |↑  |0.2909|±  |0.0618|
+|ceval-valid_college_physics                         |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_college_programming                     |      2|none  |     0|acc     |↑  |0.2432|±  |0.0715|
+|ceval-valid_computer_architecture                   |      2|none  |     0|acc     |↑  |0.2857|±  |0.1010|
+|ceval-valid_computer_network                        |      2|none  |     0|acc     |↑  |0.1053|±  |0.0723|
+|ceval-valid_discrete_mathematics                    |      2|none  |     0|acc     |↑  |0.3750|±  |0.1250|
+|ceval-valid_education_science                       |      2|none  |     0|acc     |↑  |0.2414|±  |0.0809|
+|ceval-valid_electrical_engineer                     |      2|none  |     0|acc     |↑  |0.2162|±  |0.0686|
+|ceval-valid_environmental_impact_assessment_engineer|      2|none  |     0|acc     |↑  |0.1613|±  |0.0672|
+|ceval-valid_fire_engineer                           |      2|none  |     0|acc     |↑  |0.2581|±  |0.0799|
+|ceval-valid_high_school_biology                     |      2|none  |     0|acc     |↑  |0.3684|±  |0.1137|
+|ceval-valid_high_school_chemistry                   |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_high_school_chinese                     |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_high_school_geography                   |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_high_school_history                     |      2|none  |     0|acc     |↑  |0.3000|±  |0.1051|
+|ceval-valid_high_school_mathematics                 |      2|none  |     0|acc     |↑  |0.2222|±  |0.1008|
+|ceval-valid_high_school_physics                     |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_high_school_politics                    |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_ideological_and_moral_cultivation       |      2|none  |     0|acc     |↑  |0.2632|±  |0.1038|
+|ceval-valid_law                                     |      2|none  |     0|acc     |↑  |0.2500|±  |0.0903|
+|ceval-valid_legal_professional                      |      2|none  |     0|acc     |↑  |0.0435|±  |0.0435|
+|ceval-valid_logic                                   |      2|none  |     0|acc     |↑  |0.1818|±  |0.0842|
+|ceval-valid_mao_zedong_thought                      |      2|none  |     0|acc     |↑  |0.3333|±  |0.0983|
+|ceval-valid_marxism                                 |      2|none  |     0|acc     |↑  |0.2632|±  |0.1038|
+|ceval-valid_metrology_engineer                      |      2|none  |     0|acc     |↑  |0.1250|±  |0.0690|
+|ceval-valid_middle_school_biology                   |      2|none  |     0|acc     |↑  |0.1905|±  |0.0878|
+|ceval-valid_middle_school_chemistry                 |      2|none  |     0|acc     |↑  |0.1500|±  |0.0819|
+|ceval-valid_middle_school_geography                 |      2|none  |     0|acc     |↑  |0.0833|±  |0.0833|
+|ceval-valid_middle_school_history                   |      2|none  |     0|acc     |↑  |0.1818|±  |0.0842|
+|ceval-valid_middle_school_mathematics               |      2|none  |     0|acc     |↑  |0.1579|±  |0.0859|
+|ceval-valid_middle_school_physics                   |      2|none  |     0|acc     |↑  |0.2105|±  |0.0961|
+|ceval-valid_middle_school_politics                  |      2|none  |     0|acc     |↑  |0.2857|±  |0.1010|
+|ceval-valid_modern_chinese_history                  |      2|none  |     0|acc     |↑  |0.1739|±  |0.0808|
+|ceval-valid_operating_system                        |      2|none  |     0|acc     |↑  |0.1579|±  |0.0859|
+|ceval-valid_physician                               |      2|none  |     0|acc     |↑  |0.2653|±  |0.0637|
+|ceval-valid_plant_protection                        |      2|none  |     0|acc     |↑  |0.3182|±  |0.1016|
+|ceval-valid_probability_and_statistics              |      2|none  |     0|acc     |↑  |0.1111|±  |0.0762|
+|ceval-valid_professional_tour_guide                 |      2|none  |     0|acc     |↑  |0.3448|±  |0.0898|
+|ceval-valid_sports_science                          |      2|none  |     0|acc     |↑  |0.1579|±  |0.0859|
+|ceval-valid_tax_accountant                          |      2|none  |     0|acc     |↑  |0.1633|±  |0.0533|
+|ceval-valid_teacher_qualification                   |      2|none  |     0|acc     |↑  |0.2955|±  |0.0696|
+|ceval-valid_urban_and_rural_planner                 |      2|none  |     0|acc     |↑  |0.2174|±  |0.0615|
+|ceval-valid_veterinary_medicine                     |      2|none  |     0|acc     |↑  |0.2174|±  |0.0879|
+</details>
 以下是模型的问答输出：
 ---