kurakurai
/

Luth-1.7B-Instruct

@@ -30,37 +30,25 @@ Luth was trained using full fine-tuning on the Luth-SFT dataset with [Axolotl](h
 We used LightEval for evaluation, with custom tasks for the French benchmarks. The models were evaluated with a `temperature=0`.
-### Evaluation Visualizations
-**French Evaluation:**
-![French Evaluation](media/french_evaluation.png)
-**English Evaluation:**
-![English Evaluation](media/english_evaluation.png)
 ### French Benchmark Scores
-| Benchmark         | Qwen3-1.7B       | SmolLM2-1.7B-Instruct | Qwen2.5-1.5B-Instruct | Luth-1.7B-Instruct   |
-|-------------------|------------------|-----------------------|-----------------------|----------------------|
-| ifeval-fr         | 54.53            | 31.24                 | 32.90                 | <u>57.67</u>         |
-| gpqa-diamond-fr   | 26.90            | 21.83                 | 28.93                 | <u>38.58</u>         |
-| mmlu-fr           | 28.46            | 33.73                 | 46.25                 | <u>49.66</u>         |
-| math-500-fr       | 60.80            | 11.20                 | 32.20                 | <u>64.00</u>         |
-| arc-chall-fr      | 33.28            | 28.57                 | 32.68                 | <u>35.16</u>         |
-| hellaswag-fr      | 24.86            | <u>49.58</u>          | 34.34                 | 31.93                |
 ### English Benchmark Scores
-| Benchmark         | Qwen3-1.7B       | SmolLM2-1.7B-Instruct | Qwen2.5-1.5B-Instruct | Luth-1.7B-Instruct   |
-|-------------------|------------------|-----------------------|-----------------------|----------------------|
-| ifeval-en         | <u>68.39</u>     | 48.24                 | 39.93                 | 65.80                |
-| gpqa-diamond-en   | <u>31.82</u>     | 24.75                 | 30.30                 | 31.82                |
-| mmlu-en           | 52.74            | 50.27                 | 59.81                 | <u>60.19</u>         |
-| math-500-en       | 69.20            | 22.40                 | 56.00                 | <u>70.00</u>         |
-| arc-chall-en      | 36.09            | 42.32                 | 41.04                 | <u>42.24</u>         |
-| hellaswag-en      | 46.96            | <u>66.94</u>          | 64.48                 | 58.55                |
 ## Code Example

 We used LightEval for evaluation, with custom tasks for the French benchmarks. The models were evaluated with a `temperature=0`.
 ### French Benchmark Scores
+| Model                  | IFEval<br>French | GPQA-Diamond<br>French | MMLU<br>French | Math500<br>French | Arc-Challenge<br>French | Hellaswag<br>French |
+|------------------------|-----------------|-----------------------|----------------|-----------------|------------------------|-------------------|
+| **Luth-1.7B-Instruct** | <u>58.53</u>       | <u>36.55</u>             | <u>49.75</u>      | <u>62.60</u>       | 35.16                  | 31.88             |
+| Qwen3-1.7B             | 54.71           | 31.98                 | 28.49          | 60.40           | 33.28                  | 24.86             |
+| SmolLM2-1.7B-Instruct  | 30.93           | 20.30                 | 33.73          | 10.20           | 28.57                  | <u>49.58</u>         |
+| Qwen2.5-1.5B-Instruct  | 31.30           | 27.41                 | 46.25          | 33.20           | 32.68                  | 34.33             |
+| LFM2-1.2B              | 54.41           | 22.84                 | 47.59          | 36.80           | <u>39.44</u>              | 33.05             |
 ### English Benchmark Scores
+| Model                  | IFEval<br>English | GPQA-Diamond<br>English | MMLU<br>English | Math500<br>English | Arc-Challenge<br>English | Hellaswag<br>English |
+|------------------------|-----------------|------------------------|----------------|------------------|-------------------------|--------------------|
+| **Luth-1.7B-Instruct** | 65.80           | 29.80                  | <u>60.28</u>      | 70.40            | 42.24                   | 58.53              |
+| Qwen3-1.7B             | <u>68.88</u>       | <u>31.82</u>              | 52.82          | <u>71.20</u>        | 36.18                   | 46.98              |
+| SmolLM2-1.7B-Instruct  | 49.04           | 25.08                  | 50.27          | 22.67            | 42.32                   | <u>66.94</u>          |
+| Qwen2.5-1.5B-Instruct  | 39.99           | 25.76                  | 59.81          | 57.20            | 41.04                   | 64.48            |
+| LFM2-1.2B              | 68.52           | 24.24                  | 55.22          | 45.80            | <u>42.58</u>               | 57.61              |
 ## Code Example