zechen-nlp commited on
Commit
c247db0
·
verified ·
1 Parent(s): b28fb27

Update Automated MNLP evaluation report (2026-05-20)

Browse files
Files changed (1) hide show
  1. EVAL_REPORT.md +7 -25
EVAL_REPORT.md CHANGED
@@ -2,7 +2,7 @@
2
 
3
  - **Model repo:** [`cs-552-2026-ChatMODS/multilingual_model`](https://huggingface.co/cs-552-2026-ChatMODS/multilingual_model)
4
  - **Owner(s):** group **ChatMODS**
5
- - **Generated at:** 2026-05-19T03:22:52+00:00 (UTC)
6
  - **Pipeline:** [mnlp-project-ci](https://github.com/eric11eca/mnlp-project-ci)
7
 
8
  _This PR is opened automatically by the course CI. It is **non-blocking** — you do not need to merge it. The next nightly run will refresh this file._
@@ -13,7 +13,7 @@ _This PR is opened automatically by the course CI. It is **non-blocking** — yo
13
  |---|---:|---|
14
  | Math | — | not run |
15
  | Knowledge | — | not run |
16
- | Multilingual | 0.2800 | ok |
17
  | Safety | — | not run |
18
 
19
  ## Sample completions
@@ -24,40 +24,22 @@ _Prompts are intentionally omitted to avoid revealing benchmark contents. For mu
24
 
25
  **Correct** (1 shown)
26
 
27
- - **reference**: `C`
28
  - **overall** (1/1 completions correct)
29
- - **extracted** (✓): `C`
30
  - **completion**:
31
 
32
  ```text
33
- “自由资本主义时代的‘世界工场’”这一说法通常指的是在18世纪末到19世纪初,资本主义发展过程中,率先实现工业化并成为全球经济中心的国家。
34
-
35
- 在这一时期,**英国**是最早实现工业革命的国家,率先建立了全球最大的工业经济体,成为“世界工场”。因此,正确答案是:
36
-
37
- $$
38
- \boxed{C}
39
- $$
40
  ```
41
 
42
  **Incorrect** (1 shown)
43
 
44
  - **reference**: `D`
45
  - **overall** (0/1 completions correct)
46
- - **extracted** (✗): `<no answer>`
47
  - **completion**:
48
 
49
  ```text
50
- Правильный ответ: **D. Индекс качества**
51
-
52
- **Обоснование:**
53
-
54
- Индекс качества — это комплексный показатель качества разнородной продукции, который рассчитывается как средний взвешенный относительный показатель качества каждой отдельной продукции. Он учитывает не только уровень качества отдельных продуктов, но и их разнообразие, что делает его подходящим для оценки всей совокупности продукции.
55
-
56
- Остальные варианты:
57
-
58
- - **A. Индекс дефектности** — это показатель количества дефектов, а не качества.
59
- - **B. Показатель технологичности** — касается технологических процессов, а не качества продукции.
60
- - **C. Индекс технологичности** — аналогично B, касается технологической стороны, а не качества.
61
-
62
- Таким образом, **D. Индекс качества** — правильный ответ.
63
  ```
 
2
 
3
  - **Model repo:** [`cs-552-2026-ChatMODS/multilingual_model`](https://huggingface.co/cs-552-2026-ChatMODS/multilingual_model)
4
  - **Owner(s):** group **ChatMODS**
5
+ - **Generated at:** 2026-05-20T05:49:46+00:00 (UTC)
6
  - **Pipeline:** [mnlp-project-ci](https://github.com/eric11eca/mnlp-project-ci)
7
 
8
  _This PR is opened automatically by the course CI. It is **non-blocking** — you do not need to merge it. The next nightly run will refresh this file._
 
13
  |---|---:|---|
14
  | Math | — | not run |
15
  | Knowledge | — | not run |
16
+ | Multilingual | 0.4500 | ok |
17
  | Safety | — | not run |
18
 
19
  ## Sample completions
 
24
 
25
  **Correct** (1 shown)
26
 
27
+ - **reference**: `B`
28
  - **overall** (1/1 completions correct)
29
+ - **extracted** (✓): `B`
30
  - **completion**:
31
 
32
  ```text
33
+ \boxed{B}
 
 
 
 
 
 
34
  ```
35
 
36
  **Incorrect** (1 shown)
37
 
38
  - **reference**: `D`
39
  - **overall** (0/1 completions correct)
40
+ - **extracted** (✗): `B`
41
  - **completion**:
42
 
43
  ```text
44
+ \boxed{B}
 
 
 
 
 
 
 
 
 
 
 
 
45
  ```