Siddh12334 commited on
Commit
4e71c52
·
1 Parent(s): d661639

chore: update baseline results with real facts (450 QA pairs)

Browse files
Files changed (1) hide show
  1. eval/baseline_results.json +41 -41
eval/baseline_results.json CHANGED
@@ -1,107 +1,107 @@
1
  {
2
  "num_episodes": 100,
3
- "avg_reward": 0.1314,
4
- "min_reward": -0.0792,
5
- "max_reward": 0.3292,
6
  "all_rewards": [
 
7
  0.1458,
8
  0.1458,
9
  0.1458,
10
- 0.1458,
11
- 0.1458,
12
- 0.0417,
13
- 0.0417,
14
- 0.1875,
15
- 0.1458,
16
  0.2917,
 
17
  0.1458,
 
18
  0.1458,
19
  0.0417,
20
  0.1458,
 
21
  0.1458,
22
  0.1458,
 
23
  0.1458,
24
  0.0417,
 
25
  0.0417,
26
- -0.0792,
27
- 0.1458,
28
- 0.1458,
29
- 0.0417,
30
- 0.1458,
31
- 0.1458,
32
  0.1458,
33
  0.1458,
34
- 0.2917,
35
  0.1458,
36
  0.0417,
37
  0.1458,
38
- 0.2917,
39
  0.1458,
 
40
  0.1458,
41
- 0.0417,
 
42
  0.1458,
43
  0.1458,
44
- 0.3292,
45
- 0.0417,
46
- 0.0417,
47
- 0.0833,
48
  0.1458,
 
49
  0.1458,
50
  0.1458,
 
51
  0.1458,
52
- 0.0417,
53
- 0.1458,
54
- 0.1125,
55
- 0.0417,
56
- 0.2417,
57
  0.1458,
58
  0.1458,
 
 
59
  0.1458,
60
  0.1458,
61
- 0.2417,
62
  0.1458,
 
63
  0.0417,
64
  0.1458,
65
  0.1458,
 
 
66
  0.1458,
67
  0.1458,
 
68
  0.1458,
69
  0.1458,
70
  0.1458,
71
- -0.0667,
72
- 0.1458,
73
  0.1458,
74
- 0.1125,
75
  0.0417,
76
- 0.1125,
77
  0.0417,
78
  0.1458,
79
  0.1458,
 
 
 
 
 
80
  0.1458,
81
  0.1458,
82
- 0.2167,
83
- 0.1458,
84
- 0.1125,
85
  0.1458,
86
  0.1458,
87
  0.1458,
88
  0.0417,
89
- 0.1292,
90
- 0.1458,
91
- 0.1458,
92
  0.1458,
 
 
93
  0.1458,
94
  0.1458,
 
95
  0.1458,
96
- 0.2333,
97
- 0.2167,
98
  0.1458,
99
  0.0417,
100
- 0.0417,
 
101
  0.1458,
 
 
 
 
 
102
  0.1458,
103
  0.1458,
104
  0.1458,
 
105
  0.1458,
106
  0.1458
107
  ]
 
1
  {
2
  "num_episodes": 100,
3
+ "avg_reward": 0.1302,
4
+ "min_reward": -0.0708,
5
+ "max_reward": 0.5917,
6
  "all_rewards": [
7
+ 0.2917,
8
  0.1458,
9
  0.1458,
10
  0.1458,
 
 
 
 
 
 
11
  0.2917,
12
+ 0.5917,
13
  0.1458,
14
+ 0.1833,
15
  0.1458,
16
  0.0417,
17
  0.1458,
18
+ 0.0417,
19
  0.1458,
20
  0.1458,
21
+ 0.1292,
22
  0.1458,
23
  0.0417,
24
+ 0.3375,
25
  0.0417,
26
+ 0.2167,
 
 
 
 
 
27
  0.1458,
28
  0.1458,
 
29
  0.1458,
30
  0.0417,
31
  0.1458,
 
32
  0.1458,
33
+ 0.3375,
34
  0.1458,
35
+ 0.2875,
36
+ 0.1375,
37
  0.1458,
38
  0.1458,
39
+ 0.0792,
 
 
 
40
  0.1458,
41
+ 0.2875,
42
  0.1458,
43
  0.1458,
44
+ -0.0708,
45
  0.1458,
46
+ 0.0375,
 
 
 
 
47
  0.1458,
48
  0.1458,
49
+ 0.0375,
50
+ 0.0417,
51
  0.1458,
52
  0.1458,
 
53
  0.1458,
54
+ 0.0833,
55
  0.0417,
56
  0.1458,
57
  0.1458,
58
+ 0.2917,
59
+ 0.0417,
60
  0.1458,
61
  0.1458,
62
+ 0.1292,
63
  0.1458,
64
  0.1458,
65
  0.1458,
 
 
66
  0.1458,
 
67
  0.0417,
68
+ 0.0417,
69
  0.0417,
70
  0.1458,
71
  0.1458,
72
+ 0.0083,
73
+ 0.0417,
74
+ 0.0417,
75
+ -0.0625,
76
+ 0.0417,
77
  0.1458,
78
  0.1458,
 
 
 
79
  0.1458,
80
  0.1458,
81
  0.1458,
82
  0.0417,
83
+ 0.0667,
 
 
84
  0.1458,
85
+ -0.0625,
86
+ 0.0417,
87
  0.1458,
88
  0.1458,
89
+ 0.0417,
90
  0.1458,
 
 
91
  0.1458,
92
  0.0417,
93
+ -0.0625,
94
+ 0.0333,
95
  0.1458,
96
+ 0.3375,
97
+ 0.1458,
98
+ 0.2208,
99
+ 0.2083,
100
+ 0.2417,
101
  0.1458,
102
  0.1458,
103
  0.1458,
104
+ -0.0625,
105
  0.1458,
106
  0.1458
107
  ]