linluqiu commited on
Commit
fcdb7e1
·
1 Parent(s): bffbbbf

Add files using upload-large-folder tool

Browse files
Files changed (50) hide show
  1. all_results.json +9 -0
  2. config.json +34 -0
  3. generation_config.json +8 -0
  4. model.safetensors.index.json +471 -0
  5. results_v2/flight_7features_1000ex_random_seed0-00003-of-00005/metrics.json +793 -0
  6. results_v2/flight_7features_1000ex_random_seed2-00002-of-00005/metrics.json +793 -0
  7. results_v2/flight_noise1.0_random_seed1/metrics.json +769 -0
  8. results_v2/flight_uniform_kmin_0_seed2/data.jsonl +0 -0
  9. results_v2/flight_uniform_kmin_0_seed2/metrics.json +769 -0
  10. results_v2/flight_uniform_kmin_19_seed2/data.jsonl +0 -0
  11. results_v2/flight_uniform_kmin_19_seed2/metrics.json +769 -0
  12. results_v2/flight_uniform_kmin_25_seed0/cleaned_results.jsonl +0 -0
  13. results_v2/flight_uniform_kmin_25_seed0/data.jsonl +0 -0
  14. results_v2/flight_uniform_kmin_25_seed0/metrics.json +769 -0
  15. results_v2/flight_uniform_kmin_29_seed0/cleaned_results.jsonl +0 -0
  16. results_v2/flight_uniform_kmin_2_seed1/data.jsonl +0 -0
  17. results_v2/flight_uniform_kmin_2_seed1/metrics.json +769 -0
  18. results_v2/flight_uniform_kmin_36_seed1/data.jsonl +0 -0
  19. results_v2/flight_uniform_kmin_36_seed1/metrics.json +769 -0
  20. results_v2/flight_uniform_kmin_38_seed2/data.jsonl +0 -0
  21. results_v2/flight_uniform_kmin_38_seed2/metrics.json +769 -0
  22. results_v2/flight_uniform_kmin_46_seed0/cleaned_results.jsonl +0 -0
  23. results_v2/flight_uniform_kmin_46_seed2/metrics.json +769 -0
  24. results_v2/flight_uniform_kmin_55_seed1/data.jsonl +0 -0
  25. results_v2/flight_uniform_kmin_55_seed1/metrics.json +769 -0
  26. results_v2/flight_uniform_kmin_57_seed2/data.jsonl +0 -0
  27. results_v2/flight_uniform_kmin_57_seed2/metrics.json +769 -0
  28. results_v2/flight_uniform_kmin_74_seed1/data.jsonl +0 -0
  29. results_v2/flight_uniform_kmin_74_seed1/metrics.json +769 -0
  30. results_v2/flight_uniform_kmin_76_seed2/data.jsonl +0 -0
  31. results_v2/flight_uniform_kmin_76_seed2/metrics.json +769 -0
  32. results_v2/flight_uniform_kmin_89_seed1/data.jsonl +0 -0
  33. results_v2/flight_uniform_kmin_89_seed1/metrics.json +769 -0
  34. results_v2/flight_uniform_kmin_96_seed0/cleaned_results.jsonl +0 -0
  35. results_v2/flight_uniform_kmin_96_seed0/data.jsonl +0 -0
  36. results_v2/flight_uniform_kmin_96_seed0/metrics.json +769 -0
  37. results_v2/human_v2_5rounds/metrics.json +769 -0
  38. results_v2/human_v2_5rounds_seed1/metrics.json +769 -0
  39. results_v2/webshop_bedframes_format_small/metrics.json +143 -0
  40. results_v2/webshop_home_office_furniture_sets_format_small/history.jsonl +0 -0
  41. results_v2/webshop_mens_t-shirts_&_tanks_format_small/history.jsonl +0 -0
  42. results_v2/webshop_mens_t-shirts_&_tanks_format_small/metrics.json +143 -0
  43. results_v2/webshop_mens_t-shirts_&_tanks_format_small/results.jsonl +0 -0
  44. results_v2/webshop_womens_slippers_format_small/metrics.json +143 -0
  45. special_tokens_map.json +34 -0
  46. tokenizer.model +3 -0
  47. tokenizer_config.json +2014 -0
  48. train_results.json +9 -0
  49. trainer_state.json +385 -0
  50. training_args.bin +3 -0
all_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 0.9969230769230769,
3
+ "total_flos": 82980012523520.0,
4
+ "train_loss": 1.2597844002178176,
5
+ "train_runtime": 2824.655,
6
+ "train_samples": 31200,
7
+ "train_samples_per_second": 11.046,
8
+ "train_steps_per_second": 0.086
9
+ }
config.json ADDED
@@ -0,0 +1,34 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/data/cl/scratch/model_weights/gemma-2-9b-it",
3
+ "architectures": [
4
+ "Gemma2ForCausalLM"
5
+ ],
6
+ "attention_bias": false,
7
+ "attention_dropout": 0.0,
8
+ "attn_logit_softcapping": 50.0,
9
+ "bos_token_id": 2,
10
+ "cache_implementation": "hybrid",
11
+ "eos_token_id": 1,
12
+ "final_logit_softcapping": 30.0,
13
+ "head_dim": 256,
14
+ "hidden_act": "gelu_pytorch_tanh",
15
+ "hidden_activation": "gelu_pytorch_tanh",
16
+ "hidden_size": 3584,
17
+ "initializer_range": 0.02,
18
+ "intermediate_size": 14336,
19
+ "max_position_embeddings": 8192,
20
+ "model_type": "gemma2",
21
+ "num_attention_heads": 16,
22
+ "num_hidden_layers": 42,
23
+ "num_key_value_heads": 8,
24
+ "pad_token_id": 0,
25
+ "query_pre_attn_scalar": 256,
26
+ "rms_norm_eps": 1e-06,
27
+ "rope_theta": 10000.0,
28
+ "sliding_window": 4096,
29
+ "sliding_window_size": 4096,
30
+ "torch_dtype": "bfloat16",
31
+ "transformers_version": "4.47.1",
32
+ "use_cache": true,
33
+ "vocab_size": 256000
34
+ }
generation_config.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 2,
4
+ "cache_implementation": "hybrid",
5
+ "eos_token_id": 1,
6
+ "pad_token_id": 0,
7
+ "transformers_version": "4.47.1"
8
+ }
model.safetensors.index.json ADDED
@@ -0,0 +1,471 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "metadata": {
3
+ "total_size": 18483411968
4
+ },
5
+ "weight_map": {
6
+ "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
7
+ "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
8
+ "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
9
+ "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
10
+ "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
11
+ "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
12
+ "model.layers.0.post_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
13
+ "model.layers.0.pre_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
14
+ "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
15
+ "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
16
+ "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
17
+ "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
18
+ "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
19
+ "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
20
+ "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
21
+ "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
22
+ "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
23
+ "model.layers.1.post_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
24
+ "model.layers.1.pre_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
25
+ "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
26
+ "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
27
+ "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
28
+ "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
29
+ "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
30
+ "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
31
+ "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
32
+ "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
33
+ "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
34
+ "model.layers.10.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
35
+ "model.layers.10.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
36
+ "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
37
+ "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
38
+ "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
39
+ "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
40
+ "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
41
+ "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
42
+ "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
43
+ "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
44
+ "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
45
+ "model.layers.11.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
46
+ "model.layers.11.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
47
+ "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
48
+ "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
49
+ "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
50
+ "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
51
+ "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
52
+ "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
53
+ "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
54
+ "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
55
+ "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
56
+ "model.layers.12.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
57
+ "model.layers.12.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
58
+ "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
59
+ "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
60
+ "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
61
+ "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
62
+ "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
63
+ "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
64
+ "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
65
+ "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
66
+ "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
67
+ "model.layers.13.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
68
+ "model.layers.13.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
69
+ "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
70
+ "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
71
+ "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
72
+ "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
73
+ "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
74
+ "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
75
+ "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
76
+ "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
77
+ "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
78
+ "model.layers.14.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
79
+ "model.layers.14.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
80
+ "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
81
+ "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
82
+ "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
83
+ "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
84
+ "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
85
+ "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
86
+ "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
87
+ "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
88
+ "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
89
+ "model.layers.15.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
90
+ "model.layers.15.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
91
+ "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
92
+ "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
93
+ "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
94
+ "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
95
+ "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
96
+ "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
97
+ "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
98
+ "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
99
+ "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
100
+ "model.layers.16.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
101
+ "model.layers.16.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
102
+ "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
103
+ "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
104
+ "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
105
+ "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
106
+ "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
107
+ "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
108
+ "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
109
+ "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
110
+ "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
111
+ "model.layers.17.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
112
+ "model.layers.17.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
113
+ "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
114
+ "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
115
+ "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
116
+ "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
117
+ "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
118
+ "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
119
+ "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
120
+ "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
121
+ "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
122
+ "model.layers.18.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
123
+ "model.layers.18.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
124
+ "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
125
+ "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
126
+ "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
127
+ "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
128
+ "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
129
+ "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
130
+ "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
131
+ "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
132
+ "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
133
+ "model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
134
+ "model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
135
+ "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
136
+ "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
137
+ "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
138
+ "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
139
+ "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
140
+ "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
141
+ "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
142
+ "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
143
+ "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
144
+ "model.layers.2.post_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
145
+ "model.layers.2.pre_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
146
+ "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
147
+ "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
148
+ "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
149
+ "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
150
+ "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
151
+ "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
152
+ "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
153
+ "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
154
+ "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
155
+ "model.layers.20.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
156
+ "model.layers.20.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
157
+ "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
158
+ "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
159
+ "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
160
+ "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
161
+ "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
162
+ "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
163
+ "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
164
+ "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
165
+ "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
166
+ "model.layers.21.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
167
+ "model.layers.21.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
168
+ "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
169
+ "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
170
+ "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
171
+ "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
172
+ "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
173
+ "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
174
+ "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
175
+ "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
176
+ "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
177
+ "model.layers.22.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
178
+ "model.layers.22.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
179
+ "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
180
+ "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
181
+ "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
182
+ "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
183
+ "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
184
+ "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
185
+ "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
186
+ "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
187
+ "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
188
+ "model.layers.23.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
189
+ "model.layers.23.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
190
+ "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
191
+ "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
192
+ "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
193
+ "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
194
+ "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
195
+ "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
196
+ "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
197
+ "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
198
+ "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
199
+ "model.layers.24.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
200
+ "model.layers.24.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
201
+ "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
202
+ "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
203
+ "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
204
+ "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
205
+ "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
206
+ "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
207
+ "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
208
+ "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
209
+ "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
210
+ "model.layers.25.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
211
+ "model.layers.25.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
212
+ "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
213
+ "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
214
+ "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
215
+ "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
216
+ "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
217
+ "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
218
+ "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
219
+ "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
220
+ "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
221
+ "model.layers.26.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
222
+ "model.layers.26.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
223
+ "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
224
+ "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
225
+ "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
226
+ "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
227
+ "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
228
+ "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
229
+ "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
230
+ "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
231
+ "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
232
+ "model.layers.27.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
233
+ "model.layers.27.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
234
+ "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
235
+ "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
236
+ "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
237
+ "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
238
+ "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
239
+ "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
240
+ "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
241
+ "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
242
+ "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
243
+ "model.layers.28.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
244
+ "model.layers.28.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
245
+ "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
246
+ "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
247
+ "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
248
+ "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
249
+ "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
250
+ "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
251
+ "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
252
+ "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
253
+ "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
254
+ "model.layers.29.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
255
+ "model.layers.29.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
256
+ "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
257
+ "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
258
+ "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
259
+ "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
260
+ "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
261
+ "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
262
+ "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
263
+ "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
264
+ "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
265
+ "model.layers.3.post_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
266
+ "model.layers.3.pre_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
267
+ "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
268
+ "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
269
+ "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
270
+ "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
271
+ "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
272
+ "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
273
+ "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
274
+ "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
275
+ "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
276
+ "model.layers.30.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
277
+ "model.layers.30.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
278
+ "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
279
+ "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
280
+ "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
281
+ "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
282
+ "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
283
+ "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
284
+ "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
285
+ "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
286
+ "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
287
+ "model.layers.31.post_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
288
+ "model.layers.31.pre_feedforward_layernorm.weight": "model-00003-of-00004.safetensors",
289
+ "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
290
+ "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
291
+ "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
292
+ "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
293
+ "model.layers.32.input_layernorm.weight": "model-00004-of-00004.safetensors",
294
+ "model.layers.32.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
295
+ "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
296
+ "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
297
+ "model.layers.32.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
298
+ "model.layers.32.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
299
+ "model.layers.32.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
300
+ "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
301
+ "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
302
+ "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
303
+ "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
304
+ "model.layers.33.input_layernorm.weight": "model-00004-of-00004.safetensors",
305
+ "model.layers.33.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
306
+ "model.layers.33.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
307
+ "model.layers.33.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
308
+ "model.layers.33.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
309
+ "model.layers.33.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
310
+ "model.layers.33.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
311
+ "model.layers.33.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
312
+ "model.layers.33.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
313
+ "model.layers.33.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
314
+ "model.layers.33.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
315
+ "model.layers.34.input_layernorm.weight": "model-00004-of-00004.safetensors",
316
+ "model.layers.34.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
317
+ "model.layers.34.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
318
+ "model.layers.34.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
319
+ "model.layers.34.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
320
+ "model.layers.34.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
321
+ "model.layers.34.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
322
+ "model.layers.34.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
323
+ "model.layers.34.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
324
+ "model.layers.34.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
325
+ "model.layers.34.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
326
+ "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
327
+ "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
328
+ "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
329
+ "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
330
+ "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
331
+ "model.layers.35.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
332
+ "model.layers.35.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
333
+ "model.layers.35.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
334
+ "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
335
+ "model.layers.35.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
336
+ "model.layers.35.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
337
+ "model.layers.36.input_layernorm.weight": "model-00004-of-00004.safetensors",
338
+ "model.layers.36.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
339
+ "model.layers.36.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
340
+ "model.layers.36.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
341
+ "model.layers.36.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
342
+ "model.layers.36.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
343
+ "model.layers.36.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
344
+ "model.layers.36.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
345
+ "model.layers.36.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
346
+ "model.layers.36.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
347
+ "model.layers.36.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
348
+ "model.layers.37.input_layernorm.weight": "model-00004-of-00004.safetensors",
349
+ "model.layers.37.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
350
+ "model.layers.37.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
351
+ "model.layers.37.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
352
+ "model.layers.37.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
353
+ "model.layers.37.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
354
+ "model.layers.37.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
355
+ "model.layers.37.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
356
+ "model.layers.37.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
357
+ "model.layers.37.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
358
+ "model.layers.37.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
359
+ "model.layers.38.input_layernorm.weight": "model-00004-of-00004.safetensors",
360
+ "model.layers.38.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
361
+ "model.layers.38.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
362
+ "model.layers.38.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
363
+ "model.layers.38.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
364
+ "model.layers.38.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
365
+ "model.layers.38.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
366
+ "model.layers.38.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
367
+ "model.layers.38.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
368
+ "model.layers.38.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
369
+ "model.layers.38.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
370
+ "model.layers.39.input_layernorm.weight": "model-00004-of-00004.safetensors",
371
+ "model.layers.39.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
372
+ "model.layers.39.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
373
+ "model.layers.39.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
374
+ "model.layers.39.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
375
+ "model.layers.39.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
376
+ "model.layers.39.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
377
+ "model.layers.39.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
378
+ "model.layers.39.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
379
+ "model.layers.39.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
380
+ "model.layers.39.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
381
+ "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
382
+ "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
383
+ "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
384
+ "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
385
+ "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
386
+ "model.layers.4.post_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
387
+ "model.layers.4.pre_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
388
+ "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
389
+ "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
390
+ "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
391
+ "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
392
+ "model.layers.40.input_layernorm.weight": "model-00004-of-00004.safetensors",
393
+ "model.layers.40.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
394
+ "model.layers.40.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
395
+ "model.layers.40.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
396
+ "model.layers.40.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
397
+ "model.layers.40.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
398
+ "model.layers.40.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
399
+ "model.layers.40.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
400
+ "model.layers.40.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
401
+ "model.layers.40.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
402
+ "model.layers.40.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
403
+ "model.layers.41.input_layernorm.weight": "model-00004-of-00004.safetensors",
404
+ "model.layers.41.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
405
+ "model.layers.41.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
406
+ "model.layers.41.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
407
+ "model.layers.41.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
408
+ "model.layers.41.post_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
409
+ "model.layers.41.pre_feedforward_layernorm.weight": "model-00004-of-00004.safetensors",
410
+ "model.layers.41.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
411
+ "model.layers.41.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
412
+ "model.layers.41.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
413
+ "model.layers.41.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
414
+ "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
415
+ "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
416
+ "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
417
+ "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
418
+ "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
419
+ "model.layers.5.post_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
420
+ "model.layers.5.pre_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
421
+ "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
422
+ "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
423
+ "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
424
+ "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
425
+ "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
426
+ "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
427
+ "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
428
+ "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
429
+ "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
430
+ "model.layers.6.post_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
431
+ "model.layers.6.pre_feedforward_layernorm.weight": "model-00001-of-00004.safetensors",
432
+ "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
433
+ "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
434
+ "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
435
+ "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
436
+ "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
437
+ "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
438
+ "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
439
+ "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
440
+ "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
441
+ "model.layers.7.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
442
+ "model.layers.7.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
443
+ "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
444
+ "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
445
+ "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
446
+ "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
447
+ "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
448
+ "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
449
+ "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
450
+ "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
451
+ "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
452
+ "model.layers.8.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
453
+ "model.layers.8.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
454
+ "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
455
+ "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
456
+ "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
457
+ "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
458
+ "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
459
+ "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
460
+ "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
461
+ "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
462
+ "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
463
+ "model.layers.9.post_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
464
+ "model.layers.9.pre_feedforward_layernorm.weight": "model-00002-of-00004.safetensors",
465
+ "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
466
+ "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
467
+ "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
468
+ "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
469
+ "model.norm.weight": "model-00004-of-00004.safetensors"
470
+ }
471
+ }
results_v2/flight_7features_1000ex_random_seed0-00003-of-00005/metrics.json ADDED
@@ -0,0 +1,793 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "bags",
9
+ "departure_time",
10
+ "layover_duration",
11
+ "number_of_stops",
12
+ "duration",
13
+ "flexibility",
14
+ "arrival_time"
15
+ ],
16
+ "reward_choices": {
17
+ "bags": [
18
+ -1,
19
+ -0.5,
20
+ 0,
21
+ 0.5,
22
+ 1
23
+ ],
24
+ "departure_time": [
25
+ -1,
26
+ -0.5,
27
+ 0,
28
+ 0.5,
29
+ 1
30
+ ],
31
+ "layover_duration": [
32
+ -1,
33
+ -0.5,
34
+ 0,
35
+ 0.5,
36
+ 1
37
+ ],
38
+ "number_of_stops": [
39
+ -1,
40
+ -0.5,
41
+ 0,
42
+ 0.5,
43
+ 1
44
+ ],
45
+ "duration": [
46
+ -1,
47
+ -0.5,
48
+ 0,
49
+ 0.5,
50
+ 1
51
+ ],
52
+ "flexibility": [
53
+ -1,
54
+ -0.5,
55
+ 0,
56
+ 0.5,
57
+ 1
58
+ ],
59
+ "arrival_time": [
60
+ -1,
61
+ -0.5,
62
+ 0,
63
+ 0.5,
64
+ 1
65
+ ]
66
+ },
67
+ "assistant_name": "lm",
68
+ "formatter_name": "gemma",
69
+ "option_format": "text",
70
+ "reward_type": "scoring",
71
+ "max_rounds": 5,
72
+ "num_options": 3,
73
+ "num_candidates": 1000,
74
+ "eval_mode": "conversation",
75
+ "use_cot": false,
76
+ "num_random_set_examples": 100,
77
+ "seed": 0,
78
+ "debug": false,
79
+ "data_file": "data/eval_data/flight_7features_1000ex_random_seed0.jsonl",
80
+ "random_set_file": "data/eval_data/flight_7features_1000ex_random_set_100.json",
81
+ "prior_file": null,
82
+ "eval_every": 1,
83
+ "likelihood_smoothing": 0.0
84
+ },
85
+ "metrics": {
86
+ "accs": [
87
+ 0.38,
88
+ 0.36,
89
+ 0.415,
90
+ 0.43,
91
+ 0.48
92
+ ],
93
+ "model_accs": [
94
+ 0.38,
95
+ 0.36,
96
+ 0.415,
97
+ 0.43,
98
+ 0.48
99
+ ],
100
+ "model_reward_accs": [
101
+ 0.35,
102
+ 0.34,
103
+ 0.405,
104
+ 0.395,
105
+ 0.49
106
+ ],
107
+ "model_consistencies": [
108
+ 0.385,
109
+ 0.61,
110
+ 0.635,
111
+ 0.555,
112
+ 0.58
113
+ ],
114
+ "model_l2s": [
115
+ 1.3847892809808289,
116
+ 1.2680048798948134,
117
+ 1.2503476686322863,
118
+ 1.219235969399144,
119
+ 1.1801551433535844,
120
+ 1.1848773926055005
121
+ ],
122
+ "model_random_set_accs": [
123
+ 0.3381500000000001,
124
+ 0.4062500000000003,
125
+ 0.41674999999999973,
126
+ 0.4240500000000001,
127
+ 0.44914999999999994,
128
+ 0.44425000000000003
129
+ ],
130
+ "model_random_set_idxs": [
131
+ 1.1033333333333333,
132
+ 1.1825,
133
+ 0.95,
134
+ 1.3308333333333333,
135
+ 0.555,
136
+ 1.0058333333333334,
137
+ 0.7825,
138
+ 1.26,
139
+ 0.73,
140
+ 0.6725,
141
+ 1.1916666666666667,
142
+ 1.075,
143
+ 1.0725,
144
+ 1.3641666666666667,
145
+ 0.74,
146
+ 1.055,
147
+ 1.0316666666666667,
148
+ 1.2275,
149
+ 1.1316666666666666,
150
+ 0.9866666666666667,
151
+ 0.685,
152
+ 0.9058333333333334,
153
+ 1.0216666666666667,
154
+ 0.9458333333333333,
155
+ 1.3466666666666667,
156
+ 0.865,
157
+ 1.3225,
158
+ 1.1441666666666668,
159
+ 0.9833333333333333,
160
+ 1.0891666666666666,
161
+ 1.3716666666666666,
162
+ 1.0275,
163
+ 0.9641666666666666,
164
+ 0.9958333333333333,
165
+ 1.2425,
166
+ 1.1591666666666667,
167
+ 0.92,
168
+ 1.3433333333333333,
169
+ 1.17,
170
+ 0.845,
171
+ 1.0833333333333333,
172
+ 0.9916666666666667,
173
+ 0.8816666666666667,
174
+ 1.0041666666666667,
175
+ 0.9916666666666667,
176
+ 1.2233333333333334,
177
+ 1.57,
178
+ 0.8125,
179
+ 0.8458333333333333,
180
+ 1.3883333333333334,
181
+ 1.1475,
182
+ 1.1625,
183
+ 0.8116666666666666,
184
+ 1.0866666666666667,
185
+ 0.8416666666666667,
186
+ 1.12,
187
+ 1.2033333333333334,
188
+ 1.2141666666666666,
189
+ 0.8991666666666667,
190
+ 1.2108333333333334,
191
+ 0.8833333333333333,
192
+ 0.8733333333333333,
193
+ 0.6175,
194
+ 1.0683333333333334,
195
+ 0.8675,
196
+ 0.7241666666666666,
197
+ 0.9633333333333334,
198
+ 0.9675,
199
+ 0.9191666666666667,
200
+ 0.7975,
201
+ 0.8508333333333333,
202
+ 0.8958333333333334,
203
+ 0.8458333333333333,
204
+ 1.0891666666666666,
205
+ 0.8283333333333334,
206
+ 1.1033333333333333,
207
+ 1.0333333333333334,
208
+ 0.7075,
209
+ 0.8383333333333334,
210
+ 1.1275,
211
+ 1.1275,
212
+ 0.8875,
213
+ 1.15,
214
+ 0.9141666666666667,
215
+ 0.825,
216
+ 1.1325,
217
+ 1.045,
218
+ 1.1433333333333333,
219
+ 1.1025,
220
+ 0.6866666666666666,
221
+ 1.0675,
222
+ 0.8775,
223
+ 1.24,
224
+ 1.1541666666666666,
225
+ 1.3358333333333334,
226
+ 1.1783333333333332,
227
+ 0.8775,
228
+ 1.1125,
229
+ 1.3433333333333333,
230
+ 0.7241666666666666
231
+ ],
232
+ "model_probs": [
233
+ 1.0682004425097703e-05,
234
+ 1.6155276047273016e-05,
235
+ 1.7661762029433023e-05,
236
+ 2.2050915561682652e-05,
237
+ 4.145994203964751e-05,
238
+ 3.3719754736106986e-05
239
+ ],
240
+ "model_info_gains": [
241
+ -0.11226167028151596,
242
+ -0.14466060356320765,
243
+ 0.18311620759922753,
244
+ 0.10925975783983993,
245
+ -0.17316817087179692
246
+ ],
247
+ "model_delta_probs": [
248
+ 5.473271622175313e-06,
249
+ 1.506485982160008e-06,
250
+ 4.38915353224963e-06,
251
+ 1.940902647796486e-05,
252
+ -7.740187303540528e-06
253
+ ],
254
+ "model_expected_reward_accs": [
255
+ 0.36,
256
+ 0.375,
257
+ 0.44,
258
+ 0.445,
259
+ 0.5
260
+ ],
261
+ "model_expected_consistencies": [
262
+ 0.39,
263
+ 0.64,
264
+ 0.7,
265
+ 0.67,
266
+ 0.67
267
+ ],
268
+ "model_expected_l2s": [
269
+ 1.3887765646104224,
270
+ 1.2609800377789946,
271
+ 1.2269848802079628,
272
+ 1.1915773737897746,
273
+ 1.159881637891288,
274
+ 1.1476071344605352
275
+ ],
276
+ "model_expected_random_set_accs": [
277
+ 0.3369500000000001,
278
+ 0.40984999999999994,
279
+ 0.43459999999999993,
280
+ 0.44280000000000014,
281
+ 0.4628500000000001,
282
+ 0.4655500000000003
283
+ ],
284
+ "model_expected_random_set_idxs": [
285
+ 1.125,
286
+ 1.1975,
287
+ 0.9166666666666666,
288
+ 1.4183333333333332,
289
+ 0.505,
290
+ 1.0333333333333334,
291
+ 0.8416666666666667,
292
+ 1.2816666666666667,
293
+ 0.7108333333333333,
294
+ 0.7258333333333333,
295
+ 1.1383333333333334,
296
+ 1.1166666666666667,
297
+ 1.1808333333333334,
298
+ 1.1658333333333333,
299
+ 1.0925,
300
+ 1.0533333333333332,
301
+ 0.8075,
302
+ 1.2283333333333333,
303
+ 1.1283333333333334,
304
+ 0.995,
305
+ 0.7466666666666667,
306
+ 0.8566666666666667,
307
+ 1.0208333333333333,
308
+ 0.9575,
309
+ 1.2675,
310
+ 0.7883333333333333,
311
+ 1.2816666666666667,
312
+ 1.145,
313
+ 1.0016666666666667,
314
+ 1.0916666666666666,
315
+ 1.365,
316
+ 1.0091666666666668,
317
+ 0.9033333333333333,
318
+ 1.04,
319
+ 1.2575,
320
+ 1.1716666666666666,
321
+ 0.8825,
322
+ 1.3041666666666667,
323
+ 1.1758333333333333,
324
+ 0.8541666666666666,
325
+ 1.0558333333333334,
326
+ 1.0441666666666667,
327
+ 0.8616666666666667,
328
+ 0.95,
329
+ 0.9533333333333334,
330
+ 1.2075,
331
+ 1.1958333333333333,
332
+ 0.7516666666666667,
333
+ 0.9266666666666666,
334
+ 1.4733333333333334,
335
+ 1.2025,
336
+ 1.215,
337
+ 0.8308333333333333,
338
+ 1.3008333333333333,
339
+ 0.8,
340
+ 1.1066666666666667,
341
+ 1.1925,
342
+ 1.2375,
343
+ 0.92,
344
+ 1.24,
345
+ 0.8808333333333334,
346
+ 0.8583333333333333,
347
+ 0.6341666666666667,
348
+ 1.0775,
349
+ 0.8933333333333333,
350
+ 0.7175,
351
+ 0.9216666666666666,
352
+ 1.0433333333333332,
353
+ 0.8908333333333334,
354
+ 0.8108333333333333,
355
+ 0.8133333333333334,
356
+ 0.9075,
357
+ 0.7808333333333334,
358
+ 1.0366666666666666,
359
+ 0.805,
360
+ 1.1633333333333333,
361
+ 1.1116666666666666,
362
+ 0.7825,
363
+ 0.8641666666666666,
364
+ 1.0591666666666666,
365
+ 1.165,
366
+ 0.9,
367
+ 1.1458333333333333,
368
+ 0.9108333333333334,
369
+ 0.7916666666666666,
370
+ 1.1208333333333333,
371
+ 1.0525,
372
+ 1.1516666666666666,
373
+ 0.9866666666666667,
374
+ 0.69,
375
+ 0.8216666666666667,
376
+ 0.8041666666666667,
377
+ 1.2908333333333333,
378
+ 1.1116666666666666,
379
+ 1.3716666666666666,
380
+ 0.925,
381
+ 0.9175,
382
+ 1.1433333333333333,
383
+ 1.39,
384
+ 0.7816666666666666
385
+ ],
386
+ "infer_reward_accs": [
387
+ 0.365,
388
+ 0.425,
389
+ 0.465,
390
+ 0.475,
391
+ 0.54
392
+ ],
393
+ "infer_l2s": [
394
+ 1.3847892809808289,
395
+ 1.287678892328789,
396
+ 1.185999773927313,
397
+ 1.093775097457443,
398
+ 0.9950103856719794,
399
+ 0.9019569300493474
400
+ ],
401
+ "infer_random_set_accs": [
402
+ 0.3385,
403
+ 0.3941000000000001,
404
+ 0.4527000000000001,
405
+ 0.49434999999999996,
406
+ 0.5417000000000001,
407
+ 0.5879499999999998
408
+ ],
409
+ "infer_random_set_idxs": [
410
+ 0.845,
411
+ 0.7375,
412
+ 0.9166666666666666,
413
+ 0.8308333333333333,
414
+ 0.5316666666666666,
415
+ 1.09,
416
+ 0.4025,
417
+ 1.3291666666666666,
418
+ 1.1233333333333333,
419
+ 1.1366666666666667,
420
+ 1.5383333333333333,
421
+ 1.5258333333333334,
422
+ 1.3516666666666666,
423
+ 1.2566666666666666,
424
+ 0.7333333333333333,
425
+ 0.9075,
426
+ 0.6508333333333334,
427
+ 1.3575,
428
+ 0.91,
429
+ 0.8133333333333334,
430
+ 0.6066666666666667,
431
+ 1.2166666666666666,
432
+ 0.4116666666666667,
433
+ 0.4683333333333333,
434
+ 1.6958333333333333,
435
+ 0.7491666666666666,
436
+ 1.3258333333333334,
437
+ 1.6158333333333332,
438
+ 0.9233333333333333,
439
+ 1.2941666666666667,
440
+ 1.6108333333333333,
441
+ 1.1508333333333334,
442
+ 0.72,
443
+ 1.3941666666666668,
444
+ 1.7116666666666667,
445
+ 1.3508333333333333,
446
+ 0.8941666666666667,
447
+ 1.5808333333333333,
448
+ 0.7858333333333334,
449
+ 1.0791666666666666,
450
+ 0.9225,
451
+ 1.2241666666666666,
452
+ 0.9633333333333334,
453
+ 1.0375,
454
+ 0.3475,
455
+ 0.9516666666666667,
456
+ 1.3066666666666666,
457
+ 1.2616666666666667,
458
+ 0.235,
459
+ 1.565,
460
+ 0.9233333333333333,
461
+ 0.8908333333333334,
462
+ 1.1116666666666666,
463
+ 1.2308333333333332,
464
+ 0.6666666666666666,
465
+ 1.4208333333333334,
466
+ 0.8483333333333334,
467
+ 0.965,
468
+ 1.22,
469
+ 1.3983333333333334,
470
+ 0.37833333333333335,
471
+ 0.6716666666666666,
472
+ 0.6416666666666667,
473
+ 1.6608333333333334,
474
+ 1.0775,
475
+ 0.6233333333333333,
476
+ 1.0491666666666666,
477
+ 0.6216666666666667,
478
+ 0.9641666666666666,
479
+ 0.39166666666666666,
480
+ 0.7975,
481
+ 1.1,
482
+ 0.9625,
483
+ 1.285,
484
+ 0.7733333333333333,
485
+ 0.8191666666666667,
486
+ 0.8666666666666667,
487
+ 0.3516666666666667,
488
+ 0.3675,
489
+ 0.9716666666666667,
490
+ 1.4858333333333333,
491
+ 0.4041666666666667,
492
+ 1.4616666666666667,
493
+ 0.9766666666666667,
494
+ 0.9566666666666667,
495
+ 1.2783333333333333,
496
+ 1.3558333333333332,
497
+ 1.7041666666666666,
498
+ 0.7575,
499
+ 0.715,
500
+ 1.365,
501
+ 0.5125,
502
+ 1.4166666666666667,
503
+ 0.9275,
504
+ 1.2658333333333334,
505
+ 0.8825,
506
+ 0.30833333333333335,
507
+ 1.43,
508
+ 1.6833333333333333,
509
+ 0.9216666666666666
510
+ ],
511
+ "infer_probs": [
512
+ 1.0682004425097703e-05,
513
+ 3.168546929970262e-05,
514
+ 9.082096730821831e-05,
515
+ 0.00030066073182908324,
516
+ 0.0007775367784502407,
517
+ 0.002964457072090454
518
+ ],
519
+ "infer_info_gains": [
520
+ 0.8406699547937448,
521
+ 0.8885070857772164,
522
+ 0.8875210827458647,
523
+ 0.8029342044415287,
524
+ 0.7562832274623332
525
+ ],
526
+ "infer_delta_probs": [
527
+ 2.1003464874604915e-05,
528
+ 5.9135498008515694e-05,
529
+ 0.00020983976452086496,
530
+ 0.00047687604662115745,
531
+ 0.002186920293640213
532
+ ],
533
+ "infer_expected_reward_accs": [
534
+ 0.36,
535
+ 0.5,
536
+ 0.585,
537
+ 0.6,
538
+ 0.655
539
+ ],
540
+ "infer_expected_l2s": [
541
+ 1.3887765646104224,
542
+ 1.1164093878802575,
543
+ 0.9681842359462353,
544
+ 0.8565904229465078,
545
+ 0.7569042958972374,
546
+ 0.6780883204235127
547
+ ],
548
+ "infer_expected_random_set_accs": [
549
+ 0.3369500000000001,
550
+ 0.48695000000000005,
551
+ 0.5604500000000004,
552
+ 0.6121,
553
+ 0.6576999999999998,
554
+ 0.6933499999999997
555
+ ],
556
+ "infer_expected_random_set_idxs": [
557
+ 0.8958333333333334,
558
+ 0.8925,
559
+ 0.9316666666666666,
560
+ 0.9058333333333334,
561
+ 0.6391666666666667,
562
+ 1.1066666666666667,
563
+ 0.6758333333333333,
564
+ 1.2358333333333333,
565
+ 1.0633333333333332,
566
+ 1.0625,
567
+ 1.3591666666666666,
568
+ 1.3208333333333333,
569
+ 1.1766666666666667,
570
+ 1.1033333333333333,
571
+ 1.1183333333333334,
572
+ 1.0483333333333333,
573
+ 0.5608333333333333,
574
+ 1.2858333333333334,
575
+ 0.9008333333333334,
576
+ 0.8125,
577
+ 0.7366666666666667,
578
+ 1.1191666666666666,
579
+ 0.6125,
580
+ 0.6158333333333333,
581
+ 1.515,
582
+ 0.7825,
583
+ 1.2466666666666666,
584
+ 1.375,
585
+ 0.935,
586
+ 1.1716666666666666,
587
+ 1.4433333333333334,
588
+ 1.1308333333333334,
589
+ 0.8141666666666667,
590
+ 1.1808333333333334,
591
+ 1.5008333333333332,
592
+ 1.2641666666666667,
593
+ 0.7875,
594
+ 1.3591666666666666,
595
+ 0.8908333333333334,
596
+ 1.0825,
597
+ 0.8966666666666666,
598
+ 1.1641666666666666,
599
+ 1.0025,
600
+ 1.0283333333333333,
601
+ 0.5541666666666667,
602
+ 0.9975,
603
+ 0.89,
604
+ 1.0025,
605
+ 0.5058333333333334,
606
+ 1.42,
607
+ 0.9475,
608
+ 0.9675,
609
+ 1.0725,
610
+ 1.3008333333333333,
611
+ 0.6966666666666667,
612
+ 1.2066666666666668,
613
+ 0.9275,
614
+ 1.0216666666666667,
615
+ 1.2058333333333333,
616
+ 1.2541666666666667,
617
+ 0.5966666666666667,
618
+ 0.7883333333333333,
619
+ 0.6975,
620
+ 1.4041666666666666,
621
+ 1.0566666666666666,
622
+ 0.6616666666666666,
623
+ 1.0408333333333333,
624
+ 0.6933333333333334,
625
+ 0.9425,
626
+ 0.6391666666666667,
627
+ 0.7758333333333334,
628
+ 1.0475,
629
+ 0.8725,
630
+ 1.2325,
631
+ 0.9158333333333334,
632
+ 0.8691666666666666,
633
+ 0.9183333333333333,
634
+ 0.6166666666666667,
635
+ 0.5725,
636
+ 0.9766666666666667,
637
+ 1.3541666666666667,
638
+ 0.6883333333333334,
639
+ 1.3758333333333332,
640
+ 0.95,
641
+ 0.8925,
642
+ 1.0883333333333334,
643
+ 1.1741666666666666,
644
+ 1.44,
645
+ 0.7983333333333333,
646
+ 0.7408333333333333,
647
+ 1.0025,
648
+ 0.6175,
649
+ 1.4058333333333333,
650
+ 1.0175,
651
+ 1.3366666666666667,
652
+ 0.7083333333333334,
653
+ 0.5641666666666667,
654
+ 1.2675,
655
+ 1.5625,
656
+ 0.9358333333333333
657
+ ],
658
+ "kls": [
659
+ 0.0,
660
+ 2.764485415420897,
661
+ 4.083612282988061,
662
+ 4.853100073411079,
663
+ 5.577996423073962,
664
+ 6.299917905327967
665
+ ],
666
+ "model_random_set_direct_accs": [
667
+ 0.36345,
668
+ 0.4008000000000002,
669
+ 0.4172500000000002,
670
+ 0.42510000000000003,
671
+ 0.43570000000000014,
672
+ 0.4425500000000001
673
+ ],
674
+ "model_random_set_direct_idxs": [
675
+ 1.2016666666666667,
676
+ 1.6041666666666667,
677
+ 1.3175,
678
+ 1.4991666666666668,
679
+ 1.0258333333333334,
680
+ 1.6583333333333334,
681
+ 1.2725,
682
+ 1.3366666666666667,
683
+ 0.9383333333333334,
684
+ 1.1333333333333333,
685
+ 1.2883333333333333,
686
+ 1.1533333333333333,
687
+ 1.1083333333333334,
688
+ 1.4,
689
+ 1.0608333333333333,
690
+ 1.4016666666666666,
691
+ 0.8816666666666667,
692
+ 1.5866666666666667,
693
+ 1.5983333333333334,
694
+ 0.8758333333333334,
695
+ 0.6883333333333334,
696
+ 0.825,
697
+ 1.5225,
698
+ 1.2733333333333334,
699
+ 1.4975,
700
+ 1.7658333333333334,
701
+ 1.4308333333333334,
702
+ 0.9608333333333333,
703
+ 1.0183333333333333,
704
+ 1.4658333333333333,
705
+ 1.5425,
706
+ 1.2641666666666667,
707
+ 1.47,
708
+ 0.7941666666666667,
709
+ 1.0416666666666667,
710
+ 0.965,
711
+ 1.49,
712
+ 1.5225,
713
+ 1.605,
714
+ 1.2191666666666667,
715
+ 1.2608333333333333,
716
+ 0.6675,
717
+ 1.3325,
718
+ 1.01,
719
+ 1.33,
720
+ 1.5666666666666667,
721
+ 1.28,
722
+ 0.625,
723
+ 0.9875,
724
+ 1.5391666666666666,
725
+ 1.3933333333333333,
726
+ 1.6383333333333334,
727
+ 1.3575,
728
+ 1.2,
729
+ 1.1683333333333332,
730
+ 1.2491666666666668,
731
+ 1.4091666666666667,
732
+ 1.4408333333333334,
733
+ 1.2916666666666667,
734
+ 1.2558333333333334,
735
+ 1.1541666666666666,
736
+ 1.6608333333333334,
737
+ 0.9733333333333334,
738
+ 0.6458333333333334,
739
+ 1.1725,
740
+ 1.3008333333333333,
741
+ 1.3325,
742
+ 1.3116666666666668,
743
+ 1.15,
744
+ 1.43,
745
+ 1.2775,
746
+ 1.3741666666666668,
747
+ 1.0808333333333333,
748
+ 1.2275,
749
+ 1.205,
750
+ 1.4941666666666666,
751
+ 1.2516666666666667,
752
+ 1.4916666666666667,
753
+ 1.4041666666666666,
754
+ 1.1741666666666666,
755
+ 1.6275,
756
+ 1.37,
757
+ 1.2358333333333333,
758
+ 1.1116666666666666,
759
+ 0.9825,
760
+ 1.0125,
761
+ 1.2633333333333334,
762
+ 1.2283333333333333,
763
+ 0.76,
764
+ 0.7291666666666666,
765
+ 0.9408333333333333,
766
+ 1.3641666666666667,
767
+ 1.5816666666666668,
768
+ 1.3958333333333333,
769
+ 1.6875,
770
+ 1.3983333333333334,
771
+ 1.4058333333333333,
772
+ 1.6758333333333333,
773
+ 1.5541666666666667,
774
+ 1.2558333333333334
775
+ ],
776
+ "model_expected_random_set_consistencies": [
777
+ 0.3800000000000002,
778
+ 0.6470999999999997,
779
+ 0.6724000000000001,
780
+ 0.6706999999999995,
781
+ 0.6680999999999997,
782
+ 0.6692999999999998
783
+ ],
784
+ "model_random_set_consistencies": [
785
+ 0.3948000000000005,
786
+ 0.59825,
787
+ 0.6143000000000004,
788
+ 0.61375,
789
+ 0.6168,
790
+ 0.62255
791
+ ]
792
+ }
793
+ }
results_v2/flight_7features_1000ex_random_seed2-00002-of-00005/metrics.json ADDED
@@ -0,0 +1,793 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "bags",
9
+ "departure_time",
10
+ "layover_duration",
11
+ "number_of_stops",
12
+ "duration",
13
+ "flexibility",
14
+ "arrival_time"
15
+ ],
16
+ "reward_choices": {
17
+ "bags": [
18
+ -1,
19
+ -0.5,
20
+ 0,
21
+ 0.5,
22
+ 1
23
+ ],
24
+ "departure_time": [
25
+ -1,
26
+ -0.5,
27
+ 0,
28
+ 0.5,
29
+ 1
30
+ ],
31
+ "layover_duration": [
32
+ -1,
33
+ -0.5,
34
+ 0,
35
+ 0.5,
36
+ 1
37
+ ],
38
+ "number_of_stops": [
39
+ -1,
40
+ -0.5,
41
+ 0,
42
+ 0.5,
43
+ 1
44
+ ],
45
+ "duration": [
46
+ -1,
47
+ -0.5,
48
+ 0,
49
+ 0.5,
50
+ 1
51
+ ],
52
+ "flexibility": [
53
+ -1,
54
+ -0.5,
55
+ 0,
56
+ 0.5,
57
+ 1
58
+ ],
59
+ "arrival_time": [
60
+ -1,
61
+ -0.5,
62
+ 0,
63
+ 0.5,
64
+ 1
65
+ ]
66
+ },
67
+ "assistant_name": "lm",
68
+ "formatter_name": "gemma",
69
+ "option_format": "text",
70
+ "reward_type": "scoring",
71
+ "max_rounds": 5,
72
+ "num_options": 3,
73
+ "num_candidates": 1000,
74
+ "eval_mode": "conversation",
75
+ "use_cot": false,
76
+ "num_random_set_examples": 100,
77
+ "seed": 0,
78
+ "debug": false,
79
+ "data_file": "data/eval_data/flight_7features_1000ex_random_seed2.jsonl",
80
+ "random_set_file": "data/eval_data/flight_7features_1000ex_random_set_100.json",
81
+ "prior_file": null,
82
+ "eval_every": 1,
83
+ "likelihood_smoothing": 0.0
84
+ },
85
+ "metrics": {
86
+ "accs": [
87
+ 0.365,
88
+ 0.455,
89
+ 0.395,
90
+ 0.42,
91
+ 0.415
92
+ ],
93
+ "model_accs": [
94
+ 0.365,
95
+ 0.455,
96
+ 0.395,
97
+ 0.42,
98
+ 0.415
99
+ ],
100
+ "model_reward_accs": [
101
+ 0.315,
102
+ 0.44,
103
+ 0.395,
104
+ 0.42,
105
+ 0.395
106
+ ],
107
+ "model_consistencies": [
108
+ 0.345,
109
+ 0.645,
110
+ 0.595,
111
+ 0.58,
112
+ 0.59
113
+ ],
114
+ "model_l2s": [
115
+ 1.3700683272753613,
116
+ 1.2944795316522721,
117
+ 1.2327726653476123,
118
+ 1.2217099849676234,
119
+ 1.2139436572551319,
120
+ 1.1868928204864002
121
+ ],
122
+ "model_random_set_accs": [
123
+ 0.3405499999999999,
124
+ 0.39030000000000004,
125
+ 0.42299999999999954,
126
+ 0.425,
127
+ 0.42389999999999994,
128
+ 0.4515
129
+ ],
130
+ "model_random_set_idxs": [
131
+ 1.1441666666666668,
132
+ 1.2066666666666668,
133
+ 0.9616666666666667,
134
+ 1.3483333333333334,
135
+ 0.5675,
136
+ 0.9841666666666666,
137
+ 0.7875,
138
+ 1.2383333333333333,
139
+ 0.68,
140
+ 0.6866666666666666,
141
+ 1.1591666666666667,
142
+ 1.1008333333333333,
143
+ 1.0991666666666666,
144
+ 1.3666666666666667,
145
+ 0.7616666666666667,
146
+ 1.0,
147
+ 1.0208333333333333,
148
+ 1.225,
149
+ 1.1716666666666666,
150
+ 1.0116666666666667,
151
+ 0.6825,
152
+ 0.8833333333333333,
153
+ 1.0591666666666666,
154
+ 1.0008333333333332,
155
+ 1.3091666666666666,
156
+ 0.8358333333333333,
157
+ 1.3316666666666668,
158
+ 1.1366666666666667,
159
+ 1.0125,
160
+ 1.0641666666666667,
161
+ 1.3483333333333334,
162
+ 0.9725,
163
+ 1.0125,
164
+ 0.965,
165
+ 1.25,
166
+ 1.1183333333333334,
167
+ 0.9633333333333334,
168
+ 1.3441666666666667,
169
+ 1.1716666666666666,
170
+ 0.8783333333333333,
171
+ 1.1025,
172
+ 1.0025,
173
+ 0.8166666666666667,
174
+ 1.0225,
175
+ 1.035,
176
+ 1.2833333333333334,
177
+ 1.5816666666666668,
178
+ 0.7641666666666667,
179
+ 0.88,
180
+ 1.4108333333333334,
181
+ 1.1575,
182
+ 1.1175,
183
+ 0.7425,
184
+ 1.11,
185
+ 0.8008333333333333,
186
+ 1.0883333333333334,
187
+ 1.2491666666666668,
188
+ 1.2775,
189
+ 0.8291666666666667,
190
+ 1.2166666666666666,
191
+ 0.925,
192
+ 0.9041666666666667,
193
+ 0.63,
194
+ 1.0225,
195
+ 0.8266666666666667,
196
+ 0.72,
197
+ 0.9266666666666666,
198
+ 1.0108333333333333,
199
+ 0.97,
200
+ 0.8116666666666666,
201
+ 0.8983333333333333,
202
+ 0.9216666666666666,
203
+ 0.8308333333333333,
204
+ 1.055,
205
+ 0.8191666666666667,
206
+ 1.15,
207
+ 1.0333333333333334,
208
+ 0.7216666666666667,
209
+ 0.895,
210
+ 1.1516666666666666,
211
+ 1.0975,
212
+ 0.8633333333333333,
213
+ 1.1475,
214
+ 0.9575,
215
+ 0.8916666666666667,
216
+ 1.165,
217
+ 1.0641666666666667,
218
+ 1.1716666666666666,
219
+ 1.0808333333333333,
220
+ 0.6991666666666667,
221
+ 1.105,
222
+ 0.8916666666666667,
223
+ 1.26,
224
+ 1.1941666666666666,
225
+ 1.3325,
226
+ 1.2108333333333334,
227
+ 0.9166666666666666,
228
+ 1.0733333333333333,
229
+ 1.3008333333333333,
230
+ 0.7566666666666667
231
+ ],
232
+ "model_probs": [
233
+ 1.1530209140495628e-05,
234
+ 3.496749090751469e-05,
235
+ 0.0001308427111728288,
236
+ 4.7090597271754005e-05,
237
+ 3.97502925833787e-05,
238
+ 8.153974053961607e-05
239
+ ],
240
+ "model_info_gains": [
241
+ -0.37833322748760595,
242
+ -0.07460540820225402,
243
+ -0.015029846597710601,
244
+ 0.053987685017457716,
245
+ -0.024249671718773104
246
+ ],
247
+ "model_delta_probs": [
248
+ 2.3437281767019062e-05,
249
+ 9.587522026531408e-05,
250
+ -8.375211390107476e-05,
251
+ -7.340304688375303e-06,
252
+ 4.178944795623737e-05
253
+ ],
254
+ "model_expected_reward_accs": [
255
+ 0.3,
256
+ 0.45,
257
+ 0.43,
258
+ 0.405,
259
+ 0.44
260
+ ],
261
+ "model_expected_consistencies": [
262
+ 0.34,
263
+ 0.67,
264
+ 0.63,
265
+ 0.61,
266
+ 0.65
267
+ ],
268
+ "model_expected_l2s": [
269
+ 1.3740660101249462,
270
+ 1.2741347348473824,
271
+ 1.2174418592954424,
272
+ 1.2037733181530863,
273
+ 1.1780215135352248,
274
+ 1.163510073631285
275
+ ],
276
+ "model_expected_random_set_accs": [
277
+ 0.3388999999999999,
278
+ 0.4064,
279
+ 0.43355000000000005,
280
+ 0.4348999999999996,
281
+ 0.44875000000000015,
282
+ 0.4614000000000002
283
+ ],
284
+ "model_expected_random_set_idxs": [
285
+ 1.1466666666666667,
286
+ 1.2166666666666666,
287
+ 0.8916666666666667,
288
+ 1.4383333333333332,
289
+ 0.5416666666666666,
290
+ 0.9916666666666667,
291
+ 0.805,
292
+ 1.2383333333333333,
293
+ 0.65,
294
+ 0.77,
295
+ 1.1508333333333334,
296
+ 1.1391666666666667,
297
+ 1.1525,
298
+ 1.1875,
299
+ 1.13,
300
+ 1.03,
301
+ 0.8166666666666667,
302
+ 1.2383333333333333,
303
+ 1.2091666666666667,
304
+ 1.0025,
305
+ 0.7208333333333333,
306
+ 0.855,
307
+ 1.0891666666666666,
308
+ 1.045,
309
+ 1.255,
310
+ 0.805,
311
+ 1.2591666666666668,
312
+ 1.15,
313
+ 1.0283333333333333,
314
+ 1.0708333333333333,
315
+ 1.365,
316
+ 0.9641666666666666,
317
+ 0.935,
318
+ 1.0033333333333334,
319
+ 1.28,
320
+ 1.1466666666666667,
321
+ 0.9266666666666666,
322
+ 1.33,
323
+ 1.1875,
324
+ 0.8533333333333334,
325
+ 1.0791666666666666,
326
+ 1.0283333333333333,
327
+ 0.8475,
328
+ 0.9675,
329
+ 1.0091666666666668,
330
+ 1.2441666666666666,
331
+ 1.2425,
332
+ 0.6683333333333333,
333
+ 0.9533333333333334,
334
+ 1.5166666666666666,
335
+ 1.2575,
336
+ 1.1658333333333333,
337
+ 0.7658333333333334,
338
+ 1.3033333333333332,
339
+ 0.785,
340
+ 1.1133333333333333,
341
+ 1.255,
342
+ 1.2591666666666668,
343
+ 0.8641666666666666,
344
+ 1.1991666666666667,
345
+ 0.9425,
346
+ 0.8908333333333334,
347
+ 0.655,
348
+ 1.0425,
349
+ 0.8308333333333333,
350
+ 0.6908333333333333,
351
+ 0.88,
352
+ 1.13,
353
+ 0.94,
354
+ 0.8058333333333333,
355
+ 0.8541666666666666,
356
+ 0.8941666666666667,
357
+ 0.7416666666666667,
358
+ 1.02,
359
+ 0.7516666666666667,
360
+ 1.2158333333333333,
361
+ 1.0733333333333333,
362
+ 0.7891666666666667,
363
+ 0.925,
364
+ 1.0633333333333332,
365
+ 1.1433333333333333,
366
+ 0.855,
367
+ 1.1225,
368
+ 0.9183333333333333,
369
+ 0.845,
370
+ 1.1416666666666666,
371
+ 1.025,
372
+ 1.18,
373
+ 0.9558333333333333,
374
+ 0.6975,
375
+ 0.825,
376
+ 0.835,
377
+ 1.3191666666666666,
378
+ 1.175,
379
+ 1.3741666666666668,
380
+ 0.9,
381
+ 0.9291666666666667,
382
+ 1.0841666666666667,
383
+ 1.36,
384
+ 0.7966666666666666
385
+ ],
386
+ "infer_reward_accs": [
387
+ 0.32,
388
+ 0.4,
389
+ 0.455,
390
+ 0.495,
391
+ 0.545
392
+ ],
393
+ "infer_l2s": [
394
+ 1.3700683272753613,
395
+ 1.263540644616879,
396
+ 1.1884149802702977,
397
+ 1.0682631856347382,
398
+ 0.9385821898824142,
399
+ 0.8564917368460414
400
+ ],
401
+ "infer_random_set_accs": [
402
+ 0.34009999999999985,
403
+ 0.3968500000000001,
404
+ 0.442,
405
+ 0.50735,
406
+ 0.5658499999999997,
407
+ 0.6059999999999995
408
+ ],
409
+ "infer_random_set_idxs": [
410
+ 0.815,
411
+ 0.7591666666666667,
412
+ 0.9233333333333333,
413
+ 0.8183333333333334,
414
+ 0.5908333333333333,
415
+ 1.0841666666666667,
416
+ 0.4225,
417
+ 1.2591666666666668,
418
+ 1.1133333333333333,
419
+ 1.14,
420
+ 1.5016666666666667,
421
+ 1.5125,
422
+ 1.3733333333333333,
423
+ 1.2583333333333333,
424
+ 0.7116666666666667,
425
+ 0.9191666666666667,
426
+ 0.6608333333333334,
427
+ 1.3208333333333333,
428
+ 0.8716666666666667,
429
+ 0.7991666666666667,
430
+ 0.6058333333333333,
431
+ 1.2008333333333334,
432
+ 0.43166666666666664,
433
+ 0.44583333333333336,
434
+ 1.6858333333333333,
435
+ 0.8191666666666667,
436
+ 1.2791666666666666,
437
+ 1.5975,
438
+ 0.875,
439
+ 1.3175,
440
+ 1.6516666666666666,
441
+ 1.1433333333333333,
442
+ 0.6958333333333333,
443
+ 1.3291666666666666,
444
+ 1.6758333333333333,
445
+ 1.3233333333333333,
446
+ 0.9133333333333333,
447
+ 1.6166666666666667,
448
+ 0.8208333333333333,
449
+ 1.0108333333333333,
450
+ 0.9041666666666667,
451
+ 1.1966666666666668,
452
+ 0.9566666666666667,
453
+ 1.0358333333333334,
454
+ 0.31666666666666665,
455
+ 0.9641666666666666,
456
+ 1.3,
457
+ 1.2225,
458
+ 0.22416666666666665,
459
+ 1.5191666666666668,
460
+ 0.9033333333333333,
461
+ 0.9016666666666666,
462
+ 1.1216666666666666,
463
+ 1.2041666666666666,
464
+ 0.665,
465
+ 1.3816666666666666,
466
+ 0.835,
467
+ 1.01,
468
+ 1.2175,
469
+ 1.3966666666666667,
470
+ 0.37333333333333335,
471
+ 0.6691666666666667,
472
+ 0.685,
473
+ 1.7058333333333333,
474
+ 1.09,
475
+ 0.6075,
476
+ 1.0441666666666667,
477
+ 0.6233333333333333,
478
+ 0.9833333333333333,
479
+ 0.43666666666666665,
480
+ 0.8216666666666667,
481
+ 1.1375,
482
+ 0.955,
483
+ 1.3241666666666667,
484
+ 0.7658333333333334,
485
+ 0.81,
486
+ 0.8616666666666667,
487
+ 0.38333333333333336,
488
+ 0.3725,
489
+ 0.985,
490
+ 1.5125,
491
+ 0.39916666666666667,
492
+ 1.3875,
493
+ 0.9741666666666666,
494
+ 0.9333333333333333,
495
+ 1.2508333333333332,
496
+ 1.3583333333333334,
497
+ 1.6841666666666666,
498
+ 0.7575,
499
+ 0.7133333333333334,
500
+ 1.3683333333333334,
501
+ 0.5241666666666667,
502
+ 1.3858333333333333,
503
+ 0.9475,
504
+ 1.3333333333333333,
505
+ 0.8833333333333333,
506
+ 0.2975,
507
+ 1.3891666666666667,
508
+ 1.7341666666666666,
509
+ 0.9208333333333333
510
+ ],
511
+ "infer_probs": [
512
+ 1.1530209140495628e-05,
513
+ 3.6770383735245106e-05,
514
+ 0.00011314616358674811,
515
+ 0.0003607629427216352,
516
+ 0.0010403553154208112,
517
+ 0.002830883939193427
518
+ ],
519
+ "infer_info_gains": [
520
+ 0.9010958600423478,
521
+ 0.9592858913350802,
522
+ 0.894395600031413,
523
+ 0.8519376016415408,
524
+ 0.7463549429258417
525
+ ],
526
+ "infer_delta_probs": [
527
+ 2.5240174594749474e-05,
528
+ 7.637577985150301e-05,
529
+ 0.0002476167791348871,
530
+ 0.0006795923726991759,
531
+ 0.0017905286237726158
532
+ ],
533
+ "infer_expected_reward_accs": [
534
+ 0.3,
535
+ 0.455,
536
+ 0.595,
537
+ 0.56,
538
+ 0.655
539
+ ],
540
+ "infer_expected_l2s": [
541
+ 1.3740660101249462,
542
+ 1.1175384430684387,
543
+ 0.9614677317866236,
544
+ 0.8440212068458718,
545
+ 0.7432113750635955,
546
+ 0.6675771315387196
547
+ ],
548
+ "infer_expected_random_set_accs": [
549
+ 0.3388999999999999,
550
+ 0.4811000000000002,
551
+ 0.5496500000000001,
552
+ 0.6141000000000001,
553
+ 0.6609500000000004,
554
+ 0.6969500000000001
555
+ ],
556
+ "infer_expected_random_set_idxs": [
557
+ 0.91,
558
+ 0.9225,
559
+ 0.9491666666666667,
560
+ 0.82,
561
+ 0.7425,
562
+ 1.0941666666666667,
563
+ 0.645,
564
+ 1.19,
565
+ 1.0991666666666666,
566
+ 1.11,
567
+ 1.3291666666666666,
568
+ 1.315,
569
+ 1.2491666666666668,
570
+ 1.0658333333333334,
571
+ 1.125,
572
+ 1.0175,
573
+ 0.5691666666666667,
574
+ 1.2875,
575
+ 0.905,
576
+ 0.8575,
577
+ 0.6725,
578
+ 1.0766666666666667,
579
+ 0.6708333333333333,
580
+ 0.61,
581
+ 1.5541666666666667,
582
+ 0.7716666666666666,
583
+ 1.1833333333333333,
584
+ 1.345,
585
+ 0.9483333333333334,
586
+ 1.1816666666666666,
587
+ 1.4725,
588
+ 1.0725,
589
+ 0.7791666666666667,
590
+ 1.1708333333333334,
591
+ 1.46,
592
+ 1.2316666666666667,
593
+ 0.8408333333333333,
594
+ 1.3975,
595
+ 0.8625,
596
+ 1.0491666666666666,
597
+ 0.9183333333333333,
598
+ 1.1416666666666666,
599
+ 1.0,
600
+ 1.0433333333333332,
601
+ 0.5516666666666666,
602
+ 1.03,
603
+ 0.8533333333333334,
604
+ 0.9283333333333333,
605
+ 0.49666666666666665,
606
+ 1.3933333333333333,
607
+ 0.9208333333333333,
608
+ 0.9741666666666666,
609
+ 1.0516666666666667,
610
+ 1.225,
611
+ 0.6925,
612
+ 1.2258333333333333,
613
+ 0.9283333333333333,
614
+ 1.01,
615
+ 1.1566666666666667,
616
+ 1.2733333333333334,
617
+ 0.6208333333333333,
618
+ 0.8175,
619
+ 0.6883333333333334,
620
+ 1.4491666666666667,
621
+ 1.0783333333333334,
622
+ 0.7141666666666666,
623
+ 1.0275,
624
+ 0.6533333333333333,
625
+ 0.9825,
626
+ 0.7033333333333334,
627
+ 0.7991666666666667,
628
+ 1.09,
629
+ 0.9091666666666667,
630
+ 1.2891666666666666,
631
+ 0.9025,
632
+ 0.8325,
633
+ 0.8791666666666667,
634
+ 0.6708333333333333,
635
+ 0.5733333333333334,
636
+ 1.03,
637
+ 1.3566666666666667,
638
+ 0.6966666666666667,
639
+ 1.3325,
640
+ 0.9975,
641
+ 0.8975,
642
+ 1.0841666666666667,
643
+ 1.2008333333333334,
644
+ 1.4625,
645
+ 0.78,
646
+ 0.7075,
647
+ 1.0116666666666667,
648
+ 0.6675,
649
+ 1.4008333333333334,
650
+ 1.0508333333333333,
651
+ 1.3408333333333333,
652
+ 0.6816666666666666,
653
+ 0.5291666666666667,
654
+ 1.3083333333333333,
655
+ 1.5758333333333334,
656
+ 0.9691666666666666
657
+ ],
658
+ "kls": [
659
+ 0.0,
660
+ 2.7614467737543786,
661
+ 4.2902222118578015,
662
+ 4.962432290756126,
663
+ 5.803737064486347,
664
+ 6.4852274265238545
665
+ ],
666
+ "model_random_set_direct_accs": [
667
+ 0.3693499999999998,
668
+ 0.4050499999999998,
669
+ 0.42495,
670
+ 0.43349999999999994,
671
+ 0.4432999999999999,
672
+ 0.44909999999999956
673
+ ],
674
+ "model_random_set_direct_idxs": [
675
+ 1.235,
676
+ 1.64,
677
+ 1.3025,
678
+ 1.54,
679
+ 1.02,
680
+ 1.5808333333333333,
681
+ 1.2783333333333333,
682
+ 1.275,
683
+ 0.9025,
684
+ 1.135,
685
+ 1.2891666666666666,
686
+ 1.1608333333333334,
687
+ 1.1541666666666666,
688
+ 1.4408333333333334,
689
+ 1.0575,
690
+ 1.2925,
691
+ 0.9108333333333334,
692
+ 1.565,
693
+ 1.6825,
694
+ 0.825,
695
+ 0.6391666666666667,
696
+ 0.6383333333333333,
697
+ 1.5816666666666668,
698
+ 1.3691666666666666,
699
+ 1.4566666666666668,
700
+ 1.7925,
701
+ 1.4133333333333333,
702
+ 0.9375,
703
+ 1.0416666666666667,
704
+ 1.435,
705
+ 1.5458333333333334,
706
+ 1.2408333333333332,
707
+ 1.4741666666666666,
708
+ 0.7966666666666666,
709
+ 1.0533333333333332,
710
+ 0.95,
711
+ 1.52,
712
+ 1.555,
713
+ 1.6033333333333333,
714
+ 1.1525,
715
+ 1.2616666666666667,
716
+ 0.6458333333333334,
717
+ 1.2883333333333333,
718
+ 1.01,
719
+ 1.415,
720
+ 1.5933333333333333,
721
+ 1.3466666666666667,
722
+ 0.5891666666666666,
723
+ 1.035,
724
+ 1.58,
725
+ 1.4291666666666667,
726
+ 1.6716666666666666,
727
+ 1.305,
728
+ 1.235,
729
+ 1.1166666666666667,
730
+ 1.3208333333333333,
731
+ 1.4566666666666668,
732
+ 1.4808333333333332,
733
+ 1.2241666666666666,
734
+ 1.265,
735
+ 1.2341666666666666,
736
+ 1.67,
737
+ 0.9875,
738
+ 0.6216666666666667,
739
+ 1.1675,
740
+ 1.2841666666666667,
741
+ 1.3,
742
+ 1.3933333333333333,
743
+ 1.1841666666666666,
744
+ 1.4475,
745
+ 1.3083333333333333,
746
+ 1.3741666666666668,
747
+ 1.0291666666666666,
748
+ 1.1875,
749
+ 1.1416666666666666,
750
+ 1.5208333333333333,
751
+ 1.2266666666666666,
752
+ 1.515,
753
+ 1.395,
754
+ 1.1391666666666667,
755
+ 1.6116666666666666,
756
+ 1.37,
757
+ 1.1958333333333333,
758
+ 1.1416666666666666,
759
+ 1.0008333333333332,
760
+ 1.0158333333333334,
761
+ 1.2408333333333332,
762
+ 1.2516666666666667,
763
+ 0.7166666666666667,
764
+ 0.7158333333333333,
765
+ 0.9541666666666667,
766
+ 1.345,
767
+ 1.5733333333333333,
768
+ 1.4183333333333332,
769
+ 1.6675,
770
+ 1.3516666666666666,
771
+ 1.4133333333333333,
772
+ 1.6308333333333334,
773
+ 1.515,
774
+ 1.2491666666666668
775
+ ],
776
+ "model_expected_random_set_consistencies": [
777
+ 0.36999999999999966,
778
+ 0.6500499999999998,
779
+ 0.67125,
780
+ 0.6772,
781
+ 0.6798500000000004,
782
+ 0.6848000000000005
783
+ ],
784
+ "model_random_set_consistencies": [
785
+ 0.3848000000000003,
786
+ 0.6016,
787
+ 0.6188999999999999,
788
+ 0.6209,
789
+ 0.6182,
790
+ 0.6229500000000001
791
+ ]
792
+ }
793
+ }
results_v2/flight_noise1.0_random_seed1/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "data/eval_data/flight_noise1.0_random_seed1.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.3092948717948718,
64
+ 0.33653846153846156,
65
+ 0.358974358974359,
66
+ 0.36538461538461536,
67
+ 0.3942307692307692
68
+ ],
69
+ "model_accs": [
70
+ 0.3092948717948718,
71
+ 0.33653846153846156,
72
+ 0.358974358974359,
73
+ 0.36538461538461536,
74
+ 0.3942307692307692
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.3108974358974359,
78
+ 0.33814102564102566,
79
+ 0.3541666666666667,
80
+ 0.38782051282051283,
81
+ 0.38782051282051283
82
+ ],
83
+ "model_consistencies": [
84
+ 0.38621794871794873,
85
+ 0.6602564102564102,
86
+ 0.7003205128205128,
87
+ 0.7083333333333334,
88
+ 0.7131410256410257
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.488593391137741,
93
+ 1.5120660225372382,
94
+ 1.5256220267678013,
95
+ 1.5701461090904691,
96
+ 1.575628793589351
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.28886217948717946,
101
+ 0.2733173076923079,
102
+ 0.2638141025641026,
103
+ 0.24469551282051297,
104
+ 0.23775641025641042
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7516025641025641,
108
+ 1.2398504273504274,
109
+ 1.2513354700854702,
110
+ 1.077724358974359,
111
+ 1.0416666666666667,
112
+ 1.0958867521367521,
113
+ 1.1466346153846154,
114
+ 0.9738247863247863,
115
+ 1.1132478632478633,
116
+ 1.1252670940170941,
117
+ 0.8223824786324786,
118
+ 1.0395299145299146,
119
+ 1.236912393162393,
120
+ 0.8317307692307693,
121
+ 1.049412393162393,
122
+ 1.1463675213675213,
123
+ 0.8792735042735043,
124
+ 0.8685897435897436,
125
+ 0.7107371794871795,
126
+ 0.6821581196581197,
127
+ 1.0966880341880343,
128
+ 0.9917200854700855,
129
+ 0.7256944444444444,
130
+ 0.9105235042735043,
131
+ 1.1626602564102564,
132
+ 0.9802350427350427,
133
+ 0.9564636752136753,
134
+ 1.1682692307692308,
135
+ 0.7441239316239316,
136
+ 1.017628205128205,
137
+ 1.0587606837606838,
138
+ 1.0446047008547008,
139
+ 0.8939636752136753,
140
+ 0.9735576923076923,
141
+ 0.9313568376068376,
142
+ 0.8466880341880342,
143
+ 0.5029380341880342,
144
+ 0.9006410256410257,
145
+ 1.1845619658119657,
146
+ 1.001068376068376,
147
+ 1.111378205128205,
148
+ 0.9778311965811965,
149
+ 0.6989850427350427,
150
+ 0.9236111111111112,
151
+ 0.9113247863247863,
152
+ 0.6260683760683761,
153
+ 0.7227564102564102,
154
+ 1.3520299145299146,
155
+ 1.4366987179487178,
156
+ 1.076655982905983,
157
+ 0.9262820512820513,
158
+ 1.1776175213675213,
159
+ 1.1904380341880343,
160
+ 1.2529380341880343,
161
+ 0.6541132478632479,
162
+ 1.2911324786324787,
163
+ 0.6514423076923077,
164
+ 0.7948717948717948,
165
+ 0.9807692307692307,
166
+ 1.0916132478632479,
167
+ 1.0221688034188035,
168
+ 0.7678952991452992,
169
+ 1.0101495726495726,
170
+ 1.0643696581196582,
171
+ 1.3848824786324787,
172
+ 1.0972222222222223,
173
+ 1.1314102564102564,
174
+ 0.6602564102564102,
175
+ 1.0998931623931625,
176
+ 1.0881410256410255,
177
+ 0.7264957264957265,
178
+ 1.0109508547008548,
179
+ 1.1669337606837606,
180
+ 0.8792735042735043,
181
+ 1.186965811965812,
182
+ 1.0408653846153846,
183
+ 1.0817307692307692,
184
+ 1.1992521367521367,
185
+ 1.0734508547008548,
186
+ 1.201655982905983,
187
+ 1.0200320512820513,
188
+ 0.7930021367521367,
189
+ 1.2112713675213675,
190
+ 1.2564102564102564,
191
+ 0.9415064102564102,
192
+ 1.1185897435897436,
193
+ 0.6917735042735043,
194
+ 0.7462606837606838,
195
+ 1.1081730769230769,
196
+ 1.0283119658119657,
197
+ 0.8859508547008547,
198
+ 1.1773504273504274,
199
+ 1.342681623931624,
200
+ 0.9965277777777778,
201
+ 0.9716880341880342,
202
+ 1.0950854700854702,
203
+ 0.8635149572649573,
204
+ 0.8985042735042735,
205
+ 0.7930021367521367,
206
+ 0.6583867521367521
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.0008562752320548814,
211
+ 0.000626074884244443,
212
+ 0.0007189076201366114,
213
+ 0.0005106474804269738,
214
+ 0.00044727789637160074
215
+ ],
216
+ "model_info_gains": [
217
+ -1.4756715598303118,
218
+ -0.8239025986218158,
219
+ -0.198711474618471,
220
+ -0.32940323328514554,
221
+ -0.05291287352950853
222
+ ],
223
+ "model_delta_probs": [
224
+ -0.000743777266973702,
225
+ -0.00023020034781043842,
226
+ 9.283273589216845e-05,
227
+ -0.0002082601397096375,
228
+ -6.336958405537311e-05
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.3092948717948718,
232
+ 0.3605769230769231,
233
+ 0.36378205128205127,
234
+ 0.3926282051282051,
235
+ 0.40224358974358976
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.3814102564102564,
239
+ 0.7275641025641025,
240
+ 0.7628205128205128,
241
+ 0.7307692307692307,
242
+ 0.7628205128205128
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.506790719075094,
247
+ 1.5360384522431048,
248
+ 1.5547975304541466,
249
+ 1.5919184441528786,
250
+ 1.6028094695852926
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.2776923076923076,
255
+ 0.2618910256410255,
256
+ 0.25028846153846157,
257
+ 0.2315064102564103,
258
+ 0.22325320512820504
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9943910256410257,
262
+ 1.2791132478632479,
263
+ 1.217681623931624,
264
+ 1.0237713675213675,
265
+ 1.0221688034188035,
266
+ 1.0809294871794872,
267
+ 1.2069978632478633,
268
+ 0.9225427350427351,
269
+ 1.2305021367521367,
270
+ 1.2871260683760684,
271
+ 0.9276175213675214,
272
+ 1.0584935897435896,
273
+ 1.1647970085470085,
274
+ 0.8776709401709402,
275
+ 1.0456730769230769,
276
+ 1.202190170940171,
277
+ 0.9268162393162394,
278
+ 0.8560363247863247,
279
+ 0.6757478632478633,
280
+ 0.7045940170940171,
281
+ 1.1439636752136753,
282
+ 1.0256410256410255,
283
+ 0.7163461538461539,
284
+ 0.9115918803418803,
285
+ 1.1388888888888888,
286
+ 0.9364316239316239,
287
+ 0.9455128205128205,
288
+ 1.1821581196581197,
289
+ 0.7414529914529915,
290
+ 1.0379273504273505,
291
+ 1.0657051282051282,
292
+ 1.0090811965811965,
293
+ 0.936965811965812,
294
+ 1.0384615384615385,
295
+ 0.905982905982906,
296
+ 0.9284188034188035,
297
+ 0.6543803418803419,
298
+ 0.8450854700854701,
299
+ 1.2077991452991452,
300
+ 0.9909188034188035,
301
+ 1.0763888888888888,
302
+ 0.9850427350427351,
303
+ 0.750267094017094,
304
+ 0.999732905982906,
305
+ 0.9535256410256411,
306
+ 0.6829594017094017,
307
+ 0.7305021367521367,
308
+ 1.2999465811965811,
309
+ 1.3944978632478633,
310
+ 1.0093482905982907,
311
+ 0.9540598290598291,
312
+ 1.138621794871795,
313
+ 1.1354166666666667,
314
+ 1.1933760683760684,
315
+ 0.6626602564102564,
316
+ 1.2443910256410255,
317
+ 0.7307692307692307,
318
+ 0.8004807692307693,
319
+ 0.9572649572649573,
320
+ 1.0996260683760684,
321
+ 0.9869123931623932,
322
+ 1.1316773504273505,
323
+ 1.078258547008547,
324
+ 1.107371794871795,
325
+ 1.3247863247863247,
326
+ 0.9460470085470085,
327
+ 1.1111111111111112,
328
+ 0.4791666666666667,
329
+ 1.0819978632478633,
330
+ 1.138621794871795,
331
+ 0.7067307692307693,
332
+ 1.0584935897435896,
333
+ 1.1228632478632479,
334
+ 0.9153311965811965,
335
+ 1.1599893162393162,
336
+ 1.001068376068376,
337
+ 1.0924145299145298,
338
+ 1.2446581196581197,
339
+ 0.8814102564102564,
340
+ 1.1276709401709402,
341
+ 1.0643696581196582,
342
+ 0.8010149572649573,
343
+ 1.2411858974358974,
344
+ 1.2240918803418803,
345
+ 0.8993055555555556,
346
+ 1.0544871794871795,
347
+ 0.7083333333333334,
348
+ 0.8245192307692307,
349
+ 1.0916132478632479,
350
+ 0.9535256410256411,
351
+ 0.6589209401709402,
352
+ 1.2075320512820513,
353
+ 1.3098290598290598,
354
+ 0.9719551282051282,
355
+ 0.9588675213675214,
356
+ 0.9754273504273504,
357
+ 0.9489850427350427,
358
+ 0.9415064102564102,
359
+ 0.8522970085470085,
360
+ 0.6522435897435898
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.3141025641025641,
364
+ 0.3269230769230769,
365
+ 0.36378205128205127,
366
+ 0.4182692307692308,
367
+ 0.3733974358974359
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.4570254666752571,
372
+ 1.5643271957761555,
373
+ 1.5785840639023472,
374
+ 1.5568861536038834,
375
+ 1.4999420865856692
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.30150641025640995,
380
+ 0.24293269230769268,
381
+ 0.23554487179487169,
382
+ 0.2507692307692312,
383
+ 0.27657051282051276
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.6968482905982906,
387
+ 1.0243055555555556,
388
+ 1.516292735042735,
389
+ 1.1105769230769231,
390
+ 1.0029380341880343,
391
+ 1.3060897435897436,
392
+ 1.2216880341880343,
393
+ 0.8766025641025641,
394
+ 1.1647970085470085,
395
+ 1.1947115384615385,
396
+ 0.6474358974358975,
397
+ 1.3205128205128205,
398
+ 1.2366452991452992,
399
+ 0.5852029914529915,
400
+ 0.8776709401709402,
401
+ 1.1784188034188035,
402
+ 1.139155982905983,
403
+ 0.9639423076923077,
404
+ 0.5128205128205128,
405
+ 0.6188568376068376,
406
+ 1.1957799145299146,
407
+ 1.048878205128205,
408
+ 0.5069444444444444,
409
+ 0.6973824786324786,
410
+ 0.9292200854700855,
411
+ 1.1375534188034189,
412
+ 0.7922008547008547,
413
+ 1.1680021367521367,
414
+ 0.8985042735042735,
415
+ 0.7355769230769231,
416
+ 1.093215811965812,
417
+ 0.6776175213675214,
418
+ 1.2457264957264957,
419
+ 0.718215811965812,
420
+ 0.9556623931623932,
421
+ 0.6052350427350427,
422
+ 0.49252136752136755,
423
+ 0.624465811965812,
424
+ 0.9209401709401709,
425
+ 1.0552884615384615,
426
+ 1.2280982905982907,
427
+ 0.749465811965812,
428
+ 0.6573183760683761,
429
+ 0.6672008547008547,
430
+ 0.6514423076923077,
431
+ 0.5814636752136753,
432
+ 0.8707264957264957,
433
+ 1.1033653846153846,
434
+ 1.4586004273504274,
435
+ 1.1153846153846154,
436
+ 0.5814636752136753,
437
+ 0.8982371794871795,
438
+ 1.452457264957265,
439
+ 1.1655982905982907,
440
+ 0.6696047008547008,
441
+ 1.314102564102564,
442
+ 0.5122863247863247,
443
+ 0.8336004273504274,
444
+ 0.8605769230769231,
445
+ 0.9989316239316239,
446
+ 0.8199786324786325,
447
+ 0.7091346153846154,
448
+ 1.109508547008547,
449
+ 0.9294871794871795,
450
+ 1.138087606837607,
451
+ 0.9089209401709402,
452
+ 0.905982905982906,
453
+ 0.7176816239316239,
454
+ 1.2230235042735043,
455
+ 1.2831196581196582,
456
+ 0.6706730769230769,
457
+ 1.1047008547008548,
458
+ 1.422275641025641,
459
+ 0.9209401709401709,
460
+ 1.3832799145299146,
461
+ 1.1837606837606838,
462
+ 1.077724358974359,
463
+ 1.2553418803418803,
464
+ 0.9861111111111112,
465
+ 1.0333867521367521,
466
+ 1.2566773504273505,
467
+ 0.6842948717948718,
468
+ 1.3541666666666667,
469
+ 1.0024038461538463,
470
+ 1.064102564102564,
471
+ 1.2804487179487178,
472
+ 0.6348824786324786,
473
+ 0.8934294871794872,
474
+ 1.3405448717948718,
475
+ 0.9628739316239316,
476
+ 0.8488247863247863,
477
+ 1.2064636752136753,
478
+ 1.5603632478632479,
479
+ 0.8277243589743589,
480
+ 0.7935363247863247,
481
+ 1.126602564102564,
482
+ 0.9636752136752137,
483
+ 1.1479700854700854,
484
+ 0.7793803418803419,
485
+ 0.4479166666666667
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.0,
490
+ 0.0,
491
+ 0.0,
492
+ 0.0,
493
+ 0.0
494
+ ],
495
+ "infer_info_gains": [
496
+ -6.509661027808993,
497
+ 0.0,
498
+ 0.0,
499
+ 0.0,
500
+ 0.0
501
+ ],
502
+ "infer_delta_probs": [
503
+ -0.0016000524990285835,
504
+ 0.0,
505
+ 0.0,
506
+ 0.0,
507
+ 0.0
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.3092948717948718,
511
+ 0.34935897435897434,
512
+ 0.3814102564102564,
513
+ 0.4407051282051282,
514
+ 0.3942307692307692
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 1.548047939489473,
519
+ 1.60560536490735,
520
+ 1.5397731328120494,
521
+ 1.426096590588756,
522
+ 1.2828686132108222
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.25599358974358966,
527
+ 0.2184294871794872,
528
+ 0.21597756410256408,
529
+ 0.2346955128205129,
530
+ 0.2629807692307692
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.9559294871794872,
534
+ 1.0616987179487178,
535
+ 1.3971688034188035,
536
+ 1.0726495726495726,
537
+ 0.9887820512820513,
538
+ 1.2305021367521367,
539
+ 1.2008547008547008,
540
+ 0.8691239316239316,
541
+ 1.2200854700854702,
542
+ 1.1955128205128205,
543
+ 0.8178418803418803,
544
+ 1.2168803418803418,
545
+ 1.1663995726495726,
546
+ 0.6968482905982906,
547
+ 0.9444444444444444,
548
+ 1.1439636752136753,
549
+ 1.063034188034188,
550
+ 1.0109508547008548,
551
+ 0.6172542735042735,
552
+ 0.7045940170940171,
553
+ 1.140758547008547,
554
+ 1.0050747863247864,
555
+ 0.6268696581196581,
556
+ 0.7868589743589743,
557
+ 0.9732905982905983,
558
+ 1.0352564102564104,
559
+ 0.8293269230769231,
560
+ 1.1204594017094016,
561
+ 0.9118589743589743,
562
+ 0.780715811965812,
563
+ 1.125534188034188,
564
+ 0.7636217948717948,
565
+ 1.1669337606837606,
566
+ 0.8210470085470085,
567
+ 0.9548611111111112,
568
+ 0.7828525641025641,
569
+ 0.7267628205128205,
570
+ 0.6955128205128205,
571
+ 0.9674145299145299,
572
+ 1.014155982905983,
573
+ 1.0956196581196582,
574
+ 0.7636217948717948,
575
+ 0.7510683760683761,
576
+ 0.8199786324786325,
577
+ 0.7086004273504274,
578
+ 0.7174145299145299,
579
+ 0.9268162393162394,
580
+ 1.0654380341880343,
581
+ 1.3293269230769231,
582
+ 1.0502136752136753,
583
+ 0.6915064102564102,
584
+ 0.9556623931623932,
585
+ 1.3253205128205128,
586
+ 1.1527777777777777,
587
+ 0.7307692307692307,
588
+ 1.1989850427350428,
589
+ 0.6375534188034188,
590
+ 0.8832799145299145,
591
+ 0.8485576923076923,
592
+ 1.0104166666666667,
593
+ 0.8309294871794872,
594
+ 1.1356837606837606,
595
+ 1.0627670940170941,
596
+ 0.9545940170940171,
597
+ 1.0964209401709402,
598
+ 0.8135683760683761,
599
+ 0.9447115384615384,
600
+ 0.6599893162393162,
601
+ 1.2478632478632479,
602
+ 1.2417200854700854,
603
+ 0.7905982905982906,
604
+ 1.0838675213675213,
605
+ 1.3133012820512822,
606
+ 0.9791666666666666,
607
+ 1.265224358974359,
608
+ 1.1613247863247864,
609
+ 1.079594017094017,
610
+ 1.2144764957264957,
611
+ 0.84375,
612
+ 0.9914529914529915,
613
+ 1.186965811965812,
614
+ 0.7128739316239316,
615
+ 1.2719017094017093,
616
+ 1.0197649572649572,
617
+ 1.0857371794871795,
618
+ 1.1589209401709402,
619
+ 0.6957799145299145,
620
+ 0.9516559829059829,
621
+ 1.2593482905982907,
622
+ 0.8496260683760684,
623
+ 0.7083333333333334,
624
+ 1.1901709401709402,
625
+ 1.4030448717948718,
626
+ 0.8325320512820513,
627
+ 0.8322649572649573,
628
+ 1.0480769230769231,
629
+ 1.017094017094017,
630
+ 1.1338141025641026,
631
+ 0.8125,
632
+ 0.5964209401709402
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.6624130876438907,
637
+ 2.9342170279332183,
638
+ 3.409500552850377,
639
+ 3.1620787507705788,
640
+ 2.4771226505112014
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.31410256410256376,
645
+ 0.29105769230769224,
646
+ 0.2821474358974359,
647
+ 0.27145833333333336,
648
+ 0.2632211538461537
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1461004273504274,
652
+ 1.172275641025641,
653
+ 1.3936965811965811,
654
+ 1.2927350427350428,
655
+ 1.0520833333333333,
656
+ 0.6209935897435898,
657
+ 0.7486645299145299,
658
+ 0.7700320512820513,
659
+ 1.0683760683760684,
660
+ 1.515224358974359,
661
+ 1.2780448717948718,
662
+ 0.8314636752136753,
663
+ 1.3645833333333333,
664
+ 0.9244123931623932,
665
+ 1.4043803418803418,
666
+ 1.4383012820512822,
667
+ 1.1690705128205128,
668
+ 1.0088141025641026,
669
+ 0.7243589743589743,
670
+ 0.8830128205128205,
671
+ 0.6164529914529915,
672
+ 1.1207264957264957,
673
+ 0.8178418803418803,
674
+ 1.2443910256410255,
675
+ 0.9278846153846154,
676
+ 0.8926282051282052,
677
+ 1.0331196581196582,
678
+ 1.327190170940171,
679
+ 0.7478632478632479,
680
+ 1.2446581196581197,
681
+ 1.376602564102564,
682
+ 1.3116987179487178,
683
+ 0.4097222222222222,
684
+ 1.3044871794871795,
685
+ 0.8888888888888888,
686
+ 1.0846688034188035,
687
+ 0.8360042735042735,
688
+ 0.7889957264957265,
689
+ 1.0397970085470085,
690
+ 0.6957799145299145,
691
+ 1.201655982905983,
692
+ 1.282318376068376,
693
+ 0.7313034188034188,
694
+ 1.1487713675213675,
695
+ 1.0841346153846154,
696
+ 0.6156517094017094,
697
+ 0.8026175213675214,
698
+ 1.361912393162393,
699
+ 1.3023504273504274,
700
+ 1.0248397435897436,
701
+ 1.2222222222222223,
702
+ 0.8263888888888888,
703
+ 1.2069978632478633,
704
+ 1.311965811965812,
705
+ 1.1204594017094016,
706
+ 1.2126068376068375,
707
+ 0.8552350427350427,
708
+ 0.7417200854700855,
709
+ 1.3514957264957266,
710
+ 0.9887820512820513,
711
+ 1.0547542735042734,
712
+ 0.8034188034188035,
713
+ 1.1442307692307692,
714
+ 0.6533119658119658,
715
+ 1.311965811965812,
716
+ 0.9241452991452992,
717
+ 1.0264423076923077,
718
+ 0.453525641025641,
719
+ 0.7932692307692307,
720
+ 1.1159188034188035,
721
+ 1.0333867521367521,
722
+ 0.6984508547008547,
723
+ 1.267628205128205,
724
+ 0.8333333333333334,
725
+ 1.1832264957264957,
726
+ 0.7342414529914529,
727
+ 0.7839209401709402,
728
+ 1.0093482905982907,
729
+ 0.8194444444444444,
730
+ 1.141559829059829,
731
+ 1.138087606837607,
732
+ 0.7967414529914529,
733
+ 1.015491452991453,
734
+ 0.9989316239316239,
735
+ 1.1861645299145298,
736
+ 1.0852029914529915,
737
+ 0.6704059829059829,
738
+ 0.7948717948717948,
739
+ 1.0819978632478633,
740
+ 1.2299679487179487,
741
+ 0.4780982905982906,
742
+ 1.046741452991453,
743
+ 1.3178418803418803,
744
+ 1.1428952991452992,
745
+ 1.3341346153846154,
746
+ 0.6434294871794872,
747
+ 1.0085470085470085,
748
+ 0.46127136752136755,
749
+ 0.4965277777777778,
750
+ 0.7430555555555556
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7342788461538461,
755
+ 0.73911858974359,
756
+ 0.7412339743589745,
757
+ 0.7370833333333332,
758
+ 0.7419230769230766
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6815384615384614,
763
+ 0.6849839743589738,
764
+ 0.6816506410256413,
765
+ 0.6841987179487181,
766
+ 0.6892307692307688
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_0_seed2/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_0_seed2/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_0_seed2.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.8221153846153846,
64
+ 0.8910256410256411,
65
+ 0.9262820512820513,
66
+ 0.9375,
67
+ 0.9423076923076923
68
+ ],
69
+ "model_accs": [
70
+ 0.8221153846153846,
71
+ 0.8910256410256411,
72
+ 0.9262820512820513,
73
+ 0.9375,
74
+ 0.9423076923076923
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.5096153846153846,
78
+ 0.9118589743589743,
79
+ 0.9551282051282052,
80
+ 0.9551282051282052,
81
+ 0.969551282051282
82
+ ],
83
+ "model_consistencies": [
84
+ 0.5064102564102564,
85
+ 0.9262820512820513,
86
+ 0.9455128205128205,
87
+ 0.9503205128205128,
88
+ 0.9551282051282052
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.0933534860512244,
93
+ 1.0708080358699652,
94
+ 1.065946616284595,
95
+ 1.0451529059469347,
96
+ 1.0601420222465345
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.48056089743589797,
101
+ 0.4921634615384619,
102
+ 0.49626602564102595,
103
+ 0.5071474358974355,
104
+ 0.49951923076923066
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.625267094017094,
108
+ 1.267094017094017,
109
+ 1.2377136752136753,
110
+ 1.0769230769230769,
111
+ 0.9748931623931624,
112
+ 1.1474358974358974,
113
+ 1.1971153846153846,
114
+ 0.9505876068376068,
115
+ 1.1209935897435896,
116
+ 1.126068376068376,
117
+ 0.8138354700854701,
118
+ 1.0990918803418803,
119
+ 1.1519764957264957,
120
+ 0.8514957264957265,
121
+ 1.0082799145299146,
122
+ 1.174412393162393,
123
+ 0.8782051282051282,
124
+ 0.9425747863247863,
125
+ 0.7198183760683761,
126
+ 0.6501068376068376,
127
+ 1.1423611111111112,
128
+ 0.9722222222222222,
129
+ 0.6818910256410257,
130
+ 0.9420405982905983,
131
+ 1.1995192307692308,
132
+ 1.064102564102564,
133
+ 0.9404380341880342,
134
+ 1.232371794871795,
135
+ 0.7147435897435898,
136
+ 0.9564636752136753,
137
+ 1.0558226495726495,
138
+ 1.030181623931624,
139
+ 0.9441773504273504,
140
+ 0.9337606837606838,
141
+ 0.9535256410256411,
142
+ 0.7606837606837606,
143
+ 0.47649572649572647,
144
+ 0.7962072649572649,
145
+ 1.1888354700854702,
146
+ 0.9786324786324786,
147
+ 1.155181623931624,
148
+ 0.9623397435897436,
149
+ 0.6947115384615384,
150
+ 0.8453525641025641,
151
+ 0.8894230769230769,
152
+ 0.6001602564102564,
153
+ 0.7096688034188035,
154
+ 1.3659188034188035,
155
+ 1.435897435897436,
156
+ 1.0966880341880343,
157
+ 0.8621794871794872,
158
+ 1.21875,
159
+ 1.2043269230769231,
160
+ 1.2227564102564104,
161
+ 0.6097756410256411,
162
+ 1.345352564102564,
163
+ 0.6148504273504274,
164
+ 0.7743055555555556,
165
+ 0.9014423076923077,
166
+ 1.0365918803418803,
167
+ 0.9802350427350427,
168
+ 0.7072649572649573,
169
+ 1.045405982905983,
170
+ 1.0133547008547008,
171
+ 1.3637820512820513,
172
+ 1.110309829059829,
173
+ 1.078525641025641,
174
+ 0.6602564102564102,
175
+ 1.106837606837607,
176
+ 1.142628205128205,
177
+ 0.7037927350427351,
178
+ 1.0798611111111112,
179
+ 1.1768162393162394,
180
+ 0.8974358974358975,
181
+ 1.1808226495726495,
182
+ 1.0841346153846154,
183
+ 1.0974893162393162,
184
+ 1.1829594017094016,
185
+ 1.0819978632478633,
186
+ 1.2288995726495726,
187
+ 0.9778311965811965,
188
+ 0.8055555555555556,
189
+ 1.2614850427350428,
190
+ 1.2414529914529915,
191
+ 0.9348290598290598,
192
+ 1.1522435897435896,
193
+ 0.6760149572649573,
194
+ 0.7208867521367521,
195
+ 1.126068376068376,
196
+ 1.0235042735042734,
197
+ 0.9121260683760684,
198
+ 1.201655982905983,
199
+ 1.3752670940170941,
200
+ 0.9957264957264957,
201
+ 1.0026709401709402,
202
+ 1.0940170940170941,
203
+ 0.9099893162393162,
204
+ 0.9174679487179487,
205
+ 0.8199786324786325,
206
+ 0.6431623931623932
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.0033801424584055805,
211
+ 0.003630901714407705,
212
+ 0.0038165855123231916,
213
+ 0.0035202413292625013,
214
+ 0.0035379244659833075
215
+ ],
216
+ "model_info_gains": [
217
+ -0.10103101262341238,
218
+ -0.44363666662758944,
219
+ -0.2275962250096078,
220
+ -0.06779169682749006,
221
+ -0.10152091217003516
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.001780089959376997,
225
+ 0.00025075925600212475,
226
+ 0.00018568379791548641,
227
+ -0.00029634418306069023,
228
+ 1.7683136720806148e-05
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.4983974358974359,
232
+ 0.9118589743589743,
233
+ 0.9567307692307693,
234
+ 0.9663461538461539,
235
+ 0.9647435897435898
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.4951923076923077,
239
+ 0.9262820512820513,
240
+ 0.9503205128205128,
241
+ 0.9583333333333334,
242
+ 0.967948717948718
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.0741686577509684,
247
+ 1.0513279621909053,
248
+ 1.0416164743039567,
249
+ 1.0322318677376976,
250
+ 1.0309359099113542
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.4932371794871794,
255
+ 0.5031089743589743,
256
+ 0.5101121794871796,
257
+ 0.5125000000000004,
258
+ 0.5140705128205129
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.8808760683760684,
262
+ 1.3039529914529915,
263
+ 1.1872329059829059,
264
+ 1.0280448717948718,
265
+ 1.0104166666666667,
266
+ 1.1295405982905984,
267
+ 1.281784188034188,
268
+ 0.9166666666666666,
269
+ 1.2406517094017093,
270
+ 1.235042735042735,
271
+ 0.969284188034188,
272
+ 1.1132478632478633,
273
+ 1.1378205128205128,
274
+ 0.8880876068376068,
275
+ 0.9855769230769231,
276
+ 1.2053952991452992,
277
+ 0.9158653846153846,
278
+ 0.9375,
279
+ 0.7403846153846154,
280
+ 0.6928418803418803,
281
+ 1.1997863247863247,
282
+ 1.0336538461538463,
283
+ 0.7048611111111112,
284
+ 0.9225427350427351,
285
+ 1.1826923076923077,
286
+ 0.9914529914529915,
287
+ 0.9545940170940171,
288
+ 1.2502670940170941,
289
+ 0.7099358974358975,
290
+ 0.9834401709401709,
291
+ 1.0555555555555556,
292
+ 0.9612713675213675,
293
+ 0.9770299145299145,
294
+ 1.0347222222222223,
295
+ 0.9155982905982906,
296
+ 0.8036858974358975,
297
+ 0.5670405982905983,
298
+ 0.7801816239316239,
299
+ 1.2102029914529915,
300
+ 0.9874465811965812,
301
+ 1.0852029914529915,
302
+ 0.9244123931623932,
303
+ 0.7345085470085471,
304
+ 0.9201388888888888,
305
+ 0.9137286324786325,
306
+ 0.6466346153846154,
307
+ 0.7110042735042735,
308
+ 1.3173076923076923,
309
+ 1.3651175213675213,
310
+ 1.029647435897436,
311
+ 0.875,
312
+ 1.1957799145299146,
313
+ 1.1618589743589745,
314
+ 1.1824252136752136,
315
+ 0.6073717948717948,
316
+ 1.2705662393162394,
317
+ 0.6765491452991453,
318
+ 0.8277243589743589,
319
+ 0.8790064102564102,
320
+ 1.0974893162393162,
321
+ 0.9802350427350427,
322
+ 1.0924145299145298,
323
+ 1.0964209401709402,
324
+ 1.0400641025641026,
325
+ 1.3202457264957266,
326
+ 1.0074786324786325,
327
+ 1.0739850427350428,
328
+ 0.49278846153846156,
329
+ 1.0568910256410255,
330
+ 1.1736111111111112,
331
+ 0.7120726495726496,
332
+ 1.1220619658119657,
333
+ 1.094818376068376,
334
+ 0.905715811965812,
335
+ 1.1853632478632479,
336
+ 1.0592948717948718,
337
+ 1.0769230769230769,
338
+ 1.2849893162393162,
339
+ 0.9139957264957265,
340
+ 1.1423611111111112,
341
+ 1.048344017094017,
342
+ 0.7943376068376068,
343
+ 1.2748397435897436,
344
+ 1.2409188034188035,
345
+ 0.8792735042735043,
346
+ 1.1124465811965811,
347
+ 0.6810897435897436,
348
+ 0.7847222222222222,
349
+ 1.1156517094017093,
350
+ 0.8776709401709402,
351
+ 0.6834935897435898,
352
+ 1.235844017094017,
353
+ 1.3611111111111112,
354
+ 0.9821047008547008,
355
+ 0.9655448717948718,
356
+ 1.0299145299145298,
357
+ 0.9284188034188035,
358
+ 0.9698183760683761,
359
+ 0.8514957264957265,
360
+ 0.6279380341880342
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.5096153846153846,
364
+ 0.8862179487179487,
365
+ 0.9375,
366
+ 0.969551282051282,
367
+ 0.9711538461538461
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.2207956383946548,
372
+ 1.1863634375487317,
373
+ 1.177472282284918,
374
+ 1.1753979430360915,
375
+ 1.1657526768202007
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.42116987179487253,
380
+ 0.4382692307692311,
381
+ 0.44387820512820564,
382
+ 0.4456570512820514,
383
+ 0.4488141025641031
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.36030982905982906,
387
+ 0.9049145299145299,
388
+ 1.8667200854700854,
389
+ 1.080662393162393,
390
+ 1.044871794871795,
391
+ 1.7564102564102564,
392
+ 1.467147435897436,
393
+ 0.9214743589743589,
394
+ 1.298344017094017,
395
+ 1.1129807692307692,
396
+ 0.1391559829059829,
397
+ 1.810897435897436,
398
+ 1.2545405982905984,
399
+ 0.22756410256410256,
400
+ 0.5082799145299145,
401
+ 1.1680021367521367,
402
+ 1.2019230769230769,
403
+ 0.9639423076923077,
404
+ 0.2780448717948718,
405
+ 0.24358974358974358,
406
+ 1.438568376068376,
407
+ 1.079059829059829,
408
+ 0.15571581196581197,
409
+ 0.30288461538461536,
410
+ 0.7841880341880342,
411
+ 1.3376068376068375,
412
+ 0.4185363247863248,
413
+ 1.1258012820512822,
414
+ 1.0400641025641026,
415
+ 0.2387820512820513,
416
+ 0.9444444444444444,
417
+ 0.11351495726495726,
418
+ 1.6875,
419
+ 0.22302350427350429,
420
+ 1.061431623931624,
421
+ 0.22302350427350429,
422
+ 0.11084401709401709,
423
+ 0.32077991452991456,
424
+ 0.8143696581196581,
425
+ 1.1388888888888888,
426
+ 1.3635149572649572,
427
+ 0.3250534188034188,
428
+ 0.24893162393162394,
429
+ 0.15571581196581197,
430
+ 0.28739316239316237,
431
+ 0.21314102564102563,
432
+ 0.9292200854700855,
433
+ 1.0261752136752136,
434
+ 1.7094017094017093,
435
+ 1.123397435897436,
436
+ 0.09615384615384616,
437
+ 0.750534188034188,
438
+ 1.811431623931624,
439
+ 1.0841346153846154,
440
+ 0.45539529914529914,
441
+ 1.578792735042735,
442
+ 0.06997863247863248,
443
+ 0.9019764957264957,
444
+ 0.6028311965811965,
445
+ 1.0077457264957266,
446
+ 0.5504807692307693,
447
+ 0.5413995726495726,
448
+ 1.1639957264957266,
449
+ 0.9139957264957265,
450
+ 1.0050747863247864,
451
+ 0.8087606837606838,
452
+ 0.8533653846153846,
453
+ 0.8386752136752137,
454
+ 1.5285790598290598,
455
+ 1.6063034188034189,
456
+ 0.2390491452991453,
457
+ 1.4169337606837606,
458
+ 1.8338675213675213,
459
+ 0.9401709401709402,
460
+ 1.7884615384615385,
461
+ 1.4543269230769231,
462
+ 1.3998397435897436,
463
+ 1.594818376068376,
464
+ 0.8691239316239316,
465
+ 0.9837072649572649,
466
+ 1.6527777777777777,
467
+ 0.3993055555555556,
468
+ 1.7622863247863247,
469
+ 0.9537927350427351,
470
+ 1.0069444444444444,
471
+ 1.608440170940171,
472
+ 0.2604166666666667,
473
+ 0.9463141025641025,
474
+ 1.6832264957264957,
475
+ 0.7825854700854701,
476
+ 0.906784188034188,
477
+ 1.5691773504273505,
478
+ 1.9447115384615385,
479
+ 0.4890491452991453,
480
+ 0.3530982905982906,
481
+ 1.1923076923076923,
482
+ 0.9457799145299145,
483
+ 1.6290064102564104,
484
+ 0.7954059829059829,
485
+ 0.171741452991453
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.003243782877657162,
490
+ 0.00368008805487126,
491
+ 0.003957483840465032,
492
+ 0.0041270115504065145,
493
+ 0.004254848972600018
494
+ ],
495
+ "infer_info_gains": [
496
+ 0.7612321090766456,
497
+ 0.13345376268072284,
498
+ 0.071906107233214,
499
+ 0.04450809828077134,
500
+ 0.03197228617352304
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0016437303786285785,
504
+ 0.00043630517721409816,
505
+ 0.0002773957855937717,
506
+ 0.0001695277099414829,
507
+ 0.00012783742219350339
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.4983974358974359,
511
+ 1.0,
512
+ 1.0,
513
+ 1.0,
514
+ 1.0
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 1.0586625709193653,
519
+ 1.0353026796182656,
520
+ 1.020848286582152,
521
+ 1.0155832185229112,
522
+ 1.0130428388081538
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5010416666666664,
527
+ 0.5131730769230768,
528
+ 0.5203846153846151,
529
+ 0.5213621794871793,
530
+ 0.5224038461538459
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.7863247863247863,
534
+ 0.9375,
535
+ 1.6663995726495726,
536
+ 1.1132478632478633,
537
+ 1.0133547008547008,
538
+ 1.5259081196581197,
539
+ 1.2711004273504274,
540
+ 0.8050213675213675,
541
+ 1.2809829059829059,
542
+ 1.3245192307692308,
543
+ 0.6455662393162394,
544
+ 1.4639423076923077,
545
+ 1.219818376068376,
546
+ 0.5056089743589743,
547
+ 0.8723290598290598,
548
+ 1.235042735042735,
549
+ 1.0990918803418803,
550
+ 1.1167200854700854,
551
+ 0.44738247863247865,
552
+ 0.5165598290598291,
553
+ 1.2473290598290598,
554
+ 0.9821047008547008,
555
+ 0.35844017094017094,
556
+ 0.6092414529914529,
557
+ 0.7932692307692307,
558
+ 1.1463675213675213,
559
+ 0.7620192307692307,
560
+ 1.2224893162393162,
561
+ 0.9198717948717948,
562
+ 0.5576923076923077,
563
+ 1.1474358974358974,
564
+ 0.44898504273504275,
565
+ 1.4043803418803418,
566
+ 0.6143162393162394,
567
+ 0.9353632478632479,
568
+ 0.5990918803418803,
569
+ 0.6129807692307693,
570
+ 0.5128205128205128,
571
+ 0.8092948717948718,
572
+ 1.0985576923076923,
573
+ 1.1642628205128205,
574
+ 0.4962606837606838,
575
+ 0.46821581196581197,
576
+ 0.6266025641025641,
577
+ 0.46634615384615385,
578
+ 0.5101495726495726,
579
+ 1.0325854700854702,
580
+ 0.9821047008547008,
581
+ 1.486912393162393,
582
+ 1.0109508547008548,
583
+ 0.4500534188034188,
584
+ 0.8087606837606838,
585
+ 1.592147435897436,
586
+ 1.155715811965812,
587
+ 0.5876068376068376,
588
+ 1.203525641025641,
589
+ 0.3998397435897436,
590
+ 0.8912927350427351,
591
+ 0.7299679487179487,
592
+ 1.0259081196581197,
593
+ 0.65625,
594
+ 1.1076388888888888,
595
+ 1.2072649572649572,
596
+ 0.9519230769230769,
597
+ 1.0192307692307692,
598
+ 0.843215811965812,
599
+ 0.9294871794871795,
600
+ 0.6594551282051282,
601
+ 1.5096153846153846,
602
+ 1.453525641025641,
603
+ 0.6124465811965812,
604
+ 1.174412393162393,
605
+ 1.5064102564102564,
606
+ 0.9316239316239316,
607
+ 1.4901175213675213,
608
+ 1.232371794871795,
609
+ 1.1682692307692308,
610
+ 1.3557692307692308,
611
+ 0.8579059829059829,
612
+ 0.8995726495726496,
613
+ 1.3015491452991452,
614
+ 0.49412393162393164,
615
+ 1.4973290598290598,
616
+ 0.9724893162393162,
617
+ 1.1332799145299146,
618
+ 1.1850961538461537,
619
+ 0.46768162393162394,
620
+ 1.0144230769230769,
621
+ 1.358440170940171,
622
+ 0.6885683760683761,
623
+ 0.6912393162393162,
624
+ 1.3979700854700854,
625
+ 1.6509081196581197,
626
+ 0.6316773504273504,
627
+ 0.6231303418803419,
628
+ 1.1063034188034189,
629
+ 1.0299145299145298,
630
+ 1.3838141025641026,
631
+ 0.6856303418803419,
632
+ 0.37606837606837606
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.4860784428777483,
637
+ 1.9611116287155386,
638
+ 2.161708642369367,
639
+ 2.2453335038931725,
640
+ 2.261130443289179
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.5007051282051288,
645
+ 0.5092948717948717,
646
+ 0.5154487179487185,
647
+ 0.5208173076923077,
648
+ 0.5242788461538458
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1463675213675213,
652
+ 1.231837606837607,
653
+ 1.469284188034188,
654
+ 1.3149038461538463,
655
+ 1.1036324786324787,
656
+ 0.7972756410256411,
657
+ 0.813034188034188,
658
+ 0.8068910256410257,
659
+ 1.1327457264957266,
660
+ 1.5539529914529915,
661
+ 1.3514957264957266,
662
+ 0.8888888888888888,
663
+ 1.3330662393162394,
664
+ 0.8958333333333334,
665
+ 1.3771367521367521,
666
+ 1.4783653846153846,
667
+ 1.1517094017094016,
668
+ 1.0974893162393162,
669
+ 0.813034188034188,
670
+ 1.032852564102564,
671
+ 0.7545405982905983,
672
+ 1.1623931623931625,
673
+ 0.8766025641025641,
674
+ 1.3039529914529915,
675
+ 1.0331196581196582,
676
+ 0.9452457264957265,
677
+ 1.0539529914529915,
678
+ 1.4308226495726495,
679
+ 0.7668269230769231,
680
+ 1.2919337606837606,
681
+ 1.3322649572649572,
682
+ 1.2836538461538463,
683
+ 0.4877136752136752,
684
+ 1.3944978632478633,
685
+ 0.8886217948717948,
686
+ 0.9577991452991453,
687
+ 0.8023504273504274,
688
+ 0.8547008547008547,
689
+ 1.1290064102564104,
690
+ 0.7729700854700855,
691
+ 1.2740384615384615,
692
+ 1.267628205128205,
693
+ 0.7983440170940171,
694
+ 1.1535790598290598,
695
+ 1.1153846153846154,
696
+ 0.6063034188034188,
697
+ 0.8688568376068376,
698
+ 1.3175747863247864,
699
+ 1.171207264957265,
700
+ 1.0040064102564104,
701
+ 1.1760149572649572,
702
+ 0.8547008547008547,
703
+ 1.2542735042735043,
704
+ 1.2996794871794872,
705
+ 1.0849358974358974,
706
+ 1.2849893162393162,
707
+ 0.8565705128205128,
708
+ 0.8154380341880342,
709
+ 1.2644230769230769,
710
+ 1.0836004273504274,
711
+ 1.0985576923076923,
712
+ 0.7612179487179487,
713
+ 1.2267628205128205,
714
+ 0.6842948717948718,
715
+ 1.3354700854700854,
716
+ 0.9508547008547008,
717
+ 1.063568376068376,
718
+ 0.49225427350427353,
719
+ 0.8904914529914529,
720
+ 1.2315705128205128,
721
+ 1.0224358974358974,
722
+ 0.7548076923076923,
723
+ 1.2243589743589745,
724
+ 0.8221153846153846,
725
+ 1.327457264957265,
726
+ 0.7751068376068376,
727
+ 0.7470619658119658,
728
+ 1.0341880341880343,
729
+ 0.937767094017094,
730
+ 1.1778846153846154,
731
+ 1.1356837606837606,
732
+ 0.7876602564102564,
733
+ 1.047809829059829,
734
+ 1.0325854700854702,
735
+ 1.173878205128205,
736
+ 1.0654380341880343,
737
+ 0.6514423076923077,
738
+ 0.8579059829059829,
739
+ 1.0202991452991452,
740
+ 1.157852564102564,
741
+ 0.5518162393162394,
742
+ 1.1338141025641026,
743
+ 1.374465811965812,
744
+ 1.1875,
745
+ 1.3133012820512822,
746
+ 0.7123397435897436,
747
+ 1.0411324786324787,
748
+ 0.47088675213675213,
749
+ 0.4778311965811966,
750
+ 0.7211538461538461
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7148076923076927,
755
+ 0.740993589743589,
756
+ 0.7489583333333334,
757
+ 0.7529647435897439,
758
+ 0.7568269230769236
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6593108974358973,
763
+ 0.6859775641025635,
764
+ 0.6983974358974359,
765
+ 0.7019391025641024,
766
+ 0.7012500000000005
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_19_seed2/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_19_seed2/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_19_seed2.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.7291666666666666,
64
+ 0.8365384615384616,
65
+ 0.8653846153846154,
66
+ 0.875,
67
+ 0.8733974358974359
68
+ ],
69
+ "model_accs": [
70
+ 0.7291666666666666,
71
+ 0.8365384615384616,
72
+ 0.8653846153846154,
73
+ 0.875,
74
+ 0.8733974358974359
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.421474358974359,
78
+ 0.7788461538461539,
79
+ 0.8509615384615384,
80
+ 0.8637820512820513,
81
+ 0.8766025641025641
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3814102564102564,
85
+ 0.8108974358974359,
86
+ 0.8509615384615384,
87
+ 0.8685897435897436,
88
+ 0.8605769230769231
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.083715281731148,
93
+ 0.9836720244546802,
94
+ 0.9465607970247223,
95
+ 0.9047283926970445,
96
+ 0.8550439327302658
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.49366987179487226,
101
+ 0.544455128205128,
102
+ 0.5627884615384614,
103
+ 0.5815064102564097,
104
+ 0.6043589743589741
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7086004273504274,
108
+ 1.1856303418803418,
109
+ 1.2951388888888888,
110
+ 1.0702457264957266,
111
+ 0.9799679487179487,
112
+ 1.1279380341880343,
113
+ 1.1519764957264957,
114
+ 0.9393696581196581,
115
+ 1.1183226495726495,
116
+ 1.140758547008547,
117
+ 0.7793803418803419,
118
+ 1.0678418803418803,
119
+ 1.1789529914529915,
120
+ 0.7879273504273504,
121
+ 1.0069444444444444,
122
+ 1.1581196581196582,
123
+ 0.9294871794871795,
124
+ 0.9308226495726496,
125
+ 0.6770833333333334,
126
+ 0.6396901709401709,
127
+ 1.092681623931624,
128
+ 0.9676816239316239,
129
+ 0.6594551282051282,
130
+ 0.8806089743589743,
131
+ 1.110042735042735,
132
+ 1.061431623931624,
133
+ 0.9244123931623932,
134
+ 1.1917735042735043,
135
+ 0.7748397435897436,
136
+ 0.9177350427350427,
137
+ 1.110844017094017,
138
+ 0.9973290598290598,
139
+ 0.9575320512820513,
140
+ 0.8800747863247863,
141
+ 0.9676816239316239,
142
+ 0.7681623931623932,
143
+ 0.5261752136752137,
144
+ 0.813034188034188,
145
+ 1.0737179487179487,
146
+ 0.9909188034188035,
147
+ 1.1335470085470085,
148
+ 0.9516559829059829,
149
+ 0.6856303418803419,
150
+ 0.8394764957264957,
151
+ 0.844017094017094,
152
+ 0.6578525641025641,
153
+ 0.7879273504273504,
154
+ 1.3100961538461537,
155
+ 1.4599358974358974,
156
+ 1.1044337606837606,
157
+ 0.8456196581196581,
158
+ 1.1306089743589745,
159
+ 1.2467948717948718,
160
+ 1.25,
161
+ 0.6618589743589743,
162
+ 1.2748397435897436,
163
+ 0.6306089743589743,
164
+ 0.7572115384615384,
165
+ 0.9364316239316239,
166
+ 1.0347222222222223,
167
+ 0.9676816239316239,
168
+ 0.7398504273504274,
169
+ 1.0405982905982907,
170
+ 0.9599358974358975,
171
+ 1.327724358974359,
172
+ 1.0542200854700854,
173
+ 1.0539529914529915,
174
+ 0.6848290598290598,
175
+ 1.1252670940170941,
176
+ 1.1274038461538463,
177
+ 0.7692307692307693,
178
+ 1.0104166666666667,
179
+ 1.235042735042735,
180
+ 0.9134615384615384,
181
+ 1.1955128205128205,
182
+ 1.0857371794871795,
183
+ 1.060897435897436,
184
+ 1.1802884615384615,
185
+ 1.0702457264957266,
186
+ 1.1639957264957266,
187
+ 1.047542735042735,
188
+ 0.7892628205128205,
189
+ 1.2230235042735043,
190
+ 1.1995192307692308,
191
+ 1.0197649572649572,
192
+ 1.1682692307692308,
193
+ 0.7102029914529915,
194
+ 0.7719017094017094,
195
+ 1.1754807692307692,
196
+ 1.0339209401709402,
197
+ 0.8835470085470085,
198
+ 1.1418269230769231,
199
+ 1.3688568376068375,
200
+ 0.9348290598290598,
201
+ 0.96875,
202
+ 1.0990918803418803,
203
+ 0.9115918803418803,
204
+ 0.9556623931623932,
205
+ 0.8031517094017094,
206
+ 0.625
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.00288181327040964,
211
+ 0.0042670421775265295,
212
+ 0.004002978999201864,
213
+ 0.005162124971595388,
214
+ 0.00614114460372925
215
+ ],
216
+ "model_info_gains": [
217
+ 0.0503393787093703,
218
+ -0.009340652478045306,
219
+ -0.09062685473345419,
220
+ 0.13400206892491992,
221
+ 0.10306053809316655
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0012817607713810565,
225
+ 0.0013852289071168893,
226
+ -0.00026406317832466513,
227
+ 0.0011591459723935243,
228
+ 0.0009790196321338622
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.40865384615384615,
232
+ 0.8317307692307693,
233
+ 0.8814102564102564,
234
+ 0.9150641025641025,
235
+ 0.9230769230769231
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.3782051282051282,
239
+ 0.8701923076923077,
240
+ 0.8942307692307693,
241
+ 0.8974358974358975,
242
+ 0.8974358974358975
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.0458749504649583,
247
+ 0.9538449431931705,
248
+ 0.9162152067466623,
249
+ 0.8720890337048248,
250
+ 0.8230982219353211
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.5107371794871802,
255
+ 0.5592147435897438,
256
+ 0.5780448717948716,
257
+ 0.5984775641025639,
258
+ 0.6200641025641019
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9260149572649573,
262
+ 1.2379807692307692,
263
+ 1.2524038461538463,
264
+ 1.0523504273504274,
265
+ 0.9909188034188035,
266
+ 1.0710470085470085,
267
+ 1.2246260683760684,
268
+ 0.875,
269
+ 1.2243589743589745,
270
+ 1.2534722222222223,
271
+ 0.8608440170940171,
272
+ 1.109775641025641,
273
+ 1.154647435897436,
274
+ 0.8322649572649573,
275
+ 1.0168269230769231,
276
+ 1.1971153846153846,
277
+ 0.9612713675213675,
278
+ 0.906517094017094,
279
+ 0.6575854700854701,
280
+ 0.6594551282051282,
281
+ 1.1439636752136753,
282
+ 1.0336538461538463,
283
+ 0.6271367521367521,
284
+ 0.8848824786324786,
285
+ 1.1290064102564104,
286
+ 1.016559829059829,
287
+ 0.9297542735042735,
288
+ 1.201655982905983,
289
+ 0.7513354700854701,
290
+ 0.9375,
291
+ 1.0916132478632479,
292
+ 0.9727564102564102,
293
+ 0.9951923076923077,
294
+ 0.9626068376068376,
295
+ 0.9292200854700855,
296
+ 0.8522970085470085,
297
+ 0.6225961538461539,
298
+ 0.7831196581196581,
299
+ 1.1295405982905984,
300
+ 0.969284188034188,
301
+ 1.0945512820512822,
302
+ 0.9431089743589743,
303
+ 0.7246260683760684,
304
+ 0.9115918803418803,
305
+ 0.8717948717948718,
306
+ 0.6893696581196581,
307
+ 0.7727029914529915,
308
+ 1.3066239316239316,
309
+ 1.4188034188034189,
310
+ 1.0793269230769231,
311
+ 0.874732905982906,
312
+ 1.139155982905983,
313
+ 1.1971153846153846,
314
+ 1.204059829059829,
315
+ 0.6482371794871795,
316
+ 1.2612179487179487,
317
+ 0.6845619658119658,
318
+ 0.7395833333333334,
319
+ 0.8629807692307693,
320
+ 1.030181623931624,
321
+ 0.9431089743589743,
322
+ 1.1193910256410255,
323
+ 1.0844017094017093,
324
+ 1.0037393162393162,
325
+ 1.2753739316239316,
326
+ 0.9433760683760684,
327
+ 1.0486111111111112,
328
+ 0.5136217948717948,
329
+ 1.094818376068376,
330
+ 1.1672008547008548,
331
+ 0.7398504273504274,
332
+ 1.0568910256410255,
333
+ 1.2267628205128205,
334
+ 0.9078525641025641,
335
+ 1.1677350427350428,
336
+ 1.0665064102564104,
337
+ 1.1004273504273505,
338
+ 1.2361111111111112,
339
+ 0.8912927350427351,
340
+ 1.1613247863247864,
341
+ 1.1060363247863247,
342
+ 0.7895299145299145,
343
+ 1.2446581196581197,
344
+ 1.203258547008547,
345
+ 0.9813034188034188,
346
+ 1.1161858974358974,
347
+ 0.7107371794871795,
348
+ 0.7785790598290598,
349
+ 1.1696047008547008,
350
+ 0.9599358974358975,
351
+ 0.6642628205128205,
352
+ 1.1866987179487178,
353
+ 1.3557692307692308,
354
+ 0.9209401709401709,
355
+ 0.9431089743589743,
356
+ 1.014155982905983,
357
+ 0.937767094017094,
358
+ 1.0024038461538463,
359
+ 0.8851495726495726,
360
+ 0.6129807692307693
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.4198717948717949,
364
+ 0.6073717948717948,
365
+ 0.7211538461538461,
366
+ 0.8092948717948718,
367
+ 0.8541666666666666
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.1593058959578144,
372
+ 1.0470372240975332,
373
+ 0.9850300585418577,
374
+ 0.939190325334155,
375
+ 0.89206678197499
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.4611698717948718,
380
+ 0.5198076923076927,
381
+ 0.5495192307692308,
382
+ 0.5719391025641029,
383
+ 0.5938942307692308
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.3955662393162393,
387
+ 0.9524572649572649,
388
+ 1.6316773504273505,
389
+ 1.0803952991452992,
390
+ 0.8651175213675214,
391
+ 1.4332264957264957,
392
+ 1.3645833333333333,
393
+ 0.8544337606837606,
394
+ 1.2518696581196582,
395
+ 1.1647970085470085,
396
+ 0.40678418803418803,
397
+ 1.6140491452991452,
398
+ 1.2208867521367521,
399
+ 0.28952991452991456,
400
+ 0.7355769230769231,
401
+ 1.2457264957264957,
402
+ 1.3052884615384615,
403
+ 0.9193376068376068,
404
+ 0.4623397435897436,
405
+ 0.5427350427350427,
406
+ 1.422008547008547,
407
+ 1.0750534188034189,
408
+ 0.3803418803418803,
409
+ 0.5592948717948718,
410
+ 0.9388354700854701,
411
+ 1.25,
412
+ 0.7788461538461539,
413
+ 1.2881944444444444,
414
+ 0.9316239316239316,
415
+ 0.5114850427350427,
416
+ 0.9890491452991453,
417
+ 0.4481837606837607,
418
+ 1.5405982905982907,
419
+ 0.5742521367521367,
420
+ 1.0694444444444444,
421
+ 0.3888888888888889,
422
+ 0.20379273504273504,
423
+ 0.46020299145299143,
424
+ 0.8384081196581197,
425
+ 1.0536858974358974,
426
+ 1.4126602564102564,
427
+ 0.594017094017094,
428
+ 0.5833333333333334,
429
+ 0.38274572649572647,
430
+ 0.43856837606837606,
431
+ 0.33226495726495725,
432
+ 0.9417735042735043,
433
+ 1.2013888888888888,
434
+ 1.5587606837606838,
435
+ 1.2799145299145298,
436
+ 0.297275641025641,
437
+ 0.8389423076923077,
438
+ 1.6883012820512822,
439
+ 1.0857371794871795,
440
+ 0.5114850427350427,
441
+ 1.5235042735042734,
442
+ 0.26976495726495725,
443
+ 0.7609508547008547,
444
+ 0.6455662393162394,
445
+ 0.9342948717948718,
446
+ 0.6495726495726496,
447
+ 0.5024038461538461,
448
+ 1.1845619658119657,
449
+ 0.8867521367521367,
450
+ 0.9759615384615384,
451
+ 0.9228098290598291,
452
+ 0.842948717948718,
453
+ 0.6864316239316239,
454
+ 1.3784722222222223,
455
+ 1.4660790598290598,
456
+ 0.4305555555555556,
457
+ 1.2767094017094016,
458
+ 1.5515491452991452,
459
+ 0.7940705128205128,
460
+ 1.5216346153846154,
461
+ 1.4484508547008548,
462
+ 1.2267628205128205,
463
+ 1.392094017094017,
464
+ 1.077991452991453,
465
+ 1.138087606837607,
466
+ 1.2892628205128205,
467
+ 0.688301282051282,
468
+ 1.5678418803418803,
469
+ 0.9481837606837606,
470
+ 1.0320512820512822,
471
+ 1.4588675213675213,
472
+ 0.4724893162393162,
473
+ 0.8002136752136753,
474
+ 1.439102564102564,
475
+ 0.844284188034188,
476
+ 1.0042735042735043,
477
+ 1.265758547008547,
478
+ 1.781784188034188,
479
+ 0.6850961538461539,
480
+ 0.5635683760683761,
481
+ 1.2307692307692308,
482
+ 0.9361645299145299,
483
+ 1.3231837606837606,
484
+ 0.8202457264957265,
485
+ 0.2518696581196581
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.004001918006451888,
490
+ 0.006383970897629227,
491
+ 0.008800339867968012,
492
+ 0.01110061723201374,
493
+ 0.013095963992350917
494
+ ],
495
+ "infer_info_gains": [
496
+ 0.9573307045430369,
497
+ 0.5008580546955184,
498
+ 0.3323200289022141,
499
+ 0.23609792172984803,
500
+ 0.1723961393554007
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0024018655074233043,
504
+ 0.002382052891177339,
505
+ 0.002416368970338786,
506
+ 0.0023002773640457283,
507
+ 0.0019953467603371767
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.40865384615384615,
511
+ 0.9423076923076923,
512
+ 0.9951923076923077,
513
+ 0.9983974358974359,
514
+ 1.0
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.9789998306667209,
519
+ 0.8709282117385632,
520
+ 0.8134452134420805,
521
+ 0.7782550232618777,
522
+ 0.7489888666258897
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5506730769230764,
527
+ 0.6017147435897432,
528
+ 0.6277724358974357,
529
+ 0.6431250000000001,
530
+ 0.655929487179488
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.8167735042735043,
534
+ 1.0713141025641026,
535
+ 1.5053418803418803,
536
+ 1.0675747863247864,
537
+ 0.8806089743589743,
538
+ 1.2206196581196582,
539
+ 1.1821581196581197,
540
+ 0.719017094017094,
541
+ 1.2628205128205128,
542
+ 1.294871794871795,
543
+ 0.6594551282051282,
544
+ 1.3349358974358974,
545
+ 1.1939102564102564,
546
+ 0.6022970085470085,
547
+ 1.0211004273504274,
548
+ 1.2158119658119657,
549
+ 1.138621794871795,
550
+ 0.9281517094017094,
551
+ 0.49252136752136755,
552
+ 0.6129807692307693,
553
+ 1.1525106837606838,
554
+ 0.9727564102564102,
555
+ 0.4703525641025641,
556
+ 0.7465277777777778,
557
+ 0.9313568376068376,
558
+ 1.0924145299145298,
559
+ 0.8183760683760684,
560
+ 1.231837606837607,
561
+ 0.8883547008547008,
562
+ 0.6599893162393162,
563
+ 1.1538461538461537,
564
+ 0.7326388888888888,
565
+ 1.2673611111111112,
566
+ 0.7516025641025641,
567
+ 0.9628739316239316,
568
+ 0.8287927350427351,
569
+ 0.6677350427350427,
570
+ 0.6068376068376068,
571
+ 0.8693910256410257,
572
+ 1.0082799145299146,
573
+ 1.2195512820512822,
574
+ 0.6284722222222222,
575
+ 0.6477029914529915,
576
+ 0.8167735042735043,
577
+ 0.5809294871794872,
578
+ 0.5886752136752137,
579
+ 0.9903846153846154,
580
+ 1.1621260683760684,
581
+ 1.4997329059829059,
582
+ 1.1965811965811965,
583
+ 0.5841346153846154,
584
+ 0.9719551282051282,
585
+ 1.4679487179487178,
586
+ 1.1452991452991452,
587
+ 0.6543803418803419,
588
+ 1.2099358974358974,
589
+ 0.49919871794871795,
590
+ 0.7596153846153846,
591
+ 0.781517094017094,
592
+ 0.9305555555555556,
593
+ 0.7481303418803419,
594
+ 1.1220619658119657,
595
+ 1.138621794871795,
596
+ 0.9220085470085471,
597
+ 0.9975961538461539,
598
+ 0.8255876068376068,
599
+ 0.905448717948718,
600
+ 0.6335470085470085,
601
+ 1.4035790598290598,
602
+ 1.389155982905983,
603
+ 0.6802884615384616,
604
+ 1.078258547008547,
605
+ 1.4150641025641026,
606
+ 0.9123931623931624,
607
+ 1.2799145299145298,
608
+ 1.2142094017094016,
609
+ 1.1322115384615385,
610
+ 1.279647435897436,
611
+ 0.8303952991452992,
612
+ 1.0096153846153846,
613
+ 1.2099358974358974,
614
+ 0.6375534188034188,
615
+ 1.3683226495726495,
616
+ 1.0197649572649572,
617
+ 1.1503739316239316,
618
+ 1.1599893162393162,
619
+ 0.6084401709401709,
620
+ 0.8563034188034188,
621
+ 1.3712606837606838,
622
+ 0.9073183760683761,
623
+ 0.6754807692307693,
624
+ 1.280715811965812,
625
+ 1.5616987179487178,
626
+ 0.7032585470085471,
627
+ 0.78125,
628
+ 1.1191239316239316,
629
+ 1.0413995726495726,
630
+ 1.1661324786324787,
631
+ 0.7342414529914529,
632
+ 0.5072115384615384
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.3993024171750827,
637
+ 1.837400524170518,
638
+ 2.0066837602857834,
639
+ 2.0178655405394497,
640
+ 2.036119186654501
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.5126442307692304,
645
+ 0.5515705128205131,
646
+ 0.5793749999999994,
647
+ 0.5925000000000002,
648
+ 0.606137820512821
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.106837606837607,
652
+ 1.1450320512820513,
653
+ 1.3552350427350428,
654
+ 1.310897435897436,
655
+ 1.0504807692307692,
656
+ 0.6623931623931624,
657
+ 0.7641559829059829,
658
+ 0.7462606837606838,
659
+ 1.0486111111111112,
660
+ 1.4895833333333333,
661
+ 1.2297008547008548,
662
+ 0.8790064102564102,
663
+ 1.329059829059829,
664
+ 0.8974358974358975,
665
+ 1.4001068376068375,
666
+ 1.4121260683760684,
667
+ 1.2222222222222223,
668
+ 0.9652777777777778,
669
+ 0.7286324786324786,
670
+ 0.844551282051282,
671
+ 0.7005876068376068,
672
+ 1.1364850427350428,
673
+ 0.7873931623931624,
674
+ 1.2403846153846154,
675
+ 0.9236111111111112,
676
+ 0.9025106837606838,
677
+ 1.0240384615384615,
678
+ 1.3616452991452992,
679
+ 0.7684294871794872,
680
+ 1.2134081196581197,
681
+ 1.3496260683760684,
682
+ 1.2919337606837606,
683
+ 0.4703525641025641,
684
+ 1.3165064102564104,
685
+ 0.8952991452991453,
686
+ 1.1428952991452992,
687
+ 0.8071581196581197,
688
+ 0.843215811965812,
689
+ 1.0106837606837606,
690
+ 0.7227564102564102,
691
+ 1.2711004273504274,
692
+ 1.2310363247863247,
693
+ 0.7393162393162394,
694
+ 1.1621260683760684,
695
+ 1.0499465811965811,
696
+ 0.6610576923076923,
697
+ 0.8664529914529915,
698
+ 1.3565705128205128,
699
+ 1.2946047008547008,
700
+ 1.1116452991452992,
701
+ 1.1925747863247864,
702
+ 0.842948717948718,
703
+ 1.2278311965811965,
704
+ 1.2684294871794872,
705
+ 1.142094017094017,
706
+ 1.2588141025641026,
707
+ 0.8317307692307693,
708
+ 0.7110042735042735,
709
+ 1.2689636752136753,
710
+ 0.9610042735042735,
711
+ 1.0611645299145298,
712
+ 0.7727029914529915,
713
+ 1.1840277777777777,
714
+ 0.655982905982906,
715
+ 1.2684294871794872,
716
+ 0.9289529914529915,
717
+ 1.015491452991453,
718
+ 0.5328525641025641,
719
+ 0.8464209401709402,
720
+ 1.1754807692307692,
721
+ 1.044871794871795,
722
+ 0.7134081196581197,
723
+ 1.266292735042735,
724
+ 0.8261217948717948,
725
+ 1.2043269230769231,
726
+ 0.7876602564102564,
727
+ 0.8405448717948718,
728
+ 1.0034722222222223,
729
+ 0.8616452991452992,
730
+ 1.2053952991452992,
731
+ 1.1554487179487178,
732
+ 0.7900641025641025,
733
+ 1.0256410256410255,
734
+ 1.0227029914529915,
735
+ 1.2115384615384615,
736
+ 1.0966880341880343,
737
+ 0.6754807692307693,
738
+ 0.7652243589743589,
739
+ 1.111912393162393,
740
+ 1.2606837606837606,
741
+ 0.5245726495726496,
742
+ 1.0934829059829059,
743
+ 1.330662393162393,
744
+ 1.076121794871795,
745
+ 1.3028846153846154,
746
+ 0.7048611111111112,
747
+ 1.030715811965812,
748
+ 0.5021367521367521,
749
+ 0.530715811965812,
750
+ 0.7684294871794872
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7488942307692311,
755
+ 0.7727564102564104,
756
+ 0.7781570512820503,
757
+ 0.7854647435897439,
758
+ 0.7836057692307689
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.7014102564102558,
763
+ 0.7259935897435893,
764
+ 0.7319551282051278,
765
+ 0.7387499999999998,
766
+ 0.7372435897435902
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_25_seed0/cleaned_results.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_25_seed0/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_25_seed0/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_25_seed0.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.6778846153846154,
64
+ 0.7756410256410257,
65
+ 0.8205128205128205,
66
+ 0.8413461538461539,
67
+ 0.8605769230769231
68
+ ],
69
+ "model_accs": [
70
+ 0.6778846153846154,
71
+ 0.7756410256410257,
72
+ 0.8205128205128205,
73
+ 0.8413461538461539,
74
+ 0.8605769230769231
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.40705128205128205,
78
+ 0.7147435897435898,
79
+ 0.7644230769230769,
80
+ 0.7884615384615384,
81
+ 0.8221153846153846
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3733974358974359,
85
+ 0.7596153846153846,
86
+ 0.782051282051282,
87
+ 0.7980769230769231,
88
+ 0.8349358974358975
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.0853461016900794,
93
+ 1.0017586805150902,
94
+ 0.9505566584498683,
95
+ 0.9050267683152515,
96
+ 0.8737652632630708
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.49620192307692373,
101
+ 0.5361057692307691,
102
+ 0.5616506410256411,
103
+ 0.5775801282051284,
104
+ 0.5940224358974369
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7102029914529915,
108
+ 1.1845619658119657,
109
+ 1.3028846153846154,
110
+ 1.0868055555555556,
111
+ 1.0093482905982907,
112
+ 1.1169871794871795,
113
+ 1.1241987179487178,
114
+ 0.9332264957264957,
115
+ 1.141559829059829,
116
+ 1.1672008547008548,
117
+ 0.7564102564102564,
118
+ 1.047008547008547,
119
+ 1.21875,
120
+ 0.7743055555555556,
121
+ 1.015224358974359,
122
+ 1.1565170940170941,
123
+ 0.9489850427350427,
124
+ 0.9110576923076923,
125
+ 0.6722756410256411,
126
+ 0.6394230769230769,
127
+ 1.0873397435897436,
128
+ 0.9735576923076923,
129
+ 0.6663995726495726,
130
+ 0.8664529914529915,
131
+ 1.094818376068376,
132
+ 1.0248397435897436,
133
+ 0.9409722222222222,
134
+ 1.2126068376068375,
135
+ 0.7633547008547008,
136
+ 0.9551282051282052,
137
+ 1.109241452991453,
138
+ 0.9898504273504274,
139
+ 0.9457799145299145,
140
+ 0.9177350427350427,
141
+ 0.9572649572649573,
142
+ 0.7860576923076923,
143
+ 0.49412393162393164,
144
+ 0.8362713675213675,
145
+ 1.1036324786324787,
146
+ 1.0291132478632479,
147
+ 1.1581196581196582,
148
+ 0.9561965811965812,
149
+ 0.6888354700854701,
150
+ 0.8341346153846154,
151
+ 0.8541666666666666,
152
+ 0.6426282051282052,
153
+ 0.7711004273504274,
154
+ 1.3239850427350428,
155
+ 1.4738247863247864,
156
+ 1.140224358974359,
157
+ 0.8576388888888888,
158
+ 1.1129807692307692,
159
+ 1.2617521367521367,
160
+ 1.2393162393162394,
161
+ 0.65625,
162
+ 1.2684294871794872,
163
+ 0.6308760683760684,
164
+ 0.782051282051282,
165
+ 0.968215811965812,
166
+ 1.0486111111111112,
167
+ 0.9855769230769231,
168
+ 0.7796474358974359,
169
+ 1.0520833333333333,
170
+ 0.9935897435897436,
171
+ 1.3410790598290598,
172
+ 1.0715811965811965,
173
+ 1.063034188034188,
174
+ 0.6736111111111112,
175
+ 1.1161858974358974,
176
+ 1.1143162393162394,
177
+ 0.7422542735042735,
178
+ 0.9879807692307693,
179
+ 1.2371794871794872,
180
+ 0.8904914529914529,
181
+ 1.2104700854700854,
182
+ 1.0542200854700854,
183
+ 1.0723824786324787,
184
+ 1.1848290598290598,
185
+ 1.045405982905983,
186
+ 1.15625,
187
+ 1.046207264957265,
188
+ 0.8015491452991453,
189
+ 1.2259615384615385,
190
+ 1.1941773504273505,
191
+ 0.9879807692307693,
192
+ 1.1351495726495726,
193
+ 0.7155448717948718,
194
+ 0.7839209401709402,
195
+ 1.1276709401709402,
196
+ 1.018162393162393,
197
+ 0.8621794871794872,
198
+ 1.1482371794871795,
199
+ 1.388621794871795,
200
+ 0.9732905982905983,
201
+ 0.9631410256410257,
202
+ 1.1522435897435896,
203
+ 0.8806089743589743,
204
+ 0.9284188034188035,
205
+ 0.7900641025641025,
206
+ 0.6495726495726496
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.0033278579938500305,
211
+ 0.004670575138036362,
212
+ 0.006049107761535985,
213
+ 0.007047742231324177,
214
+ 0.007102556282497119
215
+ ],
216
+ "model_info_gains": [
217
+ 0.03898160032000112,
218
+ -0.03588045910750368,
219
+ 0.13507502659753112,
220
+ 0.12465967594406419,
221
+ -0.02581279492931908
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.001727805494821447,
225
+ 0.0013427171441863313,
226
+ 0.001378532623499623,
227
+ 0.0009986344697881923,
228
+ 5.481405117294185e-05
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.40064102564102566,
232
+ 0.7612179487179487,
233
+ 0.8253205128205128,
234
+ 0.8461538461538461,
235
+ 0.875
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.375,
239
+ 0.8221153846153846,
240
+ 0.842948717948718,
241
+ 0.8653846153846154,
242
+ 0.8846153846153846
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.063204014042666,
247
+ 0.9674536097209312,
248
+ 0.910174063758459,
249
+ 0.8642988398181877,
250
+ 0.8387069008454231
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.5077083333333329,
255
+ 0.5519711538461542,
256
+ 0.5803685897435893,
257
+ 0.6000801282051282,
258
+ 0.6113141025641019
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9428418803418803,
262
+ 1.2382478632478633,
263
+ 1.263621794871795,
264
+ 1.0528846153846154,
265
+ 1.0144230769230769,
266
+ 1.0742521367521367,
267
+ 1.2013888888888888,
268
+ 0.8934294871794872,
269
+ 1.234508547008547,
270
+ 1.263621794871795,
271
+ 0.8384081196581197,
272
+ 1.078525641025641,
273
+ 1.1661324786324787,
274
+ 0.8344017094017094,
275
+ 1.0245726495726495,
276
+ 1.2008547008547008,
277
+ 0.9842414529914529,
278
+ 0.8979700854700855,
279
+ 0.6298076923076923,
280
+ 0.6685363247863247,
281
+ 1.1036324786324787,
282
+ 1.048878205128205,
283
+ 0.6412927350427351,
284
+ 0.8661858974358975,
285
+ 1.0908119658119657,
286
+ 0.9839743589743589,
287
+ 0.9254807692307693,
288
+ 1.1931089743589745,
289
+ 0.7767094017094017,
290
+ 0.9714209401709402,
291
+ 1.0929487179487178,
292
+ 0.9722222222222222,
293
+ 0.9847756410256411,
294
+ 0.9722222222222222,
295
+ 0.9305555555555556,
296
+ 0.8715277777777778,
297
+ 0.6014957264957265,
298
+ 0.7863247863247863,
299
+ 1.141292735042735,
300
+ 1.0128205128205128,
301
+ 1.0830662393162394,
302
+ 0.9353632478632479,
303
+ 0.7254273504273504,
304
+ 0.905982905982906,
305
+ 0.8830128205128205,
306
+ 0.6813568376068376,
307
+ 0.7657585470085471,
308
+ 1.2946047008547008,
309
+ 1.4383012820512822,
310
+ 1.077724358974359,
311
+ 0.8712606837606838,
312
+ 1.092681623931624,
313
+ 1.2083333333333333,
314
+ 1.201121794871795,
315
+ 0.6615918803418803,
316
+ 1.2454594017094016,
317
+ 0.6931089743589743,
318
+ 0.7702991452991453,
319
+ 0.9145299145299145,
320
+ 1.0480769230769231,
321
+ 0.9599358974358975,
322
+ 1.1690705128205128,
323
+ 1.0972222222222223,
324
+ 1.0267094017094016,
325
+ 1.2769764957264957,
326
+ 0.9500534188034188,
327
+ 1.0560897435897436,
328
+ 0.5130876068376068,
329
+ 1.0809294871794872,
330
+ 1.1471688034188035,
331
+ 0.7094017094017094,
332
+ 1.0211004273504274,
333
+ 1.2243589743589745,
334
+ 0.9257478632478633,
335
+ 1.1794871794871795,
336
+ 1.0240384615384615,
337
+ 1.0747863247863247,
338
+ 1.248931623931624,
339
+ 0.8541666666666666,
340
+ 1.1153846153846154,
341
+ 1.126068376068376,
342
+ 0.8010149572649573,
343
+ 1.2382478632478633,
344
+ 1.1947115384615385,
345
+ 0.9481837606837606,
346
+ 1.0908119658119657,
347
+ 0.7163461538461539,
348
+ 0.8076923076923077,
349
+ 1.1303418803418803,
350
+ 0.9479166666666666,
351
+ 0.6407585470085471,
352
+ 1.1875,
353
+ 1.3651175213675213,
354
+ 0.9249465811965812,
355
+ 0.9471153846153846,
356
+ 1.0625,
357
+ 0.9196047008547008,
358
+ 0.9700854700854701,
359
+ 0.8619123931623932,
360
+ 0.6372863247863247
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.40384615384615385,
364
+ 0.6073717948717948,
365
+ 0.6666666666666666,
366
+ 0.7708333333333334,
367
+ 0.8365384615384616
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.159648551124148,
372
+ 1.043266400145677,
373
+ 0.951263445491879,
374
+ 0.8997285454197603,
375
+ 0.8428733884675237
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.45897435897435884,
380
+ 0.518333333333333,
381
+ 0.5639262820512819,
382
+ 0.5873237179487184,
383
+ 0.6145352564102569
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.4420405982905983,
387
+ 0.9556623931623932,
388
+ 1.6306089743589745,
389
+ 1.1169871794871795,
390
+ 0.9025106837606838,
391
+ 1.4508547008547008,
392
+ 1.3197115384615385,
393
+ 0.8707264957264957,
394
+ 1.2184829059829059,
395
+ 1.1565170940170941,
396
+ 0.4115918803418803,
397
+ 1.6009615384615385,
398
+ 1.2422542735042734,
399
+ 0.32104700854700857,
400
+ 0.7425213675213675,
401
+ 1.2398504273504274,
402
+ 1.3015491452991452,
403
+ 0.9348290598290598,
404
+ 0.4634081196581197,
405
+ 0.5029380341880342,
406
+ 1.3691239316239316,
407
+ 1.0950854700854702,
408
+ 0.3573717948717949,
409
+ 0.5563568376068376,
410
+ 0.8998397435897436,
411
+ 1.2540064102564104,
412
+ 0.7596153846153846,
413
+ 1.2729700854700854,
414
+ 0.9241452991452992,
415
+ 0.4981303418803419,
416
+ 0.9887820512820513,
417
+ 0.44150641025641024,
418
+ 1.5261752136752136,
419
+ 0.5411324786324786,
420
+ 1.0536858974358974,
421
+ 0.40678418803418803,
422
+ 0.23370726495726496,
423
+ 0.4895833333333333,
424
+ 0.8210470085470085,
425
+ 1.0758547008547008,
426
+ 1.3950320512820513,
427
+ 0.6025641025641025,
428
+ 0.5689102564102564,
429
+ 0.39289529914529914,
430
+ 0.4634081196581197,
431
+ 0.3701923076923077,
432
+ 0.9276175213675214,
433
+ 1.1768162393162394,
434
+ 1.5579594017094016,
435
+ 1.250534188034188,
436
+ 0.31330128205128205,
437
+ 0.8282585470085471,
438
+ 1.6498397435897436,
439
+ 1.125,
440
+ 0.5600961538461539,
441
+ 1.4922542735042734,
442
+ 0.2689636752136752,
443
+ 0.780982905982906,
444
+ 0.6490384615384616,
445
+ 0.9254807692307693,
446
+ 0.71875,
447
+ 0.5763888888888888,
448
+ 1.1949786324786325,
449
+ 0.8664529914529915,
450
+ 0.9898504273504274,
451
+ 0.938034188034188,
452
+ 0.8360042735042735,
453
+ 0.6984508547008547,
454
+ 1.3218482905982907,
455
+ 1.4083867521367521,
456
+ 0.45699786324786323,
457
+ 1.2606837606837606,
458
+ 1.5734508547008548,
459
+ 0.8453525641025641,
460
+ 1.5389957264957266,
461
+ 1.3693910256410255,
462
+ 1.1826923076923077,
463
+ 1.3787393162393162,
464
+ 1.0373931623931625,
465
+ 1.108707264957265,
466
+ 1.3084935897435896,
467
+ 0.6781517094017094,
468
+ 1.549412393162393,
469
+ 0.9385683760683761,
470
+ 1.0229700854700854,
471
+ 1.4487179487179487,
472
+ 0.5072115384615384,
473
+ 0.8175747863247863,
474
+ 1.4415064102564104,
475
+ 0.8565705128205128,
476
+ 0.96875,
477
+ 1.2735042735042734,
478
+ 1.780181623931624,
479
+ 0.7208867521367521,
480
+ 0.5841346153846154,
481
+ 1.2379807692307692,
482
+ 0.9292200854700855,
483
+ 1.3338675213675213,
484
+ 0.8151709401709402,
485
+ 0.27564102564102566
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.004118538420371829,
490
+ 0.006831882939131435,
491
+ 0.00984694722033871,
492
+ 0.012855215985965538,
493
+ 0.015662717184102056
494
+ ],
495
+ "infer_info_gains": [
496
+ 0.9802047100631385,
497
+ 0.5446994138538404,
498
+ 0.389384612231674,
499
+ 0.2761803102866448,
500
+ 0.2008648030039475
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0025184859213432456,
504
+ 0.002713344518759606,
505
+ 0.003015064281207276,
506
+ 0.0030082687656268273,
507
+ 0.0028075011981365185
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.40064102564102566,
511
+ 0.9022435897435898,
512
+ 0.9903846153846154,
513
+ 0.9983974358974359,
514
+ 1.0
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.9890784901554306,
519
+ 0.8592106665470579,
520
+ 0.791047944148404,
521
+ 0.7456433471913758,
522
+ 0.7188631261697093
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5422916666666664,
527
+ 0.6043589743589748,
528
+ 0.6375961538461533,
529
+ 0.6597756410256408,
530
+ 0.6705448717948713
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.875,
534
+ 1.0507478632478633,
535
+ 1.4949252136752136,
536
+ 1.0916132478632479,
537
+ 0.9257478632478633,
538
+ 1.2502670940170941,
539
+ 1.1650641025641026,
540
+ 0.7652243589743589,
541
+ 1.2540064102564104,
542
+ 1.2849893162393162,
543
+ 0.6447649572649573,
544
+ 1.3330662393162394,
545
+ 1.2238247863247864,
546
+ 0.6156517094017094,
547
+ 0.9962606837606838,
548
+ 1.2003205128205128,
549
+ 1.1589209401709402,
550
+ 0.907051282051282,
551
+ 0.46955128205128205,
552
+ 0.562767094017094,
553
+ 1.125,
554
+ 0.9866452991452992,
555
+ 0.4358974358974359,
556
+ 0.7008547008547008,
557
+ 0.8926282051282052,
558
+ 1.080662393162393,
559
+ 0.7828525641025641,
560
+ 1.2094017094017093,
561
+ 0.8952991452991453,
562
+ 0.6522435897435898,
563
+ 1.1444978632478633,
564
+ 0.7318376068376068,
565
+ 1.2529380341880343,
566
+ 0.7422542735042735,
567
+ 0.9618055555555556,
568
+ 0.8629807692307693,
569
+ 0.6474358974358975,
570
+ 0.65625,
571
+ 0.8664529914529915,
572
+ 1.0683760683760684,
573
+ 1.1797542735042734,
574
+ 0.6199252136752137,
575
+ 0.6153846153846154,
576
+ 0.8189102564102564,
577
+ 0.5726495726495726,
578
+ 0.6076388888888888,
579
+ 1.0050747863247864,
580
+ 1.1615918803418803,
581
+ 1.5048076923076923,
582
+ 1.1816239316239316,
583
+ 0.5675747863247863,
584
+ 0.9305555555555556,
585
+ 1.4780982905982907,
586
+ 1.1594551282051282,
587
+ 0.7080662393162394,
588
+ 1.1981837606837606,
589
+ 0.48023504273504275,
590
+ 0.750267094017094,
591
+ 0.7908653846153846,
592
+ 0.9166666666666666,
593
+ 0.8074252136752137,
594
+ 1.1963141025641026,
595
+ 1.1463675213675213,
596
+ 0.9126602564102564,
597
+ 1.014957264957265,
598
+ 0.8346688034188035,
599
+ 0.9081196581196581,
600
+ 0.6503739316239316,
601
+ 1.3675213675213675,
602
+ 1.327724358974359,
603
+ 0.6864316239316239,
604
+ 1.0649038461538463,
605
+ 1.4230769230769231,
606
+ 0.9145299145299145,
607
+ 1.342147435897436,
608
+ 1.1597222222222223,
609
+ 1.0964209401709402,
610
+ 1.2793803418803418,
611
+ 0.7922008547008547,
612
+ 0.9772970085470085,
613
+ 1.2572115384615385,
614
+ 0.6431623931623932,
615
+ 1.3808760683760684,
616
+ 1.0189636752136753,
617
+ 1.1201923076923077,
618
+ 1.171207264957265,
619
+ 0.5956196581196581,
620
+ 0.8629807692307693,
621
+ 1.3501602564102564,
622
+ 0.8808760683760684,
623
+ 0.6495726495726496,
624
+ 1.2820512820512822,
625
+ 1.5723824786324787,
626
+ 0.6933760683760684,
627
+ 0.7836538461538461,
628
+ 1.1455662393162394,
629
+ 1.0251068376068375,
630
+ 1.1677350427350428,
631
+ 0.7203525641025641,
632
+ 0.5267094017094017
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.4385260392291757,
637
+ 1.868731081808458,
638
+ 2.065342381674143,
639
+ 2.1286679936291413,
640
+ 2.1813410252906538
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.507195512820513,
645
+ 0.5455128205128211,
646
+ 0.5697275641025639,
647
+ 0.5871314102564106,
648
+ 0.6006089743589742
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1623931623931625,
652
+ 1.1388888888888888,
653
+ 1.4147970085470085,
654
+ 1.3269230769230769,
655
+ 1.1030982905982907,
656
+ 0.6645299145299145,
657
+ 0.7152777777777778,
658
+ 0.7737713675213675,
659
+ 1.0547542735042734,
660
+ 1.516025641025641,
661
+ 1.1901709401709402,
662
+ 0.8584401709401709,
663
+ 1.3672542735042734,
664
+ 0.8993055555555556,
665
+ 1.3717948717948718,
666
+ 1.3787393162393162,
667
+ 1.234241452991453,
668
+ 0.9577991452991453,
669
+ 0.6853632478632479,
670
+ 0.8474893162393162,
671
+ 0.6618589743589743,
672
+ 1.1931089743589745,
673
+ 0.780715811965812,
674
+ 1.205128205128205,
675
+ 0.8864850427350427,
676
+ 0.8552350427350427,
677
+ 1.0077457264957266,
678
+ 1.3175747863247864,
679
+ 0.7972756410256411,
680
+ 1.202991452991453,
681
+ 1.3293269230769231,
682
+ 1.297008547008547,
683
+ 0.4751602564102564,
684
+ 1.2719017094017093,
685
+ 0.8731303418803419,
686
+ 1.1340811965811965,
687
+ 0.8277243589743589,
688
+ 0.8480235042735043,
689
+ 0.9893162393162394,
690
+ 0.7516025641025641,
691
+ 1.2508012820512822,
692
+ 1.2115384615384615,
693
+ 0.7107371794871795,
694
+ 1.1511752136752136,
695
+ 1.0352564102564104,
696
+ 0.6551816239316239,
697
+ 0.8528311965811965,
698
+ 1.3245192307692308,
699
+ 1.328258547008547,
700
+ 1.0910790598290598,
701
+ 1.1931089743589745,
702
+ 0.7823183760683761,
703
+ 1.264690170940171,
704
+ 1.2767094017094016,
705
+ 1.173878205128205,
706
+ 1.2075320512820513,
707
+ 0.8207799145299145,
708
+ 0.7286324786324786,
709
+ 1.3410790598290598,
710
+ 0.9706196581196581,
711
+ 1.0878739316239316,
712
+ 0.8501602564102564,
713
+ 1.1653311965811965,
714
+ 0.6541132478632479,
715
+ 1.2524038461538463,
716
+ 0.9313568376068376,
717
+ 0.9831730769230769,
718
+ 0.5333867521367521,
719
+ 0.8424145299145299,
720
+ 1.1631944444444444,
721
+ 1.045940170940171,
722
+ 0.6714743589743589,
723
+ 1.2876602564102564,
724
+ 0.8466880341880342,
725
+ 1.2566773504273505,
726
+ 0.7524038461538461,
727
+ 0.8223824786324786,
728
+ 1.0438034188034189,
729
+ 0.8189102564102564,
730
+ 1.1482371794871795,
731
+ 1.186431623931624,
732
+ 0.7916666666666666,
733
+ 1.0293803418803418,
734
+ 0.9834401709401709,
735
+ 1.2112713675213675,
736
+ 1.0982905982905984,
737
+ 0.6690705128205128,
738
+ 0.812232905982906,
739
+ 1.0910790598290598,
740
+ 1.2556089743589745,
741
+ 0.4890491452991453,
742
+ 1.1060363247863247,
743
+ 1.3480235042735043,
744
+ 1.0512820512820513,
745
+ 1.3194444444444444,
746
+ 0.7299679487179487,
747
+ 0.9933226495726496,
748
+ 0.4877136752136752,
749
+ 0.5069444444444444,
750
+ 0.7580128205128205
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7465865384615376,
755
+ 0.7665544871794867,
756
+ 0.7694871794871789,
757
+ 0.7717147435897429,
758
+ 0.778798076923076
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6962179487179486,
763
+ 0.7164102564102562,
764
+ 0.7206891025641016,
765
+ 0.7227724358974361,
766
+ 0.7334134615384622
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_29_seed0/cleaned_results.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_2_seed1/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_2_seed1/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_2_seed1.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.8573717948717948,
64
+ 0.9182692307692307,
65
+ 0.9407051282051282,
66
+ 0.9423076923076923,
67
+ 0.9535256410256411
68
+ ],
69
+ "model_accs": [
70
+ 0.8573717948717948,
71
+ 0.9182692307692307,
72
+ 0.9407051282051282,
73
+ 0.9423076923076923,
74
+ 0.9535256410256411
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.4599358974358974,
78
+ 0.9086538461538461,
79
+ 0.9551282051282052,
80
+ 0.9583333333333334,
81
+ 0.9759615384615384
82
+ ],
83
+ "model_consistencies": [
84
+ 0.4567307692307692,
85
+ 0.9182692307692307,
86
+ 0.9471153846153846,
87
+ 0.9631410256410257,
88
+ 0.9599358974358975
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.1089842505249283,
93
+ 1.0546895720929566,
94
+ 1.0217170014123984,
95
+ 1.001026128900347,
96
+ 1.0060654848271091
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.48440705128205125,
101
+ 0.5112019230769226,
102
+ 0.5275160256410264,
103
+ 0.5371153846153849,
104
+ 0.5331089743589746
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7422542735042735,
108
+ 1.1861645299145298,
109
+ 1.3138354700854702,
110
+ 1.0830662393162394,
111
+ 1.0194978632478633,
112
+ 1.1183226495726495,
113
+ 1.111912393162393,
114
+ 0.9228098290598291,
115
+ 1.1038995726495726,
116
+ 1.1450320512820513,
117
+ 0.7678952991452992,
118
+ 1.077991452991453,
119
+ 1.2019230769230769,
120
+ 0.8282585470085471,
121
+ 1.048878205128205,
122
+ 1.1375534188034189,
123
+ 0.9011752136752137,
124
+ 0.9583333333333334,
125
+ 0.6915064102564102,
126
+ 0.6335470085470085,
127
+ 1.0523504273504274,
128
+ 0.9599358974358975,
129
+ 0.6621260683760684,
130
+ 0.8766025641025641,
131
+ 1.0745192307692308,
132
+ 1.0603632478632479,
133
+ 0.9166666666666666,
134
+ 1.1583867521367521,
135
+ 0.7713675213675214,
136
+ 0.9150641025641025,
137
+ 1.1004273504273505,
138
+ 0.9810363247863247,
139
+ 0.9364316239316239,
140
+ 0.875,
141
+ 0.9917200854700855,
142
+ 0.750267094017094,
143
+ 0.5408653846153846,
144
+ 0.7983440170940171,
145
+ 1.0982905982905984,
146
+ 0.9644764957264957,
147
+ 1.1180555555555556,
148
+ 0.9842414529914529,
149
+ 0.6463675213675214,
150
+ 0.8084935897435898,
151
+ 0.8571047008547008,
152
+ 0.657051282051282,
153
+ 0.7724358974358975,
154
+ 1.297008547008547,
155
+ 1.4898504273504274,
156
+ 1.063034188034188,
157
+ 0.8448183760683761,
158
+ 1.093215811965812,
159
+ 1.2438568376068375,
160
+ 1.2542735042735043,
161
+ 0.6744123931623932,
162
+ 1.2278311965811965,
163
+ 0.6143162393162394,
164
+ 0.7871260683760684,
165
+ 0.9943910256410257,
166
+ 1.109508547008547,
167
+ 0.9588675213675214,
168
+ 0.7668269230769231,
169
+ 1.0389957264957266,
170
+ 0.9740918803418803,
171
+ 1.3429487179487178,
172
+ 1.061431623931624,
173
+ 1.048878205128205,
174
+ 0.7110042735042735,
175
+ 1.109241452991453,
176
+ 1.1434294871794872,
177
+ 0.750267094017094,
178
+ 0.9671474358974359,
179
+ 1.2596153846153846,
180
+ 0.9182692307692307,
181
+ 1.21875,
182
+ 1.0742521367521367,
183
+ 1.0854700854700854,
184
+ 1.172008547008547,
185
+ 1.014957264957265,
186
+ 1.1471688034188035,
187
+ 1.060897435897436,
188
+ 0.8028846153846154,
189
+ 1.203525641025641,
190
+ 1.232905982905983,
191
+ 1.0138888888888888,
192
+ 1.1514423076923077,
193
+ 0.6794871794871795,
194
+ 0.7935363247863247,
195
+ 1.1690705128205128,
196
+ 1.0261752136752136,
197
+ 0.8322649572649573,
198
+ 1.1618589743589745,
199
+ 1.3605769230769231,
200
+ 0.9567307692307693,
201
+ 0.9658119658119658,
202
+ 1.0723824786324787,
203
+ 0.9364316239316239,
204
+ 0.938301282051282,
205
+ 0.7660256410256411,
206
+ 0.6412927350427351
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.002899432562330162,
211
+ 0.003163518561349449,
212
+ 0.0034104676652689024,
213
+ 0.003947907363480199,
214
+ 0.003918906757233865
215
+ ],
216
+ "model_info_gains": [
217
+ -0.29783388060716964,
218
+ -0.3180377852829086,
219
+ -0.08764133495053394,
220
+ -0.04463135386968824,
221
+ -0.05661404596469076
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0012993800633015785,
225
+ 0.0002640859990192869,
226
+ 0.0002469491039194534,
227
+ 0.0005374396982112964,
228
+ -2.9000606246333584e-05
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.4599358974358974,
232
+ 0.9246794871794872,
233
+ 0.9583333333333334,
234
+ 0.9615384615384616,
235
+ 0.9759615384615384
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.46314102564102566,
239
+ 0.9342948717948718,
240
+ 0.9631410256410257,
241
+ 0.9727564102564102,
242
+ 0.9663461538461539
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.0813388639644954,
247
+ 1.0397892672592857,
248
+ 1.0049248128607255,
249
+ 0.9865549159247495,
250
+ 0.9831149917943737
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.49796474358974363,
255
+ 0.5182371794871796,
256
+ 0.5346314102564101,
257
+ 0.5443269230769227,
258
+ 0.5446634615384613
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9615384615384616,
262
+ 1.2280982905982907,
263
+ 1.2913995726495726,
264
+ 1.0347222222222223,
265
+ 1.0269764957264957,
266
+ 1.0956196581196582,
267
+ 1.1768162393162394,
268
+ 0.8659188034188035,
269
+ 1.2238247863247864,
270
+ 1.233440170940171,
271
+ 0.8255876068376068,
272
+ 1.1076388888888888,
273
+ 1.1832264957264957,
274
+ 0.8667200854700855,
275
+ 1.0683760683760684,
276
+ 1.1925747863247864,
277
+ 0.9300213675213675,
278
+ 0.9460470085470085,
279
+ 0.6506410256410257,
280
+ 0.6519764957264957,
281
+ 1.0747863247863247,
282
+ 1.0253739316239316,
283
+ 0.6161858974358975,
284
+ 0.8739316239316239,
285
+ 1.0713141025641026,
286
+ 1.0069444444444444,
287
+ 0.9102564102564102,
288
+ 1.1650641025641026,
289
+ 0.812767094017094,
290
+ 0.9286858974358975,
291
+ 1.080128205128205,
292
+ 0.9602029914529915,
293
+ 0.9703525641025641,
294
+ 0.9444444444444444,
295
+ 0.9569978632478633,
296
+ 0.8189102564102564,
297
+ 0.6431623931623932,
298
+ 0.7566773504273504,
299
+ 1.1485042735042734,
300
+ 0.9540598290598291,
301
+ 1.030715811965812,
302
+ 0.9599358974358975,
303
+ 0.6704059829059829,
304
+ 0.8736645299145299,
305
+ 0.8819444444444444,
306
+ 0.6786858974358975,
307
+ 0.7486645299145299,
308
+ 1.2751068376068375,
309
+ 1.4620726495726495,
310
+ 1.0304487179487178,
311
+ 0.8600427350427351,
312
+ 1.093215811965812,
313
+ 1.2048611111111112,
314
+ 1.2227564102564104,
315
+ 0.6760149572649573,
316
+ 1.2131410256410255,
317
+ 0.6650641025641025,
318
+ 0.7678952991452992,
319
+ 0.9423076923076923,
320
+ 1.106837606837607,
321
+ 0.9519230769230769,
322
+ 1.169871794871795,
323
+ 1.0699786324786325,
324
+ 1.0106837606837606,
325
+ 1.3095619658119657,
326
+ 0.9356303418803419,
327
+ 1.0405982905982907,
328
+ 0.5373931623931624,
329
+ 1.0830662393162394,
330
+ 1.1701388888888888,
331
+ 0.7232905982905983,
332
+ 1.0024038461538463,
333
+ 1.2473290598290598,
334
+ 0.9433760683760684,
335
+ 1.200587606837607,
336
+ 1.0419337606837606,
337
+ 1.1017628205128205,
338
+ 1.2435897435897436,
339
+ 0.8450854700854701,
340
+ 1.1076388888888888,
341
+ 1.108440170940171,
342
+ 0.7868589743589743,
343
+ 1.2211538461538463,
344
+ 1.2302350427350428,
345
+ 0.9791666666666666,
346
+ 1.110309829059829,
347
+ 0.6744123931623932,
348
+ 0.8055555555555556,
349
+ 1.1594551282051282,
350
+ 0.9220085470085471,
351
+ 0.6292735042735043,
352
+ 1.2099358974358974,
353
+ 1.3394764957264957,
354
+ 0.9118589743589743,
355
+ 0.9551282051282052,
356
+ 1.0069444444444444,
357
+ 0.9580662393162394,
358
+ 0.9869123931623932,
359
+ 0.8509615384615384,
360
+ 0.6463675213675214
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.4599358974358974,
364
+ 0.7483974358974359,
365
+ 0.8653846153846154,
366
+ 0.8990384615384616,
367
+ 0.9423076923076923
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.2041652943467356,
372
+ 1.1512602201203603,
373
+ 1.1312578130613953,
374
+ 1.1082860383781192,
375
+ 1.0999489497190913
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.4363782051282046,
380
+ 0.46671474358974424,
381
+ 0.47852564102564144,
382
+ 0.48871794871794866,
383
+ 0.4920993589743597
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.30074786324786323,
387
+ 0.9404380341880342,
388
+ 1.7224893162393162,
389
+ 0.9962606837606838,
390
+ 0.8878205128205128,
391
+ 1.5283119658119657,
392
+ 1.4455128205128205,
393
+ 0.8461538461538461,
394
+ 1.3418803418803418,
395
+ 1.1383547008547008,
396
+ 0.29246794871794873,
397
+ 1.7550747863247864,
398
+ 1.1965811965811965,
399
+ 0.23397435897435898,
400
+ 0.6645299145299145,
401
+ 1.236912393162393,
402
+ 1.2719017094017093,
403
+ 0.9006410256410257,
404
+ 0.39823717948717946,
405
+ 0.4791666666666667,
406
+ 1.5256410256410255,
407
+ 1.0579594017094016,
408
+ 0.29246794871794873,
409
+ 0.5208333333333334,
410
+ 0.9425747863247863,
411
+ 1.2780448717948718,
412
+ 0.6597222222222222,
413
+ 1.2759081196581197,
414
+ 0.9783653846153846,
415
+ 0.39636752136752135,
416
+ 0.9337606837606838,
417
+ 0.25587606837606836,
418
+ 1.6525106837606838,
419
+ 0.42574786324786323,
420
+ 1.1284722222222223,
421
+ 0.2668269230769231,
422
+ 0.10924145299145299,
423
+ 0.33653846153846156,
424
+ 0.8560363247863247,
425
+ 1.0261752136752136,
426
+ 1.4503205128205128,
427
+ 0.4519230769230769,
428
+ 0.4858440170940171,
429
+ 0.25053418803418803,
430
+ 0.3643162393162393,
431
+ 0.1920405982905983,
432
+ 0.9316239316239316,
433
+ 1.1808226495726495,
434
+ 1.6351495726495726,
435
+ 1.25,
436
+ 0.16452991452991453,
437
+ 0.8186431623931624,
438
+ 1.7897970085470085,
439
+ 1.0400641025641026,
440
+ 0.39823717948717946,
441
+ 1.6177884615384615,
442
+ 0.14610042735042736,
443
+ 0.7745726495726496,
444
+ 0.592948717948718,
445
+ 0.9754273504273504,
446
+ 0.5405982905982906,
447
+ 0.46474358974358976,
448
+ 1.1658653846153846,
449
+ 0.9284188034188035,
450
+ 0.9754273504273504,
451
+ 0.8822115384615384,
452
+ 0.8584401709401709,
453
+ 0.6995192307692307,
454
+ 1.5248397435897436,
455
+ 1.625,
456
+ 0.24786324786324787,
457
+ 1.3704594017094016,
458
+ 1.6615918803418803,
459
+ 0.8151709401709402,
460
+ 1.5694444444444444,
461
+ 1.5232371794871795,
462
+ 1.3496260683760684,
463
+ 1.5128205128205128,
464
+ 1.0304487179487178,
465
+ 1.1290064102564104,
466
+ 1.3875534188034189,
467
+ 0.6145833333333334,
468
+ 1.6605235042735043,
469
+ 0.9751602564102564,
470
+ 1.0037393162393162,
471
+ 1.5520833333333333,
472
+ 0.29246794871794873,
473
+ 0.8143696581196581,
474
+ 1.5365918803418803,
475
+ 0.7518696581196581,
476
+ 1.032318376068376,
477
+ 1.3832799145299146,
478
+ 1.891292735042735,
479
+ 0.5566239316239316,
480
+ 0.422275641025641,
481
+ 1.1939102564102564,
482
+ 0.9751602564102564,
483
+ 1.4652777777777777,
484
+ 0.8274572649572649,
485
+ 0.20005341880341881
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.0035496750275540714,
490
+ 0.004596184088955059,
491
+ 0.005332796426040285,
492
+ 0.005873450517822512,
493
+ 0.006262582686892925
494
+ ],
495
+ "infer_info_gains": [
496
+ 0.8376224052745943,
497
+ 0.2708003673794884,
498
+ 0.1498634056696228,
499
+ 0.09949425793449776,
500
+ 0.0699434656343728
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0019496225285254882,
504
+ 0.001046509061400987,
505
+ 0.000736612337085227,
506
+ 0.0005406540917822265,
507
+ 0.00038913216907041293
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.4599358974358974,
511
+ 1.0,
512
+ 1.0,
513
+ 1.0,
514
+ 1.0
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 1.0335349429699907,
519
+ 0.991976966475302,
520
+ 0.968086348275788,
521
+ 0.9512620047977273,
522
+ 0.9442735070165102
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5254326923076931,
527
+ 0.5471153846153849,
528
+ 0.5575641025641033,
529
+ 0.5658012820512829,
530
+ 0.5690224358974361
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.8034188034188035,
534
+ 1.0956196581196582,
535
+ 1.561431623931624,
536
+ 1.0496794871794872,
537
+ 0.8635149572649573,
538
+ 1.3028846153846154,
539
+ 1.1549145299145298,
540
+ 0.7318376068376068,
541
+ 1.2887286324786325,
542
+ 1.2868589743589745,
543
+ 0.6164529914529915,
544
+ 1.4270833333333333,
545
+ 1.2305021367521367,
546
+ 0.6151175213675214,
547
+ 1.0333867521367521,
548
+ 1.2321047008547008,
549
+ 1.1599893162393162,
550
+ 0.9105235042735043,
551
+ 0.4495192307692308,
552
+ 0.5876068376068376,
553
+ 1.109241452991453,
554
+ 0.9545940170940171,
555
+ 0.42441239316239315,
556
+ 0.7131410256410257,
557
+ 0.8862179487179487,
558
+ 1.1298076923076923,
559
+ 0.7588141025641025,
560
+ 1.2403846153846154,
561
+ 0.8677884615384616,
562
+ 0.5683760683760684,
563
+ 1.1818910256410255,
564
+ 0.6848290598290598,
565
+ 1.3677884615384615,
566
+ 0.7043269230769231,
567
+ 1.0024038461538463,
568
+ 0.8501602564102564,
569
+ 0.6346153846153846,
570
+ 0.5793269230769231,
571
+ 0.7780448717948718,
572
+ 0.9954594017094017,
573
+ 1.202724358974359,
574
+ 0.5515491452991453,
575
+ 0.6335470085470085,
576
+ 0.7596153846153846,
577
+ 0.5186965811965812,
578
+ 0.5085470085470085,
579
+ 1.0769230769230769,
580
+ 1.1423611111111112,
581
+ 1.5074786324786325,
582
+ 1.1797542735042734,
583
+ 0.47622863247863245,
584
+ 0.9324252136752137,
585
+ 1.53125,
586
+ 1.1137820512820513,
587
+ 0.6952457264957265,
588
+ 1.1634615384615385,
589
+ 0.44150641025641024,
590
+ 0.7558760683760684,
591
+ 0.7895299145299145,
592
+ 0.9284188034188035,
593
+ 0.6875,
594
+ 1.1842948717948718,
595
+ 1.156784188034188,
596
+ 0.9468482905982906,
597
+ 0.999732905982906,
598
+ 0.7927350427350427,
599
+ 0.9091880341880342,
600
+ 0.6997863247863247,
601
+ 1.5122863247863247,
602
+ 1.4660790598290598,
603
+ 0.6282051282051282,
604
+ 1.0603632478632479,
605
+ 1.4569978632478633,
606
+ 0.8688568376068376,
607
+ 1.327457264957265,
608
+ 1.1674679487179487,
609
+ 1.1057692307692308,
610
+ 1.3803418803418803,
611
+ 0.7881944444444444,
612
+ 0.9433760683760684,
613
+ 1.2497329059829059,
614
+ 0.6127136752136753,
615
+ 1.4420405982905984,
616
+ 1.001602564102564,
617
+ 1.189102564102564,
618
+ 1.1947115384615385,
619
+ 0.5288461538461539,
620
+ 0.8624465811965812,
621
+ 1.4399038461538463,
622
+ 0.8856837606837606,
623
+ 0.6471688034188035,
624
+ 1.3458867521367521,
625
+ 1.6284722222222223,
626
+ 0.6450320512820513,
627
+ 0.7347756410256411,
628
+ 1.1324786324786325,
629
+ 1.0427350427350428,
630
+ 1.2230235042735043,
631
+ 0.6848290598290598,
632
+ 0.453525641025641
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.4634322799215775,
637
+ 1.881804249943822,
638
+ 2.026648560254072,
639
+ 2.0813687295727417,
640
+ 2.064514135994517
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.5053525641025641,
645
+ 0.5259775641025641,
646
+ 0.5367147435897439,
647
+ 0.5478846153846154,
648
+ 0.5537660256410261
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.172275641025641,
652
+ 1.1589209401709402,
653
+ 1.3883547008547008,
654
+ 1.279647435897436,
655
+ 1.080128205128205,
656
+ 0.6845619658119658,
657
+ 0.719017094017094,
658
+ 0.7759081196581197,
659
+ 1.0964209401709402,
660
+ 1.516292735042735,
661
+ 1.201655982905983,
662
+ 0.8827457264957265,
663
+ 1.3469551282051282,
664
+ 0.9313568376068376,
665
+ 1.3838141025641026,
666
+ 1.404647435897436,
667
+ 1.2075320512820513,
668
+ 0.9783653846153846,
669
+ 0.7053952991452992,
670
+ 0.8416132478632479,
671
+ 0.6530448717948718,
672
+ 1.1533119658119657,
673
+ 0.7665598290598291,
674
+ 1.2366452991452992,
675
+ 0.9126602564102564,
676
+ 0.9289529914529915,
677
+ 0.9965277777777778,
678
+ 1.3410790598290598,
679
+ 0.8199786324786325,
680
+ 1.1645299145299146,
681
+ 1.358974358974359,
682
+ 1.3106303418803418,
683
+ 0.4636752136752137,
684
+ 1.2849893162393162,
685
+ 0.9190705128205128,
686
+ 1.1356837606837606,
687
+ 0.8787393162393162,
688
+ 0.8512286324786325,
689
+ 0.9933226495726496,
690
+ 0.7345085470085471,
691
+ 1.2462606837606838,
692
+ 1.217681623931624,
693
+ 0.6965811965811965,
694
+ 1.1474358974358974,
695
+ 1.061965811965812,
696
+ 0.6741452991452992,
697
+ 0.8811431623931624,
698
+ 1.3357371794871795,
699
+ 1.329059829059829,
700
+ 1.0982905982905984,
701
+ 1.1981837606837606,
702
+ 0.8191773504273504,
703
+ 1.2617521367521367,
704
+ 1.2820512820512822,
705
+ 1.2144764957264957,
706
+ 1.1936431623931625,
707
+ 0.78125,
708
+ 0.7200854700854701,
709
+ 1.3704594017094016,
710
+ 1.0045405982905984,
711
+ 1.0966880341880343,
712
+ 0.8464209401709402,
713
+ 1.1800213675213675,
714
+ 0.6637286324786325,
715
+ 1.3223824786324787,
716
+ 0.9188034188034188,
717
+ 1.0355235042735043,
718
+ 0.5758547008547008,
719
+ 0.8613782051282052,
720
+ 1.1976495726495726,
721
+ 1.076121794871795,
722
+ 0.6704059829059829,
723
+ 1.280715811965812,
724
+ 0.8405448717948718,
725
+ 1.2232905982905984,
726
+ 0.7470619658119658,
727
+ 0.8373397435897436,
728
+ 1.0267094017094016,
729
+ 0.8528311965811965,
730
+ 1.1439636752136753,
731
+ 1.1589209401709402,
732
+ 0.7681623931623932,
733
+ 1.0344551282051282,
734
+ 1.0349893162393162,
735
+ 1.220352564102564,
736
+ 1.0868055555555556,
737
+ 0.6311431623931624,
738
+ 0.8063568376068376,
739
+ 1.1367521367521367,
740
+ 1.2727029914529915,
741
+ 0.5061431623931624,
742
+ 1.1124465811965811,
743
+ 1.3229166666666667,
744
+ 1.0331196581196582,
745
+ 1.3416132478632479,
746
+ 0.6899038461538461,
747
+ 1.0600961538461537,
748
+ 0.49145299145299143,
749
+ 0.5034722222222222,
750
+ 0.7913995726495726
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.748108974358974,
755
+ 0.7745833333333332,
756
+ 0.7807051282051279,
757
+ 0.7812019230769225,
758
+ 0.7846634615384612
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.7030448717948714,
763
+ 0.726842948717949,
764
+ 0.7343749999999992,
765
+ 0.740576923076923,
766
+ 0.7390544871794871
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_36_seed1/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_36_seed1/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_36_seed1.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.5641025641025641,
64
+ 0.6602564102564102,
65
+ 0.7163461538461539,
66
+ 0.7115384615384616,
67
+ 0.7628205128205128
68
+ ],
69
+ "model_accs": [
70
+ 0.5641025641025641,
71
+ 0.6602564102564102,
72
+ 0.7163461538461539,
73
+ 0.7115384615384616,
74
+ 0.7628205128205128
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.40384615384615385,
78
+ 0.5993589743589743,
79
+ 0.7051282051282052,
80
+ 0.7259615384615384,
81
+ 0.7467948717948718
82
+ ],
83
+ "model_consistencies": [
84
+ 0.34455128205128205,
85
+ 0.6522435897435898,
86
+ 0.7371794871794872,
87
+ 0.7307692307692307,
88
+ 0.7740384615384616
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.1013583814937558,
93
+ 0.9548699135020138,
94
+ 0.9083161853594474,
95
+ 0.8868733253086925,
96
+ 0.8475515342322106
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.4828685897435901,
101
+ 0.5555608974358978,
102
+ 0.5758173076923077,
103
+ 0.5873076923076924,
104
+ 0.603958333333333
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7248931623931624,
108
+ 1.2112713675213675,
109
+ 1.2767094017094016,
110
+ 1.077457264957265,
111
+ 1.0144230769230769,
112
+ 1.0961538461538463,
113
+ 1.1506410256410255,
114
+ 0.9452457264957265,
115
+ 1.1279380341880343,
116
+ 1.1375534188034189,
117
+ 0.7852564102564102,
118
+ 1.0590277777777777,
119
+ 1.2096688034188035,
120
+ 0.8157051282051282,
121
+ 1.0408653846153846,
122
+ 1.1653311965811965,
123
+ 0.9137286324786325,
124
+ 0.9097222222222222,
125
+ 0.7094017094017094,
126
+ 0.6680021367521367,
127
+ 1.0731837606837606,
128
+ 0.9818376068376068,
129
+ 0.7024572649572649,
130
+ 0.8944978632478633,
131
+ 1.1356837606837606,
132
+ 1.0275106837606838,
133
+ 0.9487179487179487,
134
+ 1.189102564102564,
135
+ 0.7537393162393162,
136
+ 0.9618055555555556,
137
+ 1.0990918803418803,
138
+ 1.0320512820512822,
139
+ 0.9190705128205128,
140
+ 0.9505876068376068,
141
+ 0.9569978632478633,
142
+ 0.7978098290598291,
143
+ 0.5114850427350427,
144
+ 0.8544337606837606,
145
+ 1.1241987179487178,
146
+ 0.9967948717948718,
147
+ 1.1148504273504274,
148
+ 0.9797008547008547,
149
+ 0.6802884615384616,
150
+ 0.8482905982905983,
151
+ 0.8832799145299145,
152
+ 0.65625,
153
+ 0.7524038461538461,
154
+ 1.3376068376068375,
155
+ 1.438034188034188,
156
+ 1.1105769230769231,
157
+ 0.8725961538461539,
158
+ 1.1506410256410255,
159
+ 1.2131410256410255,
160
+ 1.2417200854700854,
161
+ 0.6650641025641025,
162
+ 1.2769764957264957,
163
+ 0.6450320512820513,
164
+ 0.7772435897435898,
165
+ 0.9545940170940171,
166
+ 1.0600961538461537,
167
+ 0.9970619658119658,
168
+ 0.7465277777777778,
169
+ 1.0248397435897436,
170
+ 1.0024038461538463,
171
+ 1.3731303418803418,
172
+ 1.0657051282051282,
173
+ 1.0964209401709402,
174
+ 0.6805555555555556,
175
+ 1.0830662393162394,
176
+ 1.0876068376068375,
177
+ 0.7654914529914529,
178
+ 1.0120192307692308,
179
+ 1.200587606837607,
180
+ 0.8739316239316239,
181
+ 1.1789529914529915,
182
+ 1.0520833333333333,
183
+ 1.0446047008547008,
184
+ 1.1909722222222223,
185
+ 1.0638354700854702,
186
+ 1.1989850427350428,
187
+ 1.0320512820512822,
188
+ 0.8141025641025641,
189
+ 1.233707264957265,
190
+ 1.2077991452991452,
191
+ 0.9658119658119658,
192
+ 1.140491452991453,
193
+ 0.718215811965812,
194
+ 0.7465277777777778,
195
+ 1.1461004273504274,
196
+ 1.0213675213675213,
197
+ 0.8635149572649573,
198
+ 1.140758547008547,
199
+ 1.375534188034188,
200
+ 1.0080128205128205,
201
+ 0.9858440170940171,
202
+ 1.1228632478632479,
203
+ 0.8611111111111112,
204
+ 0.905448717948718,
205
+ 0.7964743589743589,
206
+ 0.6335470085470085
207
+ ],
208
+ "model_probs": [
209
+ 0.0016002127930928277,
210
+ 0.003936984390688572,
211
+ 0.005429787747427912,
212
+ 0.006445559058708483,
213
+ 0.007796346421475266,
214
+ 0.007733882042703208
215
+ ],
216
+ "model_info_gains": [
217
+ 0.14786468785171497,
218
+ 0.11344116601701973,
219
+ 0.05599089674889461,
220
+ 0.012977222274893526,
221
+ 0.1422713255939876
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0023367715975957447,
225
+ 0.0014928033567393401,
226
+ 0.0010157713112805711,
227
+ 0.0013507873627667825,
228
+ -6.246437877205784e-05
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.40384615384615385,
232
+ 0.655448717948718,
233
+ 0.7403846153846154,
234
+ 0.7692307692307693,
235
+ 0.7868589743589743
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.34455128205128205,
239
+ 0.7275641025641025,
240
+ 0.8157051282051282,
241
+ 0.7868589743589743,
242
+ 0.8125
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356186067872485,
246
+ 1.0628945508962229,
247
+ 0.9376255270530013,
248
+ 0.8780245415766341,
249
+ 0.8485038611897119,
250
+ 0.8028431715237172
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.5024358974358972,
255
+ 0.5628044871794872,
256
+ 0.5929487179487178,
257
+ 0.606826923076923,
258
+ 0.6253044871794863
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9647435897435898,
262
+ 1.2534722222222223,
263
+ 1.235309829059829,
264
+ 1.0331196581196582,
265
+ 1.0050747863247864,
266
+ 1.0769230769230769,
267
+ 1.2259615384615385,
268
+ 0.90625,
269
+ 1.2433226495726495,
270
+ 1.2566773504273505,
271
+ 0.8776709401709402,
272
+ 1.0699786324786325,
273
+ 1.170405982905983,
274
+ 0.8563034188034188,
275
+ 1.0357905982905984,
276
+ 1.2128739316239316,
277
+ 0.9489850427350427,
278
+ 0.8931623931623932,
279
+ 0.6802884615384616,
280
+ 0.6971153846153846,
281
+ 1.1167200854700854,
282
+ 1.0531517094017093,
283
+ 0.6837606837606838,
284
+ 0.8990384615384616,
285
+ 1.1298076923076923,
286
+ 0.9727564102564102,
287
+ 0.9447115384615384,
288
+ 1.1925747863247864,
289
+ 0.7761752136752137,
290
+ 0.9826388888888888,
291
+ 1.0705128205128205,
292
+ 1.0085470085470085,
293
+ 0.9604700854700855,
294
+ 1.0237713675213675,
295
+ 0.9294871794871795,
296
+ 0.8846153846153846,
297
+ 0.6108440170940171,
298
+ 0.8173076923076923,
299
+ 1.1469017094017093,
300
+ 0.9874465811965812,
301
+ 1.0502136752136753,
302
+ 0.9743589743589743,
303
+ 0.7251602564102564,
304
+ 0.9305555555555556,
305
+ 0.9172008547008547,
306
+ 0.6920405982905983,
307
+ 0.7556089743589743,
308
+ 1.3237179487179487,
309
+ 1.4027777777777777,
310
+ 1.0566239316239316,
311
+ 0.8993055555555556,
312
+ 1.142094017094017,
313
+ 1.1511752136752136,
314
+ 1.1949786324786325,
315
+ 0.6594551282051282,
316
+ 1.251602564102564,
317
+ 0.7086004273504274,
318
+ 0.750267094017094,
319
+ 0.9129273504273504,
320
+ 1.078525641025641,
321
+ 0.9778311965811965,
322
+ 1.1554487179487178,
323
+ 1.0884081196581197,
324
+ 1.0363247863247864,
325
+ 1.3173076923076923,
326
+ 0.9449786324786325,
327
+ 1.0884081196581197,
328
+ 0.500801282051282,
329
+ 1.0697115384615385,
330
+ 1.1209935897435896,
331
+ 0.7355769230769231,
332
+ 1.0576923076923077,
333
+ 1.1808226495726495,
334
+ 0.9003739316239316,
335
+ 1.1565170940170941,
336
+ 1.0243055555555556,
337
+ 1.0566239316239316,
338
+ 1.2598824786324787,
339
+ 0.8822115384615384,
340
+ 1.1514423076923077,
341
+ 1.0886752136752136,
342
+ 0.8170405982905983,
343
+ 1.2633547008547008,
344
+ 1.2003205128205128,
345
+ 0.9305555555555556,
346
+ 1.0822649572649572,
347
+ 0.7238247863247863,
348
+ 0.7719017094017094,
349
+ 1.1495726495726495,
350
+ 0.9265491452991453,
351
+ 0.6442307692307693,
352
+ 1.1800213675213675,
353
+ 1.3397435897435896,
354
+ 0.9740918803418803,
355
+ 0.9719551282051282,
356
+ 1.0245726495726495,
357
+ 0.9089209401709402,
358
+ 0.9439102564102564,
359
+ 0.8776709401709402,
360
+ 0.6402243589743589
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.40384615384615385,
364
+ 0.5272435897435898,
365
+ 0.6330128205128205,
366
+ 0.7211538461538461,
367
+ 0.7932692307692307
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.164475425932949,
372
+ 1.005596483776882,
373
+ 0.9004039148924082,
374
+ 0.8077634821907682,
375
+ 0.7422787683466192
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.45027243589743565,
380
+ 0.5360256410256412,
381
+ 0.5851602564102564,
382
+ 0.6272435897435897,
383
+ 0.6588141025641023
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.5064102564102564,
387
+ 0.9524572649572649,
388
+ 1.6279380341880343,
389
+ 1.0902777777777777,
390
+ 0.9489850427350427,
391
+ 1.4118589743589745,
392
+ 1.2724358974358974,
393
+ 0.8603098290598291,
394
+ 1.2596153846153846,
395
+ 1.1997863247863247,
396
+ 0.43162393162393164,
397
+ 1.4770299145299146,
398
+ 1.2561431623931625,
399
+ 0.39129273504273504,
400
+ 0.7922008547008547,
401
+ 1.217147435897436,
402
+ 1.2403846153846154,
403
+ 1.001068376068376,
404
+ 0.4497863247863248,
405
+ 0.5056089743589743,
406
+ 1.2919337606837606,
407
+ 1.0430021367521367,
408
+ 0.3779380341880342,
409
+ 0.6132478632478633,
410
+ 0.8800747863247863,
411
+ 1.2251602564102564,
412
+ 0.7385149572649573,
413
+ 1.233440170940171,
414
+ 0.9415064102564102,
415
+ 0.5395299145299145,
416
+ 1.0560897435897436,
417
+ 0.5117521367521367,
418
+ 1.4001068376068375,
419
+ 0.5793269230769231,
420
+ 1.0424679487179487,
421
+ 0.41025641025641024,
422
+ 0.2860576923076923,
423
+ 0.49385683760683763,
424
+ 0.8509615384615384,
425
+ 1.0731837606837606,
426
+ 1.3157051282051282,
427
+ 0.6346153846153846,
428
+ 0.5237713675213675,
429
+ 0.4281517094017094,
430
+ 0.4564636752136752,
431
+ 0.4404380341880342,
432
+ 0.9233440170940171,
433
+ 1.141292735042735,
434
+ 1.5745192307692308,
435
+ 1.2091346153846154,
436
+ 0.3560363247863248,
437
+ 0.8397435897435898,
438
+ 1.6418269230769231,
439
+ 1.126068376068376,
440
+ 0.5603632478632479,
441
+ 1.3856837606837606,
442
+ 0.3327991452991453,
443
+ 0.8197115384615384,
444
+ 0.7638888888888888,
445
+ 0.9666132478632479,
446
+ 0.7126068376068376,
447
+ 0.6231303418803419,
448
+ 1.138087606837607,
449
+ 0.8824786324786325,
450
+ 1.0504807692307692,
451
+ 0.8961004273504274,
452
+ 0.8838141025641025,
453
+ 0.7358440170940171,
454
+ 1.3215811965811965,
455
+ 1.3790064102564104,
456
+ 0.5144230769230769,
457
+ 1.1965811965811965,
458
+ 1.5739850427350428,
459
+ 0.874198717948718,
460
+ 1.5096153846153846,
461
+ 1.3125,
462
+ 1.1968482905982907,
463
+ 1.3215811965811965,
464
+ 1.0008012820512822,
465
+ 1.0357905982905984,
466
+ 1.3044871794871795,
467
+ 0.657051282051282,
468
+ 1.4895833333333333,
469
+ 0.9647435897435898,
470
+ 1.0584935897435896,
471
+ 1.375534188034188,
472
+ 0.5259081196581197,
473
+ 0.8798076923076923,
474
+ 1.4265491452991452,
475
+ 0.8603098290598291,
476
+ 0.8961004273504274,
477
+ 1.264155982905983,
478
+ 1.7278311965811965,
479
+ 0.7248931623931624,
480
+ 0.6813568376068376,
481
+ 1.1963141025641026,
482
+ 0.9340277777777778,
483
+ 1.267094017094017,
484
+ 0.7735042735042735,
485
+ 0.3482905982905983
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016002127930928277,
489
+ 0.004248635137838182,
490
+ 0.008052551228665368,
491
+ 0.012889206956153943,
492
+ 0.018223536686095124,
493
+ 0.02366250976912199
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.029851769666868,
497
+ 0.6792945912039468,
498
+ 0.4790693677797695,
499
+ 0.3435310274516444,
500
+ 0.25245394635844937
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.002648422344745354,
504
+ 0.003803916090827186,
505
+ 0.004836655727488575,
506
+ 0.005334329729941181,
507
+ 0.0054389730830268655
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.40384615384615385,
511
+ 0.7740384615384616,
512
+ 0.9423076923076923,
513
+ 0.9903846153846154,
514
+ 0.9983974358974359
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356186067872485,
518
+ 0.9784815134542595,
519
+ 0.814474543985168,
520
+ 0.7224320185019728,
521
+ 0.6628382416498068,
522
+ 0.6212289369176899
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5472115384615384,
527
+ 0.62625,
528
+ 0.6655448717948713,
529
+ 0.6944551282051282,
530
+ 0.7139102564102566
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.8811431623931624,
534
+ 1.0568910256410255,
535
+ 1.4885149572649572,
536
+ 1.0651709401709402,
537
+ 0.9527243589743589,
538
+ 1.2393162393162394,
539
+ 1.1813568376068375,
540
+ 0.7833867521367521,
541
+ 1.3116987179487178,
542
+ 1.3042200854700854,
543
+ 0.6642628205128205,
544
+ 1.264690170940171,
545
+ 1.1984508547008548,
546
+ 0.6404914529914529,
547
+ 0.9802350427350427,
548
+ 1.1821581196581197,
549
+ 1.1020299145299146,
550
+ 0.9602029914529915,
551
+ 0.5018696581196581,
552
+ 0.6113782051282052,
553
+ 1.1487713675213675,
554
+ 0.9925213675213675,
555
+ 0.4751602564102564,
556
+ 0.7323717948717948,
557
+ 0.9121260683760684,
558
+ 1.0435363247863247,
559
+ 0.8047542735042735,
560
+ 1.2139423076923077,
561
+ 0.9212072649572649,
562
+ 0.6968482905982906,
563
+ 1.1519764957264957,
564
+ 0.7427884615384616,
565
+ 1.172809829059829,
566
+ 0.7462606837606838,
567
+ 0.96875,
568
+ 0.8058226495726496,
569
+ 0.6292735042735043,
570
+ 0.6199252136752137,
571
+ 0.9465811965811965,
572
+ 1.0697115384615385,
573
+ 1.1493055555555556,
574
+ 0.6573183760683761,
575
+ 0.6014957264957265,
576
+ 0.7940705128205128,
577
+ 0.6140491452991453,
578
+ 0.6041666666666666,
579
+ 0.9436431623931624,
580
+ 1.1434294871794872,
581
+ 1.5090811965811965,
582
+ 1.1615918803418803,
583
+ 0.6020299145299145,
584
+ 0.9436431623931624,
585
+ 1.4393696581196582,
586
+ 1.1669337606837606,
587
+ 0.6706730769230769,
588
+ 1.1955128205128205,
589
+ 0.5208333333333334,
590
+ 0.7831196581196581,
591
+ 0.8103632478632479,
592
+ 0.9839743589743589,
593
+ 0.7871260683760684,
594
+ 1.1442307692307692,
595
+ 1.143162393162393,
596
+ 0.9481837606837606,
597
+ 1.0798611111111112,
598
+ 0.844284188034188,
599
+ 0.9407051282051282,
600
+ 0.6223290598290598,
601
+ 1.3506944444444444,
602
+ 1.3122329059829059,
603
+ 0.6864316239316239,
604
+ 1.093215811965812,
605
+ 1.390224358974359,
606
+ 0.9260149572649573,
607
+ 1.3239850427350428,
608
+ 1.1490384615384615,
609
+ 1.1164529914529915,
610
+ 1.2879273504273505,
611
+ 0.8181089743589743,
612
+ 0.9893162393162394,
613
+ 1.2227564102564104,
614
+ 0.6335470085470085,
615
+ 1.3493589743589745,
616
+ 1.0422008547008548,
617
+ 1.0876068376068375,
618
+ 1.1153846153846154,
619
+ 0.6020299145299145,
620
+ 0.8928952991452992,
621
+ 1.296741452991453,
622
+ 0.842948717948718,
623
+ 0.6423611111111112,
624
+ 1.2876602564102564,
625
+ 1.5336538461538463,
626
+ 0.7176816239316239,
627
+ 0.7975427350427351,
628
+ 1.0878739316239316,
629
+ 0.9949252136752137,
630
+ 1.1394230769230769,
631
+ 0.7532051282051282,
632
+ 0.5373931623931624
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.4337479767104648,
637
+ 1.9680300243808209,
638
+ 2.220121263988238,
639
+ 2.3824528245799406,
640
+ 2.4435614566475334
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39943910256410226,
644
+ 0.4929006410256414,
645
+ 0.5368429487179489,
646
+ 0.563958333333334,
647
+ 0.582227564102564,
648
+ 0.5985897435897434
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1535790598290598,
652
+ 1.1757478632478633,
653
+ 1.358440170940171,
654
+ 1.3002136752136753,
655
+ 1.047008547008547,
656
+ 0.6607905982905983,
657
+ 0.7665598290598291,
658
+ 0.7529380341880342,
659
+ 1.078525641025641,
660
+ 1.5133547008547008,
661
+ 1.0990918803418803,
662
+ 0.8552350427350427,
663
+ 1.3311965811965811,
664
+ 0.9121260683760684,
665
+ 1.4273504273504274,
666
+ 1.439102564102564,
667
+ 1.1984508547008548,
668
+ 1.0114850427350428,
669
+ 0.7550747863247863,
670
+ 0.8870192307692307,
671
+ 0.6696047008547008,
672
+ 1.1701388888888888,
673
+ 0.8095619658119658,
674
+ 1.266025641025641,
675
+ 0.9460470085470085,
676
+ 0.8547008547008547,
677
+ 0.8725961538461539,
678
+ 1.3699252136752136,
679
+ 0.7689636752136753,
680
+ 1.2473290598290598,
681
+ 1.3659188034188035,
682
+ 1.325587606837607,
683
+ 0.4703525641025641,
684
+ 1.3352029914529915,
685
+ 0.9030448717948718,
686
+ 1.1169871794871795,
687
+ 0.8338675213675214,
688
+ 0.811698717948718,
689
+ 1.2048611111111112,
690
+ 0.7142094017094017,
691
+ 1.2206196581196582,
692
+ 1.2815170940170941,
693
+ 0.7443910256410257,
694
+ 1.1474358974358974,
695
+ 1.0905448717948718,
696
+ 0.6581196581196581,
697
+ 0.8474893162393162,
698
+ 1.3838141025641026,
699
+ 1.2881944444444444,
700
+ 1.0571581196581197,
701
+ 1.218215811965812,
702
+ 0.8653846153846154,
703
+ 1.1917735042735043,
704
+ 1.297809829059829,
705
+ 1.1268696581196582,
706
+ 1.2427884615384615,
707
+ 0.8565705128205128,
708
+ 0.718482905982906,
709
+ 1.2999465811965811,
710
+ 0.9829059829059829,
711
+ 1.0731837606837606,
712
+ 0.7793803418803419,
713
+ 1.1535790598290598,
714
+ 0.6290064102564102,
715
+ 1.298344017094017,
716
+ 0.9126602564102564,
717
+ 0.9957264957264957,
718
+ 0.48878205128205127,
719
+ 0.8274572649572649,
720
+ 0.7881944444444444,
721
+ 1.0283119658119657,
722
+ 0.6960470085470085,
723
+ 1.2417200854700854,
724
+ 0.6485042735042735,
725
+ 1.1866987179487178,
726
+ 0.7609508547008547,
727
+ 0.7930021367521367,
728
+ 1.0456730769230769,
729
+ 0.8653846153846154,
730
+ 1.1872329059829059,
731
+ 1.1241987179487178,
732
+ 0.8205128205128205,
733
+ 1.076655982905983,
734
+ 0.9732905982905983,
735
+ 1.1944444444444444,
736
+ 1.1153846153846154,
737
+ 0.6861645299145299,
738
+ 0.7449252136752137,
739
+ 1.0830662393162394,
740
+ 1.235042735042735,
741
+ 0.5114850427350427,
742
+ 1.0512820512820513,
743
+ 1.2783119658119657,
744
+ 1.1388888888888888,
745
+ 1.3234508547008548,
746
+ 0.6901709401709402,
747
+ 0.9815705128205128,
748
+ 0.4751602564102564,
749
+ 0.5213675213675214,
750
+ 0.750801282051282
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.34000000000000286,
754
+ 0.7386057692307691,
755
+ 0.763798076923077,
756
+ 0.7629166666666658,
757
+ 0.7681250000000002,
758
+ 0.7721955128205122
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.35543269230769375,
762
+ 0.6934775641025644,
763
+ 0.7173878205128207,
764
+ 0.7161378205128203,
765
+ 0.7258974358974359,
766
+ 0.7276282051282047
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_38_seed2/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_38_seed2/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_38_seed2.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.6009615384615384,
64
+ 0.6746794871794872,
65
+ 0.7115384615384616,
66
+ 0.7564102564102564,
67
+ 0.7307692307692307
68
+ ],
69
+ "model_accs": [
70
+ 0.6009615384615384,
71
+ 0.6746794871794872,
72
+ 0.7115384615384616,
73
+ 0.7564102564102564,
74
+ 0.7307692307692307
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.3766025641025641,
78
+ 0.5801282051282052,
79
+ 0.6778846153846154,
80
+ 0.7467948717948718,
81
+ 0.7435897435897436
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3974358974358974,
85
+ 0.6506410256410257,
86
+ 0.7323717948717948,
87
+ 0.7451923076923077,
88
+ 0.7483974358974359
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.0762206617999732,
93
+ 0.9839357358741723,
94
+ 0.8817629559852963,
95
+ 0.8345441597530134,
96
+ 0.8063090814914448
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.49331730769230786,
101
+ 0.5433653846153847,
102
+ 0.5894391025641026,
103
+ 0.6140705128205135,
104
+ 0.6262500000000001
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7425213675213675,
108
+ 1.1623931623931625,
109
+ 1.328258547008547,
110
+ 1.0993589743589745,
111
+ 1.0299145299145298,
112
+ 1.1525106837606838,
113
+ 1.1036324786324787,
114
+ 0.9722222222222222,
115
+ 1.1006944444444444,
116
+ 1.1282051282051282,
117
+ 0.750801282051282,
118
+ 1.0734508547008548,
119
+ 1.2302350427350428,
120
+ 0.8063568376068376,
121
+ 1.0077457264957266,
122
+ 1.110844017094017,
123
+ 0.9115918803418803,
124
+ 0.9236111111111112,
125
+ 0.6856303418803419,
126
+ 0.6444978632478633,
127
+ 1.0582264957264957,
128
+ 1.0120192307692308,
129
+ 0.6712072649572649,
130
+ 0.8461538461538461,
131
+ 1.0681089743589745,
132
+ 1.0355235042735043,
133
+ 0.9270833333333334,
134
+ 1.1645299145299146,
135
+ 0.7799145299145299,
136
+ 0.9420405982905983,
137
+ 1.0539529914529915,
138
+ 0.9823717948717948,
139
+ 0.9513888888888888,
140
+ 0.8979700854700855,
141
+ 0.9417735042735043,
142
+ 0.7841880341880342,
143
+ 0.5184294871794872,
144
+ 0.8530982905982906,
145
+ 1.0916132478632479,
146
+ 1.0184294871794872,
147
+ 1.1025641025641026,
148
+ 0.9479166666666666,
149
+ 0.6501068376068376,
150
+ 0.8298611111111112,
151
+ 0.8656517094017094,
152
+ 0.6386217948717948,
153
+ 0.7569444444444444,
154
+ 1.2809829059829059,
155
+ 1.467681623931624,
156
+ 1.0798611111111112,
157
+ 0.8637820512820513,
158
+ 1.080662393162393,
159
+ 1.235844017094017,
160
+ 1.2385149572649572,
161
+ 0.6960470085470085,
162
+ 1.25,
163
+ 0.6225961538461539,
164
+ 0.7972756410256411,
165
+ 0.9647435897435898,
166
+ 1.0972222222222223,
167
+ 1.0125534188034189,
168
+ 0.7740384615384616,
169
+ 1.047542735042735,
170
+ 1.0058760683760684,
171
+ 1.3405448717948718,
172
+ 1.0862713675213675,
173
+ 1.0520833333333333,
174
+ 0.6989850427350427,
175
+ 1.0803952991452992,
176
+ 1.1164529914529915,
177
+ 0.7681623931623932,
178
+ 0.9754273504273504,
179
+ 1.2403846153846154,
180
+ 0.8931623931623932,
181
+ 1.2430555555555556,
182
+ 1.0600961538461537,
183
+ 1.0486111111111112,
184
+ 1.1952457264957266,
185
+ 1.0253739316239316,
186
+ 1.1493055555555556,
187
+ 1.0683760683760684,
188
+ 0.7978098290598291,
189
+ 1.2150106837606838,
190
+ 1.2280982905982907,
191
+ 0.9821047008547008,
192
+ 1.1471688034188035,
193
+ 0.7077991452991453,
194
+ 0.78125,
195
+ 1.1535790598290598,
196
+ 1.014155982905983,
197
+ 0.8533653846153846,
198
+ 1.1642628205128205,
199
+ 1.3856837606837606,
200
+ 0.9650106837606838,
201
+ 0.9642094017094017,
202
+ 1.1183226495726495,
203
+ 0.8878205128205128,
204
+ 0.9260149572649573,
205
+ 0.7518696581196581,
206
+ 0.6228632478632479
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.003744505071819158,
211
+ 0.0057038873831984725,
212
+ 0.006095698211928935,
213
+ 0.00898462511314663,
214
+ 0.009285194892844227
215
+ ],
216
+ "model_info_gains": [
217
+ 0.1131964568299756,
218
+ 0.11711305863875854,
219
+ 0.1908838753489445,
220
+ 0.09482388514785223,
221
+ 0.11168757530742657
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0021444525727905748,
225
+ 0.0019593823113793142,
226
+ 0.00039181082873046346,
227
+ 0.0028889269012176955,
228
+ 0.0003005697796975955
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.3798076923076923,
232
+ 0.6474358974358975,
233
+ 0.7163461538461539,
234
+ 0.7948717948717948,
235
+ 0.7676282051282052
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.3974358974358974,
239
+ 0.6955128205128205,
240
+ 0.7964743589743589,
241
+ 0.8028846153846154,
242
+ 0.7980769230769231
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.0548004202144479,
247
+ 0.9490155700277788,
248
+ 0.8546754994396255,
249
+ 0.7969530667168697,
250
+ 0.7649219675566776
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.5063782051282049,
255
+ 0.558653846153846,
256
+ 0.6017948717948723,
257
+ 0.6304807692307701,
258
+ 0.6464262820512817
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9577991452991453,
262
+ 1.2131410256410255,
263
+ 1.279647435897436,
264
+ 1.0769230769230769,
265
+ 1.0336538461538463,
266
+ 1.1124465811965811,
267
+ 1.1794871794871795,
268
+ 0.8971688034188035,
269
+ 1.2064636752136753,
270
+ 1.2628205128205128,
271
+ 0.8485576923076923,
272
+ 1.0977564102564104,
273
+ 1.1829594017094016,
274
+ 0.8482905982905983,
275
+ 1.0128205128205128,
276
+ 1.173878205128205,
277
+ 0.9521901709401709,
278
+ 0.9147970085470085,
279
+ 0.6655982905982906,
280
+ 0.6661324786324786,
281
+ 1.106837606837607,
282
+ 1.077190170940171,
283
+ 0.6375534188034188,
284
+ 0.8530982905982906,
285
+ 1.0841346153846154,
286
+ 1.0008012820512822,
287
+ 0.9289529914529915,
288
+ 1.1752136752136753,
289
+ 0.7938034188034188,
290
+ 0.9412393162393162,
291
+ 1.0355235042735043,
292
+ 0.9465811965811965,
293
+ 0.9839743589743589,
294
+ 0.9703525641025641,
295
+ 0.9081196581196581,
296
+ 0.8659188034188035,
297
+ 0.6330128205128205,
298
+ 0.8125,
299
+ 1.1324786324786325,
300
+ 1.0352564102564104,
301
+ 1.0507478632478633,
302
+ 0.9358974358974359,
303
+ 0.6960470085470085,
304
+ 0.9035790598290598,
305
+ 0.8987713675213675,
306
+ 0.6832264957264957,
307
+ 0.7598824786324786,
308
+ 1.2751068376068375,
309
+ 1.4254807692307692,
310
+ 1.0486111111111112,
311
+ 0.8872863247863247,
312
+ 1.0892094017094016,
313
+ 1.1821581196581197,
314
+ 1.1888354700854702,
315
+ 0.6952457264957265,
316
+ 1.234775641025641,
317
+ 0.6688034188034188,
318
+ 0.7783119658119658,
319
+ 0.9073183760683761,
320
+ 1.1047008547008548,
321
+ 1.000534188034188,
322
+ 1.1581196581196582,
323
+ 1.0929487179487178,
324
+ 1.0438034188034189,
325
+ 1.2767094017094016,
326
+ 0.9500534188034188,
327
+ 1.0422008547008548,
328
+ 0.5227029914529915,
329
+ 1.0579594017094016,
330
+ 1.1655982905982907,
331
+ 0.7457264957264957,
332
+ 1.0197649572649572,
333
+ 1.2126068376068375,
334
+ 0.9129273504273504,
335
+ 1.218215811965812,
336
+ 1.0320512820512822,
337
+ 1.0590277777777777,
338
+ 1.248397435897436,
339
+ 0.8621794871794872,
340
+ 1.1196581196581197,
341
+ 1.1140491452991452,
342
+ 0.782051282051282,
343
+ 1.2470619658119657,
344
+ 1.2190170940170941,
345
+ 0.9487179487179487,
346
+ 1.0886752136752136,
347
+ 0.7059294871794872,
348
+ 0.8018162393162394,
349
+ 1.1570512820512822,
350
+ 0.9286858974358975,
351
+ 0.6506410256410257,
352
+ 1.2008547008547008,
353
+ 1.3720619658119657,
354
+ 0.9345619658119658,
355
+ 0.9316239316239316,
356
+ 1.0432692307692308,
357
+ 0.9358974358974359,
358
+ 0.9919871794871795,
359
+ 0.8202457264957265,
360
+ 0.6153846153846154
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.3766025641025641,
364
+ 0.5272435897435898,
365
+ 0.6602564102564102,
366
+ 0.7035256410256411,
367
+ 0.7964743589743589
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.151501351597007,
372
+ 0.975323548915819,
373
+ 0.8550391918574775,
374
+ 0.7646750315546812,
375
+ 0.7020411413299361
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.4623878205128206,
380
+ 0.5496794871794872,
381
+ 0.6060096153846154,
382
+ 0.6475480769230773,
383
+ 0.6751923076923076
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.5200320512820513,
387
+ 0.9754273504273504,
388
+ 1.5966880341880343,
389
+ 1.1055021367521367,
390
+ 0.9447115384615384,
391
+ 1.3982371794871795,
392
+ 1.2748397435897436,
393
+ 0.8525641025641025,
394
+ 1.1917735042735043,
395
+ 1.1701388888888888,
396
+ 0.47489316239316237,
397
+ 1.515758547008547,
398
+ 1.2644230769230769,
399
+ 0.3998397435897436,
400
+ 0.8135683760683761,
401
+ 1.2264957264957266,
402
+ 1.2558760683760684,
403
+ 0.9572649572649573,
404
+ 0.4895833333333333,
405
+ 0.5280448717948718,
406
+ 1.2839209401709402,
407
+ 1.0747863247863247,
408
+ 0.3891559829059829,
409
+ 0.6199252136752137,
410
+ 0.9011752136752137,
411
+ 1.220352564102564,
412
+ 0.7897970085470085,
413
+ 1.2385149572649572,
414
+ 0.9233440170940171,
415
+ 0.5526175213675214,
416
+ 1.029647435897436,
417
+ 0.5205662393162394,
418
+ 1.4489850427350428,
419
+ 0.5988247863247863,
420
+ 1.0408653846153846,
421
+ 0.45058760683760685,
422
+ 0.30235042735042733,
423
+ 0.5285790598290598,
424
+ 0.8255876068376068,
425
+ 1.0587606837606838,
426
+ 1.3461538461538463,
427
+ 0.6634615384615384,
428
+ 0.5806623931623932,
429
+ 0.452991452991453,
430
+ 0.5037393162393162,
431
+ 0.437232905982906,
432
+ 0.9025106837606838,
433
+ 1.1746794871794872,
434
+ 1.5563568376068375,
435
+ 1.2099358974358974,
436
+ 0.3856837606837607,
437
+ 0.8408119658119658,
438
+ 1.6052350427350428,
439
+ 1.1308760683760684,
440
+ 0.593215811965812,
441
+ 1.4500534188034189,
442
+ 0.3317307692307692,
443
+ 0.7796474358974359,
444
+ 0.7142094017094017,
445
+ 0.9399038461538461,
446
+ 0.7486645299145299,
447
+ 0.6228632478632479,
448
+ 1.1690705128205128,
449
+ 0.8709935897435898,
450
+ 1.0373931623931625,
451
+ 0.9297542735042735,
452
+ 0.8309294871794872,
453
+ 0.6842948717948718,
454
+ 1.282852564102564,
455
+ 1.3685897435897436,
456
+ 0.5216346153846154,
457
+ 1.202991452991453,
458
+ 1.5320512820512822,
459
+ 0.8488247863247863,
460
+ 1.482905982905983,
461
+ 1.3245192307692308,
462
+ 1.1503739316239316,
463
+ 1.34375,
464
+ 1.0227029914529915,
465
+ 1.1044337606837606,
466
+ 1.2836538461538463,
467
+ 0.7003205128205128,
468
+ 1.4706196581196582,
469
+ 0.9610042735042735,
470
+ 1.0213675213675213,
471
+ 1.3934294871794872,
472
+ 0.5403311965811965,
473
+ 0.8263888888888888,
474
+ 1.4305555555555556,
475
+ 0.8450854700854701,
476
+ 0.9019764957264957,
477
+ 1.2443910256410255,
478
+ 1.7086004273504274,
479
+ 0.7622863247863247,
480
+ 0.6853632478632479,
481
+ 1.2152777777777777,
482
+ 0.9521901709401709,
483
+ 1.265758547008547,
484
+ 0.8058226495726496,
485
+ 0.31490384615384615
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.004356828028466435,
490
+ 0.008574899453716894,
491
+ 0.013813574287805516,
492
+ 0.019674009165007587,
493
+ 0.025811868876842663
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.0540592337197794,
497
+ 0.6903517283477237,
498
+ 0.49475852588874614,
499
+ 0.36179201675036005,
500
+ 0.2705687507536941
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0027567755294378516,
504
+ 0.004218071425250458,
505
+ 0.005238674834088623,
506
+ 0.005860434877202072,
507
+ 0.006137859711835074
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.3798076923076923,
511
+ 0.7756410256410257,
512
+ 0.9198717948717948,
513
+ 0.9727564102564102,
514
+ 0.9935897435897436
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.9641988109829557,
519
+ 0.8004775990365646,
520
+ 0.6990257185148494,
521
+ 0.6330973449988253,
522
+ 0.5884732203260724
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5550160256410269,
527
+ 0.6323237179487174,
528
+ 0.6768269230769229,
529
+ 0.7055128205128195,
530
+ 0.7252884615384618
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.8928952991452992,
534
+ 1.0699786324786325,
535
+ 1.4890491452991452,
536
+ 1.0694444444444444,
537
+ 0.9457799145299145,
538
+ 1.2371794871794872,
539
+ 1.1770833333333333,
540
+ 0.7799145299145299,
541
+ 1.2532051282051282,
542
+ 1.2705662393162394,
543
+ 0.6939102564102564,
544
+ 1.2793803418803418,
545
+ 1.2048611111111112,
546
+ 0.6781517094017094,
547
+ 0.9919871794871795,
548
+ 1.1872329059829059,
549
+ 1.0753205128205128,
550
+ 0.9743589743589743,
551
+ 0.5197649572649573,
552
+ 0.6022970085470085,
553
+ 1.1129807692307692,
554
+ 0.9906517094017094,
555
+ 0.483974358974359,
556
+ 0.7516025641025641,
557
+ 0.9193376068376068,
558
+ 1.064102564102564,
559
+ 0.8068910256410257,
560
+ 1.1848290598290598,
561
+ 0.9177350427350427,
562
+ 0.6915064102564102,
563
+ 1.1498397435897436,
564
+ 0.7369123931623932,
565
+ 1.1896367521367521,
566
+ 0.7612179487179487,
567
+ 0.9847756410256411,
568
+ 0.8039529914529915,
569
+ 0.6826923076923077,
570
+ 0.6447649572649573,
571
+ 0.9214743589743589,
572
+ 1.0229700854700854,
573
+ 1.1276709401709402,
574
+ 0.687232905982906,
575
+ 0.625801282051282,
576
+ 0.7935363247863247,
577
+ 0.6311431623931624,
578
+ 0.6383547008547008,
579
+ 0.9476495726495726,
580
+ 1.1346153846153846,
581
+ 1.4775641025641026,
582
+ 1.1367521367521367,
583
+ 0.6100427350427351,
584
+ 0.9358974358974359,
585
+ 1.4262820512820513,
586
+ 1.1976495726495726,
587
+ 0.7139423076923077,
588
+ 1.1968482905982907,
589
+ 0.49919871794871795,
590
+ 0.7847222222222222,
591
+ 0.8210470085470085,
592
+ 1.015758547008547,
593
+ 0.8245192307692307,
594
+ 1.172275641025641,
595
+ 1.1274038461538463,
596
+ 0.9233440170940171,
597
+ 1.094818376068376,
598
+ 0.8306623931623932,
599
+ 0.9254807692307693,
600
+ 0.6172542735042735,
601
+ 1.3074252136752136,
602
+ 1.3143696581196582,
603
+ 0.7326388888888888,
604
+ 1.0707799145299146,
605
+ 1.3952991452991452,
606
+ 0.9556623931623932,
607
+ 1.3074252136752136,
608
+ 1.1549145299145298,
609
+ 1.0769230769230769,
610
+ 1.2633547008547008,
611
+ 0.7980769230769231,
612
+ 0.9903846153846154,
613
+ 1.232905982905983,
614
+ 0.6658653846153846,
615
+ 1.3298611111111112,
616
+ 1.0737179487179487,
617
+ 1.1022970085470085,
618
+ 1.1503739316239316,
619
+ 0.5886752136752137,
620
+ 0.8955662393162394,
621
+ 1.3127670940170941,
622
+ 0.8509615384615384,
623
+ 0.625534188034188,
624
+ 1.251068376068376,
625
+ 1.5138888888888888,
626
+ 0.7334401709401709,
627
+ 0.8135683760683761,
628
+ 1.0961538461538463,
629
+ 1.0518162393162394,
630
+ 1.142628205128205,
631
+ 0.7393162393162394,
632
+ 0.5221688034188035
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.4602397456380845,
637
+ 1.968786882844821,
638
+ 2.172149124334424,
639
+ 2.353224912847861,
640
+ 2.4007642291555094
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.49693910256410273,
645
+ 0.535849358974359,
646
+ 0.5688782051282052,
647
+ 0.5888141025641028,
648
+ 0.6092788461538452
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1581196581196582,
652
+ 1.0900106837606838,
653
+ 1.4262820512820513,
654
+ 1.3111645299145298,
655
+ 1.0868055555555556,
656
+ 0.6848290598290598,
657
+ 0.7259615384615384,
658
+ 0.7951388888888888,
659
+ 1.0408653846153846,
660
+ 1.500534188034188,
661
+ 1.2166132478632479,
662
+ 0.8597756410256411,
663
+ 1.3450854700854702,
664
+ 0.8851495726495726,
665
+ 1.3776709401709402,
666
+ 1.3918269230769231,
667
+ 1.1781517094017093,
668
+ 1.0373931623931625,
669
+ 0.7166132478632479,
670
+ 0.8587072649572649,
671
+ 0.65625,
672
+ 1.1615918803418803,
673
+ 0.7860576923076923,
674
+ 1.1877670940170941,
675
+ 0.8691239316239316,
676
+ 0.8771367521367521,
677
+ 1.0032051282051282,
678
+ 1.3258547008547008,
679
+ 0.8210470085470085,
680
+ 1.1626602564102564,
681
+ 1.3517628205128205,
682
+ 1.2280982905982907,
683
+ 0.4895833333333333,
684
+ 1.2769764957264957,
685
+ 0.8859508547008547,
686
+ 1.0729166666666667,
687
+ 0.8357371794871795,
688
+ 0.8162393162393162,
689
+ 1.0032051282051282,
690
+ 0.7620192307692307,
691
+ 1.2136752136752136,
692
+ 1.2096688034188035,
693
+ 0.6981837606837606,
694
+ 1.0753205128205128,
695
+ 1.0520833333333333,
696
+ 0.6685363247863247,
697
+ 0.8448183760683761,
698
+ 1.3082264957264957,
699
+ 1.3060897435897436,
700
+ 1.0552884615384615,
701
+ 1.1637286324786325,
702
+ 0.7801816239316239,
703
+ 1.2638888888888888,
704
+ 1.2793803418803418,
705
+ 1.141559829059829,
706
+ 1.2077991452991452,
707
+ 0.7972756410256411,
708
+ 0.7451923076923077,
709
+ 1.3018162393162394,
710
+ 1.0269764957264957,
711
+ 1.0731837606837606,
712
+ 0.8143696581196581,
713
+ 1.1444978632478633,
714
+ 0.6666666666666666,
715
+ 1.2847222222222223,
716
+ 0.9046474358974359,
717
+ 1.0061431623931625,
718
+ 0.5251068376068376,
719
+ 0.8400106837606838,
720
+ 1.1591880341880343,
721
+ 1.0683760683760684,
722
+ 0.6856303418803419,
723
+ 1.2991452991452992,
724
+ 0.8568376068376068,
725
+ 1.2542735042735043,
726
+ 0.7606837606837606,
727
+ 0.7913995726495726,
728
+ 1.0360576923076923,
729
+ 0.8293269230769231,
730
+ 1.1599893162393162,
731
+ 1.1957799145299146,
732
+ 0.7753739316239316,
733
+ 1.0547542735042734,
734
+ 1.0117521367521367,
735
+ 1.2083333333333333,
736
+ 1.1036324786324787,
737
+ 0.6423611111111112,
738
+ 0.8338675213675214,
739
+ 1.106837606837607,
740
+ 1.1848290598290598,
741
+ 0.4719551282051282,
742
+ 1.0836004273504274,
743
+ 1.3675213675213675,
744
+ 1.0945512820512822,
745
+ 1.297809829059829,
746
+ 0.7214209401709402,
747
+ 1.0040064102564104,
748
+ 0.5042735042735043,
749
+ 0.4735576923076923,
750
+ 0.7158119658119658
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7433653846153845,
755
+ 0.7590705128205127,
756
+ 0.7598878205128204,
757
+ 0.7672435897435899,
758
+ 0.7709935897435896
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6910256410256418,
763
+ 0.7171634615384618,
764
+ 0.7136698717948715,
765
+ 0.718942307692308,
766
+ 0.7269711538461543
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_46_seed0/cleaned_results.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_46_seed2/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_46_seed2.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.4375,
64
+ 0.5256410256410257,
65
+ 0.5865384615384616,
66
+ 0.6057692307692307,
67
+ 0.6266025641025641
68
+ ],
69
+ "model_accs": [
70
+ 0.4375,
71
+ 0.5256410256410257,
72
+ 0.5865384615384616,
73
+ 0.6057692307692307,
74
+ 0.6266025641025641
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.3573717948717949,
78
+ 0.5096153846153846,
79
+ 0.5913461538461539,
80
+ 0.5993589743589743,
81
+ 0.6394230769230769
82
+ ],
83
+ "model_consistencies": [
84
+ 0.358974358974359,
85
+ 0.6410256410256411,
86
+ 0.6794871794871795,
87
+ 0.6746794871794872,
88
+ 0.7067307692307693
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.087458303340424,
93
+ 0.970389421878177,
94
+ 0.9272960543071875,
95
+ 0.880038868878741,
96
+ 0.8582640091402732
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.4891666666666673,
101
+ 0.5475641025641028,
102
+ 0.5678044871794875,
103
+ 0.5882852564102564,
104
+ 0.5965064102564104
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7323717948717948,
108
+ 1.2128739316239316,
109
+ 1.2727029914529915,
110
+ 1.0833333333333333,
111
+ 1.014957264957265,
112
+ 1.110844017094017,
113
+ 1.1487713675213675,
114
+ 0.9794337606837606,
115
+ 1.109775641025641,
116
+ 1.1121794871794872,
117
+ 0.8044871794871795,
118
+ 1.0657051282051282,
119
+ 1.2139423076923077,
120
+ 0.8175747863247863,
121
+ 1.0534188034188035,
122
+ 1.1463675213675213,
123
+ 0.8942307692307693,
124
+ 0.9172008547008547,
125
+ 0.7136752136752137,
126
+ 0.6722756410256411,
127
+ 1.0889423076923077,
128
+ 0.9794337606837606,
129
+ 0.7176816239316239,
130
+ 0.9163995726495726,
131
+ 1.1343482905982907,
132
+ 1.032852564102564,
133
+ 0.9428418803418803,
134
+ 1.1677350427350428,
135
+ 0.7545405982905983,
136
+ 0.9778311965811965,
137
+ 1.077991452991453,
138
+ 1.016025641025641,
139
+ 0.9174679487179487,
140
+ 0.9391025641025641,
141
+ 0.9823717948717948,
142
+ 0.7897970085470085,
143
+ 0.5285790598290598,
144
+ 0.8565705128205128,
145
+ 1.1466346153846154,
146
+ 0.9759615384615384,
147
+ 1.0972222222222223,
148
+ 0.9901175213675214,
149
+ 0.6848290598290598,
150
+ 0.8493589743589743,
151
+ 0.906517094017094,
152
+ 0.6514423076923077,
153
+ 0.7411858974358975,
154
+ 1.3146367521367521,
155
+ 1.4444444444444444,
156
+ 1.079059829059829,
157
+ 0.8872863247863247,
158
+ 1.1450320512820513,
159
+ 1.1805555555555556,
160
+ 1.265491452991453,
161
+ 0.6677350427350427,
162
+ 1.2833867521367521,
163
+ 0.6378205128205128,
164
+ 0.8138354700854701,
165
+ 0.9748931623931624,
166
+ 1.09375,
167
+ 0.9823717948717948,
168
+ 0.7385149572649573,
169
+ 1.013087606837607,
170
+ 1.03125,
171
+ 1.375,
172
+ 1.0860042735042734,
173
+ 1.108974358974359,
174
+ 0.6808226495726496,
175
+ 1.0969551282051282,
176
+ 1.092681623931624,
177
+ 0.7751068376068376,
178
+ 1.0144230769230769,
179
+ 1.1850961538461537,
180
+ 0.8872863247863247,
181
+ 1.173344017094017,
182
+ 1.0550213675213675,
183
+ 1.0531517094017093,
184
+ 1.1765491452991452,
185
+ 1.0606303418803418,
186
+ 1.1917735042735043,
187
+ 1.0208333333333333,
188
+ 0.8181089743589743,
189
+ 1.232905982905983,
190
+ 1.2382478632478633,
191
+ 0.9719551282051282,
192
+ 1.1530448717948718,
193
+ 0.717948717948718,
194
+ 0.7630876068376068,
195
+ 1.1378205128205128,
196
+ 1.0325854700854702,
197
+ 0.8766025641025641,
198
+ 1.1442307692307692,
199
+ 1.3659188034188035,
200
+ 0.9967948717948718,
201
+ 0.999732905982906,
202
+ 1.0825320512820513,
203
+ 0.8733974358974359,
204
+ 0.9172008547008547,
205
+ 0.7823183760683761,
206
+ 0.6477029914529915
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.0034643283477964705,
211
+ 0.005188672353807005,
212
+ 0.005919051801513502,
213
+ 0.007927802834353624,
214
+ 0.007492936068611373
215
+ ],
216
+ "model_info_gains": [
217
+ 0.17547253211244207,
218
+ 0.23771486753090237,
219
+ 0.06999899861296963,
220
+ 0.12463588842061124,
221
+ 0.030768091885622375
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0018642758487678872,
225
+ 0.0017243440060105341,
226
+ 0.0007303794477064976,
227
+ 0.0020087510328401217,
228
+ -0.00043486676574225124
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.36698717948717946,
232
+ 0.5448717948717948,
233
+ 0.6137820512820513,
234
+ 0.6698717948717948,
235
+ 0.6682692307692307
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.3541666666666667,
239
+ 0.6971153846153846,
240
+ 0.7307692307692307,
241
+ 0.7532051282051282,
242
+ 0.7596153846153846
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.065093768964942,
247
+ 0.9358625252950364,
248
+ 0.8875634705422143,
249
+ 0.8341417519496422,
250
+ 0.8102335187116457
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.5007532051282051,
255
+ 0.5646794871794862,
256
+ 0.5856089743589749,
257
+ 0.611041666666666,
258
+ 0.6194551282051278
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9708867521367521,
262
+ 1.2561431623931625,
263
+ 1.2302350427350428,
264
+ 1.0422008547008548,
265
+ 1.029647435897436,
266
+ 1.1009615384615385,
267
+ 1.2083333333333333,
268
+ 0.9172008547008547,
269
+ 1.2262286324786325,
270
+ 1.2478632478632479,
271
+ 0.9035790598290598,
272
+ 1.0924145299145298,
273
+ 1.1808226495726495,
274
+ 0.8608440170940171,
275
+ 1.0563568376068375,
276
+ 1.1896367521367521,
277
+ 0.9321581196581197,
278
+ 0.9161324786324786,
279
+ 0.6947115384615384,
280
+ 0.7040598290598291,
281
+ 1.1378205128205128,
282
+ 1.0550213675213675,
283
+ 0.6933760683760684,
284
+ 0.9169337606837606,
285
+ 1.1356837606837606,
286
+ 0.9861111111111112,
287
+ 0.9537927350427351,
288
+ 1.171474358974359,
289
+ 0.7614850427350427,
290
+ 0.9861111111111112,
291
+ 1.0582264957264957,
292
+ 0.9762286324786325,
293
+ 0.9610042735042735,
294
+ 1.0080128205128205,
295
+ 0.9399038461538461,
296
+ 0.8707264957264957,
297
+ 0.6466346153846154,
298
+ 0.7983440170940171,
299
+ 1.1784188034188035,
300
+ 0.9714209401709402,
301
+ 1.0651709401709402,
302
+ 0.9604700854700855,
303
+ 0.7489316239316239,
304
+ 0.9284188034188035,
305
+ 0.9476495726495726,
306
+ 0.686698717948718,
307
+ 0.7441239316239316,
308
+ 1.2946047008547008,
309
+ 1.3971688034188035,
310
+ 1.0200320512820513,
311
+ 0.8894230769230769,
312
+ 1.1362179487179487,
313
+ 1.1442307692307692,
314
+ 1.2152777777777777,
315
+ 0.655448717948718,
316
+ 1.2729700854700854,
317
+ 0.7174145299145299,
318
+ 0.7897970085470085,
319
+ 0.937232905982906,
320
+ 1.1212606837606838,
321
+ 0.9572649572649573,
322
+ 1.1340811965811965,
323
+ 1.0769230769230769,
324
+ 1.049412393162393,
325
+ 1.3213141025641026,
326
+ 0.9524572649572649,
327
+ 1.0998931623931625,
328
+ 0.49278846153846156,
329
+ 1.0611645299145298,
330
+ 1.1359508547008548,
331
+ 0.7435897435897436,
332
+ 1.0721153846153846,
333
+ 1.1626602564102564,
334
+ 0.9172008547008547,
335
+ 1.1450320512820513,
336
+ 1.0264423076923077,
337
+ 1.0592948717948718,
338
+ 1.2572115384615385,
339
+ 0.8771367521367521,
340
+ 1.1599893162393162,
341
+ 1.0822649572649572,
342
+ 0.8191773504273504,
343
+ 1.2694978632478633,
344
+ 1.2232905982905984,
345
+ 0.9177350427350427,
346
+ 1.092681623931624,
347
+ 0.7203525641025641,
348
+ 0.8015491452991453,
349
+ 1.1298076923076923,
350
+ 0.9417735042735043,
351
+ 0.6412927350427351,
352
+ 1.1842948717948718,
353
+ 1.3477564102564104,
354
+ 0.9714209401709402,
355
+ 0.967948717948718,
356
+ 0.9778311965811965,
357
+ 0.9220085470085471,
358
+ 0.969551282051282,
359
+ 0.8733974358974359,
360
+ 0.6428952991452992
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.3541666666666667,
364
+ 0.5128205128205128,
365
+ 0.5592948717948718,
366
+ 0.7035256410256411,
367
+ 0.780448717948718
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.1427710365748351,
372
+ 0.9720881500466481,
373
+ 0.8177517271759489,
374
+ 0.712411341060424,
375
+ 0.646890327764258
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.46540064102564077,
380
+ 0.5509134615384619,
381
+ 0.6258814102564109,
382
+ 0.6752403846153852,
383
+ 0.7040064102564104
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.5547542735042735,
387
+ 0.9797008547008547,
388
+ 1.580128205128205,
389
+ 1.0902777777777777,
390
+ 0.9391025641025641,
391
+ 1.3319978632478633,
392
+ 1.2764423076923077,
393
+ 0.8496260683760684,
394
+ 1.2200854700854702,
395
+ 1.1797542735042734,
396
+ 0.5114850427350427,
397
+ 1.4508547008547008,
398
+ 1.2467948717948718,
399
+ 0.42895299145299143,
400
+ 0.8263888888888888,
401
+ 1.220352564102564,
402
+ 1.217147435897436,
403
+ 0.9770299145299145,
404
+ 0.47836538461538464,
405
+ 0.5459401709401709,
406
+ 1.266025641025641,
407
+ 1.0400641025641026,
408
+ 0.42628205128205127,
409
+ 0.6503739316239316,
410
+ 0.9246794871794872,
411
+ 1.2152777777777777,
412
+ 0.7833867521367521,
413
+ 1.2331730769230769,
414
+ 0.9217414529914529,
415
+ 0.5974893162393162,
416
+ 1.0916132478632479,
417
+ 0.5753205128205128,
418
+ 1.3803418803418803,
419
+ 0.6367521367521367,
420
+ 1.0315170940170941,
421
+ 0.4636752136752137,
422
+ 0.3469551282051282,
423
+ 0.5422008547008547,
424
+ 0.8557692307692307,
425
+ 1.0360576923076923,
426
+ 1.3034188034188035,
427
+ 0.7024572649572649,
428
+ 0.592948717948718,
429
+ 0.4893162393162393,
430
+ 0.5272435897435898,
431
+ 0.49198717948717946,
432
+ 0.9206730769230769,
433
+ 1.1522435897435896,
434
+ 1.532852564102564,
435
+ 1.1856303418803418,
436
+ 0.4479166666666667,
437
+ 0.8715277777777778,
438
+ 1.5798611111111112,
439
+ 1.1487713675213675,
440
+ 0.6006944444444444,
441
+ 1.4025106837606838,
442
+ 0.38274572649572647,
443
+ 0.8167735042735043,
444
+ 0.7681623931623932,
445
+ 0.9607371794871795,
446
+ 0.7302350427350427,
447
+ 0.6290064102564102,
448
+ 1.1436965811965811,
449
+ 0.8822115384615384,
450
+ 1.0924145299145298,
451
+ 0.9105235042735043,
452
+ 0.8950320512820513,
453
+ 0.7110042735042735,
454
+ 1.2799145299145298,
455
+ 1.3167735042735043,
456
+ 0.5766559829059829,
457
+ 1.1989850427350428,
458
+ 1.5243055555555556,
459
+ 0.8619123931623932,
460
+ 1.4409722222222223,
461
+ 1.2903311965811965,
462
+ 1.1493055555555556,
463
+ 1.3015491452991452,
464
+ 1.0403311965811965,
465
+ 1.0707799145299146,
466
+ 1.2783119658119657,
467
+ 0.7059294871794872,
468
+ 1.4297542735042734,
469
+ 0.9612713675213675,
470
+ 1.045405982905983,
471
+ 1.3798076923076923,
472
+ 0.5793269230769231,
473
+ 0.8482905982905983,
474
+ 1.4033119658119657,
475
+ 0.8824786324786325,
476
+ 0.9051816239316239,
477
+ 1.2134081196581197,
478
+ 1.6642628205128205,
479
+ 0.780448717948718,
480
+ 0.7077991452991453,
481
+ 1.1810897435897436,
482
+ 0.9313568376068376,
483
+ 1.2427884615384615,
484
+ 0.8034188034188035,
485
+ 0.3683226495726496
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.004637383858467869,
490
+ 0.009826805149679365,
491
+ 0.017446453089481413,
492
+ 0.026058936861306555,
493
+ 0.03533104713549106
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.102690994471146,
497
+ 0.7743494057379064,
498
+ 0.5792868416204681,
499
+ 0.41050487274756847,
500
+ 0.300437605506844
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.003037331359439285,
504
+ 0.005189421291211497,
505
+ 0.007619647939802048,
506
+ 0.008612483771825143,
507
+ 0.009272110274184505
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.36698717948717946,
511
+ 0.6458333333333334,
512
+ 0.8413461538461539,
513
+ 0.9711538461538461,
514
+ 0.9823717948717948
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.9530802090504897,
519
+ 0.7724877556853894,
520
+ 0.6583210070991964,
521
+ 0.5851700692166012,
522
+ 0.5389264355319853
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5565705128205131,
527
+ 0.6443589743589739,
528
+ 0.6994230769230766,
529
+ 0.7324519230769229,
530
+ 0.7524679487179492
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.9185363247863247,
534
+ 1.0729166666666667,
535
+ 1.4906517094017093,
536
+ 1.0897435897435896,
537
+ 0.9775641025641025,
538
+ 1.203525641025641,
539
+ 1.2000534188034189,
540
+ 0.8135683760683761,
541
+ 1.2454594017094016,
542
+ 1.28125,
543
+ 0.7248931623931624,
544
+ 1.2379807692307692,
545
+ 1.2069978632478633,
546
+ 0.6701388888888888,
547
+ 0.9871794871794872,
548
+ 1.1907051282051282,
549
+ 1.0563568376068375,
550
+ 0.9743589743589743,
551
+ 0.5221688034188035,
552
+ 0.6089743589743589,
553
+ 1.1167200854700854,
554
+ 0.9874465811965812,
555
+ 0.5197649572649573,
556
+ 0.7588141025641025,
557
+ 0.9230769230769231,
558
+ 1.075587606837607,
559
+ 0.8199786324786325,
560
+ 1.1845619658119657,
561
+ 0.9035790598290598,
562
+ 0.7128739316239316,
563
+ 1.1672008547008548,
564
+ 0.7441239316239316,
565
+ 1.1559829059829059,
566
+ 0.7561431623931624,
567
+ 0.9754273504273504,
568
+ 0.7625534188034188,
569
+ 0.6837606837606838,
570
+ 0.6498397435897436,
571
+ 0.9460470085470085,
572
+ 1.016559829059829,
573
+ 1.1145833333333333,
574
+ 0.7256944444444444,
575
+ 0.6450320512820513,
576
+ 0.7743055555555556,
577
+ 0.688301282051282,
578
+ 0.6773504273504274,
579
+ 0.9105235042735043,
580
+ 1.1081730769230769,
581
+ 1.4553952991452992,
582
+ 1.0966880341880343,
583
+ 0.6348824786324786,
584
+ 0.9476495726495726,
585
+ 1.3947649572649572,
586
+ 1.1989850427350428,
587
+ 0.6891025641025641,
588
+ 1.1896367521367521,
589
+ 0.5697115384615384,
590
+ 0.8261217948717948,
591
+ 0.8378739316239316,
592
+ 1.0352564102564104,
593
+ 0.8092948717948718,
594
+ 1.171741452991453,
595
+ 1.123931623931624,
596
+ 0.9471153846153846,
597
+ 1.139690170940171,
598
+ 0.8509615384615384,
599
+ 0.96875,
600
+ 0.6137820512820513,
601
+ 1.2857905982905984,
602
+ 1.2825854700854702,
603
+ 0.7425213675213675,
604
+ 1.0878739316239316,
605
+ 1.3961004273504274,
606
+ 0.9727564102564102,
607
+ 1.2788461538461537,
608
+ 1.1153846153846154,
609
+ 1.0876068376068375,
610
+ 1.28125,
611
+ 0.8050213675213675,
612
+ 0.9759615384615384,
613
+ 1.2411858974358974,
614
+ 0.6792200854700855,
615
+ 1.3210470085470085,
616
+ 1.0742521367521367,
617
+ 1.1049679487179487,
618
+ 1.169871794871795,
619
+ 0.6522435897435898,
620
+ 0.9105235042735043,
621
+ 1.3007478632478633,
622
+ 0.8520299145299145,
623
+ 0.6327457264957265,
624
+ 1.2414529914529915,
625
+ 1.5018696581196582,
626
+ 0.7713675213675214,
627
+ 0.8226495726495726,
628
+ 1.0625,
629
+ 1.0208333333333333,
630
+ 1.1493055555555556,
631
+ 0.7561431623931624,
632
+ 0.5243055555555556
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.456193426765321,
637
+ 2.092098631009541,
638
+ 2.461672805766478,
639
+ 2.653471205441637,
640
+ 2.7433783559418106
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.47929487179487185,
645
+ 0.5181089743589743,
646
+ 0.545048076923077,
647
+ 0.5637820512820516,
648
+ 0.577628205128205
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1613247863247864,
652
+ 1.1685363247863247,
653
+ 1.4292200854700854,
654
+ 1.3066239316239316,
655
+ 1.0750534188034189,
656
+ 0.6712072649572649,
657
+ 0.7628205128205128,
658
+ 0.7654914529914529,
659
+ 1.0742521367521367,
660
+ 1.5002670940170941,
661
+ 1.2777777777777777,
662
+ 0.8501602564102564,
663
+ 1.361912393162393,
664
+ 0.9185363247863247,
665
+ 1.3995726495726495,
666
+ 1.424412393162393,
667
+ 1.1789529914529915,
668
+ 1.0264423076923077,
669
+ 0.7280982905982906,
670
+ 0.8774038461538461,
671
+ 0.6330128205128205,
672
+ 1.1458333333333333,
673
+ 0.8186431623931624,
674
+ 1.2377136752136753,
675
+ 0.9014423076923077,
676
+ 0.8736645299145299,
677
+ 1.0405982905982907,
678
+ 1.327457264957265,
679
+ 0.7692307692307693,
680
+ 1.2126068376068375,
681
+ 1.3872863247863247,
682
+ 1.2751068376068375,
683
+ 0.48370726495726496,
684
+ 1.2825854700854702,
685
+ 0.9019764957264957,
686
+ 1.0726495726495726,
687
+ 0.8637820512820513,
688
+ 0.8167735042735043,
689
+ 1.0357905982905984,
690
+ 0.719017094017094,
691
+ 1.2251602564102564,
692
+ 1.2804487179487178,
693
+ 0.719284188034188,
694
+ 1.1063034188034189,
695
+ 1.1060363247863247,
696
+ 0.6495726495726496,
697
+ 0.8226495726495726,
698
+ 1.3354700854700854,
699
+ 1.3068910256410255,
700
+ 1.0080128205128205,
701
+ 1.1821581196581197,
702
+ 0.8146367521367521,
703
+ 1.205128205128205,
704
+ 1.3215811965811965,
705
+ 1.1268696581196582,
706
+ 1.2422542735042734,
707
+ 0.843215811965812,
708
+ 0.7561431623931624,
709
+ 1.3159722222222223,
710
+ 1.0112179487179487,
711
+ 1.0584935897435896,
712
+ 0.8170405982905983,
713
+ 1.1538461538461537,
714
+ 0.625534188034188,
715
+ 1.3186431623931625,
716
+ 0.9172008547008547,
717
+ 1.0213675213675213,
718
+ 0.4706196581196581,
719
+ 0.7996794871794872,
720
+ 1.1263354700854702,
721
+ 1.0729166666666667,
722
+ 0.7147435897435898,
723
+ 1.295940170940171,
724
+ 0.8530982905982906,
725
+ 1.201121794871795,
726
+ 0.7470619658119658,
727
+ 0.7537393162393162,
728
+ 1.0422008547008548,
729
+ 0.8253205128205128,
730
+ 1.1661324786324787,
731
+ 1.1701388888888888,
732
+ 0.8026175213675214,
733
+ 1.0528846153846154,
734
+ 0.9946581196581197,
735
+ 1.1901709401709402,
736
+ 1.1228632478632479,
737
+ 0.6720085470085471,
738
+ 0.8010149572649573,
739
+ 1.080662393162393,
740
+ 1.2208867521367521,
741
+ 0.47863247863247865,
742
+ 1.0625,
743
+ 1.2831196581196582,
744
+ 1.1471688034188035,
745
+ 1.3146367521367521,
746
+ 0.6634615384615384,
747
+ 0.9927884615384616,
748
+ 0.49946581196581197,
749
+ 0.5157585470085471,
750
+ 0.7259615384615384
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7316506410256404,
755
+ 0.7410737179487176,
756
+ 0.7532852564102561,
757
+ 0.7523878205128202,
758
+ 0.7572756410256417
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6798076923076929,
763
+ 0.6891666666666674,
764
+ 0.7054967948717944,
765
+ 0.7046153846153841,
766
+ 0.7142948717948719
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_55_seed1/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_55_seed1/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_55_seed1.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.3108974358974359,
64
+ 0.4310897435897436,
65
+ 0.5048076923076923,
66
+ 0.532051282051282,
67
+ 0.5592948717948718
68
+ ],
69
+ "model_accs": [
70
+ 0.3108974358974359,
71
+ 0.4310897435897436,
72
+ 0.5048076923076923,
73
+ 0.532051282051282,
74
+ 0.5592948717948718
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.34455128205128205,
78
+ 0.453525641025641,
79
+ 0.5032051282051282,
80
+ 0.5625,
81
+ 0.592948717948718
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3317307692307692,
85
+ 0.6185897435897436,
86
+ 0.6842948717948718,
87
+ 0.7035256410256411,
88
+ 0.6634615384615384
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.124508685030557,
93
+ 1.0128510295132183,
94
+ 0.9586535501714604,
95
+ 0.8981525848463221,
96
+ 0.8905827192207831
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.46908653846153936,
101
+ 0.5256730769230772,
102
+ 0.5554166666666662,
103
+ 0.5804326923076926,
104
+ 0.583301282051282
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.780448717948718,
108
+ 1.1949786324786325,
109
+ 1.2716346153846154,
110
+ 1.1167200854700854,
111
+ 1.063034188034188,
112
+ 1.1148504273504274,
113
+ 1.1159188034188035,
114
+ 0.9893162393162394,
115
+ 1.0873397435897436,
116
+ 1.1006944444444444,
117
+ 0.8036858974358975,
118
+ 1.0480769230769231,
119
+ 1.2540064102564104,
120
+ 0.8317307692307693,
121
+ 1.044871794871795,
122
+ 1.1047008547008548,
123
+ 0.8856837606837606,
124
+ 0.8952991452991453,
125
+ 0.7027243589743589,
126
+ 0.6629273504273504,
127
+ 1.0400641025641026,
128
+ 1.0189636752136753,
129
+ 0.7040598290598291,
130
+ 0.8870192307692307,
131
+ 1.1180555555555556,
132
+ 0.9938568376068376,
133
+ 0.9452457264957265,
134
+ 1.140224358974359,
135
+ 0.7473290598290598,
136
+ 1.0082799145299146,
137
+ 1.0809294871794872,
138
+ 1.0411324786324787,
139
+ 0.9022435897435898,
140
+ 0.9473824786324786,
141
+ 0.9188034188034188,
142
+ 0.8311965811965812,
143
+ 0.5360576923076923,
144
+ 0.8926282051282052,
145
+ 1.123931623931624,
146
+ 0.9981303418803419,
147
+ 1.0852029914529915,
148
+ 1.0192307692307692,
149
+ 0.6776175213675214,
150
+ 0.8816773504273504,
151
+ 0.9284188034188035,
152
+ 0.6826923076923077,
153
+ 0.7286324786324786,
154
+ 1.297275641025641,
155
+ 1.4452457264957266,
156
+ 1.0651709401709402,
157
+ 0.937232905982906,
158
+ 1.1279380341880343,
159
+ 1.172542735042735,
160
+ 1.2735042735042734,
161
+ 0.7150106837606838,
162
+ 1.2620192307692308,
163
+ 0.6760149572649573,
164
+ 0.8106303418803419,
165
+ 0.9895833333333334,
166
+ 1.1028311965811965,
167
+ 1.0408653846153846,
168
+ 0.7764423076923077,
169
+ 0.9925213675213675,
170
+ 1.0189636752136753,
171
+ 1.4038461538461537,
172
+ 1.0854700854700854,
173
+ 1.0852029914529915,
174
+ 0.7061965811965812,
175
+ 1.0293803418803418,
176
+ 1.0574252136752136,
177
+ 0.7900641025641025,
178
+ 0.9743589743589743,
179
+ 1.1957799145299146,
180
+ 0.8907585470085471,
181
+ 1.203792735042735,
182
+ 1.0416666666666667,
183
+ 1.0435363247863247,
184
+ 1.1760149572649572,
185
+ 1.0446047008547008,
186
+ 1.1762820512820513,
187
+ 1.0432692307692308,
188
+ 0.811965811965812,
189
+ 1.2000534188034189,
190
+ 1.2267628205128205,
191
+ 0.9783653846153846,
192
+ 1.1447649572649572,
193
+ 0.749465811965812,
194
+ 0.7604166666666666,
195
+ 1.1367521367521367,
196
+ 1.0520833333333333,
197
+ 0.8555021367521367,
198
+ 1.1282051282051282,
199
+ 1.3477564102564104,
200
+ 1.016559829059829,
201
+ 0.9890491452991453,
202
+ 1.09375,
203
+ 0.8472222222222222,
204
+ 0.8966346153846154,
205
+ 0.7721688034188035,
206
+ 0.6503739316239316
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.00275958107991815,
211
+ 0.003989658218264853,
212
+ 0.005192947231174791,
213
+ 0.006251950800961372,
214
+ 0.006371420299715124
215
+ ],
216
+ "model_info_gains": [
217
+ 0.227254565772049,
218
+ 0.040634409077534336,
219
+ 0.11545044892848494,
220
+ 0.09742612242343342,
221
+ 0.08574706112538175
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0011595285808895666,
225
+ 0.0012300771383467034,
226
+ 0.0012032890129099372,
227
+ 0.0010590035697865812,
228
+ 0.00011946949875375222
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.35096153846153844,
232
+ 0.4551282051282051,
233
+ 0.5416666666666666,
234
+ 0.5769230769230769,
235
+ 0.6073717948717948
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.34134615384615385,
239
+ 0.6923076923076923,
240
+ 0.7339743589743589,
241
+ 0.7419871794871795,
242
+ 0.7275641025641025
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.0895212597317192,
247
+ 0.9773295138908689,
248
+ 0.9160239667724889,
249
+ 0.8660583641751157,
250
+ 0.834543134699745
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.4857211538461533,
255
+ 0.5440224358974356,
256
+ 0.5752884615384622,
257
+ 0.5971794871794879,
258
+ 0.6124519230769239
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 1.0315170940170941,
262
+ 1.2403846153846154,
263
+ 1.2387820512820513,
264
+ 1.0643696581196582,
265
+ 1.0854700854700854,
266
+ 1.094284188034188,
267
+ 1.1896367521367521,
268
+ 0.9428418803418803,
269
+ 1.1933760683760684,
270
+ 1.2534722222222223,
271
+ 0.9123931623931624,
272
+ 1.0753205128205128,
273
+ 1.2075320512820513,
274
+ 0.8856837606837606,
275
+ 1.0235042735042734,
276
+ 1.1549145299145298,
277
+ 0.9233440170940171,
278
+ 0.874198717948718,
279
+ 0.6912393162393162,
280
+ 0.6861645299145299,
281
+ 1.1038995726495726,
282
+ 1.0897435897435896,
283
+ 0.6939102564102564,
284
+ 0.8725961538461539,
285
+ 1.1052350427350428,
286
+ 0.9452457264957265,
287
+ 0.9428418803418803,
288
+ 1.1279380341880343,
289
+ 0.7580128205128205,
290
+ 1.0184294871794872,
291
+ 1.0510149572649572,
292
+ 1.000534188034188,
293
+ 0.9492521367521367,
294
+ 1.0253739316239316,
295
+ 0.8774038461538461,
296
+ 0.9078525641025641,
297
+ 0.6485042735042735,
298
+ 0.8461538461538461,
299
+ 1.1626602564102564,
300
+ 1.0056089743589745,
301
+ 1.0387286324786325,
302
+ 1.0109508547008548,
303
+ 0.7353098290598291,
304
+ 0.969284188034188,
305
+ 0.9676816239316239,
306
+ 0.7286324786324786,
307
+ 0.7417200854700855,
308
+ 1.266559829059829,
309
+ 1.3936965811965811,
310
+ 0.9853098290598291,
311
+ 0.9577991452991453,
312
+ 1.1188568376068375,
313
+ 1.1292735042735043,
314
+ 1.1931089743589745,
315
+ 0.7061965811965812,
316
+ 1.2582799145299146,
317
+ 0.7572115384615384,
318
+ 0.7932692307692307,
319
+ 0.9444444444444444,
320
+ 1.1081730769230769,
321
+ 1.0202991452991452,
322
+ 1.1669337606837606,
323
+ 1.0654380341880343,
324
+ 1.0691773504273505,
325
+ 1.342147435897436,
326
+ 0.9409722222222222,
327
+ 1.0769230769230769,
328
+ 0.5048076923076923,
329
+ 1.0221688034188035,
330
+ 1.0905448717948718,
331
+ 0.7588141025641025,
332
+ 1.0184294871794872,
333
+ 1.1655982905982907,
334
+ 0.9123931623931624,
335
+ 1.1984508547008548,
336
+ 1.0114850427350428,
337
+ 1.0566239316239316,
338
+ 1.2478632478632479,
339
+ 0.8506944444444444,
340
+ 1.1495726495726495,
341
+ 1.1290064102564104,
342
+ 0.8066239316239316,
343
+ 1.2206196581196582,
344
+ 1.1981837606837606,
345
+ 0.9278846153846154,
346
+ 1.0849358974358974,
347
+ 0.7422542735042735,
348
+ 0.7991452991452992,
349
+ 1.1228632478632479,
350
+ 0.9540598290598291,
351
+ 0.6143162393162394,
352
+ 1.1834935897435896,
353
+ 1.3092948717948718,
354
+ 0.9855769230769231,
355
+ 0.9529914529914529,
356
+ 0.9949252136752137,
357
+ 0.9169337606837606,
358
+ 0.9428418803418803,
359
+ 0.8723290598290598,
360
+ 0.6423611111111112
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.34455128205128205,
364
+ 0.4567307692307692,
365
+ 0.5144230769230769,
366
+ 0.6217948717948718,
367
+ 0.7435897435897436
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.129183104735781,
372
+ 0.9387228817003114,
373
+ 0.7594297039283665,
374
+ 0.624045302270574,
375
+ 0.5503680865748208
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.47269230769230774,
380
+ 0.5670352564102573,
381
+ 0.6525160256410262,
382
+ 0.7136378205128208,
383
+ 0.7441185897435899
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.5865384615384616,
387
+ 0.9965277777777778,
388
+ 1.5523504273504274,
389
+ 1.1258012820512822,
390
+ 0.9698183760683761,
391
+ 1.3338675213675213,
392
+ 1.2278311965811965,
393
+ 0.8536324786324786,
394
+ 1.1931089743589745,
395
+ 1.205662393162393,
396
+ 0.5408653846153846,
397
+ 1.4059829059829059,
398
+ 1.2614850427350428,
399
+ 0.4639423076923077,
400
+ 0.8488247863247863,
401
+ 1.2102029914529915,
402
+ 1.202457264957265,
403
+ 1.0114850427350428,
404
+ 0.49278846153846156,
405
+ 0.5472756410256411,
406
+ 1.2366452991452992,
407
+ 1.0499465811965811,
408
+ 0.4375,
409
+ 0.6495726495726496,
410
+ 0.90625,
411
+ 1.200587606837607,
412
+ 0.7948717948717948,
413
+ 1.2291666666666667,
414
+ 0.905715811965812,
415
+ 0.6209935897435898,
416
+ 1.076655982905983,
417
+ 0.6266025641025641,
418
+ 1.3338675213675213,
419
+ 0.6533119658119658,
420
+ 1.016025641025641,
421
+ 0.4906517094017094,
422
+ 0.37927350427350426,
423
+ 0.5662393162393162,
424
+ 0.8629807692307693,
425
+ 1.063034188034188,
426
+ 1.2879273504273505,
427
+ 0.7294337606837606,
428
+ 0.5924145299145299,
429
+ 0.5237713675213675,
430
+ 0.5411324786324786,
431
+ 0.5178952991452992,
432
+ 0.8974358974358975,
433
+ 1.1487713675213675,
434
+ 1.5365918803418803,
435
+ 1.1789529914529915,
436
+ 0.4580662393162393,
437
+ 0.874465811965812,
438
+ 1.5422008547008548,
439
+ 1.1642628205128205,
440
+ 0.625267094017094,
441
+ 1.361912393162393,
442
+ 0.42414529914529914,
443
+ 0.8181089743589743,
444
+ 0.8018162393162394,
445
+ 0.9703525641025641,
446
+ 0.7780448717948718,
447
+ 0.6674679487179487,
448
+ 1.1463675213675213,
449
+ 0.8766025641025641,
450
+ 1.0894764957264957,
451
+ 0.9310897435897436,
452
+ 0.8800747863247863,
453
+ 0.7139423076923077,
454
+ 1.2393162393162394,
455
+ 1.3015491452991452,
456
+ 0.6065705128205128,
457
+ 1.170405982905983,
458
+ 1.5024038461538463,
459
+ 0.8859508547008547,
460
+ 1.4564636752136753,
461
+ 1.2478632478632479,
462
+ 1.1185897435897436,
463
+ 1.28125,
464
+ 1.0008012820512822,
465
+ 1.0507478632478633,
466
+ 1.2620192307692308,
467
+ 0.7045940170940171,
468
+ 1.4113247863247864,
469
+ 0.9591346153846154,
470
+ 1.0368589743589745,
471
+ 1.3221153846153846,
472
+ 0.6063034188034188,
473
+ 0.8739316239316239,
474
+ 1.374465811965812,
475
+ 0.9083867521367521,
476
+ 0.8643162393162394,
477
+ 1.2155448717948718,
478
+ 1.6493055555555556,
479
+ 0.8079594017094017,
480
+ 0.7612179487179487,
481
+ 1.1909722222222223,
482
+ 0.9350961538461539,
483
+ 1.2048611111111112,
484
+ 0.7841880341880342,
485
+ 0.4043803418803419
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.004760087434696731,
490
+ 0.010798990678127805,
491
+ 0.021116543487947545,
492
+ 0.03356260601760415,
493
+ 0.04824681067531436
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.1400535044272428,
497
+ 0.8742282505432604,
498
+ 0.6771844309141956,
499
+ 0.486675661451798,
500
+ 0.36165317452191253
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.003160034935668148,
504
+ 0.006038903243431075,
505
+ 0.010317552809819738,
506
+ 0.012446062529656606,
507
+ 0.014684204657710209
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.35096153846153844,
511
+ 0.5256410256410257,
512
+ 0.7355769230769231,
513
+ 0.9022435897435898,
514
+ 0.9647435897435898
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.9473546011946922,
519
+ 0.7354654735280283,
520
+ 0.600495458452954,
521
+ 0.5124086369226976,
522
+ 0.464256459219298
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5623878205128211,
527
+ 0.6640224358974363,
528
+ 0.7260897435897435,
529
+ 0.764919871794872,
530
+ 0.7864743589743589
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.8824786324786325,
534
+ 1.0670405982905984,
535
+ 1.4826388888888888,
536
+ 1.0689102564102564,
537
+ 0.9615384615384616,
538
+ 1.1981837606837606,
539
+ 1.189102564102564,
540
+ 0.7999465811965812,
541
+ 1.2686965811965811,
542
+ 1.2887286324786325,
543
+ 0.7270299145299145,
544
+ 1.2043269230769231,
545
+ 1.1915064102564104,
546
+ 0.6781517094017094,
547
+ 0.9837072649572649,
548
+ 1.1848290598290598,
549
+ 1.0600961538461537,
550
+ 1.0144230769230769,
551
+ 0.5170940170940171,
552
+ 0.6303418803418803,
553
+ 1.1295405982905984,
554
+ 0.9759615384615384,
555
+ 0.5090811965811965,
556
+ 0.7564102564102564,
557
+ 0.9257478632478633,
558
+ 1.0657051282051282,
559
+ 0.8079594017094017,
560
+ 1.203525641025641,
561
+ 0.9249465811965812,
562
+ 0.7208867521367521,
563
+ 1.1637286324786325,
564
+ 0.7601495726495726,
565
+ 1.1303418803418803,
566
+ 0.7686965811965812,
567
+ 0.9786324786324786,
568
+ 0.7529380341880342,
569
+ 0.6669337606837606,
570
+ 0.6404914529914529,
571
+ 0.969017094017094,
572
+ 1.0411324786324787,
573
+ 1.1322115384615385,
574
+ 0.7286324786324786,
575
+ 0.6303418803418803,
576
+ 0.7737713675213675,
577
+ 0.6650641025641025,
578
+ 0.6674679487179487,
579
+ 0.9073183760683761,
580
+ 1.1038995726495726,
581
+ 1.4569978632478633,
582
+ 1.1145833333333333,
583
+ 0.624465811965812,
584
+ 0.9476495726495726,
585
+ 1.4107905982905984,
586
+ 1.2131410256410255,
587
+ 0.6842948717948718,
588
+ 1.1776175213675213,
589
+ 0.5665064102564102,
590
+ 0.8186431623931624,
591
+ 0.8413461538461539,
592
+ 1.0186965811965811,
593
+ 0.8261217948717948,
594
+ 1.1340811965811965,
595
+ 1.1436965811965811,
596
+ 0.9193376068376068,
597
+ 1.1220619658119657,
598
+ 0.8592414529914529,
599
+ 0.9700854700854701,
600
+ 0.6036324786324786,
601
+ 1.295405982905983,
602
+ 1.2855235042735043,
603
+ 0.7435897435897436,
604
+ 1.0611645299145298,
605
+ 1.3774038461538463,
606
+ 0.9668803418803419,
607
+ 1.2841880341880343,
608
+ 1.107905982905983,
609
+ 1.0990918803418803,
610
+ 1.2449252136752136,
611
+ 0.8074252136752137,
612
+ 0.9618055555555556,
613
+ 1.2238247863247864,
614
+ 0.655448717948718,
615
+ 1.3026175213675213,
616
+ 1.0838675213675213,
617
+ 1.0822649572649572,
618
+ 1.1487713675213675,
619
+ 0.6372863247863247,
620
+ 0.9313568376068376,
621
+ 1.2604166666666667,
622
+ 0.8274572649572649,
623
+ 0.6354166666666666,
624
+ 1.2291666666666667,
625
+ 1.484241452991453,
626
+ 0.7911324786324786,
627
+ 0.8247863247863247,
628
+ 1.0857371794871795,
629
+ 1.0216346153846154,
630
+ 1.1274038461538463,
631
+ 0.7454594017094017,
632
+ 0.5587606837606838
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.537228239419718,
637
+ 2.348643398677034,
638
+ 2.869194699496746,
639
+ 3.138830316308671,
640
+ 3.2847228687044563
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.46474358974358937,
645
+ 0.4979967948717952,
646
+ 0.5246955128205129,
647
+ 0.5451121794871792,
648
+ 0.5596634615384616
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.2184829059829059,
652
+ 1.1295405982905984,
653
+ 1.4495192307692308,
654
+ 1.3218482905982907,
655
+ 1.1225961538461537,
656
+ 0.6693376068376068,
657
+ 0.7489316239316239,
658
+ 0.7673611111111112,
659
+ 1.0379273504273505,
660
+ 1.4938568376068375,
661
+ 1.2825854700854702,
662
+ 0.844551282051282,
663
+ 1.4041132478632479,
664
+ 0.9310897435897436,
665
+ 1.3808760683760684,
666
+ 1.4145299145299146,
667
+ 1.154647435897436,
668
+ 1.032852564102564,
669
+ 0.7240918803418803,
670
+ 0.8779380341880342,
671
+ 0.625,
672
+ 1.1877670940170941,
673
+ 0.7999465811965812,
674
+ 1.1875,
675
+ 0.8763354700854701,
676
+ 0.8549679487179487,
677
+ 1.015491452991453,
678
+ 1.2911324786324787,
679
+ 0.7796474358974359,
680
+ 1.2403846153846154,
681
+ 1.4011752136752136,
682
+ 1.2540064102564104,
683
+ 0.47889957264957267,
684
+ 1.3018162393162394,
685
+ 0.8768696581196581,
686
+ 1.0961538461538463,
687
+ 0.8450854700854701,
688
+ 0.8290598290598291,
689
+ 1.0371260683760684,
690
+ 0.7310363247863247,
691
+ 1.1746794871794872,
692
+ 1.298344017094017,
693
+ 0.719017094017094,
694
+ 1.1185897435897436,
695
+ 1.1159188034188035,
696
+ 0.6450320512820513,
697
+ 0.8076923076923077,
698
+ 1.295405982905983,
699
+ 1.2844551282051282,
700
+ 0.9764957264957265,
701
+ 1.2099358974358974,
702
+ 0.7751068376068376,
703
+ 1.2096688034188035,
704
+ 1.3074252136752136,
705
+ 1.1565170940170941,
706
+ 1.235309829059829,
707
+ 0.8819444444444444,
708
+ 0.7406517094017094,
709
+ 1.3060897435897436,
710
+ 1.0232371794871795,
711
+ 1.0862713675213675,
712
+ 0.8034188034188035,
713
+ 1.1511752136752136,
714
+ 0.6324786324786325,
715
+ 1.3362713675213675,
716
+ 0.9153311965811965,
717
+ 1.0,
718
+ 0.4829059829059829,
719
+ 0.7705662393162394,
720
+ 1.079594017094017,
721
+ 1.0627670940170941,
722
+ 0.6917735042735043,
723
+ 1.2935363247863247,
724
+ 0.8392094017094017,
725
+ 1.235844017094017,
726
+ 0.7572115384615384,
727
+ 0.7475961538461539,
728
+ 0.999198717948718,
729
+ 0.7922008547008547,
730
+ 1.1583867521367521,
731
+ 1.2099358974358974,
732
+ 0.8074252136752137,
733
+ 1.0438034188034189,
734
+ 0.9882478632478633,
735
+ 1.1992521367521367,
736
+ 1.1185897435897436,
737
+ 0.6808226495726496,
738
+ 0.8036858974358975,
739
+ 1.0966880341880343,
740
+ 1.1968482905982907,
741
+ 0.44337606837606836,
742
+ 1.0512820512820513,
743
+ 1.2852564102564104,
744
+ 1.1696047008547008,
745
+ 1.2793803418803418,
746
+ 0.6597222222222222,
747
+ 0.9850427350427351,
748
+ 0.4732905982905983,
749
+ 0.4895833333333333,
750
+ 0.719017094017094
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7278525641025637,
755
+ 0.7399519230769228,
756
+ 0.7416185897435893,
757
+ 0.7458333333333332,
758
+ 0.7425641025641024
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.679214743589744,
763
+ 0.6924679487179483,
764
+ 0.6926602564102561,
765
+ 0.7026282051282045,
766
+ 0.696442307692308
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_57_seed2/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_57_seed2/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_57_seed2.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.32371794871794873,
64
+ 0.41025641025641024,
65
+ 0.5112179487179487,
66
+ 0.5032051282051282,
67
+ 0.5272435897435898
68
+ ],
69
+ "model_accs": [
70
+ 0.32371794871794873,
71
+ 0.41025641025641024,
72
+ 0.5112179487179487,
73
+ 0.5032051282051282,
74
+ 0.5272435897435898
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.32371794871794873,
78
+ 0.45032051282051283,
79
+ 0.5160256410256411,
80
+ 0.5496794871794872,
81
+ 0.5753205128205128
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3349358974358974,
85
+ 0.6362179487179487,
86
+ 0.6474358974358975,
87
+ 0.6907051282051282,
88
+ 0.6762820512820513
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.0881966756664372,
93
+ 0.9942620813241648,
94
+ 0.9571470977325924,
95
+ 0.9033129773810492,
96
+ 0.8727487988079496
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.4832852564102566,
101
+ 0.5301442307692312,
102
+ 0.5502403846153853,
103
+ 0.5742788461538455,
104
+ 0.5904166666666665
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.719551282051282,
108
+ 1.2315705128205128,
109
+ 1.2379807692307692,
110
+ 1.0977564102564104,
111
+ 1.0037393162393162,
112
+ 1.1228632478632479,
113
+ 1.171474358974359,
114
+ 0.9853098290598291,
115
+ 1.0945512820512822,
116
+ 1.1274038461538463,
117
+ 0.8314636752136753,
118
+ 1.0819978632478633,
119
+ 1.2091346153846154,
120
+ 0.8221153846153846,
121
+ 1.0253739316239316,
122
+ 1.1511752136752136,
123
+ 0.9169337606837606,
124
+ 0.8643162393162394,
125
+ 0.7096688034188035,
126
+ 0.6757478632478633,
127
+ 1.1207264957264957,
128
+ 1.000534188034188,
129
+ 0.7120726495726496,
130
+ 0.9324252136752137,
131
+ 1.174412393162393,
132
+ 1.0173611111111112,
133
+ 0.9559294871794872,
134
+ 1.1888354700854702,
135
+ 0.7251602564102564,
136
+ 1.0,
137
+ 1.063568376068376,
138
+ 1.0387286324786325,
139
+ 0.9353632478632479,
140
+ 0.9847756410256411,
141
+ 0.9123931623931624,
142
+ 0.8400106837606838,
143
+ 0.5053418803418803,
144
+ 0.9006410256410257,
145
+ 1.1503739316239316,
146
+ 0.9871794871794872,
147
+ 1.1153846153846154,
148
+ 0.9666132478632479,
149
+ 0.7267628205128205,
150
+ 0.8979700854700855,
151
+ 0.9011752136752137,
152
+ 0.6399572649572649,
153
+ 0.7467948717948718,
154
+ 1.3571047008547008,
155
+ 1.4137286324786325,
156
+ 1.1121794871794872,
157
+ 0.9190705128205128,
158
+ 1.189102564102564,
159
+ 1.1981837606837606,
160
+ 1.2457264957264957,
161
+ 0.6623931623931624,
162
+ 1.327190170940171,
163
+ 0.6284722222222222,
164
+ 0.7673611111111112,
165
+ 0.9342948717948718,
166
+ 1.047542735042735,
167
+ 1.0259081196581197,
168
+ 0.7264957264957265,
169
+ 1.0251068376068375,
170
+ 1.0373931623931625,
171
+ 1.3645833333333333,
172
+ 1.0889423076923077,
173
+ 1.0980235042735043,
174
+ 0.6650641025641025,
175
+ 1.0836004273504274,
176
+ 1.0980235042735043,
177
+ 0.7481303418803419,
178
+ 1.0413995726495726,
179
+ 1.1533119658119657,
180
+ 0.8402777777777778,
181
+ 1.1907051282051282,
182
+ 1.077190170940171,
183
+ 1.0721153846153846,
184
+ 1.2000534188034189,
185
+ 1.1038995726495726,
186
+ 1.2278311965811965,
187
+ 0.9871794871794872,
188
+ 0.8055555555555556,
189
+ 1.2604166666666667,
190
+ 1.2248931623931625,
191
+ 0.9356303418803419,
192
+ 1.1610576923076923,
193
+ 0.7270299145299145,
194
+ 0.7128739316239316,
195
+ 1.1009615384615385,
196
+ 1.0392628205128205,
197
+ 0.9166666666666666,
198
+ 1.1394230769230769,
199
+ 1.3709935897435896,
200
+ 1.0125534188034189,
201
+ 0.9826388888888888,
202
+ 1.1236645299145298,
203
+ 0.8611111111111112,
204
+ 0.8886217948717948,
205
+ 0.8052884615384616,
206
+ 0.624465811965812
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000654196630375,
210
+ 0.003748241673394777,
211
+ 0.005132361890356189,
212
+ 0.006556662720297068,
213
+ 0.007432930139980243,
214
+ 0.008667737306981557
215
+ ],
216
+ "model_info_gains": [
217
+ 0.25418195731636656,
218
+ 0.08460538243226115,
219
+ 0.05622354500962734,
220
+ 0.12903143952005156,
221
+ 0.12857899480743504
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0021481762537317395,
225
+ 0.001384120216961412,
226
+ 0.001424300829940879,
227
+ 0.0008762674196831746,
228
+ 0.0012348071670013146
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.32051282051282054,
232
+ 0.47115384615384615,
233
+ 0.5432692307692307,
234
+ 0.5592948717948718,
235
+ 0.5705128205128205
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.3301282051282051,
239
+ 0.6875,
240
+ 0.7131410256410257,
241
+ 0.7307692307692307,
242
+ 0.7131410256410257
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356163821748717,
246
+ 1.0556422762641664,
247
+ 0.9586570487983528,
248
+ 0.9051097266727144,
249
+ 0.8599885252430978,
250
+ 0.8279112291583632
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34895833333333326,
254
+ 0.49910256410256326,
255
+ 0.5466025641025646,
256
+ 0.5755769230769233,
257
+ 0.5956570512820514,
258
+ 0.6110096153846153
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.7900641025641025,
262
+ 1.279647435897436,
263
+ 1.1848290598290598,
264
+ 1.047275641025641,
265
+ 0.9975961538461539,
266
+ 1.0894764957264957,
267
+ 1.2550747863247864,
268
+ 0.9388354700854701,
269
+ 1.2123397435897436,
270
+ 1.2748397435897436,
271
+ 0.936965811965812,
272
+ 1.0980235042735043,
273
+ 1.155715811965812,
274
+ 0.8645833333333334,
275
+ 1.029647435897436,
276
+ 1.2077991452991452,
277
+ 0.969284188034188,
278
+ 0.8538995726495726,
279
+ 0.6893696581196581,
280
+ 0.7243589743589743,
281
+ 1.1829594017094016,
282
+ 1.0659722222222223,
283
+ 0.7086004273504274,
284
+ 0.9364316239316239,
285
+ 1.1685363247863247,
286
+ 0.9746260683760684,
287
+ 0.9569978632478633,
288
+ 1.2091346153846154,
289
+ 0.7056623931623932,
290
+ 1.014155982905983,
291
+ 1.0584935897435896,
292
+ 1.0008012820512822,
293
+ 0.9799679487179487,
294
+ 1.0504807692307692,
295
+ 0.8811431623931624,
296
+ 0.9206730769230769,
297
+ 0.6225961538461539,
298
+ 0.8563034188034188,
299
+ 1.1931089743589745,
300
+ 1.0002670940170941,
301
+ 1.0961538461538463,
302
+ 0.9580662393162394,
303
+ 0.781784188034188,
304
+ 0.9813034188034188,
305
+ 0.9388354700854701,
306
+ 0.6810897435897436,
307
+ 0.7702991452991453,
308
+ 1.327724358974359,
309
+ 1.3653846153846154,
310
+ 1.0438034188034189,
311
+ 0.9252136752136753,
312
+ 1.1677350427350428,
313
+ 1.1535790598290598,
314
+ 1.1706730769230769,
315
+ 0.6436965811965812,
316
+ 1.2999465811965811,
317
+ 0.7013888888888888,
318
+ 0.7550747863247863,
319
+ 0.906517094017094,
320
+ 1.0595619658119657,
321
+ 0.9893162393162394,
322
+ 1.1055021367521367,
323
+ 1.094818376068376,
324
+ 1.0726495726495726,
325
+ 1.3050213675213675,
326
+ 0.9463141025641025,
327
+ 1.0966880341880343,
328
+ 0.4775641025641026,
329
+ 1.0827991452991452,
330
+ 1.1364850427350428,
331
+ 0.7222222222222222,
332
+ 1.0897435897435896,
333
+ 1.1124465811965811,
334
+ 0.8600427350427351,
335
+ 1.156784188034188,
336
+ 1.048344017094017,
337
+ 1.0638354700854702,
338
+ 1.264155982905983,
339
+ 0.9206730769230769,
340
+ 1.1837606837606838,
341
+ 1.0440705128205128,
342
+ 0.8114316239316239,
343
+ 1.2876602564102564,
344
+ 1.189102564102564,
345
+ 0.8904914529914529,
346
+ 1.0803952991452992,
347
+ 0.7347756410256411,
348
+ 0.7697649572649573,
349
+ 1.0924145299145298,
350
+ 0.9746260683760684,
351
+ 0.7067307692307693,
352
+ 1.1842948717948718,
353
+ 1.359775641025641,
354
+ 0.9879807692307693,
355
+ 0.9508547008547008,
356
+ 1.0101495726495726,
357
+ 0.9180021367521367,
358
+ 0.9337606837606838,
359
+ 0.8902243589743589,
360
+ 0.6135149572649573
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.32532051282051283,
364
+ 0.453525641025641,
365
+ 0.5785256410256411,
366
+ 0.6153846153846154,
367
+ 0.75
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.112815277504166,
372
+ 0.9047236623106071,
373
+ 0.73495870270441,
374
+ 0.610534154103777,
375
+ 0.5394455865522593
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.4796314102564098,
380
+ 0.5834294871794882,
381
+ 0.6624038461538464,
382
+ 0.7162820512820511,
383
+ 0.7489102564102562
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.5958867521367521,
387
+ 1.0101495726495726,
388
+ 1.548344017094017,
389
+ 1.1372863247863247,
390
+ 0.9706196581196581,
391
+ 1.34375,
392
+ 1.2419871794871795,
393
+ 0.875534188034188,
394
+ 1.1736111111111112,
395
+ 1.202190170940171,
396
+ 0.5408653846153846,
397
+ 1.419871794871795,
398
+ 1.2446581196581197,
399
+ 0.4810363247863248,
400
+ 0.8298611111111112,
401
+ 1.2099358974358974,
402
+ 1.2104700854700854,
403
+ 0.9602029914529915,
404
+ 0.4970619658119658,
405
+ 0.5531517094017094,
406
+ 1.251068376068376,
407
+ 1.0702457264957266,
408
+ 0.44871794871794873,
409
+ 0.6380876068376068,
410
+ 0.9222756410256411,
411
+ 1.1706730769230769,
412
+ 0.7863247863247863,
413
+ 1.2278311965811965,
414
+ 0.8915598290598291,
415
+ 0.6543803418803419,
416
+ 1.0705128205128205,
417
+ 0.6220619658119658,
418
+ 1.328525641025641,
419
+ 0.6589209401709402,
420
+ 0.9762286324786325,
421
+ 0.5197649572649573,
422
+ 0.38060897435897434,
423
+ 0.5771901709401709,
424
+ 0.8717948717948718,
425
+ 1.0718482905982907,
426
+ 1.2820512820512822,
427
+ 0.7302350427350427,
428
+ 0.6081730769230769,
429
+ 0.562232905982906,
430
+ 0.5737179487179487,
431
+ 0.5178952991452992,
432
+ 0.8838141025641025,
433
+ 1.1610576923076923,
434
+ 1.5280448717948718,
435
+ 1.172809829059829,
436
+ 0.4893162393162393,
437
+ 0.8977029914529915,
438
+ 1.53125,
439
+ 1.1618589743589745,
440
+ 0.6081730769230769,
441
+ 1.3533653846153846,
442
+ 0.4358974358974359,
443
+ 0.7983440170940171,
444
+ 0.7823183760683761,
445
+ 0.9594017094017094,
446
+ 0.8031517094017094,
447
+ 0.655448717948718,
448
+ 1.1135149572649572,
449
+ 0.905448717948718,
450
+ 1.094284188034188,
451
+ 0.9241452991452992,
452
+ 0.8693910256410257,
453
+ 0.7345085470085471,
454
+ 1.2283653846153846,
455
+ 1.3149038461538463,
456
+ 0.6049679487179487,
457
+ 1.1837606837606838,
458
+ 1.4925213675213675,
459
+ 0.8915598290598291,
460
+ 1.4567307692307692,
461
+ 1.2532051282051282,
462
+ 1.1183226495726495,
463
+ 1.3084935897435896,
464
+ 0.9970619658119658,
465
+ 1.0536858974358974,
466
+ 1.2719017094017093,
467
+ 0.6968482905982906,
468
+ 1.4254807692307692,
469
+ 0.9644764957264957,
470
+ 1.046741452991453,
471
+ 1.3149038461538463,
472
+ 0.5921474358974359,
473
+ 0.8480235042735043,
474
+ 1.3790064102564104,
475
+ 0.9289529914529915,
476
+ 0.8811431623931624,
477
+ 1.2299679487179487,
478
+ 1.6442307692307692,
479
+ 0.7911324786324786,
480
+ 0.7238247863247863,
481
+ 1.1786858974358974,
482
+ 0.9228098290598291,
483
+ 1.2102029914529915,
484
+ 0.7788461538461539,
485
+ 0.3888888888888889
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000654196630375,
489
+ 0.004918503210243823,
490
+ 0.01170279399718474,
491
+ 0.022490298223065343,
492
+ 0.03673538918715517,
493
+ 0.05226519630265942
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.1741744276081851,
497
+ 0.8859003029359622,
498
+ 0.6689406265138397,
499
+ 0.5051128296285503,
500
+ 0.37411798569848426
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.003318437790580785,
504
+ 0.006784290786940918,
505
+ 0.010787504225880604,
506
+ 0.014245090964089822,
507
+ 0.01552980711550425
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.32051282051282054,
511
+ 0.5160256410256411,
512
+ 0.7435897435897436,
513
+ 0.9006410256410257,
514
+ 0.9615384615384616
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356163821748717,
518
+ 0.9223112584703202,
519
+ 0.7149921960588865,
520
+ 0.5854926639304799,
521
+ 0.5056043881368028,
522
+ 0.45441234426731686
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34895833333333326,
526
+ 0.5688782051282042,
527
+ 0.6676121794871798,
528
+ 0.7280448717948711,
529
+ 0.7644711538461544,
530
+ 0.7889423076923069
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.7486645299145299,
534
+ 1.0694444444444444,
535
+ 1.4607371794871795,
536
+ 1.0918803418803418,
537
+ 0.9735576923076923,
538
+ 1.2262286324786325,
539
+ 1.2262286324786325,
540
+ 0.8036858974358975,
541
+ 1.2425213675213675,
542
+ 1.2694978632478633,
543
+ 0.7446581196581197,
544
+ 1.2262286324786325,
545
+ 1.1883012820512822,
546
+ 0.6808226495726496,
547
+ 0.9764957264957265,
548
+ 1.1971153846153846,
549
+ 1.0742521367521367,
550
+ 0.9767628205128205,
551
+ 0.530715811965812,
552
+ 0.6367521367521367,
553
+ 1.1364850427350428,
554
+ 1.0048076923076923,
555
+ 0.5141559829059829,
556
+ 0.7516025641025641,
557
+ 0.9409722222222222,
558
+ 1.0534188034188035,
559
+ 0.8189102564102564,
560
+ 1.1872329059829059,
561
+ 0.8709935897435898,
562
+ 0.7689636752136753,
563
+ 1.1610576923076923,
564
+ 0.7564102564102564,
565
+ 1.1343482905982907,
566
+ 0.7938034188034188,
567
+ 0.9503205128205128,
568
+ 0.7775106837606838,
569
+ 0.6765491452991453,
570
+ 0.6535790598290598,
571
+ 0.9805021367521367,
572
+ 1.0371260683760684,
573
+ 1.1268696581196582,
574
+ 0.7390491452991453,
575
+ 0.6637286324786325,
576
+ 0.8095619658119658,
577
+ 0.6762820512820513,
578
+ 0.6680021367521367,
579
+ 0.9185363247863247,
580
+ 1.123931623931624,
581
+ 1.4425747863247864,
582
+ 1.1022970085470085,
583
+ 0.6621260683760684,
584
+ 0.9676816239316239,
585
+ 1.4014423076923077,
586
+ 1.201655982905983,
587
+ 0.6808226495726496,
588
+ 1.2179487179487178,
589
+ 0.5595619658119658,
590
+ 0.8210470085470085,
591
+ 0.8309294871794872,
592
+ 0.9930555555555556,
593
+ 0.8464209401709402,
594
+ 1.1311431623931625,
595
+ 1.0966880341880343,
596
+ 0.9511217948717948,
597
+ 1.1274038461538463,
598
+ 0.8221153846153846,
599
+ 0.9471153846153846,
600
+ 0.594017094017094,
601
+ 1.268162393162393,
602
+ 1.2684294871794872,
603
+ 0.7334401709401709,
604
+ 1.0633012820512822,
605
+ 1.3792735042735043,
606
+ 0.9602029914529915,
607
+ 1.2887286324786325,
608
+ 1.1351495726495726,
609
+ 1.0555555555555556,
610
+ 1.2529380341880343,
611
+ 0.813034188034188,
612
+ 1.0034722222222223,
613
+ 1.2139423076923077,
614
+ 0.6749465811965812,
615
+ 1.3349358974358974,
616
+ 1.061431623931624,
617
+ 1.1055021367521367,
618
+ 1.1517094017094016,
619
+ 0.6436965811965812,
620
+ 0.9078525641025641,
621
+ 1.2860576923076923,
622
+ 0.8613782051282052,
623
+ 0.6412927350427351,
624
+ 1.2227564102564104,
625
+ 1.4919871794871795,
626
+ 0.8042200854700855,
627
+ 0.8319978632478633,
628
+ 1.078258547008547,
629
+ 0.9949252136752137,
630
+ 1.123931623931624,
631
+ 0.7636217948717948,
632
+ 0.5339209401709402
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.492311314625048,
637
+ 2.276640642019102,
638
+ 2.811705881409954,
639
+ 3.125403336639521,
640
+ 3.356271191750817
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.46690705128205084,
645
+ 0.4962179487179485,
646
+ 0.5199519230769232,
647
+ 0.54125,
648
+ 0.555432692307693
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.126068376068376,
652
+ 1.1680021367521367,
653
+ 1.3683226495726495,
654
+ 1.3469551282051282,
655
+ 1.0392628205128205,
656
+ 0.6388888888888888,
657
+ 0.7962072649572649,
658
+ 0.7339743589743589,
659
+ 1.0659722222222223,
660
+ 1.513621794871795,
661
+ 1.3122329059829059,
662
+ 0.8421474358974359,
663
+ 1.3557692307692308,
664
+ 0.8798076923076923,
665
+ 1.422542735042735,
666
+ 1.4730235042735043,
667
+ 1.2230235042735043,
668
+ 1.0,
669
+ 0.7345085470085471,
670
+ 0.9009081196581197,
671
+ 0.6690705128205128,
672
+ 1.1650641025641026,
673
+ 0.8239850427350427,
674
+ 1.2668269230769231,
675
+ 0.9594017094017094,
676
+ 0.8731303418803419,
677
+ 1.0438034188034189,
678
+ 1.3691239316239316,
679
+ 0.7235576923076923,
680
+ 1.2481303418803418,
681
+ 1.3947649572649572,
682
+ 1.296207264957265,
683
+ 0.46474358974358976,
684
+ 1.3231837606837606,
685
+ 0.8528311965811965,
686
+ 1.110042735042735,
687
+ 0.8095619658119658,
688
+ 0.8007478632478633,
689
+ 1.0798611111111112,
690
+ 0.7206196581196581,
691
+ 1.2238247863247864,
692
+ 1.2644230769230769,
693
+ 0.7775106837606838,
694
+ 1.1228632478632479,
695
+ 1.0860042735042734,
696
+ 0.6394230769230769,
697
+ 0.8530982905982906,
698
+ 1.3693910256410255,
699
+ 1.2580128205128205,
700
+ 1.0331196581196582,
701
+ 1.1802884615384615,
702
+ 0.8498931623931624,
703
+ 1.2043269230769231,
704
+ 1.2991452991452992,
705
+ 1.0825320512820513,
706
+ 1.2694978632478633,
707
+ 0.8389423076923077,
708
+ 0.7377136752136753,
709
+ 1.2745726495726495,
710
+ 0.9495192307692307,
711
+ 1.0651709401709402,
712
+ 0.7622863247863247,
713
+ 1.1688034188034189,
714
+ 0.6461004273504274,
715
+ 1.2938034188034189,
716
+ 0.905715811965812,
717
+ 0.9877136752136753,
718
+ 0.4361645299145299,
719
+ 0.8245192307692307,
720
+ 1.1188568376068375,
721
+ 1.0405982905982907,
722
+ 0.7286324786324786,
723
+ 1.2540064102564104,
724
+ 0.8306623931623932,
725
+ 1.2003205128205128,
726
+ 0.7644230769230769,
727
+ 0.7580128205128205,
728
+ 1.0416666666666667,
729
+ 0.8685897435897436,
730
+ 1.2110042735042734,
731
+ 1.1180555555555556,
732
+ 0.8036858974358975,
733
+ 1.0689102564102564,
734
+ 0.9874465811965812,
735
+ 1.1963141025641026,
736
+ 1.1209935897435896,
737
+ 0.6858974358974359,
738
+ 0.7670940170940171,
739
+ 1.0275106837606838,
740
+ 1.2331730769230769,
741
+ 0.5093482905982906,
742
+ 1.049412393162393,
743
+ 1.3293269230769231,
744
+ 1.1645299145299146,
745
+ 1.2884615384615385,
746
+ 0.6808226495726496,
747
+ 0.9829059829059829,
748
+ 0.4497863247863248,
749
+ 0.5216346153846154,
750
+ 0.7174145299145299
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7287339743589738,
755
+ 0.730112179487179,
756
+ 0.7364903846153856,
757
+ 0.734054487179487,
758
+ 0.7404166666666665
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6789583333333334,
763
+ 0.6794391025641029,
764
+ 0.6873557692307695,
765
+ 0.6933333333333332,
766
+ 0.692692307692308
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_74_seed1/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_74_seed1/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_74_seed1.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.11217948717948718,
64
+ 0.33814102564102566,
65
+ 0.40705128205128205,
66
+ 0.39903846153846156,
67
+ 0.44711538461538464
68
+ ],
69
+ "model_accs": [
70
+ 0.11217948717948718,
71
+ 0.33814102564102566,
72
+ 0.40705128205128205,
73
+ 0.39903846153846156,
74
+ 0.44711538461538464
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.3125,
78
+ 0.34134615384615385,
79
+ 0.42467948717948717,
80
+ 0.4567307692307692,
81
+ 0.47115384615384615
82
+ ],
83
+ "model_consistencies": [
84
+ 0.34134615384615385,
85
+ 0.6666666666666666,
86
+ 0.6538461538461539,
87
+ 0.6442307692307693,
88
+ 0.6842948717948718
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.1084234439730003,
93
+ 1.0422582889356224,
94
+ 1.0096403401715524,
95
+ 0.9560923563325124,
96
+ 0.9522267056618691
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.4743429487179491,
101
+ 0.5085897435897438,
102
+ 0.5259294871794874,
103
+ 0.548189102564103,
104
+ 0.5537660256410261
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.6808226495726496,
108
+ 1.2361111111111112,
109
+ 1.2446581196581197,
110
+ 1.0902777777777777,
111
+ 0.9874465811965812,
112
+ 1.1201923076923077,
113
+ 1.186431623931624,
114
+ 0.9676816239316239,
115
+ 1.1105769230769231,
116
+ 1.138621794871795,
117
+ 0.8181089743589743,
118
+ 1.0884081196581197,
119
+ 1.2008547008547008,
120
+ 0.8047542735042735,
121
+ 1.0173611111111112,
122
+ 1.1674679487179487,
123
+ 0.9244123931623932,
124
+ 0.8707264957264957,
125
+ 0.7176816239316239,
126
+ 0.6776175213675214,
127
+ 1.1356837606837606,
128
+ 0.9898504273504274,
129
+ 0.7094017094017094,
130
+ 0.9185363247863247,
131
+ 1.1765491452991452,
132
+ 1.0285790598290598,
133
+ 0.9663461538461539,
134
+ 1.2115384615384615,
135
+ 0.7136752136752137,
136
+ 0.9943910256410257,
137
+ 1.0587606837606838,
138
+ 1.0264423076923077,
139
+ 0.9532585470085471,
140
+ 0.9850427350427351,
141
+ 0.9321581196581197,
142
+ 0.8226495726495726,
143
+ 0.47489316239316237,
144
+ 0.8816773504273504,
145
+ 1.1762820512820513,
146
+ 0.9986645299145299,
147
+ 1.1565170940170941,
148
+ 0.9561965811965812,
149
+ 0.7270299145299145,
150
+ 0.8808760683760684,
151
+ 0.9030448717948718,
152
+ 0.6100427350427351,
153
+ 0.7339743589743589,
154
+ 1.3747329059829059,
155
+ 1.422275641025641,
156
+ 1.1180555555555556,
157
+ 0.9003739316239316,
158
+ 1.1845619658119657,
159
+ 1.2118055555555556,
160
+ 1.2291666666666667,
161
+ 0.6298076923076923,
162
+ 1.342147435897436,
163
+ 0.6236645299145299,
164
+ 0.7668269230769231,
165
+ 0.9308226495726496,
166
+ 1.0491452991452992,
167
+ 1.0122863247863247,
168
+ 0.7112713675213675,
169
+ 1.0416666666666667,
170
+ 1.032318376068376,
171
+ 1.3517628205128205,
172
+ 1.095352564102564,
173
+ 1.092681623931624,
174
+ 0.6605235042735043,
175
+ 1.1164529914529915,
176
+ 1.1185897435897436,
177
+ 0.719551282051282,
178
+ 1.0419337606837606,
179
+ 1.1461004273504274,
180
+ 0.8514957264957265,
181
+ 1.2003205128205128,
182
+ 1.080128205128205,
183
+ 1.095352564102564,
184
+ 1.1992521367521367,
185
+ 1.108707264957265,
186
+ 1.2387820512820513,
187
+ 0.9826388888888888,
188
+ 0.8052884615384616,
189
+ 1.2601495726495726,
190
+ 1.2184829059829059,
191
+ 0.936965811965812,
192
+ 1.1485042735042734,
193
+ 0.7094017094017094,
194
+ 0.7216880341880342,
195
+ 1.0950854700854702,
196
+ 1.0397970085470085,
197
+ 0.9233440170940171,
198
+ 1.155181623931624,
199
+ 1.3840811965811965,
200
+ 1.0144230769230769,
201
+ 0.9658119658119658,
202
+ 1.1247329059829059,
203
+ 0.8688568376068376,
204
+ 0.8859508547008547,
205
+ 0.8151709401709402,
206
+ 0.6354166666666666
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.003220695232451831,
211
+ 0.0036661737750604538,
212
+ 0.003995221436018899,
213
+ 0.004813175252951833,
214
+ 0.005429075906942735
215
+ ],
216
+ "model_info_gains": [
217
+ 0.4082279904882643,
218
+ -0.04044895948869193,
219
+ -0.03763803184863857,
220
+ 0.15134285377903828,
221
+ -0.034448474385289946
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0016206427334232477,
225
+ 0.00044547854260862244,
226
+ 0.0003290476609584458,
227
+ 0.0008179538169329339,
228
+ 0.000615900653990901
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.3189102564102564,
232
+ 0.33974358974358976,
233
+ 0.41025641025641024,
234
+ 0.4423076923076923,
235
+ 0.4807692307692308
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.34455128205128205,
239
+ 0.7516025641025641,
240
+ 0.7211538461538461,
241
+ 0.7083333333333334,
242
+ 0.7323717948717948
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.0744161990193597,
247
+ 1.0104384249117067,
248
+ 0.9726364427216643,
249
+ 0.9226112527053175,
250
+ 0.9000387931743277
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.49025641025641026,
255
+ 0.524342948717949,
256
+ 0.5421314102564102,
257
+ 0.5635897435897435,
258
+ 0.5754487179487183
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9364316239316239,
262
+ 1.282852564102564,
263
+ 1.2126068376068375,
264
+ 1.0413995726495726,
265
+ 0.9986645299145299,
266
+ 1.108707264957265,
267
+ 1.248931623931624,
268
+ 0.9153311965811965,
269
+ 1.2280982905982907,
270
+ 1.2793803418803418,
271
+ 0.9420405982905983,
272
+ 1.1124465811965811,
273
+ 1.1444978632478633,
274
+ 0.8381410256410257,
275
+ 1.0138888888888888,
276
+ 1.2184829059829059,
277
+ 0.9754273504273504,
278
+ 0.8565705128205128,
279
+ 0.7061965811965812,
280
+ 0.7152777777777778,
281
+ 1.1960470085470085,
282
+ 1.0357905982905984,
283
+ 0.6957799145299145,
284
+ 0.9073183760683761,
285
+ 1.1575854700854702,
286
+ 0.9756944444444444,
287
+ 0.9786324786324786,
288
+ 1.2168803418803418,
289
+ 0.7005876068376068,
290
+ 1.0109508547008548,
291
+ 1.0603632478632479,
292
+ 0.9700854700854701,
293
+ 0.9869123931623932,
294
+ 1.0435363247863247,
295
+ 0.8904914529914529,
296
+ 0.9169337606837606,
297
+ 0.6153846153846154,
298
+ 0.8327991452991453,
299
+ 1.1907051282051282,
300
+ 1.016025641025641,
301
+ 1.1124465811965811,
302
+ 0.9431089743589743,
303
+ 0.7852564102564102,
304
+ 0.9813034188034188,
305
+ 0.9393696581196581,
306
+ 0.6543803418803419,
307
+ 0.7524038461538461,
308
+ 1.3269230769230769,
309
+ 1.3669871794871795,
310
+ 1.047008547008547,
311
+ 0.9110576923076923,
312
+ 1.1541132478632479,
313
+ 1.1591880341880343,
314
+ 1.1746794871794872,
315
+ 0.6185897435897436,
316
+ 1.3146367521367521,
317
+ 0.6979166666666666,
318
+ 0.7732371794871795,
319
+ 0.9153311965811965,
320
+ 1.0673076923076923,
321
+ 0.9644764957264957,
322
+ 1.0961538461538463,
323
+ 1.1111111111111112,
324
+ 1.0715811965811965,
325
+ 1.2916666666666667,
326
+ 0.9495192307692307,
327
+ 1.0836004273504274,
328
+ 0.46287393162393164,
329
+ 1.1044337606837606,
330
+ 1.1525106837606838,
331
+ 0.6912393162393162,
332
+ 1.0889423076923077,
333
+ 1.1028311965811965,
334
+ 0.8683226495726496,
335
+ 1.172275641025641,
336
+ 1.0587606837606838,
337
+ 1.0822649572649572,
338
+ 1.2604166666666667,
339
+ 0.9137286324786325,
340
+ 1.1861645299145298,
341
+ 1.0560897435897436,
342
+ 0.8111645299145299,
343
+ 1.2908653846153846,
344
+ 1.1971153846153846,
345
+ 0.8950320512820513,
346
+ 1.077991452991453,
347
+ 0.7077991452991453,
348
+ 0.7841880341880342,
349
+ 1.1041666666666667,
350
+ 0.9620726495726496,
351
+ 0.686965811965812,
352
+ 1.2013888888888888,
353
+ 1.3576388888888888,
354
+ 0.9719551282051282,
355
+ 0.9316239316239316,
356
+ 1.0064102564102564,
357
+ 0.9516559829059829,
358
+ 0.9644764957264957,
359
+ 0.8963675213675214,
360
+ 0.6212606837606838
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.3173076923076923,
364
+ 0.3317307692307692,
365
+ 0.44551282051282054,
366
+ 0.5448717948717948,
367
+ 0.6987179487179487
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.1106956049223664,
372
+ 0.8220930587233545,
373
+ 0.6031831106344999,
374
+ 0.4384826838573109,
375
+ 0.3442626463431043
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.47785256410256505,
380
+ 0.6191025641025646,
381
+ 0.7204166666666669,
382
+ 0.7945993589743594,
383
+ 0.834294871794872
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.6840277777777778,
387
+ 1.0184294871794872,
388
+ 1.5202991452991452,
389
+ 1.1135149572649572,
390
+ 0.9668803418803419,
391
+ 1.3004807692307692,
392
+ 1.2160790598290598,
393
+ 0.8514957264957265,
394
+ 1.1674679487179487,
395
+ 1.2110042735042734,
396
+ 0.6311431623931624,
397
+ 1.3392094017094016,
398
+ 1.2390491452991452,
399
+ 0.530715811965812,
400
+ 0.8950320512820513,
401
+ 1.2096688034188035,
402
+ 1.1808226495726495,
403
+ 0.9986645299145299,
404
+ 0.5093482905982906,
405
+ 0.6044337606837606,
406
+ 1.1920405982905984,
407
+ 1.0333867521367521,
408
+ 0.4861111111111111,
409
+ 0.7080662393162394,
410
+ 0.9126602564102564,
411
+ 1.1639957264957266,
412
+ 0.8095619658119658,
413
+ 1.2123397435897436,
414
+ 0.8952991452991453,
415
+ 0.6928418803418803,
416
+ 1.110844017094017,
417
+ 0.6677350427350427,
418
+ 1.2430555555555556,
419
+ 0.6899038461538461,
420
+ 0.9845085470085471,
421
+ 0.5456730769230769,
422
+ 0.4797008547008547,
423
+ 0.5953525641025641,
424
+ 0.8864850427350427,
425
+ 1.044337606837607,
426
+ 1.2222222222222223,
427
+ 0.7510683760683761,
428
+ 0.6591880341880342,
429
+ 0.6225961538461539,
430
+ 0.5900106837606838,
431
+ 0.6095085470085471,
432
+ 0.8995726495726496,
433
+ 1.107905982905983,
434
+ 1.467681623931624,
435
+ 1.1274038461538463,
436
+ 0.5496794871794872,
437
+ 0.8961004273504274,
438
+ 1.4877136752136753,
439
+ 1.1955128205128205,
440
+ 0.6642628205128205,
441
+ 1.294337606837607,
442
+ 0.46875,
443
+ 0.8303952991452992,
444
+ 0.8474893162393162,
445
+ 0.9839743589743589,
446
+ 0.8111645299145299,
447
+ 0.7069978632478633,
448
+ 1.0974893162393162,
449
+ 0.8827457264957265,
450
+ 1.1161858974358974,
451
+ 0.9049145299145299,
452
+ 0.8910256410256411,
453
+ 0.7267628205128205,
454
+ 1.2248931623931625,
455
+ 1.2735042735042734,
456
+ 0.6754807692307693,
457
+ 1.1159188034188035,
458
+ 1.4660790598290598,
459
+ 0.9364316239316239,
460
+ 1.390491452991453,
461
+ 1.2086004273504274,
462
+ 1.077991452991453,
463
+ 1.2302350427350428,
464
+ 1.0013354700854702,
465
+ 1.0133547008547008,
466
+ 1.2216880341880343,
467
+ 0.7080662393162394,
468
+ 1.3544337606837606,
469
+ 0.9794337606837606,
470
+ 1.0873397435897436,
471
+ 1.2849893162393162,
472
+ 0.6733440170940171,
473
+ 0.8867521367521367,
474
+ 1.3365384615384615,
475
+ 0.9537927350427351,
476
+ 0.8627136752136753,
477
+ 1.1760149572649572,
478
+ 1.5830662393162394,
479
+ 0.8413461538461539,
480
+ 0.8055555555555556,
481
+ 1.139957264957265,
482
+ 0.9489850427350427,
483
+ 1.139957264957265,
484
+ 0.7649572649572649,
485
+ 0.4545940170940171
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.005251737105755894,
490
+ 0.016062439503888852,
491
+ 0.04060428231376789,
492
+ 0.08074720405495146,
493
+ 0.13537531990088889
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.258480140833615,
497
+ 1.1579873356682964,
498
+ 0.9140977199681092,
499
+ 0.697910642498664,
500
+ 0.5123241245564005
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0036516846067273104,
504
+ 0.010810702398132959,
505
+ 0.024541842809879037,
506
+ 0.04014292174118358,
507
+ 0.05462811584593743
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.3189102564102564,
511
+ 0.23557692307692307,
512
+ 0.4855769230769231,
513
+ 0.6858974358974359,
514
+ 0.8669871794871795
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.904900242287776,
519
+ 0.6351674276610744,
520
+ 0.47184528684682814,
521
+ 0.3572292371081554,
522
+ 0.29874005170694395
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5754967948717944,
527
+ 0.7053525641025633,
528
+ 0.7805288461538458,
529
+ 0.8309134615384619,
530
+ 0.8593429487179493
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.9209401709401709,
534
+ 1.0747863247863247,
535
+ 1.4508547008547008,
536
+ 1.0683760683760684,
537
+ 0.9577991452991453,
538
+ 1.2110042735042734,
539
+ 1.2136752136752136,
540
+ 0.7967414529914529,
541
+ 1.2601495726495726,
542
+ 1.268162393162393,
543
+ 0.7844551282051282,
544
+ 1.1947115384615385,
545
+ 1.1813568376068375,
546
+ 0.688034188034188,
547
+ 0.9850427350427351,
548
+ 1.2019230769230769,
549
+ 1.0622329059829059,
550
+ 1.0253739316239316,
551
+ 0.5470085470085471,
552
+ 0.6834935897435898,
553
+ 1.1258012820512822,
554
+ 0.9631410256410257,
555
+ 0.5432692307692307,
556
+ 0.7895299145299145,
557
+ 0.9521901709401709,
558
+ 1.0518162393162394,
559
+ 0.8450854700854701,
560
+ 1.1931089743589745,
561
+ 0.8888888888888888,
562
+ 0.7670940170940171,
563
+ 1.1674679487179487,
564
+ 0.7783119658119658,
565
+ 1.1041666666666667,
566
+ 0.7873931623931624,
567
+ 0.9644764957264957,
568
+ 0.7262286324786325,
569
+ 0.6920405982905983,
570
+ 0.6450320512820513,
571
+ 0.9850427350427351,
572
+ 1.018162393162393,
573
+ 1.0993589743589745,
574
+ 0.7593482905982906,
575
+ 0.6824252136752137,
576
+ 0.7825854700854701,
577
+ 0.6674679487179487,
578
+ 0.687767094017094,
579
+ 0.9174679487179487,
580
+ 1.0884081196581197,
581
+ 1.3982371794871795,
582
+ 1.0769230769230769,
583
+ 0.6543803418803419,
584
+ 0.9580662393162394,
585
+ 1.3934294871794872,
586
+ 1.2267628205128205,
587
+ 0.6899038461538461,
588
+ 1.1915064102564104,
589
+ 0.5600961538461539,
590
+ 0.8352029914529915,
591
+ 0.8386752136752137,
592
+ 1.0341880341880343,
593
+ 0.8458867521367521,
594
+ 1.1121794871794872,
595
+ 1.1017628205128205,
596
+ 0.9142628205128205,
597
+ 1.1354166666666667,
598
+ 0.8314636752136753,
599
+ 0.9548611111111112,
600
+ 0.5988247863247863,
601
+ 1.2855235042735043,
602
+ 1.2697649572649572,
603
+ 0.7550747863247863,
604
+ 1.0392628205128205,
605
+ 1.360042735042735,
606
+ 0.9983974358974359,
607
+ 1.2743055555555556,
608
+ 1.1322115384615385,
609
+ 1.0574252136752136,
610
+ 1.2166132478632479,
611
+ 0.8349358974358975,
612
+ 0.9877136752136753,
613
+ 1.1770833333333333,
614
+ 0.6845619658119658,
615
+ 1.2772435897435896,
616
+ 1.0822649572649572,
617
+ 1.107371794871795,
618
+ 1.1442307692307692,
619
+ 0.6752136752136753,
620
+ 0.9340277777777778,
621
+ 1.265491452991453,
622
+ 0.8327991452991453,
623
+ 0.6541132478632479,
624
+ 1.1952457264957266,
625
+ 1.4660790598290598,
626
+ 0.8402777777777778,
627
+ 0.843482905982906,
628
+ 1.0582264957264957,
629
+ 1.0211004273504274,
630
+ 1.095352564102564,
631
+ 0.7606837606837606,
632
+ 0.5499465811965812
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.553573343571621,
637
+ 2.7237101585631667,
638
+ 3.539764044370576,
639
+ 4.048182513896174,
640
+ 4.440994734802607
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.452195512820513,
645
+ 0.4704326923076916,
646
+ 0.4890705128205127,
647
+ 0.5030769230769228,
648
+ 0.5201602564102568
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1172542735042734,
652
+ 1.172008547008547,
653
+ 1.4265491452991452,
654
+ 1.3183760683760684,
655
+ 1.014155982905983,
656
+ 0.6469017094017094,
657
+ 0.7905982905982906,
658
+ 0.7248931623931624,
659
+ 1.0878739316239316,
660
+ 1.514957264957265,
661
+ 1.3036858974358974,
662
+ 0.8469551282051282,
663
+ 1.3378739316239316,
664
+ 0.8875534188034188,
665
+ 1.4260149572649572,
666
+ 1.4770299145299146,
667
+ 1.2064636752136753,
668
+ 1.032852564102564,
669
+ 0.7459935897435898,
670
+ 0.8993055555555556,
671
+ 0.6530448717948718,
672
+ 1.1316773504273505,
673
+ 0.8162393162393162,
674
+ 1.265224358974359,
675
+ 0.9516559829059829,
676
+ 0.8811431623931624,
677
+ 1.0729166666666667,
678
+ 1.3541666666666667,
679
+ 0.7230235042735043,
680
+ 1.236912393162393,
681
+ 1.4043803418803418,
682
+ 1.2462606837606838,
683
+ 0.4722222222222222,
684
+ 1.3015491452991452,
685
+ 0.8806089743589743,
686
+ 1.0667735042735043,
687
+ 0.8186431623931624,
688
+ 0.7700320512820513,
689
+ 1.0440705128205128,
690
+ 0.6690705128205128,
691
+ 1.2299679487179487,
692
+ 1.2532051282051282,
693
+ 0.7791132478632479,
694
+ 1.1140491452991452,
695
+ 1.0544871794871795,
696
+ 0.5913461538461539,
697
+ 0.8279914529914529,
698
+ 1.3512286324786325,
699
+ 1.2737713675213675,
700
+ 1.0192307692307692,
701
+ 1.1471688034188035,
702
+ 0.8384081196581197,
703
+ 1.2299679487179487,
704
+ 1.3052884615384615,
705
+ 1.0683760683760684,
706
+ 1.2564102564102564,
707
+ 0.8239850427350427,
708
+ 0.7521367521367521,
709
+ 1.2855235042735043,
710
+ 0.9607371794871795,
711
+ 1.0411324786324787,
712
+ 0.7727029914529915,
713
+ 1.172542735042735,
714
+ 0.6183226495726496,
715
+ 1.2913995726495726,
716
+ 0.9102564102564102,
717
+ 0.9847756410256411,
718
+ 0.42094017094017094,
719
+ 0.8555021367521367,
720
+ 1.1434294871794872,
721
+ 1.0037393162393162,
722
+ 0.7072649572649573,
723
+ 1.2903311965811965,
724
+ 0.8322649572649573,
725
+ 1.1808226495726495,
726
+ 0.7638888888888888,
727
+ 0.7596153846153846,
728
+ 1.0349893162393162,
729
+ 0.8482905982905983,
730
+ 1.1866987179487178,
731
+ 1.1193910256410255,
732
+ 0.8050213675213675,
733
+ 1.0288461538461537,
734
+ 1.0074786324786325,
735
+ 1.2067307692307692,
736
+ 1.0969551282051282,
737
+ 0.6720085470085471,
738
+ 0.7847222222222222,
739
+ 1.061965811965812,
740
+ 1.2083333333333333,
741
+ 0.5032051282051282,
742
+ 1.046207264957265,
743
+ 1.3501602564102564,
744
+ 1.1794871794871795,
745
+ 1.3007478632478633,
746
+ 0.6586538461538461,
747
+ 0.9810363247863247,
748
+ 0.46073717948717946,
749
+ 0.5010683760683761,
750
+ 0.7248931623931624
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7187500000000006,
755
+ 0.7236057692307687,
756
+ 0.7316185897435898,
757
+ 0.7262339743589744,
758
+ 0.7303205128205134
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6640544871794873,
763
+ 0.6733493589743589,
764
+ 0.6796634615384612,
765
+ 0.6739262820512826,
766
+ 0.6842147435897431
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_76_seed2/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_76_seed2/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_76_seed2.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.08493589743589744,
64
+ 0.3189102564102564,
65
+ 0.3717948717948718,
66
+ 0.4150641025641026,
67
+ 0.42788461538461536
68
+ ],
69
+ "model_accs": [
70
+ 0.08493589743589744,
71
+ 0.3189102564102564,
72
+ 0.3717948717948718,
73
+ 0.4150641025641026,
74
+ 0.42788461538461536
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.3141025641025641,
78
+ 0.3108974358974359,
79
+ 0.38782051282051283,
80
+ 0.453525641025641,
81
+ 0.48717948717948717
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3573717948717949,
85
+ 0.6618589743589743,
86
+ 0.6746794871794872,
87
+ 0.7035256410256411,
88
+ 0.6650641025641025
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.1420957565705852,
93
+ 1.0384693886409238,
94
+ 0.9992888135605793,
95
+ 0.9454094820036215,
96
+ 0.9339735567594766
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.456778846153846,
101
+ 0.507451923076923,
102
+ 0.5281570512820508,
103
+ 0.5527403846153852,
104
+ 0.5574038461538464
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7259615384615384,
108
+ 1.2219551282051282,
109
+ 1.248397435897436,
110
+ 1.1159188034188035,
111
+ 1.0104166666666667,
112
+ 1.1188568376068375,
113
+ 1.169871794871795,
114
+ 0.9981303418803419,
115
+ 1.09375,
116
+ 1.126602564102564,
117
+ 0.8199786324786325,
118
+ 1.0715811965811965,
119
+ 1.2227564102564104,
120
+ 0.7994123931623932,
121
+ 1.0192307692307692,
122
+ 1.15625,
123
+ 0.9407051282051282,
124
+ 0.843482905982906,
125
+ 0.7155448717948718,
126
+ 0.6885683760683761,
127
+ 1.1028311965811965,
128
+ 1.016559829059829,
129
+ 0.7166132478632479,
130
+ 0.9073183760683761,
131
+ 1.169337606837607,
132
+ 1.0008012820512822,
133
+ 0.9642094017094017,
134
+ 1.1931089743589745,
135
+ 0.7206196581196581,
136
+ 1.0202991452991452,
137
+ 1.0595619658119657,
138
+ 1.047542735042735,
139
+ 0.9401709401709402,
140
+ 1.0120192307692308,
141
+ 0.8982371794871795,
142
+ 0.8619123931623932,
143
+ 0.4863782051282051,
144
+ 0.9214743589743589,
145
+ 1.1565170940170941,
146
+ 1.0114850427350428,
147
+ 1.138087606837607,
148
+ 0.9663461538461539,
149
+ 0.7329059829059829,
150
+ 0.9139957264957265,
151
+ 0.9011752136752137,
152
+ 0.6386217948717948,
153
+ 0.7358440170940171,
154
+ 1.3493589743589745,
155
+ 1.4038461538461537,
156
+ 1.1306089743589745,
157
+ 0.9292200854700855,
158
+ 1.1773504273504274,
159
+ 1.2008547008547008,
160
+ 1.2302350427350428,
161
+ 0.6802884615384616,
162
+ 1.3327991452991452,
163
+ 0.6551816239316239,
164
+ 0.7694978632478633,
165
+ 0.9401709401709402,
166
+ 1.0400641025641026,
167
+ 1.0381944444444444,
168
+ 0.717948717948718,
169
+ 1.0288461538461537,
170
+ 1.0440705128205128,
171
+ 1.357905982905983,
172
+ 1.077190170940171,
173
+ 1.0956196581196582,
174
+ 0.6615918803418803,
175
+ 1.0576923076923077,
176
+ 1.0825320512820513,
177
+ 0.749732905982906,
178
+ 1.0355235042735043,
179
+ 1.1322115384615385,
180
+ 0.8167735042735043,
181
+ 1.205128205128205,
182
+ 1.078792735042735,
183
+ 1.063034188034188,
184
+ 1.203792735042735,
185
+ 1.1127136752136753,
186
+ 1.235042735042735,
187
+ 0.9970619658119658,
188
+ 0.8042200854700855,
189
+ 1.2446581196581197,
190
+ 1.2094017094017093,
191
+ 0.937232905982906,
192
+ 1.141025641025641,
193
+ 0.7457264957264957,
194
+ 0.7112713675213675,
195
+ 1.0964209401709402,
196
+ 1.0526175213675213,
197
+ 0.9086538461538461,
198
+ 1.1346153846153846,
199
+ 1.373397435897436,
200
+ 1.0224358974358974,
201
+ 0.9797008547008547,
202
+ 1.1439636752136753,
203
+ 0.843482905982906,
204
+ 0.8830128205128205,
205
+ 0.8050213675213675,
206
+ 0.6225961538461539
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.0026384032732234795,
211
+ 0.003816768010953462,
212
+ 0.004225406430476342,
213
+ 0.005054352651727028,
214
+ 0.005362860204818331
215
+ ],
216
+ "model_info_gains": [
217
+ 0.3765875878454145,
218
+ 0.039868019043888314,
219
+ 0.07560391561047239,
220
+ 0.04083944542713509,
221
+ 0.07489190538584009
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.001038350774194896,
225
+ 0.0011783647377299827,
226
+ 0.0004086384195228805,
227
+ 0.0008289462212506857,
228
+ 0.0003085075530913027
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.3157051282051282,
232
+ 0.30448717948717946,
233
+ 0.40384615384615385,
234
+ 0.4567307692307692,
235
+ 0.4855769230769231
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.36217948717948717,
239
+ 0.7227564102564102,
240
+ 0.6939102564102564,
241
+ 0.7564102564102564,
242
+ 0.7259615384615384
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.088603525762798,
247
+ 0.997415985094544,
248
+ 0.9576071190031552,
249
+ 0.9179038899548285,
250
+ 0.8809692194894883
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.4824519230769231,
255
+ 0.5289903846153848,
256
+ 0.5473397435897441,
257
+ 0.5668910256410259,
258
+ 0.5825641025641041
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9895833333333334,
262
+ 1.2732371794871795,
263
+ 1.201655982905983,
264
+ 1.0649038461538463,
265
+ 1.0365918803418803,
266
+ 1.0956196581196582,
267
+ 1.2393162393162394,
268
+ 0.9572649572649573,
269
+ 1.2086004273504274,
270
+ 1.2889957264957266,
271
+ 0.9489850427350427,
272
+ 1.0876068376068375,
273
+ 1.1752136752136753,
274
+ 0.8621794871794872,
275
+ 1.0109508547008548,
276
+ 1.202724358974359,
277
+ 0.9970619658119658,
278
+ 0.8336004273504274,
279
+ 0.7147435897435898,
280
+ 0.7345085470085471,
281
+ 1.173878205128205,
282
+ 1.063034188034188,
283
+ 0.7315705128205128,
284
+ 0.8926282051282052,
285
+ 1.1517094017094016,
286
+ 0.9556623931623932,
287
+ 0.9783653846153846,
288
+ 1.1810897435897436,
289
+ 0.7102029914529915,
290
+ 1.0237713675213675,
291
+ 1.045405982905983,
292
+ 0.9906517094017094,
293
+ 0.9802350427350427,
294
+ 1.093215811965812,
295
+ 0.8592414529914529,
296
+ 0.9393696581196581,
297
+ 0.6193910256410257,
298
+ 0.8693910256410257,
299
+ 1.1826923076923077,
300
+ 1.0320512820512822,
301
+ 1.1063034188034189,
302
+ 0.9652777777777778,
303
+ 0.8135683760683761,
304
+ 0.9959935897435898,
305
+ 0.9465811965811965,
306
+ 0.6928418803418803,
307
+ 0.7446581196581197,
308
+ 1.327457264957265,
309
+ 1.3424145299145298,
310
+ 1.0360576923076923,
311
+ 0.9436431623931624,
312
+ 1.1461004273504274,
313
+ 1.1490384615384615,
314
+ 1.1514423076923077,
315
+ 0.6522435897435898,
316
+ 1.3146367521367521,
317
+ 0.7403846153846154,
318
+ 0.7721688034188035,
319
+ 0.9046474358974359,
320
+ 1.0496794871794872,
321
+ 0.9927884615384616,
322
+ 1.1207264957264957,
323
+ 1.1038995726495726,
324
+ 1.1060363247863247,
325
+ 1.2857905982905984,
326
+ 0.9399038461538461,
327
+ 1.0849358974358974,
328
+ 0.4671474358974359,
329
+ 1.0584935897435896,
330
+ 1.1303418803418803,
331
+ 0.7342414529914529,
332
+ 1.0902777777777777,
333
+ 1.079059829059829,
334
+ 0.8450854700854701,
335
+ 1.1933760683760684,
336
+ 1.0368589743589745,
337
+ 1.0555555555555556,
338
+ 1.2740384615384615,
339
+ 0.9134615384615384,
340
+ 1.1955128205128205,
341
+ 1.0739850427350428,
342
+ 0.8135683760683761,
343
+ 1.2852564102564104,
344
+ 1.1826923076923077,
345
+ 0.8720619658119658,
346
+ 1.076121794871795,
347
+ 0.7417200854700855,
348
+ 0.7761752136752137,
349
+ 1.092681623931624,
350
+ 0.9586004273504274,
351
+ 0.6744123931623932,
352
+ 1.200587606837607,
353
+ 1.344284188034188,
354
+ 0.9885149572649573,
355
+ 0.9465811965811965,
356
+ 1.0173611111111112,
357
+ 0.9313568376068376,
358
+ 0.9254807692307693,
359
+ 0.8982371794871795,
360
+ 0.6129807692307693
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.3157051282051282,
364
+ 0.3541666666666667,
365
+ 0.4391025641025641,
366
+ 0.5689102564102564,
367
+ 0.6698717948717948
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.1017450714231103,
372
+ 0.8159186098004803,
373
+ 0.5815104939767978,
374
+ 0.42963865697032944,
375
+ 0.3310353286494801
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.4877884615384615,
380
+ 0.6251282051282049,
381
+ 0.7315064102564113,
382
+ 0.7974358974358982,
383
+ 0.8408493589743596
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.6746794871794872,
387
+ 1.030181623931624,
388
+ 1.5237713675213675,
389
+ 1.1209935897435896,
390
+ 0.9903846153846154,
391
+ 1.2844551282051282,
392
+ 1.2110042735042734,
393
+ 0.8453525641025641,
394
+ 1.1778846153846154,
395
+ 1.2115384615384615,
396
+ 0.6183226495726496,
397
+ 1.3215811965811965,
398
+ 1.235309829059829,
399
+ 0.5408653846153846,
400
+ 0.8808760683760684,
401
+ 1.1952457264957266,
402
+ 1.1535790598290598,
403
+ 0.9949252136752137,
404
+ 0.5168269230769231,
405
+ 0.6092414529914529,
406
+ 1.1984508547008548,
407
+ 1.0379273504273505,
408
+ 0.4935897435897436,
409
+ 0.6661324786324786,
410
+ 0.9209401709401709,
411
+ 1.1503739316239316,
412
+ 0.8247863247863247,
413
+ 1.2136752136752136,
414
+ 0.8846153846153846,
415
+ 0.7059294871794872,
416
+ 1.109508547008547,
417
+ 0.6784188034188035,
418
+ 1.2470619658119657,
419
+ 0.717948717948718,
420
+ 0.9933226495726496,
421
+ 0.5643696581196581,
422
+ 0.4639423076923077,
423
+ 0.5956196581196581,
424
+ 0.8912927350427351,
425
+ 1.0697115384615385,
426
+ 1.2371794871794872,
427
+ 0.7724358974358975,
428
+ 0.6428952991452992,
429
+ 0.625267094017094,
430
+ 0.6151175213675214,
431
+ 0.5876068376068376,
432
+ 0.8608440170940171,
433
+ 1.1140491452991452,
434
+ 1.483440170940171,
435
+ 1.1388888888888888,
436
+ 0.5523504273504274,
437
+ 0.9030448717948718,
438
+ 1.4719551282051282,
439
+ 1.1850961538461537,
440
+ 0.6466346153846154,
441
+ 1.297008547008547,
442
+ 0.5157585470085471,
443
+ 0.8416132478632479,
444
+ 0.8464209401709402,
445
+ 1.0029380341880343,
446
+ 0.7916666666666666,
447
+ 0.7013888888888888,
448
+ 1.1153846153846154,
449
+ 0.9051816239316239,
450
+ 1.1287393162393162,
451
+ 0.9249465811965812,
452
+ 0.9134615384615384,
453
+ 0.7288995726495726,
454
+ 1.2195512820512822,
455
+ 1.2617521367521367,
456
+ 0.6773504273504274,
457
+ 1.1428952991452992,
458
+ 1.455128205128205,
459
+ 0.9241452991452992,
460
+ 1.3958333333333333,
461
+ 1.2075320512820513,
462
+ 1.0691773504273505,
463
+ 1.2502670940170941,
464
+ 0.9946581196581197,
465
+ 1.018162393162393,
466
+ 1.263621794871795,
467
+ 0.7198183760683761,
468
+ 1.3576388888888888,
469
+ 0.9797008547008547,
470
+ 1.0659722222222223,
471
+ 1.267628205128205,
472
+ 0.6423611111111112,
473
+ 0.8931623931623932,
474
+ 1.360309829059829,
475
+ 0.9433760683760684,
476
+ 0.8330662393162394,
477
+ 1.2061965811965811,
478
+ 1.5739850427350428,
479
+ 0.8346688034188035,
480
+ 0.7986111111111112,
481
+ 1.1517094017094016,
482
+ 0.9345619658119658,
483
+ 1.1618589743589745,
484
+ 0.7745726495726496,
485
+ 0.4511217948717949
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.0054666257031572175,
490
+ 0.01767145235041822,
491
+ 0.04688230491681166,
492
+ 0.09368004613712308,
493
+ 0.14996995613910258
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.2973813737865565,
497
+ 1.1859035042362127,
498
+ 0.9568037366593334,
499
+ 0.6996948701516982,
500
+ 0.5142123508702605
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.003866573204128634,
504
+ 0.012204826647261004,
505
+ 0.02921085256639344,
506
+ 0.04679774122031141,
507
+ 0.056289910001979505
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.3157051282051282,
511
+ 0.2532051282051282,
512
+ 0.4551282051282051,
513
+ 0.6891025641025641,
514
+ 0.8397435897435898
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.897250544460723,
519
+ 0.6287653042377455,
520
+ 0.45063194489436326,
521
+ 0.3534822055934681,
522
+ 0.2941118773114847
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5833333333333336,
527
+ 0.7100000000000001,
528
+ 0.7920833333333339,
529
+ 0.834871794871795,
530
+ 0.8624038461538464
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.9214743589743589,
534
+ 1.080128205128205,
535
+ 1.467147435897436,
536
+ 1.0793269230769231,
537
+ 0.9951923076923077,
538
+ 1.2128739316239316,
539
+ 1.2235576923076923,
540
+ 0.8221153846153846,
541
+ 1.267094017094017,
542
+ 1.2689636752136753,
543
+ 0.7694978632478633,
544
+ 1.1829594017094016,
545
+ 1.200587606837607,
546
+ 0.6923076923076923,
547
+ 0.9620726495726496,
548
+ 1.1792200854700854,
549
+ 1.0491452991452992,
550
+ 1.014690170940171,
551
+ 0.5491452991452992,
552
+ 0.6655982905982906,
553
+ 1.1017628205128205,
554
+ 0.9858440170940171,
555
+ 0.5491452991452992,
556
+ 0.7430555555555556,
557
+ 0.9428418803418803,
558
+ 1.0341880341880343,
559
+ 0.8474893162393162,
560
+ 1.1826923076923077,
561
+ 0.8816773504273504,
562
+ 0.7865918803418803,
563
+ 1.1599893162393162,
564
+ 0.7601495726495726,
565
+ 1.0980235042735043,
566
+ 0.7844551282051282,
567
+ 0.9743589743589743,
568
+ 0.7254273504273504,
569
+ 0.6712072649572649,
570
+ 0.655715811965812,
571
+ 0.9706196581196581,
572
+ 1.0368589743589745,
573
+ 1.0990918803418803,
574
+ 0.7630876068376068,
575
+ 0.6813568376068376,
576
+ 0.7962072649572649,
577
+ 0.7077991452991453,
578
+ 0.6821581196581197,
579
+ 0.8894230769230769,
580
+ 1.0870726495726495,
581
+ 1.4126602564102564,
582
+ 1.080662393162393,
583
+ 0.6736111111111112,
584
+ 0.9503205128205128,
585
+ 1.3627136752136753,
586
+ 1.2270299145299146,
587
+ 0.7029914529914529,
588
+ 1.202457264957265,
589
+ 0.5876068376068376,
590
+ 0.8571047008547008,
591
+ 0.8373397435897436,
592
+ 1.0352564102564104,
593
+ 0.8485576923076923,
594
+ 1.1156517094017093,
595
+ 1.1017628205128205,
596
+ 0.9428418803418803,
597
+ 1.1490384615384615,
598
+ 0.8311965811965812,
599
+ 0.9660790598290598,
600
+ 0.5878739316239316,
601
+ 1.2625534188034189,
602
+ 1.2379807692307692,
603
+ 0.750801282051282,
604
+ 1.0665064102564104,
605
+ 1.359241452991453,
606
+ 0.9834401709401709,
607
+ 1.2999465811965811,
608
+ 1.1172542735042734,
609
+ 1.0259081196581197,
610
+ 1.2278311965811965,
611
+ 0.8218482905982906,
612
+ 0.9874465811965812,
613
+ 1.2142094017094016,
614
+ 0.6957799145299145,
615
+ 1.3010149572649572,
616
+ 1.0667735042735043,
617
+ 1.1044337606837606,
618
+ 1.138621794871795,
619
+ 0.6680021367521367,
620
+ 0.9385683760683761,
621
+ 1.2673611111111112,
622
+ 0.8269230769230769,
623
+ 0.6324786324786325,
624
+ 1.219284188034188,
625
+ 1.467681623931624,
626
+ 0.8352029914529915,
627
+ 0.8458867521367521,
628
+ 1.076655982905983,
629
+ 1.0024038461538463,
630
+ 1.1111111111111112,
631
+ 0.7596153846153846,
632
+ 0.5600961538461539
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.5822897398973041,
637
+ 2.753687006972073,
638
+ 3.5943138557137027,
639
+ 4.166582973588018,
640
+ 4.476869997653859
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.4437660256410258,
645
+ 0.4619230769230768,
646
+ 0.4820673076923077,
647
+ 0.49786858974358966,
648
+ 0.513814102564103
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1327457264957266,
652
+ 1.155715811965812,
653
+ 1.421474358974359,
654
+ 1.3322649572649572,
655
+ 1.0552884615384615,
656
+ 0.6303418803418803,
657
+ 0.7548076923076923,
658
+ 0.7652243589743589,
659
+ 1.0384615384615385,
660
+ 1.5128205128205128,
661
+ 1.2932692307692308,
662
+ 0.8306623931623932,
663
+ 1.3696581196581197,
664
+ 0.8880876068376068,
665
+ 1.404647435897436,
666
+ 1.453258547008547,
667
+ 1.2019230769230769,
668
+ 0.9917200854700855,
669
+ 0.7548076923076923,
670
+ 0.9155982905982906,
671
+ 0.6498397435897436,
672
+ 1.1674679487179487,
673
+ 0.8514957264957265,
674
+ 1.2139423076923077,
675
+ 0.9150641025641025,
676
+ 0.8896901709401709,
677
+ 1.063034188034188,
678
+ 1.3242521367521367,
679
+ 0.7411858974358975,
680
+ 1.2721688034188035,
681
+ 1.373397435897436,
682
+ 1.2831196581196582,
683
+ 0.46047008547008544,
684
+ 1.3747329059829059,
685
+ 0.8587072649572649,
686
+ 1.1052350427350428,
687
+ 0.7927350427350427,
688
+ 0.8223824786324786,
689
+ 1.0579594017094016,
690
+ 0.7283653846153846,
691
+ 1.2240918803418803,
692
+ 1.311965811965812,
693
+ 0.7577457264957265,
694
+ 1.1199252136752136,
695
+ 1.1156517094017093,
696
+ 0.6169871794871795,
697
+ 0.8258547008547008,
698
+ 1.361912393162393,
699
+ 1.2729700854700854,
700
+ 1.0277777777777777,
701
+ 1.2099358974358974,
702
+ 0.8189102564102564,
703
+ 1.1810897435897436,
704
+ 1.2932692307692308,
705
+ 1.092681623931624,
706
+ 1.2686965811965811,
707
+ 0.8696581196581197,
708
+ 0.719551282051282,
709
+ 1.2793803418803418,
710
+ 0.9770299145299145,
711
+ 1.076655982905983,
712
+ 0.7732371794871795,
713
+ 1.1770833333333333,
714
+ 0.6794871794871795,
715
+ 1.3098290598290598,
716
+ 0.9155982905982906,
717
+ 0.9861111111111112,
718
+ 0.42761752136752135,
719
+ 0.8170405982905983,
720
+ 1.1161858974358974,
721
+ 1.0304487179487178,
722
+ 0.7131410256410257,
723
+ 1.234775641025641,
724
+ 0.7767094017094017,
725
+ 1.2104700854700854,
726
+ 0.7470619658119658,
727
+ 0.7459935897435898,
728
+ 1.0550213675213675,
729
+ 0.8141025641025641,
730
+ 1.2064636752136753,
731
+ 1.1463675213675213,
732
+ 0.8234508547008547,
733
+ 1.0520833333333333,
734
+ 0.9778311965811965,
735
+ 1.1754807692307692,
736
+ 1.0889423076923077,
737
+ 0.6789529914529915,
738
+ 0.7708333333333334,
739
+ 1.046474358974359,
740
+ 1.233974358974359,
741
+ 0.47622863247863245,
742
+ 1.0590277777777777,
743
+ 1.3298611111111112,
744
+ 1.1746794871794872,
745
+ 1.3103632478632479,
746
+ 0.6728098290598291,
747
+ 0.9767628205128205,
748
+ 0.4270833333333333,
749
+ 0.5082799145299145,
750
+ 0.7131410256410257
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7152403846153843,
755
+ 0.7165064102564103,
756
+ 0.7290064102564108,
757
+ 0.734182692307692,
758
+ 0.7274038461538463
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6607852564102561,
763
+ 0.666682692307692,
764
+ 0.6780608974358974,
765
+ 0.6833814102564103,
766
+ 0.6776762820512823
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_89_seed1/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_89_seed1/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_89_seed1.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.014423076923076924,
64
+ 0.25801282051282054,
65
+ 0.3557692307692308,
66
+ 0.40224358974358976,
67
+ 0.39903846153846156
68
+ ],
69
+ "model_accs": [
70
+ 0.014423076923076924,
71
+ 0.25801282051282054,
72
+ 0.3557692307692308,
73
+ 0.40224358974358976,
74
+ 0.39903846153846156
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.22916666666666666,
78
+ 0.2948717948717949,
79
+ 0.3605769230769231,
80
+ 0.3701923076923077,
81
+ 0.40064102564102566
82
+ ],
83
+ "model_consistencies": [
84
+ 0.41346153846153844,
85
+ 0.6362179487179487,
86
+ 0.6602564102564102,
87
+ 0.6810897435897436,
88
+ 0.6778846153846154
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.1173317302720653,
93
+ 1.0955683364394597,
94
+ 1.0577657980432393,
95
+ 1.0443507493455855,
96
+ 0.9979551764286294
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.46955128205128216,
101
+ 0.4787820512820517,
102
+ 0.5028685897435897,
103
+ 0.5072435897435901,
104
+ 0.5262339743589742
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7302350427350427,
108
+ 1.2475961538461537,
109
+ 1.2160790598290598,
110
+ 1.1001602564102564,
111
+ 1.0048076923076923,
112
+ 1.1036324786324787,
113
+ 1.1842948717948718,
114
+ 0.9839743589743589,
115
+ 1.0753205128205128,
116
+ 1.111378205128205,
117
+ 0.8485576923076923,
118
+ 1.0868055555555556,
119
+ 1.2110042735042734,
120
+ 0.8279914529914529,
121
+ 1.049412393162393,
122
+ 1.1594551282051282,
123
+ 0.9198717948717948,
124
+ 0.84375,
125
+ 0.7473290598290598,
126
+ 0.7043269230769231,
127
+ 1.125534188034188,
128
+ 1.015491452991453,
129
+ 0.7168803418803419,
130
+ 0.9393696581196581,
131
+ 1.202457264957265,
132
+ 0.9946581196581197,
133
+ 0.9802350427350427,
134
+ 1.1901709401709402,
135
+ 0.7126068376068376,
136
+ 1.015224358974359,
137
+ 1.0566239316239316,
138
+ 1.0638354700854702,
139
+ 0.9396367521367521,
140
+ 1.001068376068376,
141
+ 0.9182692307692307,
142
+ 0.8587072649572649,
143
+ 0.5013354700854701,
144
+ 0.9147970085470085,
145
+ 1.1661324786324787,
146
+ 0.968482905982906,
147
+ 1.124465811965812,
148
+ 0.9791666666666666,
149
+ 0.7422542735042735,
150
+ 0.9169337606837606,
151
+ 0.9180021367521367,
152
+ 0.6375534188034188,
153
+ 0.7387820512820513,
154
+ 1.3808760683760684,
155
+ 1.4014423076923077,
156
+ 1.1076388888888888,
157
+ 0.9286858974358975,
158
+ 1.1992521367521367,
159
+ 1.1802884615384615,
160
+ 1.2473290598290598,
161
+ 0.6720085470085471,
162
+ 1.342681623931624,
163
+ 0.6452991452991453,
164
+ 0.7513354700854701,
165
+ 0.937232905982906,
166
+ 1.0598290598290598,
167
+ 1.0486111111111112,
168
+ 0.7112713675213675,
169
+ 1.0128205128205128,
170
+ 1.0408653846153846,
171
+ 1.3717948717948718,
172
+ 1.0854700854700854,
173
+ 1.09375,
174
+ 0.6428952991452992,
175
+ 1.0683760683760684,
176
+ 1.0862713675213675,
177
+ 0.7414529914529915,
178
+ 1.0341880341880343,
179
+ 1.125,
180
+ 0.8410790598290598,
181
+ 1.1762820512820513,
182
+ 1.0809294871794872,
183
+ 1.0627670940170941,
184
+ 1.2142094017094016,
185
+ 1.123397435897436,
186
+ 1.2577457264957266,
187
+ 0.969551282051282,
188
+ 0.8167735042735043,
189
+ 1.2481303418803418,
190
+ 1.2270299145299146,
191
+ 0.9230769230769231,
192
+ 1.15625,
193
+ 0.7248931623931624,
194
+ 0.6832264957264957,
195
+ 1.1028311965811965,
196
+ 1.046741452991453,
197
+ 0.9257478632478633,
198
+ 1.1346153846153846,
199
+ 1.3565705128205128,
200
+ 1.0408653846153846,
201
+ 0.9759615384615384,
202
+ 1.1164529914529915,
203
+ 0.8611111111111112,
204
+ 0.8840811965811965,
205
+ 0.8084935897435898,
206
+ 0.6119123931623932
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000524990285835,
210
+ 0.002645477259897269,
211
+ 0.0028933283154661017,
212
+ 0.0029800806403862943,
213
+ 0.003431083499748684,
214
+ 0.0038786107379528345
215
+ ],
216
+ "model_info_gains": [
217
+ 0.560108085918886,
218
+ -0.18869598655077646,
219
+ -0.10809472322304928,
220
+ -0.04587007420080057,
221
+ 0.18458677459941233
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0010454247608686856,
225
+ 0.0002478510555688328,
226
+ 8.675232492019237e-05,
227
+ 0.00045100285936238983,
228
+ 0.0004475272382041504
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.22916666666666666,
232
+ 0.27403846153846156,
233
+ 0.3701923076923077,
234
+ 0.3974358974358974,
235
+ 0.40865384615384615
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.4230769230769231,
239
+ 0.7131410256410257,
240
+ 0.7419871794871795,
241
+ 0.7371794871794872,
242
+ 0.7259615384615384
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.356185474447443,
246
+ 1.073098156332158,
247
+ 1.0488450665985527,
248
+ 1.023869246984784,
249
+ 0.9999997536947172,
250
+ 0.9438793919608606
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34657051282051293,
254
+ 0.488429487179487,
255
+ 0.5061538461538461,
256
+ 0.5195032051282054,
257
+ 0.5273878205128215,
258
+ 0.5537339743589741
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.9834401709401709,
262
+ 1.2956730769230769,
263
+ 1.171741452991453,
264
+ 1.0397970085470085,
265
+ 1.0216346153846154,
266
+ 1.092681623931624,
267
+ 1.2705662393162394,
268
+ 0.9310897435897436,
269
+ 1.1968482905982907,
270
+ 1.2804487179487178,
271
+ 0.9730235042735043,
272
+ 1.09375,
273
+ 1.1663995726495726,
274
+ 0.8691239316239316,
275
+ 1.0424679487179487,
276
+ 1.219284188034188,
277
+ 0.9770299145299145,
278
+ 0.8368055555555556,
279
+ 0.7291666666666666,
280
+ 0.7636217948717948,
281
+ 1.1861645299145298,
282
+ 1.0595619658119657,
283
+ 0.7358440170940171,
284
+ 0.9361645299145299,
285
+ 1.186431623931624,
286
+ 0.9604700854700855,
287
+ 0.9706196581196581,
288
+ 1.1957799145299146,
289
+ 0.7037927350427351,
290
+ 1.0379273504273505,
291
+ 1.0376602564102564,
292
+ 1.0114850427350428,
293
+ 0.9869123931623932,
294
+ 1.0838675213675213,
295
+ 0.8720619658119658,
296
+ 0.9449786324786325,
297
+ 0.6615918803418803,
298
+ 0.8691239316239316,
299
+ 1.1826923076923077,
300
+ 0.9927884615384616,
301
+ 1.1012286324786325,
302
+ 0.9727564102564102,
303
+ 0.8215811965811965,
304
+ 1.0018696581196582,
305
+ 0.9505876068376068,
306
+ 0.6941773504273504,
307
+ 0.7516025641025641,
308
+ 1.3368055555555556,
309
+ 1.3314636752136753,
310
+ 1.032318376068376,
311
+ 0.9468482905982906,
312
+ 1.1765491452991452,
313
+ 1.1466346153846154,
314
+ 1.173878205128205,
315
+ 0.6621260683760684,
316
+ 1.3154380341880343,
317
+ 0.7387820512820513,
318
+ 0.7521367521367521,
319
+ 0.9163995726495726,
320
+ 1.0600961538461537,
321
+ 1.0098824786324787,
322
+ 1.1081730769230769,
323
+ 1.0841346153846154,
324
+ 1.094284188034188,
325
+ 1.3028846153846154,
326
+ 0.9276175213675214,
327
+ 1.078792735042735,
328
+ 0.453525641025641,
329
+ 1.064102564102564,
330
+ 1.1351495726495726,
331
+ 0.7203525641025641,
332
+ 1.0993589743589745,
333
+ 1.078525641025641,
334
+ 0.8651175213675214,
335
+ 1.140758547008547,
336
+ 1.0344551282051282,
337
+ 1.0379273504273505,
338
+ 1.2751068376068375,
339
+ 0.9375,
340
+ 1.203792735042735,
341
+ 1.0456730769230769,
342
+ 0.813034188034188,
343
+ 1.2764423076923077,
344
+ 1.1904380341880343,
345
+ 0.8688568376068376,
346
+ 1.0763888888888888,
347
+ 0.7313034188034188,
348
+ 0.7612179487179487,
349
+ 1.1071047008547008,
350
+ 0.9620726495726496,
351
+ 0.6861645299145299,
352
+ 1.1623931623931625,
353
+ 1.3397435897435896,
354
+ 1.0088141025641026,
355
+ 0.9644764957264957,
356
+ 1.0058760683760684,
357
+ 0.9455128205128205,
358
+ 0.9289529914529915,
359
+ 0.8942307692307693,
360
+ 0.5969551282051282
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.22756410256410256,
364
+ 0.28846153846153844,
365
+ 0.33653846153846156,
366
+ 0.48717948717948717,
367
+ 0.6153846153846154
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.0364009009613564,
372
+ 0.6758453087587981,
373
+ 0.39267410751462617,
374
+ 0.23565255857733042,
375
+ 0.12117800978710143
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.5169391025641026,
380
+ 0.6887500000000006,
381
+ 0.8116826923076927,
382
+ 0.87996794871795,
383
+ 0.9300320512820546
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.7305021367521367,
387
+ 1.046474358974359,
388
+ 1.498397435897436,
389
+ 1.0988247863247864,
390
+ 0.9975961538461539,
391
+ 1.2454594017094016,
392
+ 1.1912393162393162,
393
+ 0.8581730769230769,
394
+ 1.1688034188034189,
395
+ 1.2227564102564104,
396
+ 0.6899038461538461,
397
+ 1.2524038461538463,
398
+ 1.2264957264957266,
399
+ 0.625267094017094,
400
+ 0.9246794871794872,
401
+ 1.1829594017094016,
402
+ 1.1180555555555556,
403
+ 0.9826388888888888,
404
+ 0.5259081196581197,
405
+ 0.6359508547008547,
406
+ 1.1340811965811965,
407
+ 1.015224358974359,
408
+ 0.5296474358974359,
409
+ 0.7350427350427351,
410
+ 0.9294871794871795,
411
+ 1.1346153846153846,
412
+ 0.8058226495726496,
413
+ 1.1786858974358974,
414
+ 0.8830128205128205,
415
+ 0.750267094017094,
416
+ 1.1370192307692308,
417
+ 0.7307692307692307,
418
+ 1.1781517094017093,
419
+ 0.7569444444444444,
420
+ 0.9636752136752137,
421
+ 0.6223290598290598,
422
+ 0.5494123931623932,
423
+ 0.6212606837606838,
424
+ 0.9407051282051282,
425
+ 1.045940170940171,
426
+ 1.1909722222222223,
427
+ 0.7935363247863247,
428
+ 0.6591880341880342,
429
+ 0.7021901709401709,
430
+ 0.6623931623931624,
431
+ 0.625,
432
+ 0.8512286324786325,
433
+ 1.1076388888888888,
434
+ 1.4644764957264957,
435
+ 1.0897435897435896,
436
+ 0.6132478632478633,
437
+ 0.9142628205128205,
438
+ 1.421207264957265,
439
+ 1.203258547008547,
440
+ 0.6797542735042735,
441
+ 1.2467948717948718,
442
+ 0.5411324786324786,
443
+ 0.8362713675213675,
444
+ 0.906784188034188,
445
+ 1.0248397435897436,
446
+ 0.8344017094017094,
447
+ 0.7323717948717948,
448
+ 1.0980235042735043,
449
+ 0.9158653846153846,
450
+ 1.15625,
451
+ 0.905448717948718,
452
+ 0.9286858974358975,
453
+ 0.7446581196581197,
454
+ 1.2104700854700854,
455
+ 1.2529380341880343,
456
+ 0.7080662393162394,
457
+ 1.0910790598290598,
458
+ 1.4134615384615385,
459
+ 0.9553952991452992,
460
+ 1.3381410256410255,
461
+ 1.1314102564102564,
462
+ 1.0715811965811965,
463
+ 1.2288995726495726,
464
+ 0.9861111111111112,
465
+ 1.0101495726495726,
466
+ 1.2251602564102564,
467
+ 0.7102029914529915,
468
+ 1.3020833333333333,
469
+ 1.0173611111111112,
470
+ 1.0683760683760684,
471
+ 1.2398504273504274,
472
+ 0.6712072649572649,
473
+ 0.9022435897435898,
474
+ 1.297542735042735,
475
+ 0.9869123931623932,
476
+ 0.8234508547008547,
477
+ 1.1883012820512822,
478
+ 1.5133547008547008,
479
+ 0.8680555555555556,
480
+ 0.8565705128205128,
481
+ 1.1143162393162394,
482
+ 0.9797008547008547,
483
+ 1.1049679487179487,
484
+ 0.7662927350427351,
485
+ 0.4906517094017094
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000524990285835,
489
+ 0.006452993370121709,
490
+ 0.031016101405699513,
491
+ 0.11879874641985785,
492
+ 0.286715052849337,
493
+ 0.5169887000038915
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.462310675254804,
497
+ 1.5563830497094668,
498
+ 1.3053320795567755,
499
+ 0.9736780494050666,
500
+ 0.7438049032738578
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.004852940871093126,
504
+ 0.024563108035577805,
505
+ 0.08778264501415833,
506
+ 0.16791630642947916,
507
+ 0.23027364715455453
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.22916666666666666,
511
+ 0.12980769230769232,
512
+ 0.22115384615384615,
513
+ 0.4423076923076923,
514
+ 0.6682692307692307
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.356185474447443,
518
+ 0.872787909160532,
519
+ 0.5295420492438481,
520
+ 0.3269313333910711,
521
+ 0.2190666745756778,
522
+ 0.12107033323392273
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34657051282051293,
526
+ 0.5928044871794876,
527
+ 0.754903846153847,
528
+ 0.8462339743589748,
529
+ 0.8937019230769246,
530
+ 0.9358173076923096
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.9481837606837606,
534
+ 1.0830662393162394,
535
+ 1.4473824786324787,
536
+ 1.0737179487179487,
537
+ 0.9930555555555556,
538
+ 1.1909722222222223,
539
+ 1.1968482905982907,
540
+ 0.8418803418803419,
541
+ 1.251068376068376,
542
+ 1.2529380341880343,
543
+ 0.8135683760683761,
544
+ 1.156784188034188,
545
+ 1.1933760683760684,
546
+ 0.7280982905982906,
547
+ 0.9783653846153846,
548
+ 1.1642628205128205,
549
+ 1.0333867521367521,
550
+ 1.0109508547008548,
551
+ 0.5510149572649573,
552
+ 0.6709401709401709,
553
+ 1.1038995726495726,
554
+ 0.9647435897435898,
555
+ 0.5667735042735043,
556
+ 0.7788461538461539,
557
+ 0.9500534188034188,
558
+ 1.031784188034188,
559
+ 0.8311965811965812,
560
+ 1.1522435897435896,
561
+ 0.8827457264957265,
562
+ 0.8098290598290598,
563
+ 1.1826923076923077,
564
+ 0.7884615384615384,
565
+ 1.076655982905983,
566
+ 0.8175747863247863,
567
+ 0.9455128205128205,
568
+ 0.7483974358974359,
569
+ 0.7064636752136753,
570
+ 0.6688034188034188,
571
+ 1.0045405982905984,
572
+ 1.0291132478632479,
573
+ 1.0705128205128205,
574
+ 0.8114316239316239,
575
+ 0.6840277777777778,
576
+ 0.8271901709401709,
577
+ 0.7395833333333334,
578
+ 0.7051282051282052,
579
+ 0.8819444444444444,
580
+ 1.0849358974358974,
581
+ 1.4153311965811965,
582
+ 1.0499465811965811,
583
+ 0.6992521367521367,
584
+ 0.9532585470085471,
585
+ 1.3402777777777777,
586
+ 1.2403846153846154,
587
+ 0.7230235042735043,
588
+ 1.1829594017094016,
589
+ 0.6148504273504274,
590
+ 0.8368055555555556,
591
+ 0.8827457264957265,
592
+ 1.044871794871795,
593
+ 0.8624465811965812,
594
+ 1.1295405982905984,
595
+ 1.1028311965811965,
596
+ 0.9308226495726496,
597
+ 1.1808226495726495,
598
+ 0.8341346153846154,
599
+ 0.9708867521367521,
600
+ 0.5908119658119658,
601
+ 1.2315705128205128,
602
+ 1.2288995726495726,
603
+ 0.7753739316239316,
604
+ 1.0405982905982907,
605
+ 1.328792735042735,
606
+ 1.0048076923076923,
607
+ 1.2775106837606838,
608
+ 1.09375,
609
+ 1.0438034188034189,
610
+ 1.204059829059829,
611
+ 0.8165064102564102,
612
+ 0.9909188034188035,
613
+ 1.2088675213675213,
614
+ 0.6968482905982906,
615
+ 1.2633547008547008,
616
+ 1.0868055555555556,
617
+ 1.0833333333333333,
618
+ 1.154647435897436,
619
+ 0.6904380341880342,
620
+ 0.9441773504273504,
621
+ 1.2556089743589745,
622
+ 0.8496260683760684,
623
+ 0.625,
624
+ 1.1915064102564104,
625
+ 1.4334935897435896,
626
+ 0.8787393162393162,
627
+ 0.8739316239316239,
628
+ 1.0520833333333333,
629
+ 1.0133547008547008,
630
+ 1.0673076923076923,
631
+ 0.7644230769230769,
632
+ 0.5667735042735043
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.739410347007777,
637
+ 3.3451427358695605,
638
+ 4.55259344199647,
639
+ 5.405940411331798,
640
+ 5.870099389156925
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39953525641025617,
644
+ 0.44679487179487126,
645
+ 0.44769230769230745,
646
+ 0.46693910256410237,
647
+ 0.477724358974359,
648
+ 0.49424679487179457
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1549145299145298,
652
+ 1.1778846153846154,
653
+ 1.405715811965812,
654
+ 1.3392094017094016,
655
+ 1.0339209401709402,
656
+ 0.6338141025641025,
657
+ 0.7839209401709402,
658
+ 0.7534722222222222,
659
+ 1.0280448717948718,
660
+ 1.4941239316239316,
661
+ 1.3269230769230769,
662
+ 0.8624465811965812,
663
+ 1.3699252136752136,
664
+ 0.9174679487179487,
665
+ 1.4145299145299146,
666
+ 1.4719551282051282,
667
+ 1.200587606837607,
668
+ 1.0037393162393162,
669
+ 0.7454594017094017,
670
+ 0.9166666666666666,
671
+ 0.6498397435897436,
672
+ 1.1533119658119657,
673
+ 0.8416132478632479,
674
+ 1.2580128205128205,
675
+ 0.9599358974358975,
676
+ 0.8950320512820513,
677
+ 1.0600961538461537,
678
+ 1.3416132478632479,
679
+ 0.7094017094017094,
680
+ 1.280715811965812,
681
+ 1.407852564102564,
682
+ 1.2836538461538463,
683
+ 0.44925213675213677,
684
+ 1.3482905982905984,
685
+ 0.8547008547008547,
686
+ 1.1004273504273505,
687
+ 0.8579059829059829,
688
+ 0.8082264957264957,
689
+ 1.048878205128205,
690
+ 0.6794871794871795,
691
+ 1.2219551282051282,
692
+ 1.2852564102564104,
693
+ 0.7702991452991453,
694
+ 1.1193910256410255,
695
+ 1.0940170940170941,
696
+ 0.6380876068376068,
697
+ 0.8199786324786325,
698
+ 1.3667200854700854,
699
+ 1.265491452991453,
700
+ 1.0053418803418803,
701
+ 1.202991452991453,
702
+ 0.8458867521367521,
703
+ 1.2003205128205128,
704
+ 1.3044871794871795,
705
+ 1.1081730769230769,
706
+ 1.2473290598290598,
707
+ 0.8536324786324786,
708
+ 0.7414529914529915,
709
+ 1.2927350427350428,
710
+ 0.9519230769230769,
711
+ 1.0844017094017093,
712
+ 0.7657585470085471,
713
+ 1.1594551282051282,
714
+ 0.6418269230769231,
715
+ 1.3181089743589745,
716
+ 0.8966346153846154,
717
+ 0.9823717948717948,
718
+ 0.4270833333333333,
719
+ 0.7574786324786325,
720
+ 1.0966880341880343,
721
+ 1.0411324786324787,
722
+ 0.6984508547008547,
723
+ 1.2606837606837606,
724
+ 0.8167735042735043,
725
+ 1.1677350427350428,
726
+ 0.75,
727
+ 0.7203525641025641,
728
+ 1.0392628205128205,
729
+ 0.8538995726495726,
730
+ 1.1850961538461537,
731
+ 1.1145833333333333,
732
+ 0.8100961538461539,
733
+ 1.047008547008547,
734
+ 0.9826388888888888,
735
+ 1.1821581196581197,
736
+ 1.1378205128205128,
737
+ 0.6826923076923077,
738
+ 0.7620192307692307,
739
+ 1.061431623931624,
740
+ 1.2409188034188035,
741
+ 0.4722222222222222,
742
+ 1.0077457264957266,
743
+ 1.3253205128205128,
744
+ 1.1877670940170941,
745
+ 1.3226495726495726,
746
+ 0.6650641025641025,
747
+ 1.0066773504273505,
748
+ 0.44177350427350426,
749
+ 0.4890491452991453,
750
+ 0.6981837606837606
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3600000000000056,
754
+ 0.7173878205128209,
755
+ 0.7198076923076925,
756
+ 0.7192467948717951,
757
+ 0.7231249999999998,
758
+ 0.7228044871794868
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37543269230769244,
762
+ 0.6572916666666669,
763
+ 0.6706250000000002,
764
+ 0.6686698717948719,
765
+ 0.673044871794872,
766
+ 0.6773076923076922
767
+ ]
768
+ }
769
+ }
results_v2/flight_uniform_kmin_96_seed0/cleaned_results.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_96_seed0/data.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/flight_uniform_kmin_96_seed0/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/u/linluqiu/bayesian_inference/eval_data/prior_uniform_kmin_96_seed0.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.003205128205128205,
64
+ 0.2516025641025641,
65
+ 0.3541666666666667,
66
+ 0.33974358974358976,
67
+ 0.421474358974359
68
+ ],
69
+ "model_accs": [
70
+ 0.003205128205128205,
71
+ 0.2516025641025641,
72
+ 0.3541666666666667,
73
+ 0.33974358974358976,
74
+ 0.421474358974359
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.23237179487179488,
78
+ 0.22756410256410256,
79
+ 0.34935897435897434,
80
+ 0.33653846153846156,
81
+ 0.44871794871794873
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3717948717948718,
85
+ 0.6298076923076923,
86
+ 0.6698717948717948,
87
+ 0.7163461538461539,
88
+ 0.6538461538461539
89
+ ],
90
+ "model_l2s": [
91
+ 1.355730195859342,
92
+ 1.1037068398337326,
93
+ 1.0764533000983703,
94
+ 1.080787462277122,
95
+ 1.0337530856564145,
96
+ 0.9749490194271498
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.3485096153846155,
100
+ 0.47735576923076933,
101
+ 0.48870192307692345,
102
+ 0.48964743589743537,
103
+ 0.5113942307692307,
104
+ 0.5378205128205128
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.7534722222222222,
108
+ 1.2574786324786325,
109
+ 1.2061965811965811,
110
+ 1.110309829059829,
111
+ 1.0211004273504274,
112
+ 1.0916132478632479,
113
+ 1.1848290598290598,
114
+ 0.969551282051282,
115
+ 1.063568376068376,
116
+ 1.0857371794871795,
117
+ 0.8661858974358975,
118
+ 1.0862713675213675,
119
+ 1.2262286324786325,
120
+ 0.8373397435897436,
121
+ 1.0480769230769231,
122
+ 1.173878205128205,
123
+ 0.9300213675213675,
124
+ 0.844017094017094,
125
+ 0.7326388888888888,
126
+ 0.6987179487179487,
127
+ 1.1383547008547008,
128
+ 1.0251068376068375,
129
+ 0.7136752136752137,
130
+ 0.9254807692307693,
131
+ 1.1971153846153846,
132
+ 0.9922542735042735,
133
+ 0.9751602564102564,
134
+ 1.169871794871795,
135
+ 0.7000534188034188,
136
+ 1.0080128205128205,
137
+ 1.0809294871794872,
138
+ 1.076655982905983,
139
+ 0.9318910256410257,
140
+ 0.9978632478632479,
141
+ 0.9086538461538461,
142
+ 0.8736645299145299,
143
+ 0.5235042735042735,
144
+ 0.9337606837606838,
145
+ 1.172275641025641,
146
+ 0.9580662393162394,
147
+ 1.109508547008547,
148
+ 0.969284188034188,
149
+ 0.7483974358974359,
150
+ 0.9337606837606838,
151
+ 0.9206730769230769,
152
+ 0.6621260683760684,
153
+ 0.7521367521367521,
154
+ 1.3629807692307692,
155
+ 1.3814102564102564,
156
+ 1.0814636752136753,
157
+ 0.9375,
158
+ 1.2069978632478633,
159
+ 1.1789529914529915,
160
+ 1.268162393162393,
161
+ 0.6821581196581197,
162
+ 1.3218482905982907,
163
+ 0.6485042735042735,
164
+ 0.7801816239316239,
165
+ 0.9708867521367521,
166
+ 1.0723824786324787,
167
+ 1.0502136752136753,
168
+ 0.7131410256410257,
169
+ 0.9978632478632479,
170
+ 1.0357905982905984,
171
+ 1.3627136752136753,
172
+ 1.0643696581196582,
173
+ 1.108707264957265,
174
+ 0.6626602564102564,
175
+ 1.0838675213675213,
176
+ 1.0643696581196582,
177
+ 0.7654914529914529,
178
+ 1.0253739316239316,
179
+ 1.1199252136752136,
180
+ 0.8597756410256411,
181
+ 1.1842948717948718,
182
+ 1.0819978632478633,
183
+ 1.0571581196581197,
184
+ 1.2112713675213675,
185
+ 1.109775641025641,
186
+ 1.233707264957265,
187
+ 0.9831730769230769,
188
+ 0.8108974358974359,
189
+ 1.2417200854700854,
190
+ 1.2110042735042734,
191
+ 0.9425747863247863,
192
+ 1.1749465811965811,
193
+ 0.7403846153846154,
194
+ 0.7035256410256411,
195
+ 1.0964209401709402,
196
+ 1.079594017094017,
197
+ 0.9137286324786325,
198
+ 1.1132478632478633,
199
+ 1.3394764957264957,
200
+ 1.0582264957264957,
201
+ 0.9674145299145299,
202
+ 1.1012286324786325,
203
+ 0.8461538461538461,
204
+ 0.875534188034188,
205
+ 0.8143696581196581,
206
+ 0.624732905982906
207
+ ],
208
+ "model_probs": [
209
+ 0.0016000823995457908,
210
+ 0.002714090449183587,
211
+ 0.0028797199345283876,
212
+ 0.0025663436431875982,
213
+ 0.003157137573290323,
214
+ 0.004076753222832052
215
+ ],
216
+ "model_info_gains": [
217
+ 0.5056572921464129,
218
+ -0.14230384342242844,
219
+ -0.22469083594232972,
220
+ 0.11495815219395365,
221
+ 0.24443845611212126
222
+ ],
223
+ "model_delta_probs": [
224
+ 0.0011140080496377964,
225
+ 0.00016562948534480044,
226
+ -0.00031337629134078963,
227
+ 0.0005907939301027254,
228
+ 0.0009196156495417285
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.23397435897435898,
232
+ 0.22756410256410256,
233
+ 0.33974358974358976,
234
+ 0.3108974358974359,
235
+ 0.44551282051282054
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.3798076923076923,
239
+ 0.6987179487179487,
240
+ 0.7259615384615384,
241
+ 0.7676282051282052,
242
+ 0.7419871794871795
243
+ ],
244
+ "model_expected_l2s": [
245
+ 1.3561714894324812,
246
+ 1.0726618911260484,
247
+ 1.0524155611566373,
248
+ 1.0541008130441345,
249
+ 0.9977826983851278,
250
+ 0.931137968329759
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.34895833333333326,
254
+ 0.49089743589743606,
255
+ 0.5000160256410258,
256
+ 0.5052724358974354,
257
+ 0.5306249999999998,
258
+ 0.5596634615384616
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.8362713675213675,
262
+ 1.3026175213675213,
263
+ 1.171741452991453,
264
+ 1.0689102564102564,
265
+ 1.0333867521367521,
266
+ 1.0884081196581197,
267
+ 1.2502670940170941,
268
+ 0.9305555555555556,
269
+ 1.1883012820512822,
270
+ 1.2403846153846154,
271
+ 0.9901175213675214,
272
+ 1.1014957264957266,
273
+ 1.1760149572649572,
274
+ 0.8677884615384616,
275
+ 1.0539529914529915,
276
+ 1.2168803418803418,
277
+ 0.9847756410256411,
278
+ 0.8325320512820513,
279
+ 0.7110042735042735,
280
+ 0.7406517094017094,
281
+ 1.1754807692307692,
282
+ 1.0670405982905984,
283
+ 0.7272970085470085,
284
+ 0.9241452991452992,
285
+ 1.1805555555555556,
286
+ 0.9428418803418803,
287
+ 0.9815705128205128,
288
+ 1.1792200854700854,
289
+ 0.6816239316239316,
290
+ 1.0352564102564104,
291
+ 1.079059829059829,
292
+ 1.0077457264957266,
293
+ 0.9762286324786325,
294
+ 1.0822649572649572,
295
+ 0.8723290598290598,
296
+ 0.9586004273504274,
297
+ 0.6581196581196581,
298
+ 0.8771367521367521,
299
+ 1.1909722222222223,
300
+ 0.9724893162393162,
301
+ 1.0908119658119657,
302
+ 0.9751602564102564,
303
+ 0.8245192307692307,
304
+ 0.9983974358974359,
305
+ 0.9703525641025641,
306
+ 0.7158119658119658,
307
+ 0.7561431623931624,
308
+ 1.3298611111111112,
309
+ 1.329059829059829,
310
+ 0.9962606837606838,
311
+ 0.9564636752136753,
312
+ 1.1760149572649572,
313
+ 1.126068376068376,
314
+ 1.1960470085470085,
315
+ 0.6637286324786325,
316
+ 1.3018162393162394,
317
+ 0.7291666666666666,
318
+ 0.7996794871794872,
319
+ 0.9423076923076923,
320
+ 1.0857371794871795,
321
+ 0.9834401709401709,
322
+ 1.1033653846153846,
323
+ 1.0753205128205128,
324
+ 1.0849358974358974,
325
+ 1.3215811965811965,
326
+ 0.9217414529914529,
327
+ 1.0916132478632479,
328
+ 0.4895833333333333,
329
+ 1.0649038461538463,
330
+ 1.1060363247863247,
331
+ 0.7459935897435898,
332
+ 1.0870726495726495,
333
+ 1.0715811965811965,
334
+ 0.8800747863247863,
335
+ 1.1503739316239316,
336
+ 1.0440705128205128,
337
+ 1.0411324786324787,
338
+ 1.2743055555555556,
339
+ 0.9182692307692307,
340
+ 1.1658653846153846,
341
+ 1.0432692307692308,
342
+ 0.8215811965811965,
343
+ 1.2887286324786325,
344
+ 1.173344017094017,
345
+ 0.9049145299145299,
346
+ 1.108974358974359,
347
+ 0.7516025641025641,
348
+ 0.7873931623931624,
349
+ 1.0929487179487178,
350
+ 0.9946581196581197,
351
+ 0.6738782051282052,
352
+ 1.1506410256410255,
353
+ 1.330662393162393,
354
+ 1.0269764957264957,
355
+ 0.9375,
356
+ 0.9738247863247863,
357
+ 0.9185363247863247,
358
+ 0.9313568376068376,
359
+ 0.9001068376068376,
360
+ 0.6084401709401709
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.21794871794871795,
364
+ 0.18269230769230768,
365
+ 0.28685897435897434,
366
+ 0.46153846153846156,
367
+ 0.8076923076923077
368
+ ],
369
+ "infer_l2s": [
370
+ 1.355730195859342,
371
+ 1.0171382911008275,
372
+ 0.55641163215407,
373
+ 0.2931302433476068,
374
+ 0.08745336062694564,
375
+ 0.0068469139621978444
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.3495993589743591,
379
+ 0.5251602564102562,
380
+ 0.7392147435897443,
381
+ 0.8571955128205142,
382
+ 0.9446794871794912,
383
+ 0.9789583333333388
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.7617521367521367,
387
+ 1.046474358974359,
388
+ 1.4794337606837606,
389
+ 1.094818376068376,
390
+ 1.0088141025641026,
391
+ 1.2443910256410255,
392
+ 1.1730769230769231,
393
+ 0.8656517094017094,
394
+ 1.1589209401709402,
395
+ 1.2248931623931625,
396
+ 0.7144764957264957,
397
+ 1.2251602564102564,
398
+ 1.2262286324786325,
399
+ 0.6602564102564102,
400
+ 0.9265491452991453,
401
+ 1.1607905982905984,
402
+ 1.0902777777777777,
403
+ 0.9826388888888888,
404
+ 0.5341880341880342,
405
+ 0.6404914529914529,
406
+ 1.1300747863247864,
407
+ 1.015491452991453,
408
+ 0.5544871794871795,
409
+ 0.7411858974358975,
410
+ 0.9340277777777778,
411
+ 1.1129807692307692,
412
+ 0.8002136752136753,
413
+ 1.1594551282051282,
414
+ 0.875801282051282,
415
+ 0.7684294871794872,
416
+ 1.1212606837606838,
417
+ 0.750267094017094,
418
+ 1.1316773504273505,
419
+ 0.7649572649572649,
420
+ 0.9556623931623932,
421
+ 0.6658653846153846,
422
+ 0.5854700854700855,
423
+ 0.656517094017094,
424
+ 0.9642094017094017,
425
+ 1.0411324786324787,
426
+ 1.1682692307692308,
427
+ 0.8055555555555556,
428
+ 0.6621260683760684,
429
+ 0.7475961538461539,
430
+ 0.6939102564102564,
431
+ 0.6522435897435898,
432
+ 0.8736645299145299,
433
+ 1.0838675213675213,
434
+ 1.4407051282051282,
435
+ 1.0595619658119657,
436
+ 0.6599893162393162,
437
+ 0.9217414529914529,
438
+ 1.3846153846153846,
439
+ 1.2131410256410255,
440
+ 0.7155448717948718,
441
+ 1.2206196581196582,
442
+ 0.5731837606837606,
443
+ 0.843215811965812,
444
+ 0.9284188034188035,
445
+ 1.0528846153846154,
446
+ 0.8629807692307693,
447
+ 0.7617521367521367,
448
+ 1.1001602564102564,
449
+ 0.9174679487179487,
450
+ 1.1768162393162394,
451
+ 0.9206730769230769,
452
+ 0.9471153846153846,
453
+ 0.7625534188034188,
454
+ 1.1997863247863247,
455
+ 1.235042735042735,
456
+ 0.7350427350427351,
457
+ 1.0566239316239316,
458
+ 1.3894230769230769,
459
+ 0.9732905982905983,
460
+ 1.3357371794871795,
461
+ 1.1207264957264957,
462
+ 1.0595619658119657,
463
+ 1.2107371794871795,
464
+ 0.9751602564102564,
465
+ 0.9882478632478633,
466
+ 1.231837606837607,
467
+ 0.7011217948717948,
468
+ 1.2841880341880343,
469
+ 1.0397970085470085,
470
+ 1.0841346153846154,
471
+ 1.2003205128205128,
472
+ 0.688034188034188,
473
+ 0.9163995726495726,
474
+ 1.2863247863247864,
475
+ 1.015491452991453,
476
+ 0.8135683760683761,
477
+ 1.1805555555555556,
478
+ 1.4871794871794872,
479
+ 0.8661858974358975,
480
+ 0.8632478632478633,
481
+ 1.0918803418803418,
482
+ 0.9855769230769231,
483
+ 1.0846688034188035,
484
+ 0.7582799145299145,
485
+ 0.5122863247863247
486
+ ],
487
+ "infer_probs": [
488
+ 0.0016000823995457908,
489
+ 0.007790941677215484,
490
+ 0.05550956894839123,
491
+ 0.26503495151047946,
492
+ 0.6410415736321832,
493
+ 0.8462444793332953
494
+ ],
495
+ "infer_info_gains": [
496
+ 1.6451403802015137,
497
+ 1.9805816496768271,
498
+ 1.5784404217936465,
499
+ 1.1395799347398703,
500
+ 0.42360379616882327
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.006190859277669694,
504
+ 0.04771862727117574,
505
+ 0.20952538256208825,
506
+ 0.37600662212170366,
507
+ 0.20520290570111216
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.23397435897435898,
511
+ 0.08333333333333333,
512
+ 0.16506410256410256,
513
+ 0.41346153846153844,
514
+ 0.8044871794871795
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 1.3561714894324812,
518
+ 0.8209371209890245,
519
+ 0.4342893647041417,
520
+ 0.2642344536699509,
521
+ 0.09398022242825355,
522
+ 0.011053884496756147
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.34895833333333326,
526
+ 0.6192307692307691,
527
+ 0.794423076923077,
528
+ 0.875993589743591,
529
+ 0.9461057692307725,
530
+ 0.9772916666666719
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.8007478632478633,
534
+ 1.0849358974358974,
535
+ 1.4329594017094016,
536
+ 1.075587606837607,
537
+ 1.0034722222222223,
538
+ 1.185897435897436,
539
+ 1.1810897435897436,
540
+ 0.8405448717948718,
541
+ 1.2390491452991452,
542
+ 1.265491452991453,
543
+ 0.8068910256410257,
544
+ 1.1565170940170941,
545
+ 1.1931089743589745,
546
+ 0.7318376068376068,
547
+ 0.9815705128205128,
548
+ 1.1621260683760684,
549
+ 1.03125,
550
+ 0.9986645299145299,
551
+ 0.5590277777777778,
552
+ 0.6808226495726496,
553
+ 1.1020299145299146,
554
+ 0.9837072649572649,
555
+ 0.5884081196581197,
556
+ 0.7889957264957265,
557
+ 0.9668803418803419,
558
+ 1.0202991452991452,
559
+ 0.8333333333333334,
560
+ 1.1463675213675213,
561
+ 0.8728632478632479,
562
+ 0.8223824786324786,
563
+ 1.1538461538461537,
564
+ 0.8058226495726496,
565
+ 1.076121794871795,
566
+ 0.8287927350427351,
567
+ 0.9401709401709402,
568
+ 0.7585470085470085,
569
+ 0.7061965811965812,
570
+ 0.6931089743589743,
571
+ 1.0168269230769231,
572
+ 1.0320512820512822,
573
+ 1.0731837606837606,
574
+ 0.8218482905982906,
575
+ 0.7019230769230769,
576
+ 0.84375,
577
+ 0.7390491452991453,
578
+ 0.6952457264957265,
579
+ 0.875267094017094,
580
+ 1.0884081196581197,
581
+ 1.3923611111111112,
582
+ 1.0424679487179487,
583
+ 0.7270299145299145,
584
+ 0.9652777777777778,
585
+ 1.328258547008547,
586
+ 1.235042735042735,
587
+ 0.7200854700854701,
588
+ 1.1893696581196582,
589
+ 0.6362179487179487,
590
+ 0.8418803418803419,
591
+ 0.8814102564102564,
592
+ 1.0536858974358974,
593
+ 0.8787393162393162,
594
+ 1.1346153846153846,
595
+ 1.108707264957265,
596
+ 0.9345619658119658,
597
+ 1.1813568376068375,
598
+ 0.8496260683760684,
599
+ 0.9644764957264957,
600
+ 0.6004273504273504,
601
+ 1.2256944444444444,
602
+ 1.2313034188034189,
603
+ 0.7828525641025641,
604
+ 1.0357905982905984,
605
+ 1.3242521367521367,
606
+ 0.9869123931623932,
607
+ 1.2620192307692308,
608
+ 1.0860042735042734,
609
+ 1.047542735042735,
610
+ 1.2126068376068375,
611
+ 0.8186431623931624,
612
+ 0.9895833333333334,
613
+ 1.1936431623931625,
614
+ 0.6989850427350427,
615
+ 1.2612179487179487,
616
+ 1.076655982905983,
617
+ 1.0982905982905984,
618
+ 1.139957264957265,
619
+ 0.6888354700854701,
620
+ 0.9294871794871795,
621
+ 1.2438568376068375,
622
+ 0.8776709401709402,
623
+ 0.6303418803418803,
624
+ 1.1832264957264957,
625
+ 1.4206730769230769,
626
+ 0.8643162393162394,
627
+ 0.8961004273504274,
628
+ 1.0424679487179487,
629
+ 1.0186965811965811,
630
+ 1.0643696581196582,
631
+ 0.7617521367521367,
632
+ 0.5592948717948718
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.9471253552803973,
637
+ 3.934564843088665,
638
+ 5.418356160347691,
639
+ 6.324039237384913,
640
+ 6.405284566941408
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.3995833333333328,
644
+ 0.4708493589743586,
645
+ 0.45807692307692377,
646
+ 0.4696314102564102,
647
+ 0.4851442307692308,
648
+ 0.5034294871794872
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 1.1637286324786325,
652
+ 1.172542735042735,
653
+ 1.439102564102564,
654
+ 1.3627136752136753,
655
+ 1.0341880341880343,
656
+ 0.6188568376068376,
657
+ 0.8028846153846154,
658
+ 0.7540064102564102,
659
+ 1.0264423076923077,
660
+ 1.4489850427350428,
661
+ 1.3731303418803418,
662
+ 0.8498931623931624,
663
+ 1.4022435897435896,
664
+ 0.9033119658119658,
665
+ 1.4180021367521367,
666
+ 1.5064102564102564,
667
+ 1.1992521367521367,
668
+ 1.0333867521367521,
669
+ 0.7585470085470085,
670
+ 0.9388354700854701,
671
+ 0.6201923076923077,
672
+ 1.1672008547008548,
673
+ 0.8699252136752137,
674
+ 1.2540064102564104,
675
+ 0.9631410256410257,
676
+ 0.8723290598290598,
677
+ 0.8958333333333334,
678
+ 1.3298611111111112,
679
+ 0.6757478632478633,
680
+ 1.3012820512820513,
681
+ 1.4091880341880343,
682
+ 1.2849893162393162,
683
+ 0.4650106837606838,
684
+ 1.3482905982905984,
685
+ 0.8560363247863247,
686
+ 1.063034188034188,
687
+ 0.8490918803418803,
688
+ 0.811965811965812,
689
+ 1.2072649572649572,
690
+ 0.6549145299145299,
691
+ 1.171474358974359,
692
+ 1.3234508547008548,
693
+ 0.8146367521367521,
694
+ 1.1463675213675213,
695
+ 1.141292735042735,
696
+ 0.6861645299145299,
697
+ 0.8173076923076923,
698
+ 1.3397435897435896,
699
+ 1.2406517094017093,
700
+ 0.9607371794871795,
701
+ 1.232371794871795,
702
+ 0.8202457264957265,
703
+ 1.1450320512820513,
704
+ 1.3357371794871795,
705
+ 1.0905448717948718,
706
+ 1.249465811965812,
707
+ 0.9043803418803419,
708
+ 0.7646901709401709,
709
+ 1.3050213675213675,
710
+ 0.9492521367521367,
711
+ 1.077190170940171,
712
+ 0.7633547008547008,
713
+ 1.154647435897436,
714
+ 0.624732905982906,
715
+ 1.3298611111111112,
716
+ 0.8784722222222222,
717
+ 0.9863782051282052,
718
+ 0.437232905982906,
719
+ 0.7604166666666666,
720
+ 0.7206196581196581,
721
+ 1.0715811965811965,
722
+ 0.6995192307692307,
723
+ 1.3010149572649572,
724
+ 0.6527777777777778,
725
+ 1.1663995726495726,
726
+ 0.7646901709401709,
727
+ 0.7021901709401709,
728
+ 1.0430021367521367,
729
+ 0.8378739316239316,
730
+ 1.1834935897435896,
731
+ 1.1207264957264957,
732
+ 0.8563034188034188,
733
+ 1.0697115384615385,
734
+ 0.9350961538461539,
735
+ 1.2064636752136753,
736
+ 1.1826923076923077,
737
+ 0.7286324786324786,
738
+ 0.7665598290598291,
739
+ 1.0678418803418803,
740
+ 1.2361111111111112,
741
+ 0.45592948717948717,
742
+ 0.9727564102564102,
743
+ 1.3010149572649572,
744
+ 1.2491987179487178,
745
+ 1.326655982905983,
746
+ 0.6431623931623932,
747
+ 0.968215811965812,
748
+ 0.44898504273504275,
749
+ 0.5016025641025641,
750
+ 0.7262286324786325
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.34000000000000286,
754
+ 0.7172756410256409,
755
+ 0.7224358974358974,
756
+ 0.7179807692307693,
757
+ 0.7163301282051283,
758
+ 0.7309615384615381
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.35543269230769375,
762
+ 0.6499679487179483,
763
+ 0.6679006410256406,
764
+ 0.6649519230769231,
765
+ 0.6647275641025637,
766
+ 0.6772435897435896
767
+ ]
768
+ }
769
+ }
results_v2/human_v2_5rounds/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/user/linluqiu/bayesian_inference/human_as_human_v2/human_v2_5rounds.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.36666666666666664,
64
+ 0.35,
65
+ 0.4166666666666667,
66
+ 0.43,
67
+ 0.37666666666666665
68
+ ],
69
+ "model_accs": [
70
+ 0.36666666666666664,
71
+ 0.35,
72
+ 0.4166666666666667,
73
+ 0.43,
74
+ 0.37666666666666665
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.5733333333333334,
78
+ 0.45,
79
+ 0.39,
80
+ 0.4266666666666667,
81
+ 0.4266666666666667
82
+ ],
83
+ "model_consistencies": [
84
+ 0.3333333333333333,
85
+ 0.6433333333333333,
86
+ 0.6766666666666666,
87
+ 0.6933333333333334,
88
+ 0.7
89
+ ],
90
+ "model_l2s": [
91
+ 0.6798868004826828,
92
+ 1.1674157163437613,
93
+ 1.133358615660429,
94
+ 1.1635329329151067,
95
+ 1.1490561564388928,
96
+ 1.0982486720063387
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.6864666666666671,
100
+ 0.4502,
101
+ 0.47029999999999983,
102
+ 0.45403333333333334,
103
+ 0.4551999999999996,
104
+ 0.48350000000000015
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.36833333333333335,
108
+ 1.1861111111111111,
109
+ 1.4833333333333334,
110
+ 0.895,
111
+ 0.8255555555555556,
112
+ 1.258888888888889,
113
+ 1.1455555555555557,
114
+ 0.8455555555555555,
115
+ 1.365,
116
+ 1.3544444444444443,
117
+ 0.5694444444444444,
118
+ 1.1088888888888888,
119
+ 1.0711111111111111,
120
+ 0.7461111111111111,
121
+ 0.965,
122
+ 1.2538888888888888,
123
+ 0.9672222222222222,
124
+ 1.0988888888888888,
125
+ 0.7155555555555555,
126
+ 0.6838888888888889,
127
+ 1.201111111111111,
128
+ 0.7916666666666666,
129
+ 0.6533333333333333,
130
+ 0.8994444444444445,
131
+ 1.038888888888889,
132
+ 1.185,
133
+ 0.9061111111111111,
134
+ 1.403888888888889,
135
+ 0.8811111111111111,
136
+ 0.7283333333333334,
137
+ 0.9872222222222222,
138
+ 0.7461111111111111,
139
+ 1.041111111111111,
140
+ 0.7972222222222223,
141
+ 1.1588888888888889,
142
+ 0.5244444444444445,
143
+ 0.26944444444444443,
144
+ 0.5911111111111111,
145
+ 1.2116666666666667,
146
+ 1.1077777777777778,
147
+ 1.2661111111111112,
148
+ 0.6083333333333333,
149
+ 0.5833333333333334,
150
+ 0.675,
151
+ 0.6016666666666667,
152
+ 0.29777777777777775,
153
+ 0.8205555555555556,
154
+ 1.3222222222222222,
155
+ 1.508888888888889,
156
+ 1.241111111111111,
157
+ 0.5233333333333333,
158
+ 1.0677777777777777,
159
+ 1.511111111111111,
160
+ 1.0033333333333334,
161
+ 0.4588888888888889,
162
+ 1.3288888888888888,
163
+ 0.37833333333333335,
164
+ 0.7633333333333333,
165
+ 0.7933333333333333,
166
+ 1.02,
167
+ 0.8177777777777778,
168
+ 0.6922222222222222,
169
+ 1.2305555555555556,
170
+ 1.031111111111111,
171
+ 1.1572222222222222,
172
+ 1.093888888888889,
173
+ 1.0333333333333334,
174
+ 0.5983333333333334,
175
+ 1.4544444444444444,
176
+ 1.4922222222222221,
177
+ 0.4172222222222222,
178
+ 1.1111111111111112,
179
+ 1.28,
180
+ 0.9011111111111111,
181
+ 1.298888888888889,
182
+ 1.1188888888888888,
183
+ 1.2566666666666666,
184
+ 1.2361111111111112,
185
+ 1.0377777777777777,
186
+ 1.1272222222222221,
187
+ 1.02,
188
+ 0.7377777777777778,
189
+ 1.3733333333333333,
190
+ 1.2927777777777778,
191
+ 0.95,
192
+ 1.0577777777777777,
193
+ 0.37333333333333335,
194
+ 0.8216666666666667,
195
+ 1.115,
196
+ 0.715,
197
+ 0.9677777777777777,
198
+ 1.4255555555555555,
199
+ 1.5383333333333333,
200
+ 0.7711111111111111,
201
+ 0.9172222222222223,
202
+ 1.2066666666666668,
203
+ 1.1044444444444443,
204
+ 1.031111111111111,
205
+ 0.7727777777777778,
206
+ 0.6338888888888888
207
+ ],
208
+ "model_probs": [
209
+ 0.00449417890409677,
210
+ 0.0037316398134427213,
211
+ 0.003346809508001343,
212
+ 0.00284237410970519,
213
+ 0.0025965919452285153,
214
+ 0.003384134191733968
215
+ ],
216
+ "model_info_gains": [
217
+ -0.7404358694232646,
218
+ -0.15536763417059993,
219
+ -0.03516182605093057,
220
+ -0.05585686176108763,
221
+ 0.2819978314515805
222
+ ],
223
+ "model_delta_probs": [
224
+ -0.0007625390906540493,
225
+ -0.0003848303054413786,
226
+ -0.0005044353982961525,
227
+ -0.0002457821644766748,
228
+ 0.0007875422465054527
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.5233333333333333,
232
+ 0.42333333333333334,
233
+ 0.43333333333333335,
234
+ 0.4166666666666667,
235
+ 0.43333333333333335
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.3,
239
+ 0.7366666666666667,
240
+ 0.7466666666666667,
241
+ 0.7466666666666667,
242
+ 0.76
243
+ ],
244
+ "model_expected_l2s": [
245
+ 0.7100164898388748,
246
+ 1.1617579956946913,
247
+ 1.1293918492361876,
248
+ 1.1548122308022508,
249
+ 1.1315711151709373,
250
+ 1.0792239242074162
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.6794666666666672,
254
+ 0.45593333333333363,
255
+ 0.4742666666666668,
256
+ 0.4574333333333334,
257
+ 0.4665666666666663,
258
+ 0.4901333333333332
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.4122222222222222,
262
+ 1.1944444444444444,
263
+ 1.4022222222222223,
264
+ 0.7955555555555556,
265
+ 0.7844444444444445,
266
+ 1.295,
267
+ 1.2627777777777778,
268
+ 0.7555555555555555,
269
+ 1.478888888888889,
270
+ 1.426111111111111,
271
+ 0.6888888888888889,
272
+ 1.1744444444444444,
273
+ 0.9633333333333334,
274
+ 0.7777777777777778,
275
+ 1.0544444444444445,
276
+ 1.2738888888888888,
277
+ 0.9566666666666667,
278
+ 1.16,
279
+ 0.6333333333333333,
280
+ 0.8061111111111111,
281
+ 1.2538888888888888,
282
+ 0.8183333333333334,
283
+ 0.6266666666666667,
284
+ 0.8922222222222222,
285
+ 1.1127777777777779,
286
+ 1.1111111111111112,
287
+ 0.8838888888888888,
288
+ 1.461111111111111,
289
+ 0.8855555555555555,
290
+ 0.7027777777777777,
291
+ 1.0305555555555554,
292
+ 0.6827777777777778,
293
+ 1.0716666666666668,
294
+ 0.84,
295
+ 1.125,
296
+ 0.6144444444444445,
297
+ 0.4855555555555556,
298
+ 0.5088888888888888,
299
+ 1.2055555555555555,
300
+ 1.0677777777777777,
301
+ 1.1827777777777777,
302
+ 0.5955555555555555,
303
+ 0.6172222222222222,
304
+ 0.7005555555555556,
305
+ 0.6155555555555555,
306
+ 0.33444444444444443,
307
+ 0.8761111111111111,
308
+ 1.2838888888888889,
309
+ 1.4855555555555555,
310
+ 1.2516666666666667,
311
+ 0.5411111111111111,
312
+ 1.0727777777777778,
313
+ 1.4677777777777778,
314
+ 1.0644444444444445,
315
+ 0.4127777777777778,
316
+ 1.2377777777777779,
317
+ 0.39222222222222225,
318
+ 0.7611111111111111,
319
+ 0.7405555555555555,
320
+ 1.08,
321
+ 0.7855555555555556,
322
+ 0.9905555555555555,
323
+ 1.2838888888888889,
324
+ 1.048888888888889,
325
+ 1.1455555555555557,
326
+ 1.021111111111111,
327
+ 1.031111111111111,
328
+ 0.4411111111111111,
329
+ 1.4866666666666666,
330
+ 1.548888888888889,
331
+ 0.40555555555555556,
332
+ 1.231111111111111,
333
+ 1.2227777777777777,
334
+ 0.9566666666666667,
335
+ 1.2083333333333333,
336
+ 1.1072222222222223,
337
+ 1.248888888888889,
338
+ 1.3066666666666666,
339
+ 0.9972222222222222,
340
+ 1.0161111111111112,
341
+ 1.0327777777777778,
342
+ 0.6694444444444444,
343
+ 1.4094444444444445,
344
+ 1.3022222222222222,
345
+ 0.8994444444444445,
346
+ 0.9766666666666667,
347
+ 0.3638888888888889,
348
+ 0.8766666666666667,
349
+ 1.1294444444444445,
350
+ 0.5661111111111111,
351
+ 0.7983333333333333,
352
+ 1.4494444444444445,
353
+ 1.5527777777777778,
354
+ 0.7427777777777778,
355
+ 0.8616666666666667,
356
+ 1.1094444444444445,
357
+ 1.1344444444444444,
358
+ 1.0977777777777777,
359
+ 0.79,
360
+ 0.5916666666666667
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.5833333333333334,
364
+ 0.5666666666666667,
365
+ 0.5266666666666666,
366
+ 0.5666666666666667,
367
+ 0.58
368
+ ],
369
+ "infer_l2s": [
370
+ 0.6798868004826828,
371
+ 0.7377420081799587,
372
+ 0.8204232348268476,
373
+ 0.864092156262234,
374
+ 0.8933916408010356,
375
+ 0.9356221417366755
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.6862999999999999,
379
+ 0.6619666666666665,
380
+ 0.6238666666666663,
381
+ 0.5970999999999994,
382
+ 0.584866666666666,
383
+ 0.5599333333333333
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.275,
387
+ 1.0094444444444444,
388
+ 1.676111111111111,
389
+ 0.895,
390
+ 0.8611111111111112,
391
+ 1.6277777777777778,
392
+ 1.3377777777777777,
393
+ 0.79,
394
+ 1.5427777777777778,
395
+ 1.3405555555555555,
396
+ 0.41888888888888887,
397
+ 1.5522222222222222,
398
+ 1.0594444444444444,
399
+ 0.3283333333333333,
400
+ 0.7266666666666667,
401
+ 1.2005555555555556,
402
+ 1.0644444444444445,
403
+ 1.218888888888889,
404
+ 0.35333333333333333,
405
+ 0.4811111111111111,
406
+ 1.5844444444444445,
407
+ 0.7133333333333334,
408
+ 0.2727777777777778,
409
+ 0.665,
410
+ 0.8988888888888888,
411
+ 1.2861111111111112,
412
+ 0.5305555555555556,
413
+ 1.3872222222222221,
414
+ 0.9861111111111112,
415
+ 0.45166666666666666,
416
+ 1.0616666666666668,
417
+ 0.2638888888888889,
418
+ 1.2072222222222222,
419
+ 0.3288888888888889,
420
+ 1.0805555555555555,
421
+ 0.215,
422
+ 0.26055555555555554,
423
+ 0.22055555555555556,
424
+ 1.0422222222222222,
425
+ 1.0461111111111112,
426
+ 1.3172222222222223,
427
+ 0.29388888888888887,
428
+ 0.4027777777777778,
429
+ 0.4777777777777778,
430
+ 0.23833333333333334,
431
+ 0.23444444444444446,
432
+ 0.9927777777777778,
433
+ 1.075,
434
+ 1.683888888888889,
435
+ 1.173888888888889,
436
+ 0.16555555555555557,
437
+ 0.9588888888888889,
438
+ 1.8294444444444444,
439
+ 1.0822222222222222,
440
+ 0.2361111111111111,
441
+ 1.2833333333333334,
442
+ 0.15555555555555556,
443
+ 0.8766666666666667,
444
+ 0.7611111111111111,
445
+ 1.0261111111111112,
446
+ 0.4583333333333333,
447
+ 0.5261111111111111,
448
+ 1.1,
449
+ 0.9377777777777778,
450
+ 1.0366666666666666,
451
+ 0.8477777777777777,
452
+ 0.9855555555555555,
453
+ 0.8344444444444444,
454
+ 1.7505555555555556,
455
+ 1.7261111111111112,
456
+ 0.2638888888888889,
457
+ 1.4388888888888889,
458
+ 1.6366666666666667,
459
+ 1.145,
460
+ 1.5766666666666667,
461
+ 1.4072222222222222,
462
+ 1.505,
463
+ 1.4105555555555556,
464
+ 0.9866666666666667,
465
+ 0.8744444444444445,
466
+ 1.2455555555555555,
467
+ 0.3616666666666667,
468
+ 1.643888888888889,
469
+ 1.1194444444444445,
470
+ 1.1466666666666667,
471
+ 1.2094444444444445,
472
+ 0.21833333333333332,
473
+ 0.9788888888888889,
474
+ 1.3266666666666667,
475
+ 0.8061111111111111,
476
+ 1.0727777777777778,
477
+ 1.5783333333333334,
478
+ 1.853888888888889,
479
+ 0.4388888888888889,
480
+ 0.5316666666666666,
481
+ 1.055,
482
+ 1.106111111111111,
483
+ 1.3772222222222221,
484
+ 0.7261111111111112,
485
+ 0.4961111111111111
486
+ ],
487
+ "infer_probs": [
488
+ 0.00449417890409677,
489
+ 0.006337654465435966,
490
+ 0.0068722604011175765,
491
+ 0.006571771176531911,
492
+ 0.009971259358571842,
493
+ 0.00877979475306347
494
+ ],
495
+ "infer_info_gains": [
496
+ -2.108109296212909,
497
+ -1.9066600232713422,
498
+ -0.9040342620114579,
499
+ -0.7467240459077457,
500
+ -0.5495108978546918
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0018434755613391948,
504
+ 0.0005346059356816112,
505
+ -0.0003004892245856657,
506
+ 0.0033994881820399313,
507
+ -0.0011914646055083721
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.5233333333333333,
511
+ 0.6,
512
+ 0.6066666666666667,
513
+ 0.5933333333333334,
514
+ 0.5833333333333334
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 0.7100164898388748,
518
+ 0.8609748703876052,
519
+ 0.8623329754054614,
520
+ 0.8435167361685524,
521
+ 0.8384577623406639,
522
+ 0.8350020311090884
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.6794666666666672,
526
+ 0.6049333333333334,
527
+ 0.6043666666666662,
528
+ 0.6010666666666664,
529
+ 0.5805666666666667,
530
+ 0.5558333333333333
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.38055555555555554,
534
+ 0.9844444444444445,
535
+ 1.5505555555555555,
536
+ 0.8177777777777778,
537
+ 0.7566666666666667,
538
+ 1.613888888888889,
539
+ 1.2994444444444444,
540
+ 0.7233333333333334,
541
+ 1.5638888888888889,
542
+ 1.4961111111111112,
543
+ 0.6033333333333334,
544
+ 1.316111111111111,
545
+ 0.9833333333333333,
546
+ 0.5033333333333333,
547
+ 0.9627777777777777,
548
+ 1.1816666666666666,
549
+ 0.9738888888888889,
550
+ 1.346111111111111,
551
+ 0.47055555555555556,
552
+ 0.685,
553
+ 1.3911111111111112,
554
+ 0.655,
555
+ 0.34555555555555556,
556
+ 0.8172222222222222,
557
+ 0.9038888888888889,
558
+ 1.238888888888889,
559
+ 0.6133333333333333,
560
+ 1.3611111111111112,
561
+ 0.9922222222222222,
562
+ 0.5183333333333333,
563
+ 1.0994444444444444,
564
+ 0.34833333333333333,
565
+ 1.0905555555555555,
566
+ 0.44333333333333336,
567
+ 1.09,
568
+ 0.33166666666666667,
569
+ 0.6616666666666666,
570
+ 0.2872222222222222,
571
+ 1.0788888888888888,
572
+ 1.0122222222222221,
573
+ 1.175,
574
+ 0.25666666666666665,
575
+ 0.41888888888888887,
576
+ 0.5805555555555556,
577
+ 0.2288888888888889,
578
+ 0.2688888888888889,
579
+ 1.0322222222222222,
580
+ 1.0444444444444445,
581
+ 1.6022222222222222,
582
+ 1.1933333333333334,
583
+ 0.17888888888888888,
584
+ 0.9494444444444444,
585
+ 1.7938888888888889,
586
+ 1.113888888888889,
587
+ 0.3111111111111111,
588
+ 1.0255555555555556,
589
+ 0.20722222222222222,
590
+ 0.8761111111111111,
591
+ 0.7822222222222223,
592
+ 1.028888888888889,
593
+ 0.515,
594
+ 0.9766666666666667,
595
+ 1.1827777777777777,
596
+ 0.8972222222222223,
597
+ 1.0027777777777778,
598
+ 0.8855555555555555,
599
+ 1.0,
600
+ 0.6322222222222222,
601
+ 1.7522222222222221,
602
+ 1.7016666666666667,
603
+ 0.3422222222222222,
604
+ 1.3666666666666667,
605
+ 1.4022222222222223,
606
+ 1.176111111111111,
607
+ 1.4222222222222223,
608
+ 1.2872222222222223,
609
+ 1.393888888888889,
610
+ 1.2538888888888888,
611
+ 0.9616666666666667,
612
+ 0.8244444444444444,
613
+ 1.0972222222222223,
614
+ 0.3516666666666667,
615
+ 1.5644444444444445,
616
+ 1.1888888888888889,
617
+ 1.1533333333333333,
618
+ 0.9027777777777778,
619
+ 0.21722222222222223,
620
+ 1.0877777777777777,
621
+ 1.2066666666666668,
622
+ 0.5355555555555556,
623
+ 0.8072222222222222,
624
+ 1.5766666666666667,
625
+ 1.791111111111111,
626
+ 0.5277777777777778,
627
+ 0.6427777777777778,
628
+ 1.048888888888889,
629
+ 1.1588888888888889,
630
+ 1.39,
631
+ 0.715,
632
+ 0.5744444444444444
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.5064255137104658,
637
+ 2.5535641034544088,
638
+ 3.3140321220999613,
639
+ 3.5194670098847216,
640
+ 3.4394883157087066
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.39120000000000016,
644
+ 0.4256333333333331,
645
+ 0.4351000000000001,
646
+ 0.4396,
647
+ 0.4506000000000002,
648
+ 0.45826666666666666
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 0.8538888888888889,
652
+ 1.2016666666666667,
653
+ 1.3744444444444444,
654
+ 1.103888888888889,
655
+ 0.8572222222222222,
656
+ 0.7166666666666667,
657
+ 0.8122222222222222,
658
+ 0.6766666666666666,
659
+ 1.2627777777777778,
660
+ 1.656111111111111,
661
+ 1.0322222222222222,
662
+ 0.8494444444444444,
663
+ 1.191111111111111,
664
+ 0.7977777777777778,
665
+ 1.4961111111111112,
666
+ 1.4833333333333334,
667
+ 1.1505555555555556,
668
+ 1.255,
669
+ 0.7305555555555555,
670
+ 1.0122222222222221,
671
+ 0.7655555555555555,
672
+ 0.9183333333333333,
673
+ 0.7877777777777778,
674
+ 1.376111111111111,
675
+ 1.0061111111111112,
676
+ 1.0416666666666667,
677
+ 0.86,
678
+ 1.5077777777777779,
679
+ 0.7844444444444445,
680
+ 1.0427777777777778,
681
+ 1.2638888888888888,
682
+ 1.1511111111111112,
683
+ 0.3927777777777778,
684
+ 1.2238888888888888,
685
+ 1.018888888888889,
686
+ 0.8338888888888889,
687
+ 0.7961111111111111,
688
+ 0.5972222222222222,
689
+ 1.2827777777777778,
690
+ 0.6794444444444444,
691
+ 1.3027777777777778,
692
+ 1.0072222222222222,
693
+ 0.6516666666666666,
694
+ 0.9988888888888889,
695
+ 0.8166666666666667,
696
+ 0.4072222222222222,
697
+ 0.8922222222222222,
698
+ 1.39,
699
+ 1.29,
700
+ 1.1527777777777777,
701
+ 0.8861111111111111,
702
+ 0.8311111111111111,
703
+ 1.4755555555555555,
704
+ 1.315,
705
+ 0.97,
706
+ 1.1966666666666668,
707
+ 0.64,
708
+ 0.72,
709
+ 1.2361111111111112,
710
+ 0.9705555555555555,
711
+ 0.9155555555555556,
712
+ 0.6855555555555556,
713
+ 1.24,
714
+ 0.5738888888888889,
715
+ 1.2066666666666668,
716
+ 1.0227777777777778,
717
+ 0.99,
718
+ 0.4722222222222222,
719
+ 1.1527777777777777,
720
+ 1.1294444444444445,
721
+ 0.76,
722
+ 0.7577777777777778,
723
+ 1.2383333333333333,
724
+ 0.6222222222222222,
725
+ 1.1944444444444444,
726
+ 0.7,
727
+ 0.9672222222222222,
728
+ 1.0294444444444444,
729
+ 0.9555555555555556,
730
+ 1.0972222222222223,
731
+ 0.9783333333333334,
732
+ 0.6888888888888889,
733
+ 1.0372222222222223,
734
+ 1.136111111111111,
735
+ 1.1527777777777777,
736
+ 0.9366666666666666,
737
+ 0.47444444444444445,
738
+ 0.7672222222222222,
739
+ 0.96,
740
+ 1.0477777777777777,
741
+ 0.6144444444444445,
742
+ 1.2544444444444445,
743
+ 1.5216666666666667,
744
+ 1.0216666666666667,
745
+ 1.2655555555555555,
746
+ 0.7422222222222222,
747
+ 1.1183333333333334,
748
+ 0.49944444444444447,
749
+ 0.45555555555555555,
750
+ 0.6966666666666667
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.3400000000000023,
754
+ 0.7262666666666673,
755
+ 0.7321000000000001,
756
+ 0.7591333333333339,
757
+ 0.7480333333333337,
758
+ 0.7335666666666668
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.3564666666666662,
762
+ 0.6871666666666677,
763
+ 0.6703333333333337,
764
+ 0.6981,
765
+ 0.7074333333333329,
766
+ 0.6896333333333329
767
+ ]
768
+ }
769
+ }
results_v2/human_v2_5rounds_seed1/metrics.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "task_name": "flight",
4
+ "prior": "lm",
5
+ "generator_name": "random",
6
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
7
+ "features": [
8
+ "departure_time",
9
+ "duration",
10
+ "number_of_stops",
11
+ "price"
12
+ ],
13
+ "reward_choices": {
14
+ "departure_time": [
15
+ -1,
16
+ -0.5,
17
+ 0,
18
+ 0.5,
19
+ 1
20
+ ],
21
+ "duration": [
22
+ -1,
23
+ -0.5,
24
+ 0,
25
+ 0.5,
26
+ 1
27
+ ],
28
+ "number_of_stops": [
29
+ -1,
30
+ -0.5,
31
+ 0,
32
+ 0.5,
33
+ 1
34
+ ],
35
+ "price": [
36
+ -1,
37
+ -0.5,
38
+ 0,
39
+ 0.5,
40
+ 1
41
+ ]
42
+ },
43
+ "assistant_name": "lm",
44
+ "formatter_name": "gemma",
45
+ "option_format": "text",
46
+ "reward_type": "scoring",
47
+ "max_rounds": 5,
48
+ "num_options": 3,
49
+ "num_candidates": 1000,
50
+ "eval_mode": "conversation",
51
+ "use_cot": false,
52
+ "num_random_set_examples": 100,
53
+ "seed": 0,
54
+ "debug": false,
55
+ "data_file": "/data/cl/user/linluqiu/bayesian_inference/human_as_human_v2/human_v2_5rounds_seed1.jsonl",
56
+ "random_set_file": "data/eval_data/flight_random_set_100.json",
57
+ "prior_file": null,
58
+ "eval_every": 1,
59
+ "likelihood_smoothing": 0.0
60
+ },
61
+ "metrics": {
62
+ "accs": [
63
+ 0.30333333333333334,
64
+ 0.44,
65
+ 0.5133333333333333,
66
+ 0.45,
67
+ 0.44333333333333336
68
+ ],
69
+ "model_accs": [
70
+ 0.30333333333333334,
71
+ 0.44,
72
+ 0.5133333333333333,
73
+ 0.45,
74
+ 0.44333333333333336
75
+ ],
76
+ "model_reward_accs": [
77
+ 0.6033333333333334,
78
+ 0.4166666666666667,
79
+ 0.49333333333333335,
80
+ 0.5066666666666667,
81
+ 0.42
82
+ ],
83
+ "model_consistencies": [
84
+ 0.39,
85
+ 0.7033333333333334,
86
+ 0.7133333333333334,
87
+ 0.74,
88
+ 0.6933333333333334
89
+ ],
90
+ "model_l2s": [
91
+ 0.6798868004826828,
92
+ 1.1506890933944822,
93
+ 1.151075757942749,
94
+ 1.104910538930452,
95
+ 1.1050879210258626,
96
+ 1.034734988728362
97
+ ],
98
+ "model_random_set_accs": [
99
+ 0.6864666666666671,
100
+ 0.46123333333333333,
101
+ 0.45816666666666656,
102
+ 0.4826666666666667,
103
+ 0.48663333333333364,
104
+ 0.520333333333333
105
+ ],
106
+ "model_random_set_idxs": [
107
+ 0.4038888888888889,
108
+ 1.1294444444444445,
109
+ 1.5294444444444444,
110
+ 0.9294444444444444,
111
+ 0.8511111111111112,
112
+ 1.3155555555555556,
113
+ 1.1444444444444444,
114
+ 0.8522222222222222,
115
+ 1.385,
116
+ 1.3322222222222222,
117
+ 0.5211111111111111,
118
+ 1.1294444444444445,
119
+ 1.0955555555555556,
120
+ 0.6377777777777778,
121
+ 0.8883333333333333,
122
+ 1.2216666666666667,
123
+ 1.0044444444444445,
124
+ 1.0911111111111111,
125
+ 0.6077777777777778,
126
+ 0.6177777777777778,
127
+ 1.2327777777777778,
128
+ 0.7872222222222223,
129
+ 0.5777777777777777,
130
+ 0.8016666666666666,
131
+ 0.9816666666666667,
132
+ 1.1861111111111111,
133
+ 0.8172222222222222,
134
+ 1.3622222222222222,
135
+ 0.8927777777777778,
136
+ 0.6988888888888889,
137
+ 0.99,
138
+ 0.6655555555555556,
139
+ 1.0483333333333333,
140
+ 0.7194444444444444,
141
+ 1.1183333333333334,
142
+ 0.4961111111111111,
143
+ 0.27055555555555555,
144
+ 0.5538888888888889,
145
+ 1.1683333333333332,
146
+ 1.1116666666666666,
147
+ 1.2961111111111112,
148
+ 0.5522222222222222,
149
+ 0.5594444444444444,
150
+ 0.6488888888888888,
151
+ 0.5377777777777778,
152
+ 0.29777777777777775,
153
+ 0.8333333333333334,
154
+ 1.2683333333333333,
155
+ 1.5366666666666666,
156
+ 1.2327777777777778,
157
+ 0.45111111111111113,
158
+ 1.0244444444444445,
159
+ 1.5855555555555556,
160
+ 1.0372222222222223,
161
+ 0.43666666666666665,
162
+ 1.3094444444444444,
163
+ 0.3511111111111111,
164
+ 0.7988888888888889,
165
+ 0.8572222222222222,
166
+ 1.025,
167
+ 0.7533333333333333,
168
+ 0.7344444444444445,
169
+ 1.2022222222222223,
170
+ 1.0372222222222223,
171
+ 1.145,
172
+ 1.0744444444444445,
173
+ 1.0338888888888889,
174
+ 0.6327777777777778,
175
+ 1.4922222222222221,
176
+ 1.5161111111111112,
177
+ 0.4011111111111111,
178
+ 1.1272222222222221,
179
+ 1.3594444444444445,
180
+ 0.9594444444444444,
181
+ 1.3683333333333334,
182
+ 1.1527777777777777,
183
+ 1.3033333333333332,
184
+ 1.2338888888888888,
185
+ 1.01,
186
+ 1.0805555555555555,
187
+ 1.0955555555555556,
188
+ 0.6655555555555556,
189
+ 1.4333333333333333,
190
+ 1.2538888888888888,
191
+ 0.9794444444444445,
192
+ 1.0794444444444444,
193
+ 0.35333333333333333,
194
+ 0.8855555555555555,
195
+ 1.1383333333333334,
196
+ 0.7561111111111111,
197
+ 0.945,
198
+ 1.4361111111111111,
199
+ 1.6411111111111112,
200
+ 0.6961111111111111,
201
+ 0.78,
202
+ 1.1677777777777778,
203
+ 1.0472222222222223,
204
+ 1.1388888888888888,
205
+ 0.7511111111111111,
206
+ 0.6466666666666666
207
+ ],
208
+ "model_probs": [
209
+ 0.004477773753145205,
210
+ 0.00418596449828821,
211
+ 0.003718455684560003,
212
+ 0.004237958268559131,
213
+ 0.004870414690876288,
214
+ 0.004388178074071476
215
+ ],
216
+ "model_info_gains": [
217
+ -0.5767115929237672,
218
+ -0.2072350120111503,
219
+ -0.08022150081766044,
220
+ 0.004830756032638807,
221
+ 0.23035137439851544
222
+ ],
223
+ "model_delta_probs": [
224
+ -0.0002918092548569954,
225
+ -0.0004675088137282065,
226
+ 0.0005195025839991274,
227
+ 0.0006324564223171573,
228
+ -0.000482236616804812
229
+ ],
230
+ "model_expected_reward_accs": [
231
+ 0.56,
232
+ 0.44333333333333336,
233
+ 0.5266666666666666,
234
+ 0.5333333333333333,
235
+ 0.49333333333333335
236
+ ],
237
+ "model_expected_consistencies": [
238
+ 0.37,
239
+ 0.7566666666666667,
240
+ 0.7466666666666667,
241
+ 0.77,
242
+ 0.7533333333333333
243
+ ],
244
+ "model_expected_l2s": [
245
+ 0.7061205420316785,
246
+ 1.1314290818470303,
247
+ 1.1187242604240566,
248
+ 1.0876086940318563,
249
+ 1.0809900310163219,
250
+ 1.0247519391235234
251
+ ],
252
+ "model_expected_random_set_accs": [
253
+ 0.6794666666666672,
254
+ 0.4714333333333334,
255
+ 0.4778000000000003,
256
+ 0.4922666666666665,
257
+ 0.49663333333333326,
258
+ 0.5239666666666665
259
+ ],
260
+ "model_expected_random_set_idxs": [
261
+ 0.44722222222222224,
262
+ 1.1605555555555556,
263
+ 1.4583333333333333,
264
+ 0.8905555555555555,
265
+ 0.8277777777777777,
266
+ 1.3883333333333334,
267
+ 1.2638888888888888,
268
+ 0.8077777777777778,
269
+ 1.5255555555555556,
270
+ 1.44,
271
+ 0.6561111111111111,
272
+ 1.1994444444444445,
273
+ 1.01,
274
+ 0.6605555555555556,
275
+ 0.9672222222222222,
276
+ 1.2461111111111112,
277
+ 0.9972222222222222,
278
+ 1.1611111111111112,
279
+ 0.5922222222222222,
280
+ 0.7066666666666667,
281
+ 1.3033333333333332,
282
+ 0.8027777777777778,
283
+ 0.5377777777777778,
284
+ 0.8072222222222222,
285
+ 0.9894444444444445,
286
+ 1.14,
287
+ 0.84,
288
+ 1.3705555555555555,
289
+ 0.8938888888888888,
290
+ 0.6755555555555556,
291
+ 1.0172222222222222,
292
+ 0.6083333333333333,
293
+ 1.0772222222222223,
294
+ 0.7705555555555555,
295
+ 1.0777777777777777,
296
+ 0.5527777777777778,
297
+ 0.4461111111111111,
298
+ 0.4961111111111111,
299
+ 1.1866666666666668,
300
+ 1.1044444444444443,
301
+ 1.2277777777777779,
302
+ 0.5311111111111111,
303
+ 0.59,
304
+ 0.6727777777777778,
305
+ 0.5066666666666667,
306
+ 0.31666666666666665,
307
+ 0.8911111111111111,
308
+ 1.2483333333333333,
309
+ 1.5116666666666667,
310
+ 1.2316666666666667,
311
+ 0.44333333333333336,
312
+ 1.0305555555555554,
313
+ 1.5722222222222222,
314
+ 1.0544444444444445,
315
+ 0.37722222222222224,
316
+ 1.2172222222222222,
317
+ 0.37444444444444447,
318
+ 0.7655555555555555,
319
+ 0.7838888888888889,
320
+ 1.065,
321
+ 0.7205555555555555,
322
+ 1.0583333333333333,
323
+ 1.2683333333333333,
324
+ 1.0566666666666666,
325
+ 1.1166666666666667,
326
+ 1.0227777777777778,
327
+ 1.0422222222222222,
328
+ 0.48277777777777775,
329
+ 1.5416666666666667,
330
+ 1.5794444444444444,
331
+ 0.3933333333333333,
332
+ 1.2633333333333334,
333
+ 1.2783333333333333,
334
+ 0.9883333333333333,
335
+ 1.3366666666666667,
336
+ 1.1455555555555557,
337
+ 1.2544444444444445,
338
+ 1.3122222222222222,
339
+ 0.9244444444444444,
340
+ 1.0094444444444444,
341
+ 1.1005555555555555,
342
+ 0.5905555555555555,
343
+ 1.4694444444444446,
344
+ 1.285,
345
+ 0.9355555555555556,
346
+ 0.9694444444444444,
347
+ 0.3472222222222222,
348
+ 0.9244444444444444,
349
+ 1.123888888888889,
350
+ 0.6,
351
+ 0.7505555555555555,
352
+ 1.498888888888889,
353
+ 1.6366666666666667,
354
+ 0.6644444444444444,
355
+ 0.7416666666666667,
356
+ 1.0916666666666666,
357
+ 1.0833333333333333,
358
+ 1.2094444444444445,
359
+ 0.7761111111111111,
360
+ 0.5944444444444444
361
+ ],
362
+ "infer_reward_accs": [
363
+ 0.58,
364
+ 0.53,
365
+ 0.5433333333333333,
366
+ 0.56,
367
+ 0.53
368
+ ],
369
+ "infer_l2s": [
370
+ 0.6798868004826828,
371
+ 0.7966104702092957,
372
+ 0.8542393358907556,
373
+ 0.8585170330619373,
374
+ 0.8933513521194366,
375
+ 0.938662316869842
376
+ ],
377
+ "infer_random_set_accs": [
378
+ 0.6862999999999999,
379
+ 0.6323666666666663,
380
+ 0.6070666666666666,
381
+ 0.5997,
382
+ 0.5835666666666663,
383
+ 0.5589666666666666
384
+ ],
385
+ "infer_random_set_idxs": [
386
+ 0.3038888888888889,
387
+ 0.9977777777777778,
388
+ 1.6666666666666667,
389
+ 0.8861111111111111,
390
+ 0.87,
391
+ 1.6283333333333334,
392
+ 1.3277777777777777,
393
+ 0.7955555555555556,
394
+ 1.5305555555555554,
395
+ 1.3466666666666667,
396
+ 0.4116666666666667,
397
+ 1.5927777777777778,
398
+ 1.0733333333333333,
399
+ 0.33444444444444443,
400
+ 0.7333333333333333,
401
+ 1.2044444444444444,
402
+ 1.0572222222222223,
403
+ 1.2283333333333333,
404
+ 0.3877777777777778,
405
+ 0.4938888888888889,
406
+ 1.535,
407
+ 0.7316666666666667,
408
+ 0.2594444444444444,
409
+ 0.6316666666666667,
410
+ 0.8966666666666666,
411
+ 1.2833333333333334,
412
+ 0.5522222222222222,
413
+ 1.3605555555555555,
414
+ 1.001111111111111,
415
+ 0.4438888888888889,
416
+ 1.051111111111111,
417
+ 0.2788888888888889,
418
+ 1.2022222222222223,
419
+ 0.345,
420
+ 1.08,
421
+ 0.21777777777777776,
422
+ 0.275,
423
+ 0.2538888888888889,
424
+ 1.008888888888889,
425
+ 1.0444444444444445,
426
+ 1.3072222222222223,
427
+ 0.2972222222222222,
428
+ 0.38,
429
+ 0.48333333333333334,
430
+ 0.24666666666666667,
431
+ 0.2427777777777778,
432
+ 0.9716666666666667,
433
+ 1.076111111111111,
434
+ 1.6605555555555556,
435
+ 1.1766666666666667,
436
+ 0.17555555555555555,
437
+ 0.9405555555555556,
438
+ 1.8172222222222223,
439
+ 1.0705555555555555,
440
+ 0.2866666666666667,
441
+ 1.2722222222222221,
442
+ 0.17333333333333334,
443
+ 0.8755555555555555,
444
+ 0.7294444444444445,
445
+ 1.018888888888889,
446
+ 0.4911111111111111,
447
+ 0.5261111111111111,
448
+ 1.1077777777777778,
449
+ 0.9388888888888889,
450
+ 1.0338888888888889,
451
+ 0.8394444444444444,
452
+ 0.99,
453
+ 0.8422222222222222,
454
+ 1.7016666666666667,
455
+ 1.7055555555555555,
456
+ 0.2833333333333333,
457
+ 1.4416666666666667,
458
+ 1.6277777777777778,
459
+ 1.1277777777777778,
460
+ 1.575,
461
+ 1.4072222222222222,
462
+ 1.47,
463
+ 1.4377777777777778,
464
+ 0.9866666666666667,
465
+ 0.8883333333333333,
466
+ 1.2733333333333334,
467
+ 0.37444444444444447,
468
+ 1.6488888888888888,
469
+ 1.0977777777777777,
470
+ 1.1205555555555555,
471
+ 1.2005555555555556,
472
+ 0.23,
473
+ 0.9388888888888889,
474
+ 1.36,
475
+ 0.7822222222222223,
476
+ 1.0577777777777777,
477
+ 1.5827777777777778,
478
+ 1.8311111111111111,
479
+ 0.46444444444444444,
480
+ 0.5411111111111111,
481
+ 1.0622222222222222,
482
+ 1.0905555555555555,
483
+ 1.396111111111111,
484
+ 0.7244444444444444,
485
+ 0.4766666666666667
486
+ ],
487
+ "infer_probs": [
488
+ 0.004477773753145205,
489
+ 0.006072530801563213,
490
+ 0.0049616723118621545,
491
+ 0.004807750138376529,
492
+ 0.0091766605937543,
493
+ 0.008711555347933124
494
+ ],
495
+ "infer_info_gains": [
496
+ -2.133950571345106,
497
+ -1.945856628662956,
498
+ -0.8804176461352968,
499
+ -0.6928890644942192,
500
+ -0.583824447602663
501
+ ],
502
+ "infer_delta_probs": [
503
+ 0.0015947570484180081,
504
+ -0.0011108584897010587,
505
+ -0.00015392217348562555,
506
+ 0.004368910455377772,
507
+ -0.000465105245821178
508
+ ],
509
+ "infer_expected_reward_accs": [
510
+ 0.56,
511
+ 0.5333333333333333,
512
+ 0.5666666666666667,
513
+ 0.6166666666666667,
514
+ 0.5933333333333334
515
+ ],
516
+ "infer_expected_l2s": [
517
+ 0.7061205420316785,
518
+ 0.8769894483490475,
519
+ 0.8796962928556044,
520
+ 0.8509228634884637,
521
+ 0.8348700042332291,
522
+ 0.8349702751337066
523
+ ],
524
+ "infer_expected_random_set_accs": [
525
+ 0.6794666666666672,
526
+ 0.6035666666666665,
527
+ 0.5922666666666672,
528
+ 0.5945333333333336,
529
+ 0.5867333333333337,
530
+ 0.5559666666666665
531
+ ],
532
+ "infer_expected_random_set_idxs": [
533
+ 0.405,
534
+ 0.9683333333333334,
535
+ 1.5677777777777777,
536
+ 0.8266666666666667,
537
+ 0.7772222222222223,
538
+ 1.6288888888888888,
539
+ 1.2905555555555555,
540
+ 0.7455555555555555,
541
+ 1.57,
542
+ 1.485,
543
+ 0.5777777777777777,
544
+ 1.343888888888889,
545
+ 0.9838888888888889,
546
+ 0.5061111111111111,
547
+ 0.9372222222222222,
548
+ 1.1694444444444445,
549
+ 0.9688888888888889,
550
+ 1.33,
551
+ 0.49944444444444447,
552
+ 0.6733333333333333,
553
+ 1.3416666666666666,
554
+ 0.6722222222222223,
555
+ 0.3438888888888889,
556
+ 0.7655555555555555,
557
+ 0.8944444444444445,
558
+ 1.2405555555555556,
559
+ 0.6327777777777778,
560
+ 1.3483333333333334,
561
+ 0.9994444444444445,
562
+ 0.4961111111111111,
563
+ 1.1077777777777778,
564
+ 0.36444444444444446,
565
+ 1.1188888888888888,
566
+ 0.45111111111111113,
567
+ 1.0827777777777778,
568
+ 0.36444444444444446,
569
+ 0.6266666666666667,
570
+ 0.32,
571
+ 1.0438888888888889,
572
+ 1.0327777777777778,
573
+ 1.1866666666666668,
574
+ 0.2677777777777778,
575
+ 0.4172222222222222,
576
+ 0.5922222222222222,
577
+ 0.24055555555555555,
578
+ 0.2738888888888889,
579
+ 1.0333333333333334,
580
+ 1.0605555555555555,
581
+ 1.5922222222222222,
582
+ 1.1861111111111111,
583
+ 0.19555555555555557,
584
+ 0.9388888888888889,
585
+ 1.785,
586
+ 1.0944444444444446,
587
+ 0.3466666666666667,
588
+ 1.0355555555555556,
589
+ 0.20333333333333334,
590
+ 0.8738888888888889,
591
+ 0.7427777777777778,
592
+ 1.0338888888888889,
593
+ 0.5477777777777778,
594
+ 0.99,
595
+ 1.1883333333333332,
596
+ 0.9111111111111111,
597
+ 1.0083333333333333,
598
+ 0.8877777777777778,
599
+ 1.0122222222222221,
600
+ 0.66,
601
+ 1.7405555555555556,
602
+ 1.7272222222222222,
603
+ 0.365,
604
+ 1.356111111111111,
605
+ 1.44,
606
+ 1.1744444444444444,
607
+ 1.4583333333333333,
608
+ 1.281111111111111,
609
+ 1.3772222222222221,
610
+ 1.2883333333333333,
611
+ 0.95,
612
+ 0.7966666666666666,
613
+ 1.1194444444444445,
614
+ 0.3422222222222222,
615
+ 1.5888888888888888,
616
+ 1.195,
617
+ 1.1516666666666666,
618
+ 0.9366666666666666,
619
+ 0.21055555555555555,
620
+ 1.0577777777777777,
621
+ 1.2122222222222223,
622
+ 0.5344444444444445,
623
+ 0.7933333333333333,
624
+ 1.586111111111111,
625
+ 1.7761111111111112,
626
+ 0.49333333333333335,
627
+ 0.6222222222222222,
628
+ 1.0555555555555556,
629
+ 1.1566666666666667,
630
+ 1.3983333333333334,
631
+ 0.6888888888888889,
632
+ 0.5577777777777778
633
+ ],
634
+ "kls": [
635
+ 0.0,
636
+ 1.4903185888200916,
637
+ 2.5070598054996287,
638
+ 3.2354705382165356,
639
+ 3.5226605453238586,
640
+ 3.3193599388646233
641
+ ],
642
+ "model_random_set_direct_accs": [
643
+ 0.3984333333333337,
644
+ 0.4372999999999998,
645
+ 0.44676666666666676,
646
+ 0.463766666666666,
647
+ 0.47029999999999994,
648
+ 0.4858000000000003
649
+ ],
650
+ "model_random_set_direct_idxs": [
651
+ 0.8372222222222222,
652
+ 1.1272222222222221,
653
+ 1.481111111111111,
654
+ 1.145,
655
+ 0.8683333333333333,
656
+ 0.7572222222222222,
657
+ 0.8188888888888889,
658
+ 0.715,
659
+ 1.2377777777777779,
660
+ 1.6322222222222222,
661
+ 1.1283333333333334,
662
+ 0.915,
663
+ 1.18,
664
+ 0.7827777777777778,
665
+ 1.4594444444444445,
666
+ 1.468888888888889,
667
+ 1.14,
668
+ 1.221111111111111,
669
+ 0.715,
670
+ 0.9194444444444444,
671
+ 0.7233333333333334,
672
+ 0.8827777777777778,
673
+ 0.7494444444444445,
674
+ 1.25,
675
+ 0.91,
676
+ 1.0316666666666667,
677
+ 0.9916666666666667,
678
+ 1.4761111111111112,
679
+ 0.8427777777777777,
680
+ 0.9788888888888889,
681
+ 1.2733333333333334,
682
+ 1.0394444444444444,
683
+ 0.45166666666666666,
684
+ 1.193888888888889,
685
+ 0.9877777777777778,
686
+ 0.8038888888888889,
687
+ 0.765,
688
+ 0.6205555555555555,
689
+ 1.041111111111111,
690
+ 0.6861111111111111,
691
+ 1.3411111111111111,
692
+ 0.9555555555555556,
693
+ 0.6561111111111111,
694
+ 0.9005555555555556,
695
+ 0.7544444444444445,
696
+ 0.3877777777777778,
697
+ 0.9138888888888889,
698
+ 1.3211111111111111,
699
+ 1.3122222222222222,
700
+ 1.135,
701
+ 0.815,
702
+ 0.8038888888888889,
703
+ 1.5105555555555557,
704
+ 1.2705555555555557,
705
+ 0.925,
706
+ 1.1944444444444444,
707
+ 0.5711111111111111,
708
+ 0.7477777777777778,
709
+ 1.268888888888889,
710
+ 1.0116666666666667,
711
+ 0.8927777777777778,
712
+ 0.6883333333333334,
713
+ 1.1827777777777777,
714
+ 0.6077777777777778,
715
+ 1.1772222222222222,
716
+ 0.9894444444444445,
717
+ 1.0016666666666667,
718
+ 0.515,
719
+ 1.1355555555555557,
720
+ 1.4883333333333333,
721
+ 0.8088888888888889,
722
+ 0.7577777777777778,
723
+ 1.2927777777777778,
724
+ 0.8727777777777778,
725
+ 1.2677777777777777,
726
+ 0.7572222222222222,
727
+ 0.9111111111111111,
728
+ 1.0361111111111112,
729
+ 0.9194444444444444,
730
+ 1.1216666666666666,
731
+ 1.0722222222222222,
732
+ 0.6633333333333333,
733
+ 1.0583333333333333,
734
+ 1.1344444444444444,
735
+ 1.2138888888888888,
736
+ 0.9244444444444444,
737
+ 0.3888888888888889,
738
+ 0.8405555555555555,
739
+ 1.0305555555555554,
740
+ 1.0627777777777778,
741
+ 0.5666666666666667,
742
+ 1.2477777777777779,
743
+ 1.6155555555555556,
744
+ 0.9805555555555555,
745
+ 1.1972222222222222,
746
+ 0.7411111111111112,
747
+ 1.1188888888888888,
748
+ 0.5372222222222223,
749
+ 0.44222222222222224,
750
+ 0.7027777777777777
751
+ ],
752
+ "model_expected_random_set_consistencies": [
753
+ 0.35999999999999954,
754
+ 0.7240333333333331,
755
+ 0.7432666666666674,
756
+ 0.7603666666666669,
757
+ 0.7648000000000001,
758
+ 0.7585000000000001
759
+ ],
760
+ "model_random_set_consistencies": [
761
+ 0.37646666666666656,
762
+ 0.671766666666667,
763
+ 0.6909000000000003,
764
+ 0.7138333333333338,
765
+ 0.7259333333333334,
766
+ 0.7143333333333332
767
+ ]
768
+ }
769
+ }
results_v2/webshop_bedframes_format_small/metrics.json ADDED
@@ -0,0 +1,143 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
4
+ "task_name": "webshop",
5
+ "assistant_name": "lm",
6
+ "formatter_name": "gemma",
7
+ "option_format": "name",
8
+ "max_rounds": 5,
9
+ "num_options": 3,
10
+ "eval_mode": "conversation",
11
+ "num_random_set_examples": 100,
12
+ "debug": false,
13
+ "data_file": "/data/cl/user/linluqiu/bayesian_inference/webshop_eval_data//bedframes.jsonl",
14
+ "eval_every": 1
15
+ },
16
+ "metrics": {
17
+ "accs": [
18
+ 0.1,
19
+ 0.5,
20
+ 0.6,
21
+ 0.6,
22
+ 0.7
23
+ ],
24
+ "model_random_set_direct_accs": [
25
+ 0.356,
26
+ 0.404,
27
+ 0.471,
28
+ 0.489,
29
+ 0.49400000000000005,
30
+ 0.493
31
+ ],
32
+ "model_random_set_direct_idxs": [
33
+ 0.7,
34
+ 1.3333333333333333,
35
+ 0.9166666666666666,
36
+ 1.0833333333333333,
37
+ 0.9833333333333333,
38
+ 0.9166666666666666,
39
+ 1.0833333333333333,
40
+ 1.2166666666666666,
41
+ 1.0166666666666666,
42
+ 1.0833333333333333,
43
+ 1.0333333333333334,
44
+ 0.85,
45
+ 1.1333333333333333,
46
+ 1.2,
47
+ 1.05,
48
+ 1.05,
49
+ 1.1,
50
+ 1.2166666666666666,
51
+ 1.2,
52
+ 1.2666666666666666,
53
+ 1.2166666666666666,
54
+ 0.9333333333333333,
55
+ 1.45,
56
+ 1.4,
57
+ 1.4,
58
+ 1.1666666666666667,
59
+ 1.1166666666666667,
60
+ 1.1666666666666667,
61
+ 1.0333333333333334,
62
+ 1.0833333333333333,
63
+ 1.2333333333333334,
64
+ 1.1666666666666667,
65
+ 1.2833333333333334,
66
+ 1.2833333333333334,
67
+ 1.2833333333333334,
68
+ 1.25,
69
+ 1.1666666666666667,
70
+ 1.2166666666666666,
71
+ 1.2333333333333334,
72
+ 1.0,
73
+ 1.3166666666666667,
74
+ 1.15,
75
+ 0.75,
76
+ 1.2333333333333334,
77
+ 1.3,
78
+ 1.2833333333333334,
79
+ 1.35,
80
+ 0.8666666666666667,
81
+ 1.2,
82
+ 1.0666666666666667,
83
+ 1.45,
84
+ 1.2,
85
+ 1.25,
86
+ 0.9833333333333333,
87
+ 1.5,
88
+ 1.0166666666666666,
89
+ 1.2333333333333334,
90
+ 1.1166666666666667,
91
+ 0.7333333333333333,
92
+ 1.1,
93
+ 1.0333333333333334,
94
+ 1.0666666666666667,
95
+ 1.15,
96
+ 0.75,
97
+ 1.0833333333333333,
98
+ 0.85,
99
+ 1.1833333333333333,
100
+ 0.9833333333333333,
101
+ 1.15,
102
+ 1.1333333333333333,
103
+ 0.8833333333333333,
104
+ 1.05,
105
+ 1.3833333333333333,
106
+ 0.9666666666666667,
107
+ 1.2666666666666666,
108
+ 1.2166666666666666,
109
+ 0.5666666666666667,
110
+ 1.4833333333333334,
111
+ 1.2333333333333334,
112
+ 1.4166666666666667,
113
+ 1.05,
114
+ 1.25,
115
+ 1.1,
116
+ 1.55,
117
+ 1.3666666666666667,
118
+ 0.9333333333333333,
119
+ 0.7166666666666667,
120
+ 0.8166666666666667,
121
+ 1.4333333333333333,
122
+ 1.1833333333333333,
123
+ 0.9666666666666667,
124
+ 1.0833333333333333,
125
+ 0.8833333333333333,
126
+ 0.9333333333333333,
127
+ 1.2166666666666666,
128
+ 1.2166666666666666,
129
+ 1.2,
130
+ 1.2,
131
+ 1.1,
132
+ 1.2666666666666666
133
+ ],
134
+ "model_reward_accs": [
135
+ 0.1767245650291443,
136
+ 0.17174454778432846,
137
+ 0.19220797196030617,
138
+ 0.25527173802256586,
139
+ 0.28639224395155904,
140
+ 0.27425263077020645
141
+ ]
142
+ }
143
+ }
results_v2/webshop_home_office_furniture_sets_format_small/history.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/webshop_mens_t-shirts_&_tanks_format_small/history.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/webshop_mens_t-shirts_&_tanks_format_small/metrics.json ADDED
@@ -0,0 +1,143 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
4
+ "task_name": "webshop",
5
+ "assistant_name": "lm",
6
+ "formatter_name": "gemma",
7
+ "option_format": "name",
8
+ "max_rounds": 5,
9
+ "num_options": 3,
10
+ "eval_mode": "conversation",
11
+ "num_random_set_examples": 100,
12
+ "debug": false,
13
+ "data_file": "/data/cl/user/linluqiu/bayesian_inference/webshop_eval_data//mens_t-shirts_&_tanks.jsonl",
14
+ "eval_every": 1
15
+ },
16
+ "metrics": {
17
+ "accs": [
18
+ 0.3,
19
+ 0.3,
20
+ 0.8,
21
+ 0.8,
22
+ 0.7
23
+ ],
24
+ "model_random_set_direct_accs": [
25
+ 0.388,
26
+ 0.45999999999999996,
27
+ 0.556,
28
+ 0.583,
29
+ 0.6260000000000001,
30
+ 0.634
31
+ ],
32
+ "model_random_set_direct_idxs": [
33
+ 1.4666666666666666,
34
+ 1.4166666666666667,
35
+ 0.95,
36
+ 0.65,
37
+ 1.2833333333333334,
38
+ 1.0,
39
+ 1.2666666666666666,
40
+ 0.9,
41
+ 1.35,
42
+ 1.25,
43
+ 0.9166666666666666,
44
+ 1.2666666666666666,
45
+ 1.1666666666666667,
46
+ 1.1333333333333333,
47
+ 1.2333333333333334,
48
+ 1.0166666666666666,
49
+ 0.8833333333333333,
50
+ 0.9333333333333333,
51
+ 0.8666666666666667,
52
+ 1.0666666666666667,
53
+ 1.05,
54
+ 1.2166666666666666,
55
+ 1.2,
56
+ 1.4833333333333334,
57
+ 0.7,
58
+ 0.6666666666666666,
59
+ 0.8666666666666667,
60
+ 1.0666666666666667,
61
+ 0.9166666666666666,
62
+ 0.7166666666666667,
63
+ 1.25,
64
+ 1.2333333333333334,
65
+ 1.0666666666666667,
66
+ 1.1833333333333333,
67
+ 1.0333333333333334,
68
+ 1.15,
69
+ 1.15,
70
+ 1.2333333333333334,
71
+ 1.1333333333333333,
72
+ 1.05,
73
+ 0.7333333333333333,
74
+ 0.7666666666666667,
75
+ 1.0166666666666666,
76
+ 1.3833333333333333,
77
+ 0.75,
78
+ 1.0333333333333334,
79
+ 1.1666666666666667,
80
+ 1.0166666666666666,
81
+ 1.5,
82
+ 0.9166666666666666,
83
+ 0.95,
84
+ 1.1166666666666667,
85
+ 1.0,
86
+ 1.0833333333333333,
87
+ 0.95,
88
+ 1.15,
89
+ 0.5,
90
+ 1.0833333333333333,
91
+ 0.7,
92
+ 1.1166666666666667,
93
+ 0.7833333333333333,
94
+ 0.8,
95
+ 0.95,
96
+ 1.2333333333333334,
97
+ 1.3333333333333333,
98
+ 0.85,
99
+ 1.1666666666666667,
100
+ 1.1666666666666667,
101
+ 1.25,
102
+ 0.4666666666666667,
103
+ 1.1333333333333333,
104
+ 1.0166666666666666,
105
+ 1.0166666666666666,
106
+ 0.9333333333333333,
107
+ 1.3833333333333333,
108
+ 0.9333333333333333,
109
+ 1.2,
110
+ 1.2166666666666666,
111
+ 1.1833333333333333,
112
+ 1.1,
113
+ 1.2,
114
+ 1.1333333333333333,
115
+ 1.0333333333333334,
116
+ 0.9833333333333333,
117
+ 1.2333333333333334,
118
+ 1.25,
119
+ 0.8333333333333334,
120
+ 1.0833333333333333,
121
+ 0.7333333333333333,
122
+ 0.6,
123
+ 1.15,
124
+ 0.7333333333333333,
125
+ 1.5333333333333334,
126
+ 1.15,
127
+ 0.85,
128
+ 1.0833333333333333,
129
+ 0.8,
130
+ 1.0666666666666667,
131
+ 1.1833333333333333,
132
+ 1.35
133
+ ],
134
+ "model_reward_accs": [
135
+ 0.11098223812878132,
136
+ 0.13787838742136954,
137
+ 0.12062152102589607,
138
+ 0.18411711491644384,
139
+ 0.19250422418117524,
140
+ 0.23129856139421462
141
+ ]
142
+ }
143
+ }
results_v2/webshop_mens_t-shirts_&_tanks_format_small/results.jsonl ADDED
The diff for this file is too large to render. See raw diff
 
results_v2/webshop_womens_slippers_format_small/metrics.json ADDED
@@ -0,0 +1,143 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "model_name": "outputs/gemma2-9b-it_prior_uniform_random_flight_text_10seeds_gt",
4
+ "task_name": "webshop",
5
+ "assistant_name": "lm",
6
+ "formatter_name": "gemma",
7
+ "option_format": "name",
8
+ "max_rounds": 5,
9
+ "num_options": 3,
10
+ "eval_mode": "conversation",
11
+ "num_random_set_examples": 100,
12
+ "debug": false,
13
+ "data_file": "/data/cl/user/linluqiu/bayesian_inference/webshop_eval_data//womens_slippers.jsonl",
14
+ "eval_every": 1
15
+ },
16
+ "metrics": {
17
+ "accs": [
18
+ 0.2,
19
+ 0.3,
20
+ 0.3,
21
+ 0.2,
22
+ 0.5
23
+ ],
24
+ "model_random_set_direct_accs": [
25
+ 0.356,
26
+ 0.429,
27
+ 0.4069999999999999,
28
+ 0.417,
29
+ 0.44799999999999995,
30
+ 0.504
31
+ ],
32
+ "model_random_set_direct_idxs": [
33
+ 1.4333333333333333,
34
+ 1.2333333333333334,
35
+ 1.4,
36
+ 1.1333333333333333,
37
+ 1.0166666666666666,
38
+ 1.1666666666666667,
39
+ 1.4,
40
+ 1.05,
41
+ 0.9833333333333333,
42
+ 1.1666666666666667,
43
+ 0.9,
44
+ 1.0666666666666667,
45
+ 1.15,
46
+ 1.0333333333333334,
47
+ 0.9333333333333333,
48
+ 1.2,
49
+ 1.2166666666666666,
50
+ 1.0333333333333334,
51
+ 1.2166666666666666,
52
+ 1.0666666666666667,
53
+ 1.3,
54
+ 1.3333333333333333,
55
+ 0.9,
56
+ 1.2833333333333334,
57
+ 0.9833333333333333,
58
+ 1.1166666666666667,
59
+ 1.1333333333333333,
60
+ 1.05,
61
+ 1.4166666666666667,
62
+ 1.5,
63
+ 0.95,
64
+ 0.85,
65
+ 0.9666666666666667,
66
+ 0.95,
67
+ 1.1333333333333333,
68
+ 1.15,
69
+ 1.3833333333333333,
70
+ 0.7,
71
+ 1.1666666666666667,
72
+ 1.1333333333333333,
73
+ 0.9833333333333333,
74
+ 1.0166666666666666,
75
+ 1.2,
76
+ 0.9166666666666666,
77
+ 0.9666666666666667,
78
+ 0.9,
79
+ 0.8,
80
+ 1.0333333333333334,
81
+ 0.9166666666666666,
82
+ 1.15,
83
+ 1.15,
84
+ 1.5666666666666667,
85
+ 1.4333333333333333,
86
+ 1.0333333333333334,
87
+ 1.1833333333333333,
88
+ 1.1333333333333333,
89
+ 1.1333333333333333,
90
+ 1.2833333333333334,
91
+ 0.75,
92
+ 1.2833333333333334,
93
+ 1.0833333333333333,
94
+ 0.9333333333333333,
95
+ 1.2666666666666666,
96
+ 1.2333333333333334,
97
+ 1.0,
98
+ 1.35,
99
+ 0.9833333333333333,
100
+ 1.05,
101
+ 0.9833333333333333,
102
+ 1.5833333333333333,
103
+ 1.1,
104
+ 1.1,
105
+ 1.2666666666666666,
106
+ 1.2833333333333334,
107
+ 1.1,
108
+ 0.7833333333333333,
109
+ 1.3666666666666667,
110
+ 1.2166666666666666,
111
+ 0.9166666666666666,
112
+ 1.1,
113
+ 1.1166666666666667,
114
+ 1.1833333333333333,
115
+ 0.9833333333333333,
116
+ 1.1166666666666667,
117
+ 0.6666666666666666,
118
+ 1.0166666666666666,
119
+ 1.1333333333333333,
120
+ 0.95,
121
+ 1.3333333333333333,
122
+ 1.3666666666666667,
123
+ 0.65,
124
+ 1.3,
125
+ 0.9666666666666667,
126
+ 1.0833333333333333,
127
+ 1.3,
128
+ 1.0666666666666667,
129
+ 1.15,
130
+ 0.9833333333333333,
131
+ 0.9666666666666667,
132
+ 1.2333333333333334
133
+ ],
134
+ "model_reward_accs": [
135
+ 0.12477145716547966,
136
+ 0.1468495361506939,
137
+ 0.1850356325507164,
138
+ 0.15764938220381736,
139
+ 0.16048554331064224,
140
+ 0.13894478157162665
141
+ ]
142
+ }
143
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,34 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<start_of_turn>",
4
+ "<end_of_turn>"
5
+ ],
6
+ "bos_token": {
7
+ "content": "<bos>",
8
+ "lstrip": false,
9
+ "normalized": false,
10
+ "rstrip": false,
11
+ "single_word": false
12
+ },
13
+ "eos_token": {
14
+ "content": "<eos>",
15
+ "lstrip": false,
16
+ "normalized": false,
17
+ "rstrip": false,
18
+ "single_word": false
19
+ },
20
+ "pad_token": {
21
+ "content": "<pad>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false
26
+ },
27
+ "unk_token": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false
33
+ }
34
+ }
tokenizer.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:61a7b147390c64585d6c3543dd6fc636906c9af3865a5548f27f31aee1d4c8e2
3
+ size 4241003
tokenizer_config.json ADDED
@@ -0,0 +1,2014 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": true,
3
+ "add_eos_token": false,
4
+ "added_tokens_decoder": {
5
+ "0": {
6
+ "content": "<pad>",
7
+ "lstrip": false,
8
+ "normalized": false,
9
+ "rstrip": false,
10
+ "single_word": false,
11
+ "special": true
12
+ },
13
+ "1": {
14
+ "content": "<eos>",
15
+ "lstrip": false,
16
+ "normalized": false,
17
+ "rstrip": false,
18
+ "single_word": false,
19
+ "special": true
20
+ },
21
+ "2": {
22
+ "content": "<bos>",
23
+ "lstrip": false,
24
+ "normalized": false,
25
+ "rstrip": false,
26
+ "single_word": false,
27
+ "special": true
28
+ },
29
+ "3": {
30
+ "content": "<unk>",
31
+ "lstrip": false,
32
+ "normalized": false,
33
+ "rstrip": false,
34
+ "single_word": false,
35
+ "special": true
36
+ },
37
+ "4": {
38
+ "content": "<mask>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false,
43
+ "special": false
44
+ },
45
+ "5": {
46
+ "content": "<2mass>",
47
+ "lstrip": false,
48
+ "normalized": false,
49
+ "rstrip": false,
50
+ "single_word": false,
51
+ "special": false
52
+ },
53
+ "6": {
54
+ "content": "[@BOS@]",
55
+ "lstrip": false,
56
+ "normalized": false,
57
+ "rstrip": false,
58
+ "single_word": false,
59
+ "special": false
60
+ },
61
+ "7": {
62
+ "content": "<unused0>",
63
+ "lstrip": false,
64
+ "normalized": false,
65
+ "rstrip": false,
66
+ "single_word": false,
67
+ "special": false
68
+ },
69
+ "8": {
70
+ "content": "<unused1>",
71
+ "lstrip": false,
72
+ "normalized": false,
73
+ "rstrip": false,
74
+ "single_word": false,
75
+ "special": false
76
+ },
77
+ "9": {
78
+ "content": "<unused2>",
79
+ "lstrip": false,
80
+ "normalized": false,
81
+ "rstrip": false,
82
+ "single_word": false,
83
+ "special": false
84
+ },
85
+ "10": {
86
+ "content": "<unused3>",
87
+ "lstrip": false,
88
+ "normalized": false,
89
+ "rstrip": false,
90
+ "single_word": false,
91
+ "special": false
92
+ },
93
+ "11": {
94
+ "content": "<unused4>",
95
+ "lstrip": false,
96
+ "normalized": false,
97
+ "rstrip": false,
98
+ "single_word": false,
99
+ "special": false
100
+ },
101
+ "12": {
102
+ "content": "<unused5>",
103
+ "lstrip": false,
104
+ "normalized": false,
105
+ "rstrip": false,
106
+ "single_word": false,
107
+ "special": false
108
+ },
109
+ "13": {
110
+ "content": "<unused6>",
111
+ "lstrip": false,
112
+ "normalized": false,
113
+ "rstrip": false,
114
+ "single_word": false,
115
+ "special": false
116
+ },
117
+ "14": {
118
+ "content": "<unused7>",
119
+ "lstrip": false,
120
+ "normalized": false,
121
+ "rstrip": false,
122
+ "single_word": false,
123
+ "special": false
124
+ },
125
+ "15": {
126
+ "content": "<unused8>",
127
+ "lstrip": false,
128
+ "normalized": false,
129
+ "rstrip": false,
130
+ "single_word": false,
131
+ "special": false
132
+ },
133
+ "16": {
134
+ "content": "<unused9>",
135
+ "lstrip": false,
136
+ "normalized": false,
137
+ "rstrip": false,
138
+ "single_word": false,
139
+ "special": false
140
+ },
141
+ "17": {
142
+ "content": "<unused10>",
143
+ "lstrip": false,
144
+ "normalized": false,
145
+ "rstrip": false,
146
+ "single_word": false,
147
+ "special": false
148
+ },
149
+ "18": {
150
+ "content": "<unused11>",
151
+ "lstrip": false,
152
+ "normalized": false,
153
+ "rstrip": false,
154
+ "single_word": false,
155
+ "special": false
156
+ },
157
+ "19": {
158
+ "content": "<unused12>",
159
+ "lstrip": false,
160
+ "normalized": false,
161
+ "rstrip": false,
162
+ "single_word": false,
163
+ "special": false
164
+ },
165
+ "20": {
166
+ "content": "<unused13>",
167
+ "lstrip": false,
168
+ "normalized": false,
169
+ "rstrip": false,
170
+ "single_word": false,
171
+ "special": false
172
+ },
173
+ "21": {
174
+ "content": "<unused14>",
175
+ "lstrip": false,
176
+ "normalized": false,
177
+ "rstrip": false,
178
+ "single_word": false,
179
+ "special": false
180
+ },
181
+ "22": {
182
+ "content": "<unused15>",
183
+ "lstrip": false,
184
+ "normalized": false,
185
+ "rstrip": false,
186
+ "single_word": false,
187
+ "special": false
188
+ },
189
+ "23": {
190
+ "content": "<unused16>",
191
+ "lstrip": false,
192
+ "normalized": false,
193
+ "rstrip": false,
194
+ "single_word": false,
195
+ "special": false
196
+ },
197
+ "24": {
198
+ "content": "<unused17>",
199
+ "lstrip": false,
200
+ "normalized": false,
201
+ "rstrip": false,
202
+ "single_word": false,
203
+ "special": false
204
+ },
205
+ "25": {
206
+ "content": "<unused18>",
207
+ "lstrip": false,
208
+ "normalized": false,
209
+ "rstrip": false,
210
+ "single_word": false,
211
+ "special": false
212
+ },
213
+ "26": {
214
+ "content": "<unused19>",
215
+ "lstrip": false,
216
+ "normalized": false,
217
+ "rstrip": false,
218
+ "single_word": false,
219
+ "special": false
220
+ },
221
+ "27": {
222
+ "content": "<unused20>",
223
+ "lstrip": false,
224
+ "normalized": false,
225
+ "rstrip": false,
226
+ "single_word": false,
227
+ "special": false
228
+ },
229
+ "28": {
230
+ "content": "<unused21>",
231
+ "lstrip": false,
232
+ "normalized": false,
233
+ "rstrip": false,
234
+ "single_word": false,
235
+ "special": false
236
+ },
237
+ "29": {
238
+ "content": "<unused22>",
239
+ "lstrip": false,
240
+ "normalized": false,
241
+ "rstrip": false,
242
+ "single_word": false,
243
+ "special": false
244
+ },
245
+ "30": {
246
+ "content": "<unused23>",
247
+ "lstrip": false,
248
+ "normalized": false,
249
+ "rstrip": false,
250
+ "single_word": false,
251
+ "special": false
252
+ },
253
+ "31": {
254
+ "content": "<unused24>",
255
+ "lstrip": false,
256
+ "normalized": false,
257
+ "rstrip": false,
258
+ "single_word": false,
259
+ "special": false
260
+ },
261
+ "32": {
262
+ "content": "<unused25>",
263
+ "lstrip": false,
264
+ "normalized": false,
265
+ "rstrip": false,
266
+ "single_word": false,
267
+ "special": false
268
+ },
269
+ "33": {
270
+ "content": "<unused26>",
271
+ "lstrip": false,
272
+ "normalized": false,
273
+ "rstrip": false,
274
+ "single_word": false,
275
+ "special": false
276
+ },
277
+ "34": {
278
+ "content": "<unused27>",
279
+ "lstrip": false,
280
+ "normalized": false,
281
+ "rstrip": false,
282
+ "single_word": false,
283
+ "special": false
284
+ },
285
+ "35": {
286
+ "content": "<unused28>",
287
+ "lstrip": false,
288
+ "normalized": false,
289
+ "rstrip": false,
290
+ "single_word": false,
291
+ "special": false
292
+ },
293
+ "36": {
294
+ "content": "<unused29>",
295
+ "lstrip": false,
296
+ "normalized": false,
297
+ "rstrip": false,
298
+ "single_word": false,
299
+ "special": false
300
+ },
301
+ "37": {
302
+ "content": "<unused30>",
303
+ "lstrip": false,
304
+ "normalized": false,
305
+ "rstrip": false,
306
+ "single_word": false,
307
+ "special": false
308
+ },
309
+ "38": {
310
+ "content": "<unused31>",
311
+ "lstrip": false,
312
+ "normalized": false,
313
+ "rstrip": false,
314
+ "single_word": false,
315
+ "special": false
316
+ },
317
+ "39": {
318
+ "content": "<unused32>",
319
+ "lstrip": false,
320
+ "normalized": false,
321
+ "rstrip": false,
322
+ "single_word": false,
323
+ "special": false
324
+ },
325
+ "40": {
326
+ "content": "<unused33>",
327
+ "lstrip": false,
328
+ "normalized": false,
329
+ "rstrip": false,
330
+ "single_word": false,
331
+ "special": false
332
+ },
333
+ "41": {
334
+ "content": "<unused34>",
335
+ "lstrip": false,
336
+ "normalized": false,
337
+ "rstrip": false,
338
+ "single_word": false,
339
+ "special": false
340
+ },
341
+ "42": {
342
+ "content": "<unused35>",
343
+ "lstrip": false,
344
+ "normalized": false,
345
+ "rstrip": false,
346
+ "single_word": false,
347
+ "special": false
348
+ },
349
+ "43": {
350
+ "content": "<unused36>",
351
+ "lstrip": false,
352
+ "normalized": false,
353
+ "rstrip": false,
354
+ "single_word": false,
355
+ "special": false
356
+ },
357
+ "44": {
358
+ "content": "<unused37>",
359
+ "lstrip": false,
360
+ "normalized": false,
361
+ "rstrip": false,
362
+ "single_word": false,
363
+ "special": false
364
+ },
365
+ "45": {
366
+ "content": "<unused38>",
367
+ "lstrip": false,
368
+ "normalized": false,
369
+ "rstrip": false,
370
+ "single_word": false,
371
+ "special": false
372
+ },
373
+ "46": {
374
+ "content": "<unused39>",
375
+ "lstrip": false,
376
+ "normalized": false,
377
+ "rstrip": false,
378
+ "single_word": false,
379
+ "special": false
380
+ },
381
+ "47": {
382
+ "content": "<unused40>",
383
+ "lstrip": false,
384
+ "normalized": false,
385
+ "rstrip": false,
386
+ "single_word": false,
387
+ "special": false
388
+ },
389
+ "48": {
390
+ "content": "<unused41>",
391
+ "lstrip": false,
392
+ "normalized": false,
393
+ "rstrip": false,
394
+ "single_word": false,
395
+ "special": false
396
+ },
397
+ "49": {
398
+ "content": "<unused42>",
399
+ "lstrip": false,
400
+ "normalized": false,
401
+ "rstrip": false,
402
+ "single_word": false,
403
+ "special": false
404
+ },
405
+ "50": {
406
+ "content": "<unused43>",
407
+ "lstrip": false,
408
+ "normalized": false,
409
+ "rstrip": false,
410
+ "single_word": false,
411
+ "special": false
412
+ },
413
+ "51": {
414
+ "content": "<unused44>",
415
+ "lstrip": false,
416
+ "normalized": false,
417
+ "rstrip": false,
418
+ "single_word": false,
419
+ "special": false
420
+ },
421
+ "52": {
422
+ "content": "<unused45>",
423
+ "lstrip": false,
424
+ "normalized": false,
425
+ "rstrip": false,
426
+ "single_word": false,
427
+ "special": false
428
+ },
429
+ "53": {
430
+ "content": "<unused46>",
431
+ "lstrip": false,
432
+ "normalized": false,
433
+ "rstrip": false,
434
+ "single_word": false,
435
+ "special": false
436
+ },
437
+ "54": {
438
+ "content": "<unused47>",
439
+ "lstrip": false,
440
+ "normalized": false,
441
+ "rstrip": false,
442
+ "single_word": false,
443
+ "special": false
444
+ },
445
+ "55": {
446
+ "content": "<unused48>",
447
+ "lstrip": false,
448
+ "normalized": false,
449
+ "rstrip": false,
450
+ "single_word": false,
451
+ "special": false
452
+ },
453
+ "56": {
454
+ "content": "<unused49>",
455
+ "lstrip": false,
456
+ "normalized": false,
457
+ "rstrip": false,
458
+ "single_word": false,
459
+ "special": false
460
+ },
461
+ "57": {
462
+ "content": "<unused50>",
463
+ "lstrip": false,
464
+ "normalized": false,
465
+ "rstrip": false,
466
+ "single_word": false,
467
+ "special": false
468
+ },
469
+ "58": {
470
+ "content": "<unused51>",
471
+ "lstrip": false,
472
+ "normalized": false,
473
+ "rstrip": false,
474
+ "single_word": false,
475
+ "special": false
476
+ },
477
+ "59": {
478
+ "content": "<unused52>",
479
+ "lstrip": false,
480
+ "normalized": false,
481
+ "rstrip": false,
482
+ "single_word": false,
483
+ "special": false
484
+ },
485
+ "60": {
486
+ "content": "<unused53>",
487
+ "lstrip": false,
488
+ "normalized": false,
489
+ "rstrip": false,
490
+ "single_word": false,
491
+ "special": false
492
+ },
493
+ "61": {
494
+ "content": "<unused54>",
495
+ "lstrip": false,
496
+ "normalized": false,
497
+ "rstrip": false,
498
+ "single_word": false,
499
+ "special": false
500
+ },
501
+ "62": {
502
+ "content": "<unused55>",
503
+ "lstrip": false,
504
+ "normalized": false,
505
+ "rstrip": false,
506
+ "single_word": false,
507
+ "special": false
508
+ },
509
+ "63": {
510
+ "content": "<unused56>",
511
+ "lstrip": false,
512
+ "normalized": false,
513
+ "rstrip": false,
514
+ "single_word": false,
515
+ "special": false
516
+ },
517
+ "64": {
518
+ "content": "<unused57>",
519
+ "lstrip": false,
520
+ "normalized": false,
521
+ "rstrip": false,
522
+ "single_word": false,
523
+ "special": false
524
+ },
525
+ "65": {
526
+ "content": "<unused58>",
527
+ "lstrip": false,
528
+ "normalized": false,
529
+ "rstrip": false,
530
+ "single_word": false,
531
+ "special": false
532
+ },
533
+ "66": {
534
+ "content": "<unused59>",
535
+ "lstrip": false,
536
+ "normalized": false,
537
+ "rstrip": false,
538
+ "single_word": false,
539
+ "special": false
540
+ },
541
+ "67": {
542
+ "content": "<unused60>",
543
+ "lstrip": false,
544
+ "normalized": false,
545
+ "rstrip": false,
546
+ "single_word": false,
547
+ "special": false
548
+ },
549
+ "68": {
550
+ "content": "<unused61>",
551
+ "lstrip": false,
552
+ "normalized": false,
553
+ "rstrip": false,
554
+ "single_word": false,
555
+ "special": false
556
+ },
557
+ "69": {
558
+ "content": "<unused62>",
559
+ "lstrip": false,
560
+ "normalized": false,
561
+ "rstrip": false,
562
+ "single_word": false,
563
+ "special": false
564
+ },
565
+ "70": {
566
+ "content": "<unused63>",
567
+ "lstrip": false,
568
+ "normalized": false,
569
+ "rstrip": false,
570
+ "single_word": false,
571
+ "special": false
572
+ },
573
+ "71": {
574
+ "content": "<unused64>",
575
+ "lstrip": false,
576
+ "normalized": false,
577
+ "rstrip": false,
578
+ "single_word": false,
579
+ "special": false
580
+ },
581
+ "72": {
582
+ "content": "<unused65>",
583
+ "lstrip": false,
584
+ "normalized": false,
585
+ "rstrip": false,
586
+ "single_word": false,
587
+ "special": false
588
+ },
589
+ "73": {
590
+ "content": "<unused66>",
591
+ "lstrip": false,
592
+ "normalized": false,
593
+ "rstrip": false,
594
+ "single_word": false,
595
+ "special": false
596
+ },
597
+ "74": {
598
+ "content": "<unused67>",
599
+ "lstrip": false,
600
+ "normalized": false,
601
+ "rstrip": false,
602
+ "single_word": false,
603
+ "special": false
604
+ },
605
+ "75": {
606
+ "content": "<unused68>",
607
+ "lstrip": false,
608
+ "normalized": false,
609
+ "rstrip": false,
610
+ "single_word": false,
611
+ "special": false
612
+ },
613
+ "76": {
614
+ "content": "<unused69>",
615
+ "lstrip": false,
616
+ "normalized": false,
617
+ "rstrip": false,
618
+ "single_word": false,
619
+ "special": false
620
+ },
621
+ "77": {
622
+ "content": "<unused70>",
623
+ "lstrip": false,
624
+ "normalized": false,
625
+ "rstrip": false,
626
+ "single_word": false,
627
+ "special": false
628
+ },
629
+ "78": {
630
+ "content": "<unused71>",
631
+ "lstrip": false,
632
+ "normalized": false,
633
+ "rstrip": false,
634
+ "single_word": false,
635
+ "special": false
636
+ },
637
+ "79": {
638
+ "content": "<unused72>",
639
+ "lstrip": false,
640
+ "normalized": false,
641
+ "rstrip": false,
642
+ "single_word": false,
643
+ "special": false
644
+ },
645
+ "80": {
646
+ "content": "<unused73>",
647
+ "lstrip": false,
648
+ "normalized": false,
649
+ "rstrip": false,
650
+ "single_word": false,
651
+ "special": false
652
+ },
653
+ "81": {
654
+ "content": "<unused74>",
655
+ "lstrip": false,
656
+ "normalized": false,
657
+ "rstrip": false,
658
+ "single_word": false,
659
+ "special": false
660
+ },
661
+ "82": {
662
+ "content": "<unused75>",
663
+ "lstrip": false,
664
+ "normalized": false,
665
+ "rstrip": false,
666
+ "single_word": false,
667
+ "special": false
668
+ },
669
+ "83": {
670
+ "content": "<unused76>",
671
+ "lstrip": false,
672
+ "normalized": false,
673
+ "rstrip": false,
674
+ "single_word": false,
675
+ "special": false
676
+ },
677
+ "84": {
678
+ "content": "<unused77>",
679
+ "lstrip": false,
680
+ "normalized": false,
681
+ "rstrip": false,
682
+ "single_word": false,
683
+ "special": false
684
+ },
685
+ "85": {
686
+ "content": "<unused78>",
687
+ "lstrip": false,
688
+ "normalized": false,
689
+ "rstrip": false,
690
+ "single_word": false,
691
+ "special": false
692
+ },
693
+ "86": {
694
+ "content": "<unused79>",
695
+ "lstrip": false,
696
+ "normalized": false,
697
+ "rstrip": false,
698
+ "single_word": false,
699
+ "special": false
700
+ },
701
+ "87": {
702
+ "content": "<unused80>",
703
+ "lstrip": false,
704
+ "normalized": false,
705
+ "rstrip": false,
706
+ "single_word": false,
707
+ "special": false
708
+ },
709
+ "88": {
710
+ "content": "<unused81>",
711
+ "lstrip": false,
712
+ "normalized": false,
713
+ "rstrip": false,
714
+ "single_word": false,
715
+ "special": false
716
+ },
717
+ "89": {
718
+ "content": "<unused82>",
719
+ "lstrip": false,
720
+ "normalized": false,
721
+ "rstrip": false,
722
+ "single_word": false,
723
+ "special": false
724
+ },
725
+ "90": {
726
+ "content": "<unused83>",
727
+ "lstrip": false,
728
+ "normalized": false,
729
+ "rstrip": false,
730
+ "single_word": false,
731
+ "special": false
732
+ },
733
+ "91": {
734
+ "content": "<unused84>",
735
+ "lstrip": false,
736
+ "normalized": false,
737
+ "rstrip": false,
738
+ "single_word": false,
739
+ "special": false
740
+ },
741
+ "92": {
742
+ "content": "<unused85>",
743
+ "lstrip": false,
744
+ "normalized": false,
745
+ "rstrip": false,
746
+ "single_word": false,
747
+ "special": false
748
+ },
749
+ "93": {
750
+ "content": "<unused86>",
751
+ "lstrip": false,
752
+ "normalized": false,
753
+ "rstrip": false,
754
+ "single_word": false,
755
+ "special": false
756
+ },
757
+ "94": {
758
+ "content": "<unused87>",
759
+ "lstrip": false,
760
+ "normalized": false,
761
+ "rstrip": false,
762
+ "single_word": false,
763
+ "special": false
764
+ },
765
+ "95": {
766
+ "content": "<unused88>",
767
+ "lstrip": false,
768
+ "normalized": false,
769
+ "rstrip": false,
770
+ "single_word": false,
771
+ "special": false
772
+ },
773
+ "96": {
774
+ "content": "<unused89>",
775
+ "lstrip": false,
776
+ "normalized": false,
777
+ "rstrip": false,
778
+ "single_word": false,
779
+ "special": false
780
+ },
781
+ "97": {
782
+ "content": "<unused90>",
783
+ "lstrip": false,
784
+ "normalized": false,
785
+ "rstrip": false,
786
+ "single_word": false,
787
+ "special": false
788
+ },
789
+ "98": {
790
+ "content": "<unused91>",
791
+ "lstrip": false,
792
+ "normalized": false,
793
+ "rstrip": false,
794
+ "single_word": false,
795
+ "special": false
796
+ },
797
+ "99": {
798
+ "content": "<unused92>",
799
+ "lstrip": false,
800
+ "normalized": false,
801
+ "rstrip": false,
802
+ "single_word": false,
803
+ "special": false
804
+ },
805
+ "100": {
806
+ "content": "<unused93>",
807
+ "lstrip": false,
808
+ "normalized": false,
809
+ "rstrip": false,
810
+ "single_word": false,
811
+ "special": false
812
+ },
813
+ "101": {
814
+ "content": "<unused94>",
815
+ "lstrip": false,
816
+ "normalized": false,
817
+ "rstrip": false,
818
+ "single_word": false,
819
+ "special": false
820
+ },
821
+ "102": {
822
+ "content": "<unused95>",
823
+ "lstrip": false,
824
+ "normalized": false,
825
+ "rstrip": false,
826
+ "single_word": false,
827
+ "special": false
828
+ },
829
+ "103": {
830
+ "content": "<unused96>",
831
+ "lstrip": false,
832
+ "normalized": false,
833
+ "rstrip": false,
834
+ "single_word": false,
835
+ "special": false
836
+ },
837
+ "104": {
838
+ "content": "<unused97>",
839
+ "lstrip": false,
840
+ "normalized": false,
841
+ "rstrip": false,
842
+ "single_word": false,
843
+ "special": false
844
+ },
845
+ "105": {
846
+ "content": "<unused98>",
847
+ "lstrip": false,
848
+ "normalized": false,
849
+ "rstrip": false,
850
+ "single_word": false,
851
+ "special": false
852
+ },
853
+ "106": {
854
+ "content": "<start_of_turn>",
855
+ "lstrip": false,
856
+ "normalized": false,
857
+ "rstrip": false,
858
+ "single_word": false,
859
+ "special": true
860
+ },
861
+ "107": {
862
+ "content": "<end_of_turn>",
863
+ "lstrip": false,
864
+ "normalized": false,
865
+ "rstrip": false,
866
+ "single_word": false,
867
+ "special": true
868
+ },
869
+ "108": {
870
+ "content": "\n",
871
+ "lstrip": false,
872
+ "normalized": false,
873
+ "rstrip": false,
874
+ "single_word": false,
875
+ "special": false
876
+ },
877
+ "109": {
878
+ "content": "\n\n",
879
+ "lstrip": false,
880
+ "normalized": false,
881
+ "rstrip": false,
882
+ "single_word": false,
883
+ "special": false
884
+ },
885
+ "110": {
886
+ "content": "\n\n\n",
887
+ "lstrip": false,
888
+ "normalized": false,
889
+ "rstrip": false,
890
+ "single_word": false,
891
+ "special": false
892
+ },
893
+ "111": {
894
+ "content": "\n\n\n\n",
895
+ "lstrip": false,
896
+ "normalized": false,
897
+ "rstrip": false,
898
+ "single_word": false,
899
+ "special": false
900
+ },
901
+ "112": {
902
+ "content": "\n\n\n\n\n",
903
+ "lstrip": false,
904
+ "normalized": false,
905
+ "rstrip": false,
906
+ "single_word": false,
907
+ "special": false
908
+ },
909
+ "113": {
910
+ "content": "\n\n\n\n\n\n",
911
+ "lstrip": false,
912
+ "normalized": false,
913
+ "rstrip": false,
914
+ "single_word": false,
915
+ "special": false
916
+ },
917
+ "114": {
918
+ "content": "\n\n\n\n\n\n\n",
919
+ "lstrip": false,
920
+ "normalized": false,
921
+ "rstrip": false,
922
+ "single_word": false,
923
+ "special": false
924
+ },
925
+ "115": {
926
+ "content": "\n\n\n\n\n\n\n\n",
927
+ "lstrip": false,
928
+ "normalized": false,
929
+ "rstrip": false,
930
+ "single_word": false,
931
+ "special": false
932
+ },
933
+ "116": {
934
+ "content": "\n\n\n\n\n\n\n\n\n",
935
+ "lstrip": false,
936
+ "normalized": false,
937
+ "rstrip": false,
938
+ "single_word": false,
939
+ "special": false
940
+ },
941
+ "117": {
942
+ "content": "\n\n\n\n\n\n\n\n\n\n",
943
+ "lstrip": false,
944
+ "normalized": false,
945
+ "rstrip": false,
946
+ "single_word": false,
947
+ "special": false
948
+ },
949
+ "118": {
950
+ "content": "\n\n\n\n\n\n\n\n\n\n\n",
951
+ "lstrip": false,
952
+ "normalized": false,
953
+ "rstrip": false,
954
+ "single_word": false,
955
+ "special": false
956
+ },
957
+ "119": {
958
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n",
959
+ "lstrip": false,
960
+ "normalized": false,
961
+ "rstrip": false,
962
+ "single_word": false,
963
+ "special": false
964
+ },
965
+ "120": {
966
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n",
967
+ "lstrip": false,
968
+ "normalized": false,
969
+ "rstrip": false,
970
+ "single_word": false,
971
+ "special": false
972
+ },
973
+ "121": {
974
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
975
+ "lstrip": false,
976
+ "normalized": false,
977
+ "rstrip": false,
978
+ "single_word": false,
979
+ "special": false
980
+ },
981
+ "122": {
982
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
983
+ "lstrip": false,
984
+ "normalized": false,
985
+ "rstrip": false,
986
+ "single_word": false,
987
+ "special": false
988
+ },
989
+ "123": {
990
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
991
+ "lstrip": false,
992
+ "normalized": false,
993
+ "rstrip": false,
994
+ "single_word": false,
995
+ "special": false
996
+ },
997
+ "124": {
998
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
999
+ "lstrip": false,
1000
+ "normalized": false,
1001
+ "rstrip": false,
1002
+ "single_word": false,
1003
+ "special": false
1004
+ },
1005
+ "125": {
1006
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1007
+ "lstrip": false,
1008
+ "normalized": false,
1009
+ "rstrip": false,
1010
+ "single_word": false,
1011
+ "special": false
1012
+ },
1013
+ "126": {
1014
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1015
+ "lstrip": false,
1016
+ "normalized": false,
1017
+ "rstrip": false,
1018
+ "single_word": false,
1019
+ "special": false
1020
+ },
1021
+ "127": {
1022
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1023
+ "lstrip": false,
1024
+ "normalized": false,
1025
+ "rstrip": false,
1026
+ "single_word": false,
1027
+ "special": false
1028
+ },
1029
+ "128": {
1030
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1031
+ "lstrip": false,
1032
+ "normalized": false,
1033
+ "rstrip": false,
1034
+ "single_word": false,
1035
+ "special": false
1036
+ },
1037
+ "129": {
1038
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1039
+ "lstrip": false,
1040
+ "normalized": false,
1041
+ "rstrip": false,
1042
+ "single_word": false,
1043
+ "special": false
1044
+ },
1045
+ "130": {
1046
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1047
+ "lstrip": false,
1048
+ "normalized": false,
1049
+ "rstrip": false,
1050
+ "single_word": false,
1051
+ "special": false
1052
+ },
1053
+ "131": {
1054
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1055
+ "lstrip": false,
1056
+ "normalized": false,
1057
+ "rstrip": false,
1058
+ "single_word": false,
1059
+ "special": false
1060
+ },
1061
+ "132": {
1062
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1063
+ "lstrip": false,
1064
+ "normalized": false,
1065
+ "rstrip": false,
1066
+ "single_word": false,
1067
+ "special": false
1068
+ },
1069
+ "133": {
1070
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1071
+ "lstrip": false,
1072
+ "normalized": false,
1073
+ "rstrip": false,
1074
+ "single_word": false,
1075
+ "special": false
1076
+ },
1077
+ "134": {
1078
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1079
+ "lstrip": false,
1080
+ "normalized": false,
1081
+ "rstrip": false,
1082
+ "single_word": false,
1083
+ "special": false
1084
+ },
1085
+ "135": {
1086
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1087
+ "lstrip": false,
1088
+ "normalized": false,
1089
+ "rstrip": false,
1090
+ "single_word": false,
1091
+ "special": false
1092
+ },
1093
+ "136": {
1094
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1095
+ "lstrip": false,
1096
+ "normalized": false,
1097
+ "rstrip": false,
1098
+ "single_word": false,
1099
+ "special": false
1100
+ },
1101
+ "137": {
1102
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1103
+ "lstrip": false,
1104
+ "normalized": false,
1105
+ "rstrip": false,
1106
+ "single_word": false,
1107
+ "special": false
1108
+ },
1109
+ "138": {
1110
+ "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
1111
+ "lstrip": false,
1112
+ "normalized": false,
1113
+ "rstrip": false,
1114
+ "single_word": false,
1115
+ "special": false
1116
+ },
1117
+ "139": {
1118
+ "content": "▁▁",
1119
+ "lstrip": false,
1120
+ "normalized": false,
1121
+ "rstrip": false,
1122
+ "single_word": false,
1123
+ "special": false
1124
+ },
1125
+ "140": {
1126
+ "content": "▁▁▁",
1127
+ "lstrip": false,
1128
+ "normalized": false,
1129
+ "rstrip": false,
1130
+ "single_word": false,
1131
+ "special": false
1132
+ },
1133
+ "141": {
1134
+ "content": "▁▁▁▁",
1135
+ "lstrip": false,
1136
+ "normalized": false,
1137
+ "rstrip": false,
1138
+ "single_word": false,
1139
+ "special": false
1140
+ },
1141
+ "142": {
1142
+ "content": "▁▁▁▁▁",
1143
+ "lstrip": false,
1144
+ "normalized": false,
1145
+ "rstrip": false,
1146
+ "single_word": false,
1147
+ "special": false
1148
+ },
1149
+ "143": {
1150
+ "content": "▁▁▁▁▁▁",
1151
+ "lstrip": false,
1152
+ "normalized": false,
1153
+ "rstrip": false,
1154
+ "single_word": false,
1155
+ "special": false
1156
+ },
1157
+ "144": {
1158
+ "content": "▁▁▁▁▁▁▁",
1159
+ "lstrip": false,
1160
+ "normalized": false,
1161
+ "rstrip": false,
1162
+ "single_word": false,
1163
+ "special": false
1164
+ },
1165
+ "145": {
1166
+ "content": "▁▁▁▁▁▁▁▁",
1167
+ "lstrip": false,
1168
+ "normalized": false,
1169
+ "rstrip": false,
1170
+ "single_word": false,
1171
+ "special": false
1172
+ },
1173
+ "146": {
1174
+ "content": "▁▁▁▁▁▁▁▁▁",
1175
+ "lstrip": false,
1176
+ "normalized": false,
1177
+ "rstrip": false,
1178
+ "single_word": false,
1179
+ "special": false
1180
+ },
1181
+ "147": {
1182
+ "content": "▁▁▁▁▁▁▁▁▁▁",
1183
+ "lstrip": false,
1184
+ "normalized": false,
1185
+ "rstrip": false,
1186
+ "single_word": false,
1187
+ "special": false
1188
+ },
1189
+ "148": {
1190
+ "content": "▁▁▁▁▁▁▁▁▁▁▁",
1191
+ "lstrip": false,
1192
+ "normalized": false,
1193
+ "rstrip": false,
1194
+ "single_word": false,
1195
+ "special": false
1196
+ },
1197
+ "149": {
1198
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁",
1199
+ "lstrip": false,
1200
+ "normalized": false,
1201
+ "rstrip": false,
1202
+ "single_word": false,
1203
+ "special": false
1204
+ },
1205
+ "150": {
1206
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁",
1207
+ "lstrip": false,
1208
+ "normalized": false,
1209
+ "rstrip": false,
1210
+ "single_word": false,
1211
+ "special": false
1212
+ },
1213
+ "151": {
1214
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1215
+ "lstrip": false,
1216
+ "normalized": false,
1217
+ "rstrip": false,
1218
+ "single_word": false,
1219
+ "special": false
1220
+ },
1221
+ "152": {
1222
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1223
+ "lstrip": false,
1224
+ "normalized": false,
1225
+ "rstrip": false,
1226
+ "single_word": false,
1227
+ "special": false
1228
+ },
1229
+ "153": {
1230
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1231
+ "lstrip": false,
1232
+ "normalized": false,
1233
+ "rstrip": false,
1234
+ "single_word": false,
1235
+ "special": false
1236
+ },
1237
+ "154": {
1238
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1239
+ "lstrip": false,
1240
+ "normalized": false,
1241
+ "rstrip": false,
1242
+ "single_word": false,
1243
+ "special": false
1244
+ },
1245
+ "155": {
1246
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1247
+ "lstrip": false,
1248
+ "normalized": false,
1249
+ "rstrip": false,
1250
+ "single_word": false,
1251
+ "special": false
1252
+ },
1253
+ "156": {
1254
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1255
+ "lstrip": false,
1256
+ "normalized": false,
1257
+ "rstrip": false,
1258
+ "single_word": false,
1259
+ "special": false
1260
+ },
1261
+ "157": {
1262
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1263
+ "lstrip": false,
1264
+ "normalized": false,
1265
+ "rstrip": false,
1266
+ "single_word": false,
1267
+ "special": false
1268
+ },
1269
+ "158": {
1270
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1271
+ "lstrip": false,
1272
+ "normalized": false,
1273
+ "rstrip": false,
1274
+ "single_word": false,
1275
+ "special": false
1276
+ },
1277
+ "159": {
1278
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1279
+ "lstrip": false,
1280
+ "normalized": false,
1281
+ "rstrip": false,
1282
+ "single_word": false,
1283
+ "special": false
1284
+ },
1285
+ "160": {
1286
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1287
+ "lstrip": false,
1288
+ "normalized": false,
1289
+ "rstrip": false,
1290
+ "single_word": false,
1291
+ "special": false
1292
+ },
1293
+ "161": {
1294
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1295
+ "lstrip": false,
1296
+ "normalized": false,
1297
+ "rstrip": false,
1298
+ "single_word": false,
1299
+ "special": false
1300
+ },
1301
+ "162": {
1302
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1303
+ "lstrip": false,
1304
+ "normalized": false,
1305
+ "rstrip": false,
1306
+ "single_word": false,
1307
+ "special": false
1308
+ },
1309
+ "163": {
1310
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1311
+ "lstrip": false,
1312
+ "normalized": false,
1313
+ "rstrip": false,
1314
+ "single_word": false,
1315
+ "special": false
1316
+ },
1317
+ "164": {
1318
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1319
+ "lstrip": false,
1320
+ "normalized": false,
1321
+ "rstrip": false,
1322
+ "single_word": false,
1323
+ "special": false
1324
+ },
1325
+ "165": {
1326
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1327
+ "lstrip": false,
1328
+ "normalized": false,
1329
+ "rstrip": false,
1330
+ "single_word": false,
1331
+ "special": false
1332
+ },
1333
+ "166": {
1334
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1335
+ "lstrip": false,
1336
+ "normalized": false,
1337
+ "rstrip": false,
1338
+ "single_word": false,
1339
+ "special": false
1340
+ },
1341
+ "167": {
1342
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1343
+ "lstrip": false,
1344
+ "normalized": false,
1345
+ "rstrip": false,
1346
+ "single_word": false,
1347
+ "special": false
1348
+ },
1349
+ "168": {
1350
+ "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
1351
+ "lstrip": false,
1352
+ "normalized": false,
1353
+ "rstrip": false,
1354
+ "single_word": false,
1355
+ "special": false
1356
+ },
1357
+ "169": {
1358
+ "content": "<table>",
1359
+ "lstrip": false,
1360
+ "normalized": false,
1361
+ "rstrip": false,
1362
+ "single_word": false,
1363
+ "special": false
1364
+ },
1365
+ "170": {
1366
+ "content": "<caption>",
1367
+ "lstrip": false,
1368
+ "normalized": false,
1369
+ "rstrip": false,
1370
+ "single_word": false,
1371
+ "special": false
1372
+ },
1373
+ "171": {
1374
+ "content": "<thead>",
1375
+ "lstrip": false,
1376
+ "normalized": false,
1377
+ "rstrip": false,
1378
+ "single_word": false,
1379
+ "special": false
1380
+ },
1381
+ "172": {
1382
+ "content": "<tbody>",
1383
+ "lstrip": false,
1384
+ "normalized": false,
1385
+ "rstrip": false,
1386
+ "single_word": false,
1387
+ "special": false
1388
+ },
1389
+ "173": {
1390
+ "content": "<tfoot>",
1391
+ "lstrip": false,
1392
+ "normalized": false,
1393
+ "rstrip": false,
1394
+ "single_word": false,
1395
+ "special": false
1396
+ },
1397
+ "174": {
1398
+ "content": "<tr>",
1399
+ "lstrip": false,
1400
+ "normalized": false,
1401
+ "rstrip": false,
1402
+ "single_word": false,
1403
+ "special": false
1404
+ },
1405
+ "175": {
1406
+ "content": "<th>",
1407
+ "lstrip": false,
1408
+ "normalized": false,
1409
+ "rstrip": false,
1410
+ "single_word": false,
1411
+ "special": false
1412
+ },
1413
+ "176": {
1414
+ "content": "<td>",
1415
+ "lstrip": false,
1416
+ "normalized": false,
1417
+ "rstrip": false,
1418
+ "single_word": false,
1419
+ "special": false
1420
+ },
1421
+ "177": {
1422
+ "content": "</table>",
1423
+ "lstrip": false,
1424
+ "normalized": false,
1425
+ "rstrip": false,
1426
+ "single_word": false,
1427
+ "special": false
1428
+ },
1429
+ "178": {
1430
+ "content": "</caption>",
1431
+ "lstrip": false,
1432
+ "normalized": false,
1433
+ "rstrip": false,
1434
+ "single_word": false,
1435
+ "special": false
1436
+ },
1437
+ "179": {
1438
+ "content": "</thead>",
1439
+ "lstrip": false,
1440
+ "normalized": false,
1441
+ "rstrip": false,
1442
+ "single_word": false,
1443
+ "special": false
1444
+ },
1445
+ "180": {
1446
+ "content": "</tbody>",
1447
+ "lstrip": false,
1448
+ "normalized": false,
1449
+ "rstrip": false,
1450
+ "single_word": false,
1451
+ "special": false
1452
+ },
1453
+ "181": {
1454
+ "content": "</tfoot>",
1455
+ "lstrip": false,
1456
+ "normalized": false,
1457
+ "rstrip": false,
1458
+ "single_word": false,
1459
+ "special": false
1460
+ },
1461
+ "182": {
1462
+ "content": "</tr>",
1463
+ "lstrip": false,
1464
+ "normalized": false,
1465
+ "rstrip": false,
1466
+ "single_word": false,
1467
+ "special": false
1468
+ },
1469
+ "183": {
1470
+ "content": "</th>",
1471
+ "lstrip": false,
1472
+ "normalized": false,
1473
+ "rstrip": false,
1474
+ "single_word": false,
1475
+ "special": false
1476
+ },
1477
+ "184": {
1478
+ "content": "</td>",
1479
+ "lstrip": false,
1480
+ "normalized": false,
1481
+ "rstrip": false,
1482
+ "single_word": false,
1483
+ "special": false
1484
+ },
1485
+ "185": {
1486
+ "content": "<h1>",
1487
+ "lstrip": false,
1488
+ "normalized": false,
1489
+ "rstrip": false,
1490
+ "single_word": false,
1491
+ "special": false
1492
+ },
1493
+ "186": {
1494
+ "content": "<h2>",
1495
+ "lstrip": false,
1496
+ "normalized": false,
1497
+ "rstrip": false,
1498
+ "single_word": false,
1499
+ "special": false
1500
+ },
1501
+ "187": {
1502
+ "content": "<h3>",
1503
+ "lstrip": false,
1504
+ "normalized": false,
1505
+ "rstrip": false,
1506
+ "single_word": false,
1507
+ "special": false
1508
+ },
1509
+ "188": {
1510
+ "content": "<h4>",
1511
+ "lstrip": false,
1512
+ "normalized": false,
1513
+ "rstrip": false,
1514
+ "single_word": false,
1515
+ "special": false
1516
+ },
1517
+ "189": {
1518
+ "content": "<h5>",
1519
+ "lstrip": false,
1520
+ "normalized": false,
1521
+ "rstrip": false,
1522
+ "single_word": false,
1523
+ "special": false
1524
+ },
1525
+ "190": {
1526
+ "content": "<h6>",
1527
+ "lstrip": false,
1528
+ "normalized": false,
1529
+ "rstrip": false,
1530
+ "single_word": false,
1531
+ "special": false
1532
+ },
1533
+ "191": {
1534
+ "content": "<blockquote>",
1535
+ "lstrip": false,
1536
+ "normalized": false,
1537
+ "rstrip": false,
1538
+ "single_word": false,
1539
+ "special": false
1540
+ },
1541
+ "192": {
1542
+ "content": "</h1>",
1543
+ "lstrip": false,
1544
+ "normalized": false,
1545
+ "rstrip": false,
1546
+ "single_word": false,
1547
+ "special": false
1548
+ },
1549
+ "193": {
1550
+ "content": "</h2>",
1551
+ "lstrip": false,
1552
+ "normalized": false,
1553
+ "rstrip": false,
1554
+ "single_word": false,
1555
+ "special": false
1556
+ },
1557
+ "194": {
1558
+ "content": "</h3>",
1559
+ "lstrip": false,
1560
+ "normalized": false,
1561
+ "rstrip": false,
1562
+ "single_word": false,
1563
+ "special": false
1564
+ },
1565
+ "195": {
1566
+ "content": "</h4>",
1567
+ "lstrip": false,
1568
+ "normalized": false,
1569
+ "rstrip": false,
1570
+ "single_word": false,
1571
+ "special": false
1572
+ },
1573
+ "196": {
1574
+ "content": "</h5>",
1575
+ "lstrip": false,
1576
+ "normalized": false,
1577
+ "rstrip": false,
1578
+ "single_word": false,
1579
+ "special": false
1580
+ },
1581
+ "197": {
1582
+ "content": "</h6>",
1583
+ "lstrip": false,
1584
+ "normalized": false,
1585
+ "rstrip": false,
1586
+ "single_word": false,
1587
+ "special": false
1588
+ },
1589
+ "198": {
1590
+ "content": "</blockquote>",
1591
+ "lstrip": false,
1592
+ "normalized": false,
1593
+ "rstrip": false,
1594
+ "single_word": false,
1595
+ "special": false
1596
+ },
1597
+ "199": {
1598
+ "content": "<strong>",
1599
+ "lstrip": false,
1600
+ "normalized": false,
1601
+ "rstrip": false,
1602
+ "single_word": false,
1603
+ "special": false
1604
+ },
1605
+ "200": {
1606
+ "content": "<em>",
1607
+ "lstrip": false,
1608
+ "normalized": false,
1609
+ "rstrip": false,
1610
+ "single_word": false,
1611
+ "special": false
1612
+ },
1613
+ "201": {
1614
+ "content": "<b>",
1615
+ "lstrip": false,
1616
+ "normalized": false,
1617
+ "rstrip": false,
1618
+ "single_word": false,
1619
+ "special": false
1620
+ },
1621
+ "202": {
1622
+ "content": "<i>",
1623
+ "lstrip": false,
1624
+ "normalized": false,
1625
+ "rstrip": false,
1626
+ "single_word": false,
1627
+ "special": false
1628
+ },
1629
+ "203": {
1630
+ "content": "<u>",
1631
+ "lstrip": false,
1632
+ "normalized": false,
1633
+ "rstrip": false,
1634
+ "single_word": false,
1635
+ "special": false
1636
+ },
1637
+ "204": {
1638
+ "content": "<s>",
1639
+ "lstrip": false,
1640
+ "normalized": false,
1641
+ "rstrip": false,
1642
+ "single_word": false,
1643
+ "special": false
1644
+ },
1645
+ "205": {
1646
+ "content": "<sub>",
1647
+ "lstrip": false,
1648
+ "normalized": false,
1649
+ "rstrip": false,
1650
+ "single_word": false,
1651
+ "special": false
1652
+ },
1653
+ "206": {
1654
+ "content": "<sup>",
1655
+ "lstrip": false,
1656
+ "normalized": false,
1657
+ "rstrip": false,
1658
+ "single_word": false,
1659
+ "special": false
1660
+ },
1661
+ "207": {
1662
+ "content": "<code>",
1663
+ "lstrip": false,
1664
+ "normalized": false,
1665
+ "rstrip": false,
1666
+ "single_word": false,
1667
+ "special": false
1668
+ },
1669
+ "208": {
1670
+ "content": "</strong>",
1671
+ "lstrip": false,
1672
+ "normalized": false,
1673
+ "rstrip": false,
1674
+ "single_word": false,
1675
+ "special": false
1676
+ },
1677
+ "209": {
1678
+ "content": "</em>",
1679
+ "lstrip": false,
1680
+ "normalized": false,
1681
+ "rstrip": false,
1682
+ "single_word": false,
1683
+ "special": false
1684
+ },
1685
+ "210": {
1686
+ "content": "</b>",
1687
+ "lstrip": false,
1688
+ "normalized": false,
1689
+ "rstrip": false,
1690
+ "single_word": false,
1691
+ "special": false
1692
+ },
1693
+ "211": {
1694
+ "content": "</i>",
1695
+ "lstrip": false,
1696
+ "normalized": false,
1697
+ "rstrip": false,
1698
+ "single_word": false,
1699
+ "special": false
1700
+ },
1701
+ "212": {
1702
+ "content": "</u>",
1703
+ "lstrip": false,
1704
+ "normalized": false,
1705
+ "rstrip": false,
1706
+ "single_word": false,
1707
+ "special": false
1708
+ },
1709
+ "213": {
1710
+ "content": "</s>",
1711
+ "lstrip": false,
1712
+ "normalized": false,
1713
+ "rstrip": false,
1714
+ "single_word": false,
1715
+ "special": false
1716
+ },
1717
+ "214": {
1718
+ "content": "</sub>",
1719
+ "lstrip": false,
1720
+ "normalized": false,
1721
+ "rstrip": false,
1722
+ "single_word": false,
1723
+ "special": false
1724
+ },
1725
+ "215": {
1726
+ "content": "</sup>",
1727
+ "lstrip": false,
1728
+ "normalized": false,
1729
+ "rstrip": false,
1730
+ "single_word": false,
1731
+ "special": false
1732
+ },
1733
+ "216": {
1734
+ "content": "</code>",
1735
+ "lstrip": false,
1736
+ "normalized": false,
1737
+ "rstrip": false,
1738
+ "single_word": false,
1739
+ "special": false
1740
+ },
1741
+ "255968": {
1742
+ "content": "[toxicity=0]",
1743
+ "lstrip": false,
1744
+ "normalized": false,
1745
+ "rstrip": false,
1746
+ "single_word": false,
1747
+ "special": false
1748
+ },
1749
+ "255969": {
1750
+ "content": "\t\t",
1751
+ "lstrip": false,
1752
+ "normalized": false,
1753
+ "rstrip": false,
1754
+ "single_word": false,
1755
+ "special": false
1756
+ },
1757
+ "255970": {
1758
+ "content": "\t\t\t",
1759
+ "lstrip": false,
1760
+ "normalized": false,
1761
+ "rstrip": false,
1762
+ "single_word": false,
1763
+ "special": false
1764
+ },
1765
+ "255971": {
1766
+ "content": "\t\t\t\t",
1767
+ "lstrip": false,
1768
+ "normalized": false,
1769
+ "rstrip": false,
1770
+ "single_word": false,
1771
+ "special": false
1772
+ },
1773
+ "255972": {
1774
+ "content": "\t\t\t\t\t",
1775
+ "lstrip": false,
1776
+ "normalized": false,
1777
+ "rstrip": false,
1778
+ "single_word": false,
1779
+ "special": false
1780
+ },
1781
+ "255973": {
1782
+ "content": "\t\t\t\t\t\t",
1783
+ "lstrip": false,
1784
+ "normalized": false,
1785
+ "rstrip": false,
1786
+ "single_word": false,
1787
+ "special": false
1788
+ },
1789
+ "255974": {
1790
+ "content": "\t\t\t\t\t\t\t",
1791
+ "lstrip": false,
1792
+ "normalized": false,
1793
+ "rstrip": false,
1794
+ "single_word": false,
1795
+ "special": false
1796
+ },
1797
+ "255975": {
1798
+ "content": "\t\t\t\t\t\t\t\t",
1799
+ "lstrip": false,
1800
+ "normalized": false,
1801
+ "rstrip": false,
1802
+ "single_word": false,
1803
+ "special": false
1804
+ },
1805
+ "255976": {
1806
+ "content": "\t\t\t\t\t\t\t\t\t",
1807
+ "lstrip": false,
1808
+ "normalized": false,
1809
+ "rstrip": false,
1810
+ "single_word": false,
1811
+ "special": false
1812
+ },
1813
+ "255977": {
1814
+ "content": "\t\t\t\t\t\t\t\t\t\t",
1815
+ "lstrip": false,
1816
+ "normalized": false,
1817
+ "rstrip": false,
1818
+ "single_word": false,
1819
+ "special": false
1820
+ },
1821
+ "255978": {
1822
+ "content": "\t\t\t\t\t\t\t\t\t\t\t",
1823
+ "lstrip": false,
1824
+ "normalized": false,
1825
+ "rstrip": false,
1826
+ "single_word": false,
1827
+ "special": false
1828
+ },
1829
+ "255979": {
1830
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t",
1831
+ "lstrip": false,
1832
+ "normalized": false,
1833
+ "rstrip": false,
1834
+ "single_word": false,
1835
+ "special": false
1836
+ },
1837
+ "255980": {
1838
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t",
1839
+ "lstrip": false,
1840
+ "normalized": false,
1841
+ "rstrip": false,
1842
+ "single_word": false,
1843
+ "special": false
1844
+ },
1845
+ "255981": {
1846
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1847
+ "lstrip": false,
1848
+ "normalized": false,
1849
+ "rstrip": false,
1850
+ "single_word": false,
1851
+ "special": false
1852
+ },
1853
+ "255982": {
1854
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1855
+ "lstrip": false,
1856
+ "normalized": false,
1857
+ "rstrip": false,
1858
+ "single_word": false,
1859
+ "special": false
1860
+ },
1861
+ "255983": {
1862
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1863
+ "lstrip": false,
1864
+ "normalized": false,
1865
+ "rstrip": false,
1866
+ "single_word": false,
1867
+ "special": false
1868
+ },
1869
+ "255984": {
1870
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1871
+ "lstrip": false,
1872
+ "normalized": false,
1873
+ "rstrip": false,
1874
+ "single_word": false,
1875
+ "special": false
1876
+ },
1877
+ "255985": {
1878
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1879
+ "lstrip": false,
1880
+ "normalized": false,
1881
+ "rstrip": false,
1882
+ "single_word": false,
1883
+ "special": false
1884
+ },
1885
+ "255986": {
1886
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1887
+ "lstrip": false,
1888
+ "normalized": false,
1889
+ "rstrip": false,
1890
+ "single_word": false,
1891
+ "special": false
1892
+ },
1893
+ "255987": {
1894
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1895
+ "lstrip": false,
1896
+ "normalized": false,
1897
+ "rstrip": false,
1898
+ "single_word": false,
1899
+ "special": false
1900
+ },
1901
+ "255988": {
1902
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1903
+ "lstrip": false,
1904
+ "normalized": false,
1905
+ "rstrip": false,
1906
+ "single_word": false,
1907
+ "special": false
1908
+ },
1909
+ "255989": {
1910
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1911
+ "lstrip": false,
1912
+ "normalized": false,
1913
+ "rstrip": false,
1914
+ "single_word": false,
1915
+ "special": false
1916
+ },
1917
+ "255990": {
1918
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1919
+ "lstrip": false,
1920
+ "normalized": false,
1921
+ "rstrip": false,
1922
+ "single_word": false,
1923
+ "special": false
1924
+ },
1925
+ "255991": {
1926
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1927
+ "lstrip": false,
1928
+ "normalized": false,
1929
+ "rstrip": false,
1930
+ "single_word": false,
1931
+ "special": false
1932
+ },
1933
+ "255992": {
1934
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1935
+ "lstrip": false,
1936
+ "normalized": false,
1937
+ "rstrip": false,
1938
+ "single_word": false,
1939
+ "special": false
1940
+ },
1941
+ "255993": {
1942
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1943
+ "lstrip": false,
1944
+ "normalized": false,
1945
+ "rstrip": false,
1946
+ "single_word": false,
1947
+ "special": false
1948
+ },
1949
+ "255994": {
1950
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1951
+ "lstrip": false,
1952
+ "normalized": false,
1953
+ "rstrip": false,
1954
+ "single_word": false,
1955
+ "special": false
1956
+ },
1957
+ "255995": {
1958
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1959
+ "lstrip": false,
1960
+ "normalized": false,
1961
+ "rstrip": false,
1962
+ "single_word": false,
1963
+ "special": false
1964
+ },
1965
+ "255996": {
1966
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1967
+ "lstrip": false,
1968
+ "normalized": false,
1969
+ "rstrip": false,
1970
+ "single_word": false,
1971
+ "special": false
1972
+ },
1973
+ "255997": {
1974
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1975
+ "lstrip": false,
1976
+ "normalized": false,
1977
+ "rstrip": false,
1978
+ "single_word": false,
1979
+ "special": false
1980
+ },
1981
+ "255998": {
1982
+ "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
1983
+ "lstrip": false,
1984
+ "normalized": false,
1985
+ "rstrip": false,
1986
+ "single_word": false,
1987
+ "special": false
1988
+ },
1989
+ "255999": {
1990
+ "content": "<unused99>",
1991
+ "lstrip": false,
1992
+ "normalized": false,
1993
+ "rstrip": false,
1994
+ "single_word": false,
1995
+ "special": false
1996
+ }
1997
+ },
1998
+ "additional_special_tokens": [
1999
+ "<start_of_turn>",
2000
+ "<end_of_turn>"
2001
+ ],
2002
+ "bos_token": "<bos>",
2003
+ "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
2004
+ "clean_up_tokenization_spaces": false,
2005
+ "eos_token": "<eos>",
2006
+ "extra_special_tokens": {},
2007
+ "model_max_length": 2048,
2008
+ "pad_token": "<pad>",
2009
+ "sp_model_kwargs": {},
2010
+ "spaces_between_special_tokens": false,
2011
+ "tokenizer_class": "GemmaTokenizer",
2012
+ "unk_token": "<unk>",
2013
+ "use_default_system_prompt": false
2014
+ }
train_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 0.9969230769230769,
3
+ "total_flos": 82980012523520.0,
4
+ "train_loss": 1.2597844002178176,
5
+ "train_runtime": 2824.655,
6
+ "train_samples": 31200,
7
+ "train_samples_per_second": 11.046,
8
+ "train_steps_per_second": 0.086
9
+ }
trainer_state.json ADDED
@@ -0,0 +1,385 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 0.9969230769230769,
5
+ "eval_steps": 100,
6
+ "global_step": 243,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0041025641025641026,
13
+ "grad_norm": 210.52482598709943,
14
+ "learning_rate": 8e-08,
15
+ "loss": 18.5684,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.020512820512820513,
20
+ "grad_norm": 186.8406143210285,
21
+ "learning_rate": 4e-07,
22
+ "loss": 17.1831,
23
+ "step": 5
24
+ },
25
+ {
26
+ "epoch": 0.041025641025641026,
27
+ "grad_norm": 49.91185411718416,
28
+ "learning_rate": 8e-07,
29
+ "loss": 9.5085,
30
+ "step": 10
31
+ },
32
+ {
33
+ "epoch": 0.06153846153846154,
34
+ "grad_norm": 9.332467552302559,
35
+ "learning_rate": 1.2e-06,
36
+ "loss": 2.0752,
37
+ "step": 15
38
+ },
39
+ {
40
+ "epoch": 0.08205128205128205,
41
+ "grad_norm": 0.8297806389960246,
42
+ "learning_rate": 1.6e-06,
43
+ "loss": 0.9159,
44
+ "step": 20
45
+ },
46
+ {
47
+ "epoch": 0.10256410256410256,
48
+ "grad_norm": 3.114341047106303,
49
+ "learning_rate": 2e-06,
50
+ "loss": 0.8841,
51
+ "step": 25
52
+ },
53
+ {
54
+ "epoch": 0.12307692307692308,
55
+ "grad_norm": 1.934423072293649,
56
+ "learning_rate": 1.9974051702905273e-06,
57
+ "loss": 0.8479,
58
+ "step": 30
59
+ },
60
+ {
61
+ "epoch": 0.14358974358974358,
62
+ "grad_norm": 1.6875673048587294,
63
+ "learning_rate": 1.9896341474445524e-06,
64
+ "loss": 0.8417,
65
+ "step": 35
66
+ },
67
+ {
68
+ "epoch": 0.1641025641025641,
69
+ "grad_norm": 1.7762270563382576,
70
+ "learning_rate": 1.976727260423982e-06,
71
+ "loss": 0.7891,
72
+ "step": 40
73
+ },
74
+ {
75
+ "epoch": 0.18461538461538463,
76
+ "grad_norm": 0.9578157871381868,
77
+ "learning_rate": 1.9587514915766123e-06,
78
+ "loss": 0.8344,
79
+ "step": 45
80
+ },
81
+ {
82
+ "epoch": 0.20512820512820512,
83
+ "grad_norm": 2.6943003842765423,
84
+ "learning_rate": 1.935800129020554e-06,
85
+ "loss": 0.7999,
86
+ "step": 50
87
+ },
88
+ {
89
+ "epoch": 0.22564102564102564,
90
+ "grad_norm": 0.8483257920517897,
91
+ "learning_rate": 1.907992282510675e-06,
92
+ "loss": 0.7871,
93
+ "step": 55
94
+ },
95
+ {
96
+ "epoch": 0.24615384615384617,
97
+ "grad_norm": 1.355665613118592,
98
+ "learning_rate": 1.8754722652995345e-06,
99
+ "loss": 0.7603,
100
+ "step": 60
101
+ },
102
+ {
103
+ "epoch": 0.26666666666666666,
104
+ "grad_norm": 1.3698034199623528,
105
+ "learning_rate": 1.8384088452007577e-06,
106
+ "loss": 0.7711,
107
+ "step": 65
108
+ },
109
+ {
110
+ "epoch": 0.28717948717948716,
111
+ "grad_norm": 0.9973813732040485,
112
+ "learning_rate": 1.7969943687415575e-06,
113
+ "loss": 0.7702,
114
+ "step": 70
115
+ },
116
+ {
117
+ "epoch": 0.3076923076923077,
118
+ "grad_norm": 2.067655192245599,
119
+ "learning_rate": 1.751443762949772e-06,
120
+ "loss": 0.7674,
121
+ "step": 75
122
+ },
123
+ {
124
+ "epoch": 0.3282051282051282,
125
+ "grad_norm": 0.7664884814735945,
126
+ "learning_rate": 1.7019934199557866e-06,
127
+ "loss": 0.7411,
128
+ "step": 80
129
+ },
130
+ {
131
+ "epoch": 0.3487179487179487,
132
+ "grad_norm": 1.0493906781125153,
133
+ "learning_rate": 1.6488999701978903e-06,
134
+ "loss": 0.7015,
135
+ "step": 85
136
+ },
137
+ {
138
+ "epoch": 0.36923076923076925,
139
+ "grad_norm": 0.9938125483952975,
140
+ "learning_rate": 1.5924389505977035e-06,
141
+ "loss": 0.7287,
142
+ "step": 90
143
+ },
144
+ {
145
+ "epoch": 0.38974358974358975,
146
+ "grad_norm": 1.0677317732124718,
147
+ "learning_rate": 1.5329033746173974e-06,
148
+ "loss": 0.7254,
149
+ "step": 95
150
+ },
151
+ {
152
+ "epoch": 0.41025641025641024,
153
+ "grad_norm": 0.8122971279562344,
154
+ "learning_rate": 1.4706022116196205e-06,
155
+ "loss": 0.7475,
156
+ "step": 100
157
+ },
158
+ {
159
+ "epoch": 0.4307692307692308,
160
+ "grad_norm": 0.7681446410916759,
161
+ "learning_rate": 1.4058587834217354e-06,
162
+ "loss": 0.7163,
163
+ "step": 105
164
+ },
165
+ {
166
+ "epoch": 0.4512820512820513,
167
+ "grad_norm": 0.766906823065794,
168
+ "learning_rate": 1.3390090863657047e-06,
169
+ "loss": 0.7117,
170
+ "step": 110
171
+ },
172
+ {
173
+ "epoch": 0.4717948717948718,
174
+ "grad_norm": 0.8487697397343301,
175
+ "learning_rate": 1.2704000476115078e-06,
176
+ "loss": 0.6475,
177
+ "step": 115
178
+ },
179
+ {
180
+ "epoch": 0.49230769230769234,
181
+ "grad_norm": 1.0050583245136004,
182
+ "learning_rate": 1.200387724703341e-06,
183
+ "loss": 0.7105,
184
+ "step": 120
185
+ },
186
+ {
187
+ "epoch": 0.5128205128205128,
188
+ "grad_norm": 0.7426930539258657,
189
+ "learning_rate": 1.1293354577522264e-06,
190
+ "loss": 0.7158,
191
+ "step": 125
192
+ },
193
+ {
194
+ "epoch": 0.5333333333333333,
195
+ "grad_norm": 0.8413604322965307,
196
+ "learning_rate": 1.0576119838245842e-06,
197
+ "loss": 0.6915,
198
+ "step": 130
199
+ },
200
+ {
201
+ "epoch": 0.5538461538461539,
202
+ "grad_norm": 0.5752843532661515,
203
+ "learning_rate": 9.85589523322443e-07,
204
+ "loss": 0.7209,
205
+ "step": 135
206
+ },
207
+ {
208
+ "epoch": 0.5743589743589743,
209
+ "grad_norm": 0.9645483285040541,
210
+ "learning_rate": 9.136418482863228e-07,
211
+ "loss": 0.6739,
212
+ "step": 140
213
+ },
214
+ {
215
+ "epoch": 0.5948717948717949,
216
+ "grad_norm": 0.7607550081366585,
217
+ "learning_rate": 8.42142342645646e-07,
218
+ "loss": 0.6717,
219
+ "step": 145
220
+ },
221
+ {
222
+ "epoch": 0.6153846153846154,
223
+ "grad_norm": 1.0589042706336858,
224
+ "learning_rate": 7.714620644833109e-07,
225
+ "loss": 0.6534,
226
+ "step": 150
227
+ },
228
+ {
229
+ "epoch": 0.6358974358974359,
230
+ "grad_norm": 0.7089491583646673,
231
+ "learning_rate": 7.019678203706163e-07,
232
+ "loss": 0.6696,
233
+ "step": 155
234
+ },
235
+ {
236
+ "epoch": 0.6564102564102564,
237
+ "grad_norm": 0.9341940371244601,
238
+ "learning_rate": 6.340202617660841e-07,
239
+ "loss": 0.6482,
240
+ "step": 160
241
+ },
242
+ {
243
+ "epoch": 0.676923076923077,
244
+ "grad_norm": 0.7411098123857883,
245
+ "learning_rate": 5.679720133572206e-07,
246
+ "loss": 0.6187,
247
+ "step": 165
248
+ },
249
+ {
250
+ "epoch": 0.6974358974358974,
251
+ "grad_norm": 0.8616495817851872,
252
+ "learning_rate": 5.041658430584852e-07,
253
+ "loss": 0.6386,
254
+ "step": 170
255
+ },
256
+ {
257
+ "epoch": 0.717948717948718,
258
+ "grad_norm": 0.7200165364613889,
259
+ "learning_rate": 4.429328831625565e-07,
260
+ "loss": 0.6567,
261
+ "step": 175
262
+ },
263
+ {
264
+ "epoch": 0.7384615384615385,
265
+ "grad_norm": 0.6168896507164103,
266
+ "learning_rate": 3.8459091187650726e-07,
267
+ "loss": 0.6644,
268
+ "step": 180
269
+ },
270
+ {
271
+ "epoch": 0.7589743589743589,
272
+ "grad_norm": 0.6719936032666863,
273
+ "learning_rate": 3.294427041611425e-07,
274
+ "loss": 0.6464,
275
+ "step": 185
276
+ },
277
+ {
278
+ "epoch": 0.7794871794871795,
279
+ "grad_norm": 0.8824680726642901,
280
+ "learning_rate": 2.777744604320705e-07,
281
+ "loss": 0.6362,
282
+ "step": 190
283
+ },
284
+ {
285
+ "epoch": 0.8,
286
+ "grad_norm": 0.7384901847927622,
287
+ "learning_rate": 2.2985432127701941e-07,
288
+ "loss": 0.6385,
289
+ "step": 195
290
+ },
291
+ {
292
+ "epoch": 0.8205128205128205,
293
+ "grad_norm": 0.9346648012471711,
294
+ "learning_rate": 1.8593097589751316e-07,
295
+ "loss": 0.6423,
296
+ "step": 200
297
+ },
298
+ {
299
+ "epoch": 0.841025641025641,
300
+ "grad_norm": 0.7741404463056779,
301
+ "learning_rate": 1.4623237149661137e-07,
302
+ "loss": 0.6425,
303
+ "step": 205
304
+ },
305
+ {
306
+ "epoch": 0.8615384615384616,
307
+ "grad_norm": 0.7837940282138485,
308
+ "learning_rate": 1.1096453031056264e-07,
309
+ "loss": 0.5925,
310
+ "step": 210
311
+ },
312
+ {
313
+ "epoch": 0.882051282051282,
314
+ "grad_norm": 0.6434405301070071,
315
+ "learning_rate": 8.031048042356392e-08,
316
+ "loss": 0.6155,
317
+ "step": 215
318
+ },
319
+ {
320
+ "epoch": 0.9025641025641026,
321
+ "grad_norm": 0.6950331917340359,
322
+ "learning_rate": 5.442930591433992e-08,
323
+ "loss": 0.6336,
324
+ "step": 220
325
+ },
326
+ {
327
+ "epoch": 0.9230769230769231,
328
+ "grad_norm": 0.7624734080498339,
329
+ "learning_rate": 3.345532126395578e-08,
330
+ "loss": 0.628,
331
+ "step": 225
332
+ },
333
+ {
334
+ "epoch": 0.9435897435897436,
335
+ "grad_norm": 0.7335512264577648,
336
+ "learning_rate": 1.7497374309405344e-08,
337
+ "loss": 0.6125,
338
+ "step": 230
339
+ },
340
+ {
341
+ "epoch": 0.9641025641025641,
342
+ "grad_norm": 0.7687162657729733,
343
+ "learning_rate": 6.6382813604083375e-09,
344
+ "loss": 0.6287,
345
+ "step": 235
346
+ },
347
+ {
348
+ "epoch": 0.9846153846153847,
349
+ "grad_norm": 0.7525426453572169,
350
+ "learning_rate": 9.343974109685682e-10,
351
+ "loss": 0.6188,
352
+ "step": 240
353
+ },
354
+ {
355
+ "epoch": 0.9969230769230769,
356
+ "step": 243,
357
+ "total_flos": 82980012523520.0,
358
+ "train_loss": 1.2597844002178176,
359
+ "train_runtime": 2824.655,
360
+ "train_samples_per_second": 11.046,
361
+ "train_steps_per_second": 0.086
362
+ }
363
+ ],
364
+ "logging_steps": 5,
365
+ "max_steps": 243,
366
+ "num_input_tokens_seen": 0,
367
+ "num_train_epochs": 1,
368
+ "save_steps": 1000,
369
+ "stateful_callbacks": {
370
+ "TrainerControl": {
371
+ "args": {
372
+ "should_epoch_stop": false,
373
+ "should_evaluate": false,
374
+ "should_log": false,
375
+ "should_save": true,
376
+ "should_training_stop": true
377
+ },
378
+ "attributes": {}
379
+ }
380
+ },
381
+ "total_flos": 82980012523520.0,
382
+ "train_batch_size": 4,
383
+ "trial_name": null,
384
+ "trial_params": null
385
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9f4de4053559e16134d5f89446d7335a2798a27dc0544bbc0b5c624547b07ebe
3
+ size 7160