diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f74887fe16ec042fcdf995b7b7b694d3fec92659
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"anagrams2": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..29d3d67c8b038c0b0882e97071033fefb9481a41
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood
@@ -0,0 +1 @@
+6b6e5c6a794f2fbff78b7aa24fe0c90156039334bbd1cb34f7af9fc6e6183845
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..28f32c92c67df30eb1548fd27939b45b484a4cbc
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2ds-v0-loglikelihood
@@ -0,0 +1 @@
+66f7ff3b40251ee38fadcbee658e309a200224356fc3efa07d0a490a2c24bfa3
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6bc029c520d8787ad45e3bfd5d728da3e65f15cf
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_3ds-v0-loglikelihood
@@ -0,0 +1 @@
+d3d8bad8827d4530945a1d8b3c7589c0235bbed0bc89e7561a6fdac678f6ce5c
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..57ce0e3007f3e987096d09f4442fa6bd106ab2ca
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-res.json
@@ -0,0 +1 @@
+{"results": {"arithmetic_4da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4da": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..39e2517bbc481b6727ff2fc1337de9600cd5451c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_adjunct_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_adjunct_island": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_irregular_2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_irregular_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..12a4ebe1d2a83e1a8d5dc85ade8913f31931d8b6
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_irregular_2-v0-loglikelihood
@@ -0,0 +1 @@
+ddb24ddfaebe076b3aa7107937d71bf5f4503a78283bc889e39200368603681e
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..853a4d2f92c5c6da8d146a85e120a32dca147c4c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_drop_argument": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_drop_argument": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..7697713f85bef6fd2d624f5b9075aae5bfd8f168
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_quantifiers_1-v0-loglikelihood
@@ -0,0 +1 @@
+d77594382e6d9af31a8b8ef00ba1ef6c29d6be6d0ddb7a9c27ef25ace654e05a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..198f9a289c4bb7892c87113e9356f3de7709669b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_echo_question-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_left_branch_island_echo_question": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_left_branch_island_echo_question": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..543fdc061433e58041b92ecc9d3f5e34d2427db1
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-loglikelihood
@@ -0,0 +1 @@
+fdb688ac6259bb65d234ef0a36e9a9ee449f9608f633b12e1943b462aead8e17
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_3-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_3-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..77c4bf916ab761be87f77618e41abe33d550d7c1
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_3-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_principle_A_domain_3": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_principle_A_domain_3": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..16fed715d4effd467e798c56399f0ed4729bd49c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_regular_plural_subject_verb_agreement_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_regular_plural_subject_verb_agreement_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..6d64b97e20bb4688afca5e708f7fc41243ecca14
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_regular_plural_subject_verb_agreement_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_regular_plural_subject_verb_agreement_2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_superlative_quantifiers_1-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_superlative_quantifiers_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b69d445f3c257608fd5be46aa74bd53cd598042c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_superlative_quantifiers_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_superlative_quantifiers_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_superlative_quantifiers_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..44ea10c1380c3dccdbc8d2ad6a2d84e716e81773
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_tough_vs_raising_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_tough_vs_raising_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..98156dcf1ea33db946094d1e9d47c979f158b8b2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_transitive-v0-loglikelihood
@@ -0,0 +1 @@
+d0d47fe40a7ee558ba782edbc4f49f7d9123c8472a36decc97f8ab142b45b9d8
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_questions_subject_gap_long_distance-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_questions_subject_gap_long_distance-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..f83ed1fb7413ddccae66c32078a9a5f7b19eb03e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_questions_subject_gap_long_distance-v0-loglikelihood
@@ -0,0 +1 @@
+37483dfda688b62ad27161c9fc1e1e7710c5a6e6a7cd3474df119bcafd30e97f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..14befd4ab6450dbb2147d66e5458981756bfc25b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_wh_vs_that_with_gap": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_with_gap": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cb-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cb-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6fa6f6dae6c806be8a5cad8416df6766f22ae475
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cb-v0-loglikelihood
@@ -0,0 +1 @@
+ec3b1bbb9561e39c43c6f77a23b4060b15c606141c5346e3d0791b3e92aaa5d0
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_age-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_age-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..598d2cce10cc3ecefb6eb8d1deb74801e25b11af
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_age-v0-loglikelihood
@@ -0,0 +1 @@
+de74d2ac7f926f2f486c045d84aae8f71711102f9d77b31f758fd148810d13d3
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5fd526ccc1c07111d2cceef633ccb72b0d65387b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_nationality-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_nationality": {"likelihood_difference": 0.3383027778174895, "likelihood_difference_stderr": 0.015957585374543233, "pct_stereotype": 0.4675925925925926, "pct_stereotype_stderr": 0.03402801581358966}}, "versions": {"crows_pairs_english_nationality": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..0a58b730c1e43271ba9d287c6b645ab97d10a560
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-loglikelihood
@@ -0,0 +1 @@
+e754a309296b157677dfba6e6feef983d1ce38dd0169ae726265621a7b573163
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..9a93b9add705c62cd228fd21a89ea670022189ab
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_sexual_orientation-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_sexual_orientation": {"likelihood_difference": 0.31947594049467243, "likelihood_difference_stderr": 0.024404952720497735, "pct_stereotype": 0.43010752688172044, "pct_stereotype_stderr": 0.051616798980291805}}, "versions": {"crows_pairs_english_sexual_orientation": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..4bd87f68c37946bcb26e2a989e98a79251a8361c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_age-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_age": {"likelihood_difference": 0.31896094607685194, "likelihood_difference_stderr": 0.024068391933540753, "pct_stereotype": 0.4444444444444444, "pct_stereotype_stderr": 0.05267171812666418}}, "versions": {"crows_pairs_french_age": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..7372018798d522cdfda7e458f1d608f1a3c13169
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_socioeconomic": {"likelihood_difference": 0.3394681494647815, "likelihood_difference_stderr": 0.01702488895584347, "pct_stereotype": 0.4642857142857143, "pct_stereotype_stderr": 0.035714285714285705}}, "versions": {"crows_pairs_french_socioeconomic": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cycle_letters-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cycle_letters-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5b05a9430e90ec2ce0ddcb49a243be9479d3fad1
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cycle_letters-v0-res.json
@@ -0,0 +1 @@
+{"results": {"cycle_letters": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"cycle_letters": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_8025023377febbd8c5f2b9f26705c394ff375d0cad7c89c10fd9b8e1eb66ff1c.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_8025023377febbd8c5f2b9f26705c394ff375d0cad7c89c10fd9b8e1eb66ff1c.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..2f4c6f9c7102ac9466d1da0d81307088f2fdcdb4
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_8025023377febbd8c5f2b9f26705c394ff375d0cad7c89c10fd9b8e1eb66ff1c.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:590805560ee790d530c075ad76633eb2e9749440083e0bab63489ff920fdfd33
+size 70917
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..adc093cf62c2f807a0f413d0ecc200879931a5b7
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-res.json
@@ -0,0 +1 @@
+{"results": {"headqa": {"acc": 0.23559445660102116, "acc_norm": 0.25018234865062, "acc_norm_stderr": 0.008272783230806014, "acc_stderr": 0.008105688874297972}}, "versions": {"headqa": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-abstract_algebra-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-abstract_algebra-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..dc2c9a0d7d4d4a18ee7c8cb0e266a29fa5bd48f6
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-abstract_algebra-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-abstract_algebra": {"acc": 0.32, "acc_norm": 0.34, "acc_norm_stderr": 0.04760952285695235, "acc_stderr": 0.04688261722621504}}, "versions": {"hendrycksTest-abstract_algebra": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..67bc2e7be6de4ba9d6b9aa40c0d45cd60d7d506b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-anatomy": {"acc": 0.2222222222222222, "acc_norm": 0.23703703703703705, "acc_norm_stderr": 0.03673731683969506, "acc_stderr": 0.0359144408419697}}, "versions": {"hendrycksTest-anatomy": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d3626ccf80f233702478886fffeede1f587ad2fb
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-astronomy-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-astronomy": {"acc": 0.2565789473684211, "acc_norm": 0.29605263157894735, "acc_norm_stderr": 0.03715062154998904, "acc_stderr": 0.0355418036802569}}, "versions": {"hendrycksTest-astronomy": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..52a255e82a35b8d084459e72140f30f26ef8c57f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_chemistry-v0-loglikelihood
@@ -0,0 +1 @@
+044752b21540db95118b8cbe7e75c4c9b8758e27df56543deaeadec7f749a28d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ed3332eddaf041c82908352c43cf8d9187b8f381
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-loglikelihood
@@ -0,0 +1 @@
+cde76ba2c7382b4876e17136c94f52aca2774e50342ab757b2a2d18da370dcb6
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_biology-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_biology-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a666d9ce9c969f808ea84909730cee046ccc6294
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_biology-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_biology": {"acc": 0.23870967741935484, "acc_norm": 0.2709677419354839, "acc_norm_stderr": 0.025284416114900152, "acc_stderr": 0.024251071262208834}}, "versions": {"hendrycksTest-high_school_biology": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_computer_science-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_computer_science-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..bbc2dacf5f5ac0b14327f0637b4b1aabea7a6167
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_computer_science-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_computer_science": {"acc": 0.2, "acc_norm": 0.22, "acc_norm_stderr": 0.04163331998932269, "acc_stderr": 0.04020151261036845}}, "versions": {"hendrycksTest-high_school_computer_science": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_european_history-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_european_history-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b5cea9cbe310db37d488984f3ff6aa57921576d9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_european_history-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_european_history": {"acc": 0.23636363636363636, "acc_norm": 0.24242424242424243, "acc_norm_stderr": 0.03346409881055953, "acc_stderr": 0.033175059300091805}}, "versions": {"hendrycksTest-high_school_european_history": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_macroeconomics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_macroeconomics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..c0106d373dcf6136b147bb3787fed6c9c8a3da8f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_macroeconomics-v0-loglikelihood
@@ -0,0 +1 @@
+ce4faae2fb6628caa48f6fc74cbc848880db49e6ff51079392778a2322bcefef
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..37962bf9fb93bc8f49fa83af34c30ac0ef49df09
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_microeconomics-v0-loglikelihood
@@ -0,0 +1 @@
+513b998585ebc1ebdefca6435b7c84fd73dc36fc80321a22503467f04efed23e
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ca1bf95b9d2d37c2b9cbe75efd7f1e3fd88ecdcf
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_world_history-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_world_history": {"acc": 0.23628691983122363, "acc_norm": 0.24472573839662448, "acc_norm_stderr": 0.02798569938703642, "acc_stderr": 0.027652153144159263}}, "versions": {"hendrycksTest-high_school_world_history": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-nutrition-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-nutrition-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..2716bebe69e1c3884ba2e88056c87c5a5268b53e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-nutrition-v0-loglikelihood
@@ -0,0 +1 @@
+19e49d218f55ed5ec4bd1a6cd3f3388c6f620b81484e7abe8b298e5481c3044d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-prehistory-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-prehistory-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..4c01847ef594713fee284436be6fe8d20d602554
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-prehistory-v0-loglikelihood
@@ -0,0 +1 @@
+6983c560a562749f4f702249a3a6ae51fa495acc0643a980bf2cf52c6c5d4b95
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_law-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_law-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f15a9b34ff26e1382d04b4d6e41fdae6085b30c8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_law-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-professional_law": {"acc": 0.2561929595827901, "acc_norm": 0.2470664928292047, "acc_norm_stderr": 0.011015752255279352, "acc_stderr": 0.011149173153110582}}, "versions": {"hendrycksTest-professional_law": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..cc3c3be8c6c09ffccdf7dbfd318ea3928c87a769
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-loglikelihood
@@ -0,0 +1 @@
+7a30599858398169cde61430c18efdd7fb4dcd09c34aa9baba70f0f8cf17a9f1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..801ea2d224b7f4699c3a3defd7cde023e777a29e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_medicine-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-professional_medicine": {"acc": 0.23161764705882354, "acc_norm": 0.2536764705882353, "acc_norm_stderr": 0.02643132987078953, "acc_stderr": 0.025626533803777562}}, "versions": {"hendrycksTest-professional_medicine": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ead0e9ce5d9629dea9be37e521fb3a152ced8680
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_fr-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_fr-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..637c23500b9c153fe74ad9cb0369bd57f22d80a0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_fr-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada_mt_fr": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_mt_fr": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b599a89f7af0c28e795e5c5dfc1961f34acde2fc
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_cloze-v0-loglikelihood
@@ -0,0 +1 @@
+7655e748b63ae7e9911411d2d2a2577221d6c861ca4448509992541294d689f3
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_algebra-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_algebra-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..ce881a0232cff3f1025b746184ce8a0170e34303
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_algebra-v0-greedy_until
@@ -0,0 +1 @@
+f19182ce697a2c095d9e5b56ee6659dc38c93994b69ca75d7c3d3f5fd87572b4
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..1b25dc283c96c63d30df9f0ce3d04aadb8f93625
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v0-res.json
@@ -0,0 +1 @@
+{"results": {"math_geometry": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_geometry": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_precalc-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_precalc-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..699dc5fe38ea411d6d53c9e19d78ba6d96ddfb40
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_precalc-v0-res.json
@@ -0,0 +1 @@
+{"results": {"math_precalc": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_precalc": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/multirc-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/multirc-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b3681ec17595adc4c4541ded263add219912af58
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/multirc-v0-loglikelihood
@@ -0,0 +1 @@
+cdb026c027437a8b4653212d0944d36fc16f49921dcb8e4bef899d15a55e9f80
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mutual-v1-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mutual-v1-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..0022f466d25f3e3a639720e4600732c9c0c1141d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mutual-v1-loglikelihood
@@ -0,0 +1 @@
+f759213a28f0412510bf1a24c9cab0dae64bdee902d42a26225295445e7779db
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/openbookqa-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/openbookqa-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b2cc5e9795fd1623bfc11e4d1cb53b0e1baa3dbf
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/openbookqa-v0-loglikelihood
@@ -0,0 +1 @@
+78a49a0ca1a47373adb33463b1d092e6bc0d8f4b01bcb380ada48065037849d7
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..05cbab38732c94665750aac31cd2c41688552a8d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_arxiv": {"bits_per_byte": 1.55095665856779e-05, "byte_perplexity": 1.0000107504701365, "word_perplexity": 1.0000819333090385}}, "versions": {"pile_arxiv": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..df19cd0a18f122d695f8aea4a717ab4dde79a987
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_books3": {"bits_per_byte": 8.942486206275221e-07, "byte_perplexity": 1.0000008942490204, "word_perplexity": 1.0000052870063607}}, "versions": {"pile_books3": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..b483d3b45b43abddd6cbd169a8afda8d3f803d9c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+0f8f36f705b999b6d55fa72ff89a82793dd1cb568ab1f8727a6a2086a12b9410
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_europarl-v0-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_europarl-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..80272607557f6e0c97220efa30c8b9ad38f52aa8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_europarl-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+e67d3dbccd47d308bfc5b0e66b76d0dfc5e386ebfa94e056562c2281c395543f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_gutenberg-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_gutenberg-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..6d22ed3ff50eaa5a68f8a5ad1ac4d3828f74f81f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_gutenberg-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_gutenberg": {"bits_per_byte": 1.7952329146458065e-06, "byte_perplexity": 1.0000012443614075, "word_perplexity": 1.0000072174665404}}, "versions": {"pile_gutenberg": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..1c7bb56c6dc6cec7e2677317b3f9888293a65b92
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_nih-exporter": {"bits_per_byte": 0.00024394433346975716, "byte_perplexity": 1.0002439740903082, "word_perplexity": 1.0016712202288802}}, "versions": {"pile_nih-exporter": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v0-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..22046e440584d0df85ceeed057ad2c0633273782
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+5d6c19665f429ab1ccbe027da67f42bdaf219f819ab093673976eee55e015ff4
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..22046e440584d0df85ceeed057ad2c0633273782
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_openwebtext2-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+5d6c19665f429ab1ccbe027da67f42bdaf219f819ab093673976eee55e015ff4
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..21b6bb451fe376e62899f22ea422b3ce9cada469
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_pubmed-abstracts": {"bits_per_byte": 0.0005417858444030858, "byte_perplexity": 1.0003756078534862, "word_perplexity": 1.0025884332779}}, "versions": {"pile_pubmed-abstracts": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..283109f32e0aac45adcbc90c7c8fb41114e7771f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+40b39d120d99a145690444e86acc3e3e24d41e6e0538a75e26929ad84926e5e0
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_stackexchange-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_stackexchange-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2773302990f71e46f7f44f5d2e2b624a52ddb54d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_stackexchange-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_stackexchange": {"bits_per_byte": 0.0003302063346758449, "byte_perplexity": 1.0002289077852733, "word_perplexity": 1.0016993562258851}}, "versions": {"pile_stackexchange": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b58ce148f0071707d5da39135aaeb92a2a1457a2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_youtubesubtitles": {"bits_per_byte": 2.3447170928931888e-05, "byte_perplexity": 1.000023447445816, "word_perplexity": 1.0001529192262875}}, "versions": {"pile_youtubesubtitles": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/prost-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/prost-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ff99d83f40a966afe7df30661a3fc4d9dd09c4ca
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/prost-v0-res.json
@@ -0,0 +1 @@
+{"results": {"prost": {"acc": 0.24631725021349274, "acc_norm": 0.2581127241673783, "acc_norm_stderr": 0.00319703079646546, "acc_stderr": 0.003147855968061357}}, "versions": {"prost": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..601c4eb763d97500cfcd4e24ca6602986c49939c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-res.json
@@ -0,0 +1 @@
+{"results": {"qa4mre_2011": {"acc": 0.225, "acc_norm": 0.23333333333333334, "acc_norm_stderr": 0.03877199986918664, "acc_stderr": 0.0382797091741014}}, "versions": {"qa4mre_2011": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/sciq-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/sciq-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..7071515827af18b10a7b3607e6249ed3e7c1929e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/sciq-v0-res.json
@@ -0,0 +1 @@
+{"results": {"sciq": {"acc": 0.234, "acc_norm": 0.239, "acc_norm_stderr": 0.01349300044693758, "acc_stderr": 0.01339490288966001}}, "versions": {"sciq": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/sst-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/sst-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5fe3c62a205cdd7a57acaf082f671e9ba864e5f7
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/sst-v0-res.json
@@ -0,0 +1 @@
+{"results": {"sst": {"acc": 0.5172018348623854, "acc_stderr": 0.016931824425903734}}, "versions": {"sst": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_3092d07756f3e1d010c07524cc8a2ecba7f0c19f9e39f2aaf2bf440bfe328004.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_3092d07756f3e1d010c07524cc8a2ecba7f0c19f9e39f2aaf2bf440bfe328004.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..a1c496a0f45e0b5e23c34a5650fc852349d20ad8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_3092d07756f3e1d010c07524cc8a2ecba7f0c19f9e39f2aaf2bf440bfe328004.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5428228cd48e036420c17844c421eb782a6471cd77075120acde387a4e176ab2
+size 2003
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/triviaqa-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/triviaqa-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d576c4977fc769dc56c31340f07558fefc1f1459
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/triviaqa-v0-loglikelihood
@@ -0,0 +1 @@
+f8ec05b306b9f6187c0f8117cae441fb85a7a2e4670f4f9a1a3b632b1978421a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..d5261f22133a65b6968881eeb87260c5a1fca3af
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-greedy_until
@@ -0,0 +1 @@
+1a280973bbac2b7ac29dd64dddac474fb4749585f7de893483b4034814466c67
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..291492556e5182600291565c640a463da7f00616
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-greedy_until
@@ -0,0 +1 @@
+4be7fdda313394f19b5995b00ada1dfa3bb158ee1f020ef8d07ecea260fa60b2
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..c4078efd996d010eac102fe23de50fdbbe0310d9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-greedy_until
@@ -0,0 +1 @@
+b6e9c305766ea23ce1027309f83c6d4c2ce8948d70b63a7858586ca34050d7fb
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..7776c5952383a6254943869dad8fddb50e50e987
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-greedy_until
@@ -0,0 +1 @@
+c3976465e3709b4bc371175cc1494c69fe096ea4ba7d114da779d2baa0a47466
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d0d2963fe90b29dbbf2527e9a3b559cf9b9c23c7
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc-v0-loglikelihood
@@ -0,0 +1 @@
+45865468eff5ca31e6a050947a6b3310d9d5ed19d0f2e578a32ecaf1c768600f
\ No newline at end of file