diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..55364250028072b1f238b095c4c3eb9373a4a280
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until
@@ -0,0 +1 @@
+7c0c5246d3f751f39119a5629ac1d4b2c6fd2a315f78d6de9b2c387e24e3fef1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..7b7adaf86251b258f270478b8310660d56a15f4a
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-loglikelihood
@@ -0,0 +1 @@
+14ac5e510cdf82967d6827a9ca059906ee1db2e347be1b17f36403a157e73552
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_animate_subject_passive-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_animate_subject_passive-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..47cd3d3be14eedc3d525b408e76abe69c45f8586
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_animate_subject_passive-v0-loglikelihood
@@ -0,0 +1 @@
+064c38fcd072b8bd12f54ea4f8e41599ed4e11dc386e93b77e1fc07967d1f960
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_coordinate_structure_constraint_complex_left_branch-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_coordinate_structure_constraint_complex_left_branch-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2750fcda2aa5ee2efc6f20faa8932853f0f42ba2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_coordinate_structure_constraint_complex_left_branch-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_coordinate_structure_constraint_complex_left_branch": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_coordinate_structure_constraint_complex_left_branch": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..13176ac613358d8dbdb6031f8220a3dcddac815f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_2-v0-loglikelihood
@@ -0,0 +1 @@
+ccc64b4d5e80c081d5161aae5828212ba49d277ca8c5a4281f181744727a6a99
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..1fddc2190c85c0161921a5a4026cd518445fc386
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-loglikelihood
@@ -0,0 +1 @@
+bf78e2b53c0f3531303c668c96bd3897a0a35e960da37439e63724ecba4e371a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..1d6bea95e1001e7e8986a48afda483ba9dc1933b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-loglikelihood
@@ -0,0 +1 @@
+616109e63f162dcd31a632943e7ef0c9e0431afeb179e83e9b04b39007b16f5b
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_1-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..82f320ce8f2bbca0496d130ff9662de6284417be
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_ellipsis_n_bar_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_ellipsis_n_bar_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..00c913dcd3ba3846464d04067c5b896c7e5c3c19
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_existential_there_subject_raising": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_existential_there_subject_raising": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_irregular_plural_subject_verb_agreement_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_irregular_plural_subject_verb_agreement_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..bd7f4bd9ea496a4c8cd2c39c519c21caa26bf42e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_irregular_plural_subject_verb_agreement_1-v0-loglikelihood
@@ -0,0 +1 @@
+7084358b1b7dd7fb5ead1a58f4b499d6f7610eca897bfac25a986d0f9a91aa5d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..03f45fd6199a5f9ba70098e00937fe0603cae2dd
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-loglikelihood
@@ -0,0 +1 @@
+d2d0711611b5b218c6fa8c7278494749252b7868c396451919b761303556bd66
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_case_2-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_case_2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ec8108c88d9554aefbeb34e6e0432e490253d26c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_case_2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_principle_A_case_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_principle_A_case_2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_negation_npi_scope-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_negation_npi_scope-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..c7aa260f9198481df3d83af52c9c16cc9e877d40
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_negation_npi_scope-v0-loglikelihood
@@ -0,0 +1 @@
+32fcbd0a1c6e664af2751bad552587b5ca3911973b07f4fb2cf0a2acd3de5349
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..5f40ea63f1b31bfc83b5aa0385051fbcbc3574d8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-loglikelihood
@@ -0,0 +1 @@
+d1d3e439b2020ef5ed232bfebbcc9634adc5117e9eb61e38fdbbe2c8ea128d54
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap_long_distance-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap_long_distance-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..13359ac3d2092bb8d38d44f17a125124c034d317
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap_long_distance-v0-loglikelihood
@@ -0,0 +1 @@
+a142cc2a6fcd93230b650927b07367cad957b8f3f42cb4072151da53dea301df
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap_long_distance-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap_long_distance-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..de9e8007180f265cb7b2aed51e277b93fded9ce6
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap_long_distance-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_wh_vs_that_no_gap_long_distance": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_no_gap_long_distance": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cb-v1-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cb-v1-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ad7e928fe6a3d79857c3c076c6459d8b6c31897c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/cb-v1-loglikelihood
@@ -0,0 +1 @@
+77b11f4348eb8a7f57faf95c531fda01ab4bf0e729f91a82451ed8e71ec8e66d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..c4210f5f11540d44476cdf99252e9268ca85a6e0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english": {"likelihood_difference": 0.3367363060632734, "likelihood_difference_stderr": 0.005827747024053628, "pct_stereotype": 0.5062611806797853, "pct_stereotype_stderr": 0.012212341600228745}}, "versions": {"crows_pairs_english": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_disability-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_disability-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..50c7b025631010289ee73762c8f493d8888122d3
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_disability-v0-loglikelihood
@@ -0,0 +1 @@
+90c1bcfdeec0ff51d891ee8cf00ae2a5ec61bab6739faea9865809b8ffed2cdb
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_race_color-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_race_color-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..9feec03298368b126f4c7361084fb894b8170ffd
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_race_color-v0-loglikelihood
@@ -0,0 +1 @@
+0a750596d77cd96502dc414ff699a399b1b91c2078adeec1d3dd982b3d591089
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_race_color-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_race_color-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..bdb9d9c6aff73eac1def51836e15733ad940835c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_race_color-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_race_color": {"likelihood_difference": 0.33233909422443764, "likelihood_difference_stderr": 0.010623405969915857, "pct_stereotype": 0.4782608695652174, "pct_stereotype_stderr": 0.023315932363473738}}, "versions": {"crows_pairs_french_race_color": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b31daf0e281664ab74ae88a9edd6bb1029f28d57
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-loglikelihood
@@ -0,0 +1 @@
+8af6445eeb634dad5f0723e40615afe993e1e3f129a4f314fe4117e633c2efd3
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..2f6455aec029fea8d7ee8fa866e9f7779ac99914
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_socioeconomic-v0-loglikelihood
@@ -0,0 +1 @@
+8ba0a525c65f795c99f6416e70c998e75e4b6cc43bf9a4bd7ccacd3c3591e9cb
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_f307d52964c295e2005c5e782b688c24388e0cecadf29f1e6fc7f394236ea9c0.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_f307d52964c295e2005c5e782b688c24388e0cecadf29f1e6fc7f394236ea9c0.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..e056fc1afdd78b1d7bec2610bc4e8962ba816bde
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_f307d52964c295e2005c5e782b688c24388e0cecadf29f1e6fc7f394236ea9c0.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f11de4b3d45d1590ba78935e824ae86ef75bbc370df500f89dde2c397d11c01a
+size 1297
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hellaswag-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hellaswag-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..c679a3e311759f4a00707b7454e0e8be4bcdfff0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hellaswag-v0-loglikelihood
@@ -0,0 +1 @@
+abb808c97d6529eda6c11067837a132c62d25cba0394d720f80cca6df9f7196e
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_computer_science-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_computer_science-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..aea595c09f5baf6d21867c47fd5e42152244f555
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_computer_science-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-college_computer_science": {"acc": 0.22, "acc_norm": 0.24, "acc_norm_stderr": 0.04292346959909282, "acc_stderr": 0.041633319989322695}}, "versions": {"hendrycksTest-college_computer_science": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_mathematics-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_mathematics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..766b3388ed88d61e2c17ed2a35110879160c5f7f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_mathematics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-college_mathematics": {"acc": 0.18, "acc_norm": 0.2, "acc_norm_stderr": 0.04020151261036844, "acc_stderr": 0.038612291966536955}}, "versions": {"hendrycksTest-college_mathematics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_medicine-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_medicine-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..2fb96497d12f9b72dbbd38f0d64aa75615bfe14b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_medicine-v0-loglikelihood
@@ -0,0 +1 @@
+dd6e0a9be1407890e9f8cd4434fb6aa4752ab3d2473837fd465ad99f60ad685e
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_medicine-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_medicine-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..524552c9bb99335a9a7bee73076bc633b7eb10e3
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_medicine-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-college_medicine": {"acc": 0.27167630057803466, "acc_norm": 0.2543352601156069, "acc_norm_stderr": 0.0332055644308557, "acc_stderr": 0.03391750322321659}}, "versions": {"hendrycksTest-college_medicine": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_physics-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_physics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..97e56f2ae62e6b0012d49c6a7a55614a6d6eaf58
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_physics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-college_physics": {"acc": 0.23529411764705882, "acc_norm": 0.23529411764705882, "acc_norm_stderr": 0.04220773659171453, "acc_stderr": 0.04220773659171452}}, "versions": {"hendrycksTest-college_physics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-conceptual_physics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-conceptual_physics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..05c4db0e2290998cb650c11373f0947c3be8f297
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-conceptual_physics-v0-loglikelihood
@@ -0,0 +1 @@
+622f191ccfc7a597d99f39897ebe3f95a9ddce0e662fcfb411aa554b289bb355
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..acde01d4d7d45333322eaa4a07edf42ec414d08c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-formal_logic": {"acc": 0.25396825396825395, "acc_norm": 0.2698412698412698, "acc_norm_stderr": 0.03970158273235172, "acc_stderr": 0.03893259610604674}}, "versions": {"hendrycksTest-formal_logic": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-global_facts-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-global_facts-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d2fff47bcbaaaead17eceef0ca09cd45014c5aac
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-global_facts-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-global_facts": {"acc": 0.23, "acc_norm": 0.23, "acc_norm_stderr": 0.04229525846816507, "acc_stderr": 0.04229525846816507}}, "versions": {"hendrycksTest-global_facts": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_macroeconomics-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_macroeconomics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..fb6835039c9d68b5cf5d52244a349c1b8a964c5c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_macroeconomics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_macroeconomics": {"acc": 0.2230769230769231, "acc_norm": 0.22564102564102564, "acc_norm_stderr": 0.021193632525148522, "acc_stderr": 0.021107730127244}}, "versions": {"hendrycksTest-high_school_macroeconomics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..0f39ddfde7066ac8c577156336644c35a543afbb
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-loglikelihood
@@ -0,0 +1 @@
+0e4c8d13806d3696167e40544d2d114c557c10c74bc61fcb9c51bbfced0266ef
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-human_aging-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-human_aging-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d34fa529800590ecc8e199fdb9d141c99b8c6876
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-human_aging-v0-loglikelihood
@@ -0,0 +1 @@
+0880b3a78f8d7b17ffc612031427b9085367cf65dabe2a68c4b64e3171d17e88
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-human_sexuality-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-human_sexuality-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b3d3ae438c1fc59930d1d4ba053d73c38b6d9c07
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-human_sexuality-v0-loglikelihood
@@ -0,0 +1 @@
+4b07922fa1d549b655c21440b13d869263ce7dd9771d8147c450f11c91d26c10
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..26be724f2426d0a7b204b2f4dee509597e85ab41
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-machine_learning": {"acc": 0.23214285714285715, "acc_norm": 0.22321428571428573, "acc_norm_stderr": 0.039523019677025116, "acc_stderr": 0.04007341809755806}}, "versions": {"hendrycksTest-machine_learning": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2cc7a93f1c3c2b4747d4ce739ffbcd522fc50224
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-marketing": {"acc": 0.2863247863247863, "acc_norm": 0.2905982905982906, "acc_norm_stderr": 0.029745048572674043, "acc_stderr": 0.029614323690456648}}, "versions": {"hendrycksTest-marketing": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-moral_scenarios-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-moral_scenarios-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..62ec15971237e04f6c883c7369bbb50888494830
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-moral_scenarios-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-moral_scenarios": {"acc": 0.2547486033519553, "acc_norm": 0.25251396648044694, "acc_norm_stderr": 0.014530330201468654, "acc_stderr": 0.014572650383409158}}, "versions": {"hendrycksTest-moral_scenarios": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_psychology-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_psychology-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..c6b33f4be16f9bc1ed04502ed0f1c121c3a9d1be
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_psychology-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-professional_psychology": {"acc": 0.27124183006535946, "acc_norm": 0.2826797385620915, "acc_norm_stderr": 0.01821726955205344, "acc_stderr": 0.01798661530403031}}, "versions": {"hendrycksTest-professional_psychology": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f3f3f931ac7e066cbab7b6ff68732360c764324f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada_cloze": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_cloze": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_it-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_it-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ca3fd80298aa1c565c978b26e992ccd42c7144f6
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_it-v0-loglikelihood
@@ -0,0 +1 @@
+fd87c6c5cf4e0499c5f9f80e5bd7ee6a4f3d2991902a0cc3ec9e6eaf22d6760a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v1-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..6f49557ecf42758d64d1297c5569f3d4d95dd9c1
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v1-greedy_until
@@ -0,0 +1 @@
+2aa9ae43ee9dbb2457525247d7b65358632c5eaa9cbfc40cf95a4f17f5d942ad
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..240f7b6b42b77b8e94c1ec2eab2df808181a2cb3
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v1-res.json
@@ -0,0 +1 @@
+{"results": {"math_counting_and_prob": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_counting_and_prob": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_prealgebra-v1-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_prealgebra-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..5200f4cfa9ed3a735661e987791bf1434555db6e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_prealgebra-v1-greedy_until
@@ -0,0 +1 @@
+752cdf343d7152e476b0273065024f6ea0e0f47ea385c6bdf9067736cb39724a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..261deed96275da1af0c8a0616b0af6247cfaf1c0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-res.json
@@ -0,0 +1 @@
+{"results": {"mnli_mismatched": {"acc": 0.3360455655004068, "acc_stderr": 0.004763973908606819}}, "versions": {"mnli_mismatched": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f141eaa0a49aceaae493aea7080eab4e8b1cec16
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json
@@ -0,0 +1 @@
+{"results": {"mrpc": {"acc": 0.5392156862745098, "acc_stderr": 0.024707732873723128, "f1": 0.5982905982905982, "f1_stderr": 0.028928325246283727}}, "versions": {"mrpc": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..6ff7a517112eba76e15e999e9974124e04f07a83
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_books3": {"bits_per_byte": 1.2901280503011222e-06, "byte_perplexity": 1.0000008942490204, "word_perplexity": 1.0000052870063607}}, "versions": {"pile_books3": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..2fb27786c54abe6303683c0a247d4c689586a97c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+d5b7967c0ece8b816f3921a8bd0fad23365349e935b491595e2ad1135af42da6
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..2fb27786c54abe6303683c0a247d4c689586a97c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+d5b7967c0ece8b816f3921a8bd0fad23365349e935b491595e2ad1135af42da6
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..7b5771f4911f3069217d75d12cbdfa1a579b6663
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+d77f3f68aadd6cbf1290c2f6737b2ed5d5c2a60e4c81a65c280f207783caabe1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..0bda41ffb37dd04bebd9982faf464616dd82a31d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_freelaw": {"bits_per_byte": 3.16238943008513e-05, "byte_perplexity": 1.0000316243943415, "word_perplexity": 1.000203169094218}}, "versions": {"pile_freelaw": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..5f76588a813eebe7f0958a07253480d30de2ccf3
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+520ea6e04e8a39dc0b5f63a837429a78a40e63d39d109096101feb8c5b2cf8d8
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..d5369ed3c97838d67c2900cfac4aaeb5881ec884
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+731fdef4a43949b179ba0c540148ebc2fa41583dd583ef580dd812076c66a451
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v0-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..283109f32e0aac45adcbc90c7c8fb41114e7771f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+40b39d120d99a145690444e86acc3e3e24d41e6e0538a75e26929ad84926e5e0
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..81c2e5ed06321b250a08a4232b3720ea5b650156
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+68263c52adc0086011e2220b619983935cabb1cc1f5f9f8ee1a74ab2a7457967
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..049134c7a1eac7ba79fa86951526a4ca96ddd200
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-loglikelihood
@@ -0,0 +1 @@
+0d09f17c65768e797633494d2d218e4e46a26f718cab8b0bf3d156b073a8c437
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qqp-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qqp-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b7b31355e644bd9d6d57758ee9a454598445f7c9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qqp-v0-res.json
@@ -0,0 +1 @@
+{"results": {"qqp": {"acc": 0.49782339846648527, "acc_stderr": 0.0024866770696239894, "f1": 0.42322661288031593, "f1_stderr": 0.002695903831328166}}, "versions": {"qqp": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/record-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/record-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..a54fa05cd1ac551a973ff8155ddca6d868a49b42
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/record-v0-loglikelihood
@@ -0,0 +1 @@
+a3e378fbde4e28f375cac1561bbfc7d7673c2af193628a774ad012d5192393aa
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_7209c4617547bfe17cb9e7f5f735fe35822d650aefdc5fbeeaf0c1724effbe09.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_7209c4617547bfe17cb9e7f5f735fe35822d650aefdc5fbeeaf0c1724effbe09.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..12977a6db7e0a4e4a0a0d9da9d352753d396c36c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_7209c4617547bfe17cb9e7f5f735fe35822d650aefdc5fbeeaf0c1724effbe09.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d66146528d7288a309c4e58664419c5e465b3b97ac968402f1e4baac5dc9cd7a
+size 1871
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..52156c85072e4f1a829345a4b9eef7af2c2ca059
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-greedy_until
@@ -0,0 +1 @@
+0d7c56e1aa71ffd8f94bde28f6e8dfdd35f7aaadffa0620bd2a27704253d6c14
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5e68fa8dc6ace5fd91322aacdc74de3814832d9a
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-res.json
@@ -0,0 +1 @@
+{"results": {"truthfulqa_gen": {"bleu_acc": 0.0, "bleu_acc_stderr": 0.0, "bleu_diff": 0.0, "bleu_diff_stderr": 0.0, "bleu_max": 0.0, "bleu_max_stderr": 0.0, "bleurt_acc": 0.8372093023255814, "bleurt_acc_stderr": 0.012923696051772253, "bleurt_diff": 0.13967358205134603, "bleurt_diff_stderr": 0.00532907098769571, "bleurt_max": -1.4402793981454072, "bleurt_max_stderr": 0.0021884846359458963, "rouge1_acc": 0.0, "rouge1_acc_stderr": 0.0, "rouge1_diff": 0.0, "rouge1_diff_stderr": 0.0, "rouge1_max": 0.0, "rouge1_max_stderr": 0.0, "rouge2_acc": 0.0, "rouge2_acc_stderr": 0.0, "rouge2_diff": 0.0, "rouge2_diff_stderr": 0.0, "rouge2_max": 0.0, "rouge2_max_stderr": 0.0, "rougeL_acc": 0.0, "rougeL_acc_stderr": 0.0, "rougeL_diff": 0.0, "rougeL_diff_stderr": 0.0, "rougeL_max": 0.0, "rougeL_max_stderr": 0.0}}, "versions": {"truthfulqa_gen": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..30aa72f2bafd0788837ca50fa9d5c75f954daef0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v1-res.json
@@ -0,0 +1 @@
+{"results": {"truthfulqa_gen": {"bleu_acc": 0.0, "bleu_acc_stderr": 0.0, "bleu_diff": 0.0, "bleu_diff_stderr": 0.0, "bleu_max": 0.0, "bleu_max_stderr": 0.0, "bleurt_acc": 0.835985312117503, "bleurt_acc_stderr": 0.012962704327492454, "bleurt_diff": 0.14077322143090107, "bleurt_diff_stderr": 0.005459888909582694, "bleurt_max": -1.4399358725752065, "bleurt_max_stderr": 0.0022126992369197133, "rouge1_acc": 0.0, "rouge1_acc_stderr": 0.0, "rouge1_diff": 0.0, "rouge1_diff_stderr": 0.0, "rouge1_max": 0.0, "rouge1_max_stderr": 0.0, "rouge2_acc": 0.0, "rouge2_acc_stderr": 0.0, "rouge2_diff": 0.0, "rouge2_diff_stderr": 0.0, "rouge2_max": 0.0, "rouge2_max_stderr": 0.0, "rougeL_acc": 0.0, "rougeL_acc_stderr": 0.0, "rougeL_diff": 0.0, "rougeL_diff_stderr": 0.0, "rougeL_max": 0.0, "rougeL_max_stderr": 0.0}}, "versions": {"truthfulqa_gen": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b12b4765cce2e95398697685a9ebb0cdada833bf
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v0-res.json
@@ -0,0 +1 @@
+{"results": {"truthfulqa_mc": {"mc1": 0.2141982864137087, "mc1_stderr": 0.01436214815569045, "mc2": 0.465436996173817, "mc2_stderr": 0.0048422530880316405}}, "versions": {"truthfulqa_mc": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wikitext-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wikitext-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..9ac0c37bb5aa8cdde37bf84c61a0d020c8a03900
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wikitext-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wikitext": {"bits_per_byte": 2.219817611605802e-05, "byte_perplexity": 1.0000221984224973, "word_perplexity": 1.000118710696617}}, "versions": {"wikitext": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..790424fe4f226224642530ba7fd53a59eec4caa0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-de-en": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.006703243310670055, "chrf_stderr": 0.0001292711927988445, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-de-en": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2ba9db70d3579ff23ee70c3b16eb92d7d87144e6
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-cs": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.009879653442394573, "chrf_stderr": 8.210293331159994e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-cs": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..183e66270a61dcb463076306b2768dde7995162f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-de": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.007148103038872972, "chrf_stderr": 9.594096858911254e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-de": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-iu-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-iu-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..d26bb4f92a03612cf3a4170733973e39870164b7
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-iu-v0-greedy_until
@@ -0,0 +1 @@
+f5688199890a48f73f2cc04a2152e35190f0e0ddd40e629fa24ee39d423ea389
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..57bad300d7f05b7eb0908ad655b0fc90a2bb9c26
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-ja": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 4.1308658294778584e-05, "chrf_stderr": 2.0456539027807417e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-ja": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..e5ee2e9be911cda88b6445715b833e1a0dbf92dd
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-km": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 1.9008351315007364e-05, "chrf_stderr": 7.136657625458525e-06, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-km": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ta-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ta-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..1b40263f154461098d6ee820bc0d003c03a6962c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ta-v0-greedy_until
@@ -0,0 +1 @@
+5fc556fa90bca7f1b1396e97e392eac8080b0ad53488358799b8fc0b21a94cb1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..87a1981e79e0558366487aa2476cc751ad3857dc
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-greedy_until
@@ -0,0 +1 @@
+97bf664a8efa54b5366b8341f77b418106dd0cb26169d5b2d0144e4d3d2bc5c9
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..3a89d7fcdfb76bc3912a930cf592da0270ba440c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-greedy_until
@@ -0,0 +1 @@
+1fd846f3c0104e794eb380dae7f648592092ab8bf59234c26d0a671bbbc28df1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..f0f65972451ff666399f7b2c81194c4b892ac783
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-greedy_until
@@ -0,0 +1 @@
+111ea3efdc08f1cf536631b9426c3a20e482c575d009d2a8c71f59c027578eec
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..84be59624161779e494896d2618dbcf0f1f4b4b0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wsc": {"acc": 0.5480769230769231, "acc_stderr": 0.049038186969314335}}, "versions": {"wsc": 0}}
\ No newline at end of file