diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..fd95bb231e198d674a556bbec09b2334f1ef1a8e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood
@@ -0,0 +1 @@
+6ca1ca6ebd7cac4420d5005f7f35b0edbc921377f5e4f8874cc176e4fb6d79d4
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b52790c74b649b455fd90ca93cc70ad23c3d129b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-loglikelihood
@@ -0,0 +1 @@
+d3557beb8b9e5704122c2fc6362b11fbe2c3f2f3cb72aed4462b208767c40e01
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_complex_NP_island-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_complex_NP_island-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5bfbffb6e4c931490930f37e256e5f2ed3892cec
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_complex_NP_island-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_complex_NP_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_complex_NP_island": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..f926cf3d4b7c1fb9fe3662b21754329ecc15ee2f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood
@@ -0,0 +1 @@
+8aab641bd5933f84f46a14f5c1208a3c855cace7e67b44abcd5aff8fec96717d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..cf08b036b9eccc0d0151cb41a6ec0c4eeede2f91
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_distractor_agreement_relative_clause": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_distractor_agreement_relative_clause": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..da3deb1aaf576e90101d03035ae3f9f41b80fd27
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_existential_there_object_raising": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_existential_there_object_raising": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..925e5b4680b003be07aad25d99c377b16c5c18e0
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood
@@ -0,0 +1 @@
+9b324b28ae3e1b5d49ecf4b7b2a16c7bbc8ff38d000cf216fab75df633da2084
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_expletive_it_object_raising-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_expletive_it_object_raising-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..31772c9a1cc093da4efd09f298d98c26c7fe8383
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_expletive_it_object_raising-v0-loglikelihood
@@ -0,0 +1 @@
+ceede5b38248a62125a74a8332602b8eac5ef40864f071ad8d86e7971e07219d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_matrix_question_npi_licensor_present-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_matrix_question_npi_licensor_present-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..a5c4bc6ca2b4f3624dd5781c58efee26c100c3af
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_matrix_question_npi_licensor_present-v0-loglikelihood
@@ -0,0 +1 @@
+a3a702a3335c79b02b36caf37c68069050c2a8a3a03c3610c09afc39d2b83fb1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..efe40ced37f6a7890d247b0292e80d55dde1849c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_npi_present_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_npi_present_2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..321702a66e7f2a1e762a4f9b9ae4b99a6f813c3b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_only_npi_licensor_present": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_only_npi_licensor_present": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..183b815d22d6227785479681934c05726dc912b9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood
@@ -0,0 +1 @@
+fa4addddd8e380031b8e0871776cabcb707c0f21dcaf5d8b3defec66cce55043
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d667f4694632d514448e58d30d7e2f051b5b707b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-loglikelihood
@@ -0,0 +1 @@
+755bdfe2c89737c43001ff1dc83d68ad33e444aaf0669af66aaf82dcd09f2eca
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6b900d05f4ab0e4143324c919e684900299e9adc
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood
@@ -0,0 +1 @@
+290e7eddacea4ec16989af697f2ee3373fdd9aef4b452bf887184c6e2f6e7d9d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a7f8f1825ac91b69d8ba1a50a5f87f048aeb3f78
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_sentential_subject_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_sentential_subject_island": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..a26cb174a06e1941ae79e137161d85c4f5814838
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-loglikelihood
@@ -0,0 +1 @@
+973fe56534fdef1207f0fc08dd09a210304c55f33c6cbb17552754bf54f11c86
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3b0f9763529ee45a97ab0abdfd18efc9fe991241
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood
@@ -0,0 +1 @@
+d255a10a34f14d77d9526604a17b0f6747d32f62fc2e3a09e9ab10054535fd45
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..95a2c0c7e115167e44288a57dc38ea1d40274c87
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_wh_vs_that_with_gap_long_distance": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_with_gap_long_distance": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ab0d9a4db42a5e4da196834b40457a95bf9a9129
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-loglikelihood
@@ -0,0 +1 @@
+a197ccc8538231404a8e43f5ed0fbbfb2c317b4da337f6e7aa9642131aeb426a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..dbe264794f6009bd604d2d55928e1958c74ae35a
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_autre": {"likelihood_difference": 0.3424336593343321, "likelihood_difference_stderr": 0.08588068996335849, "pct_stereotype": 0.2727272727272727, "pct_stereotype_stderr": 0.14083575804390605}}, "versions": {"crows_pairs_english_autre": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_religion-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_religion-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..670f2d2cffeac37f0510e17d7195a0a68700d4fe
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_religion-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_religion": {"likelihood_difference": 0.32170622542430666, "likelihood_difference_stderr": 0.022101541392310232, "pct_stereotype": 0.43243243243243246, "pct_stereotype_stderr": 0.04723583229758394}}, "versions": {"crows_pairs_english_religion": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_socioeconomic-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_socioeconomic-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..89bd7338ada6ff7ef485492c5656342881b70600
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_socioeconomic-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_socioeconomic": {"likelihood_difference": 0.3424577735757881, "likelihood_difference_stderr": 0.017459994170011896, "pct_stereotype": 0.46842105263157896, "pct_stereotype_stderr": 0.036297038088316094}}, "versions": {"crows_pairs_english_socioeconomic": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..44d8ff96e413cf6eb458a896d47321a0f3996b70
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_autre": {"likelihood_difference": 0.3517045997290783, "likelihood_difference_stderr": 0.07647821858130377, "pct_stereotype": 0.23076923076923078, "pct_stereotype_stderr": 0.12162606385262997}}, "versions": {"crows_pairs_french_autre": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/drop-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/drop-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..9384ca72fe6c84f3a6a9c419b82a7dd7f39bf7d1
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/drop-v0-res.json
@@ -0,0 +1 @@
+{"results": {"drop": {"em": 0.0, "em_stderr": 0.0, "f1": 0.0, "f1_stderr": 0.0}}, "versions": {"drop": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..cf3e02d82662bc1c4de5f1cf3dd9442b321de623
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json
@@ -0,0 +1 @@
+{"results": {"ethics_virtue": {"acc": 0.5035175879396985, "acc_stderr": 0.0070893491553555765, "em": 0.036180904522613064}}, "versions": {"ethics_virtue": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..674d4b4cf12b369e32a36d570dc3310218e0ccf2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f7a190d338d1ef03f209a8a3340c0d282c73723633b8f5a71a8dc8ee94b9535
+size 570
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_bb2cc49115e88788ed870ad0716eb00b280a885f91c7ed6e1e864435e5e2b6ac.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_bb2cc49115e88788ed870ad0716eb00b280a885f91c7ed6e1e864435e5e2b6ac.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..657a1621f425215826e84cbc025ce12554480a6e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_bb2cc49115e88788ed870ad0716eb00b280a885f91c7ed6e1e864435e5e2b6ac.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad18c6203e8b3eda1b88f8dfd7d197c4053c07640b0542fcdd8170e9b3bd2d30
+size 2479
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..9129d834b6037cda3db655064d6c18bb3dccfb54
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood
@@ -0,0 +1 @@
+767ca34d9714edd9fb030ddbcc35a64e5180d1e247b0cb557fbb22fdf971ad1f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..a7ae5fa705e58cf0e7c06ca0fe84a186d24b506f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-loglikelihood
@@ -0,0 +1 @@
+bf05e04ed8cf61cf3aad294ed3f5a16137775ffdd20f1b129022ddffc1251768
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d4c0ee2d78364c0275d984a4ef43cfcedbaf55ed
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood
@@ -0,0 +1 @@
+a8a1892d1906cc3e7ffd321043f0a60f3b8b69ef76e5c6ff03c6ea41dc87d0cb
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..4656fac3c3026ec7e137ce8f49e4796fefe5e24f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-econometrics": {"acc": 0.24561403508771928, "acc_norm": 0.24561403508771928, "acc_norm_stderr": 0.04049339297748142, "acc_stderr": 0.040493392977481425}}, "versions": {"hendrycksTest-econometrics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..13b76c1d5f94218128b2038d55bd300faf66ff44
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-electrical_engineering": {"acc": 0.2689655172413793, "acc_norm": 0.2827586206896552, "acc_norm_stderr": 0.037528339580033376, "acc_stderr": 0.036951833116502325}}, "versions": {"hendrycksTest-electrical_engineering": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-elementary_mathematics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-elementary_mathematics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..e281f72feb428451f27dbaba80408c468ef51bce
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-elementary_mathematics-v0-loglikelihood
@@ -0,0 +1 @@
+6b21f5cd5606268421a667152ec989424b66905c02adbab8d4ff6bb9d21b77d1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ef6bec3f70adb9b8df43583cf76e6cd865831b0b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood
@@ -0,0 +1 @@
+c0d0f0c008a5f3faf2f6f4268d87bbc09c40bb66ae08cf38eea0bf2e519c5a59
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..49a780bc97953db32716ccc580390c5d21cfc252
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-loglikelihood
@@ -0,0 +1 @@
+dae59e82d3d4d8dec82239d9620b72cc47bb6efbe2f1c2f9b9d23e849c9c5e32
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..42b781149bff323130b4491463168f03bdfbb9a9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_psychology": {"acc": 0.24587155963302754, "acc_norm": 0.23302752293577983, "acc_norm_stderr": 0.018125669180861493, "acc_stderr": 0.018461940968708436}}, "versions": {"hendrycksTest-high_school_psychology": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..53e498ddd480dfaf3994eba4069ead8a28694784
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood
@@ -0,0 +1 @@
+7a7138821a66ef946e427b40344cf7f1a916a2926995a85ef731a3bee40cb7ce
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..48d49de8399fba6cfb50dd98d3cbcf8d39388ab2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood
@@ -0,0 +1 @@
+db6141246889a19dd3f6b9109f314d49c1a70f7a98795858804378b095c4a2fe
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5c7859eb3a80a849deee7d67d37f71a84c8eeaf6
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-miscellaneous": {"acc": 0.23499361430395913, "acc_norm": 0.2515964240102171, "acc_norm_stderr": 0.015517322365529622, "acc_stderr": 0.015162024152278445}}, "versions": {"hendrycksTest-miscellaneous": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-virology-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-virology-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3555c2c5351eb369bf0dc9cfedf93f0bbc3de7b4
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-virology-v0-loglikelihood
@@ -0,0 +1 @@
+0ffa491f7bad2abbb64ecd752a295729167599b3815238cab0ecf4cb08bba9b6
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..efd450a8f2a4ca067f7380af809fdda48d1ee465
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood
@@ -0,0 +1 @@
+6829e6a8aa5922e6c92dd31403cc060f242dc0ede4a775e085a70da095ab2e20
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b599a89f7af0c28e795e5c5dfc1961f34acde2fc
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood
@@ -0,0 +1 @@
+7655e748b63ae7e9911411d2d2a2577221d6c861ca4448509992541294d689f3
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..561b88ffe110684b7de34a84ac613d1d901c72e5
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada_mt_en": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_mt_en": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_de-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_de-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ae19de0e6951bd90cd1e713d14816767496044e8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_de-v0-loglikelihood
@@ -0,0 +1 @@
+5ad125e1708499832b2cee8c3388f89f9c0277010fd96fbd3359039ce8105984
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..1f15d0be56b5edf18ad7cc2bec4977fae99f060b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada_standard": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_standard": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..1c7362fe44e4432f56f18932b4b429d5cf573399
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until
@@ -0,0 +1 @@
+46bc4cb219b6903397da782699a684bdbb982c0c954ff82e6beeed5c84878f42
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..63ab45b9ff890a0ef7c2108133b23bf0043f13f8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v1-res.json
@@ -0,0 +1 @@
+{"results": {"math_intermediate_algebra": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_intermediate_algebra": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a27a38fa9d4f3a924828bdb4526953a35328c7e5
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json
@@ -0,0 +1 @@
+{"results": {"math_num_theory": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_num_theory": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mc_taco-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mc_taco-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..f0ce5c64580d1132710e596cc287126ba77394e6
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mc_taco-v0-loglikelihood
@@ -0,0 +1 @@
+1811808ef05afd5f30ffc3471622a3dd7a1b681b17a2f7616695ad6b2a45943c
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3fb242da3a2d274cbcc84bf86a6bb11f02df27ab
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-loglikelihood
@@ -0,0 +1 @@
+3784acf322e79f31702a7a0612030e4ba5c4fc466ad976a34ee3f3d7278c01f0
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/multirc-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/multirc-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..938141bbb888f55c3aa2786868c28925ac3fd123
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/multirc-v1-res.json
@@ -0,0 +1 @@
+{"results": {"multirc": {"acc": 0.046169989506820566, "acc_stderr": 0.006801377886208738}}, "versions": {"multirc": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..860aa06c974e58d03f54ab1d9cb14c7e98019d4e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_dm-mathematics": {"bits_per_byte": 6.176600873627999e-05, "byte_perplexity": 1.0000617679162955, "word_perplexity": 1.0002875035042451}}, "versions": {"pile_dm-mathematics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_hackernews-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_hackernews-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..48b767bfe706bb035e4553ea9c4119347303bab9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_hackernews-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+ec1082ee5a5326e0d57aa4e73b634937140c1de9af95f154e8ab57b05d9b422b
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_opensubtitles-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_opensubtitles-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f718e515ba0cedfa5156b3a260d50ed55efc32e4
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_opensubtitles-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_opensubtitles": {"bits_per_byte": 1.5213441136639177e-05, "byte_perplexity": 1.0000152135568616, "word_perplexity": 1.0000856162053249}}, "versions": {"pile_opensubtitles": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_philpapers-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_philpapers-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..be561fe2f8a6fe5eba08c4c1efd113075da42e1f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_philpapers-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_philpapers": {"bits_per_byte": 6.241575895982095e-06, "byte_perplexity": 1.0000062415953748, "word_perplexity": 1.0000409888564146}}, "versions": {"pile_philpapers": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..bd2772e32a91a6518ed2eb48ef880827f5246adf
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_pile-cc": {"bits_per_byte": 0.0001620742639125056, "byte_perplexity": 1.0001123476295946, "word_perplexity": 1.0006738958554477}}, "versions": {"pile_pile-cc": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..fcf2faa8bc7927212fa7c55940849f64d3c48968
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_youtubesubtitles": {"bits_per_byte": 3.3827117222045906e-05, "byte_perplexity": 1.000023447445816, "word_perplexity": 1.0001529192262875}}, "versions": {"pile_youtubesubtitles": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2012-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2012-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..0e67fac5f7d54c19e42cae4cfc850089c7c61187
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qa4mre_2012-v0-loglikelihood
@@ -0,0 +1 @@
+7e17261820acb365966cb9431d93aec983b14393eaeefbc96e30a11cf58bc6df
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qqp-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qqp-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ecc86dc396332c1aaa8e638e5413633a504e7206
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qqp-v0-loglikelihood
@@ -0,0 +1 @@
+97b551b0fc3d239aad4929a2e8e79c986891aefd9fcd19441fea0382d507889e
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/reversed_words-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/reversed_words-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..3f28488a9028fed32a088de9a2e8c0fac4fd12de
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/reversed_words-v0-greedy_until
@@ -0,0 +1 @@
+1d79fc4f0177f9624a487b9973f4e0e1d3f8404993b419a7b807a690ebbbb290
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..41300bc19fd3142bfd547bf21f2b28b3ce5b21c9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v0-loglikelihood
@@ -0,0 +1 @@
+287e87cc6878debcc80d9b6df4e2d0a74ed29068e0e0a80906c8441843a17cee
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2b370553acca14706a39428146194fa9449e09f2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"squad2": {"HasAns_exact": 0.0, "HasAns_f1": 0.0, "NoAns_exact": 0.0, "NoAns_f1": 0.0, "best_exact": 50.07159100480081, "best_f1": 50.07159100480081, "exact": 0.0, "f1": 0.0}}, "versions": {"squad2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v1-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..70df2fd6ae1f59de5b6f3f6712bc2331197400c8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/squad2-v1-greedy_until
@@ -0,0 +1 @@
+e17e3d85c1d5adaf2d6b4b752c4babc2e0b3a6e144e6de70cb3b2287e85109b8
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_6d6c62dd70caaa208712bf766deaf419cfac89538d4ab7745621e339394c0c23.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_6d6c62dd70caaa208712bf766deaf419cfac89538d4ab7745621e339394c0c23.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..1c627edfd96299ad364c96a4eae2ac15f4acea88
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_6d6c62dd70caaa208712bf766deaf419cfac89538d4ab7745621e339394c0c23.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:36023aa22487e0d2de08cb3ecabd0cdbd6c887c63c7006b3544b7809bfcb58bc
+size 1806
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_b1cbb29666cce5e31a1e97695858137398a0885ca5d5d98f515404fb6aeb99e7.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_b1cbb29666cce5e31a1e97695858137398a0885ca5d5d98f515404fb6aeb99e7.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..d212dc33727c51da8f2ea6fe29c2057b70d32c2f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_b1cbb29666cce5e31a1e97695858137398a0885ca5d5d98f515404fb6aeb99e7.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e9dd70bef30b58d7c45a64ce10e7eb8ed66df51cbddf24ae8ed37f6c9104b024
+size 1813
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/toxigen-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/toxigen-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3074e09e14cf0763aa58e8fe2801337da805b734
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/toxigen-v0-loglikelihood
@@ -0,0 +1 @@
+7fedd930bafa92b9cca615a93ba92a4413244d2b77cf3f421a186815d721e0fa
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt14-en-fr-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt14-en-fr-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..1aa13f02854c8eec0591be980486afe48d7f97a9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt14-en-fr-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt14-en-fr": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.011284118461117099, "chrf_stderr": 7.340651275964445e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt14-en-fr": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-de-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-de-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..75f1072b6e7f2bdd9ecd98987c86fefd3375fb6d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-de-en-v0-greedy_until
@@ -0,0 +1 @@
+d30e23e38d9a45b9c31e1dfd14b58d0b7020df4b9c8a1c697aa6bc5fba8ce08a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..c02fb9875d5354fdb0892b7493a822ee4af9d6c2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-greedy_until
@@ -0,0 +1 @@
+d13b5a6915ca86ac6c6ebc50d9be0d0be3dfca600c12e896df53190d875de74d
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-pl-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-pl-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..13bfd5b552b92b771266666dd5fe5b9496064051
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-pl-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-pl": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.009006977773147825, "chrf_stderr": 0.00023387733367766675, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-pl": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ru-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ru-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..af339eda5d3d76e00e3e0f3c800353bb2b7fb696
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ru-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-ru": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.0007327811114614671, "chrf_stderr": 4.43155903515048e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-ru": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..24db35e62fd176b0454ff426ab749787da805897
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-zh": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.00014170297316825535, "chrf_stderr": 6.590669847391838e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-zh": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a7a56daf0e793acf229c9b16a751383473bd5e26
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-zh": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.00014170297316825535, "chrf_stderr": 6.590669847391838e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-zh": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..7353ad4475b3d292bfd64e6dcb41972d697c34da
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-greedy_until
@@ -0,0 +1 @@
+8a4b65c59dcac6591d46261909ee92ebcf41c19ee7442b12842302b2d8aeb36f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d5d06a02a30635ad57907b32ae66ccb9ba5a7e23
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-fr-de": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.01143193767396364, "chrf_stderr": 0.00012555271954563658, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-fr-de": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..4344b7cd8a1a9bfb8cd60e2aa0ece17f530f7d3d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-ja-en": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.010703148854351403, "chrf_stderr": 0.00022242113108130186, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-ja-en": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a2ad506bf94188b54a0f3b7ee6f5d787d34e68ff
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-ta-en": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.013841110664859798, "chrf_stderr": 0.00018476696850880766, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-ta-en": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..41a1e91515b30a2acdc6363c36af1cdf43f477a9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-greedy_until
@@ -0,0 +1 @@
+07dbadfd6f2b2b9462ab6187dbfaabae6e5192ab89a8e4ede9237834b9364dd1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc273-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc273-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..8f023b422a7003d2984e35e58045d8866954a4c4
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wsc273-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wsc273": {"acc": 0.5164835164835165, "acc_stderr": 0.0303004740355766}}, "versions": {"wsc273": 0}}
\ No newline at end of file