diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..55364250028072b1f238b095c4c3eb9373a4a280
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until
@@ -0,0 +1 @@
+7c0c5246d3f751f39119a5629ac1d4b2c6fd2a315f78d6de9b2c387e24e3fef1
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..fd95bb231e198d674a556bbec09b2334f1ef1a8e
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood
@@ -0,0 +1 @@
+6ca1ca6ebd7cac4420d5005f7f35b0edbc921377f5e4f8874cc176e4fb6d79d4
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..7b7adaf86251b258f270478b8310660d56a15f4a
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-loglikelihood
@@ -0,0 +1 @@
+14ac5e510cdf82967d6827a9ca059906ee1db2e347be1b17f36403a157e73552
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_2-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..13176ac613358d8dbdb6031f8220a3dcddac815f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_2-v0-loglikelihood
@@ -0,0 +1 @@
+ccc64b4d5e80c081d5161aae5828212ba49d277ca8c5a4281f181744727a6a99
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..f926cf3d4b7c1fb9fe3662b21754329ecc15ee2f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood
@@ -0,0 +1 @@
+8aab641bd5933f84f46a14f5c1208a3c855cace7e67b44abcd5aff8fec96717d
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..1d6bea95e1001e7e8986a48afda483ba9dc1933b
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_drop_argument-v0-loglikelihood
@@ -0,0 +1 @@
+616109e63f162dcd31a632943e7ef0c9e0431afeb179e83e9b04b39007b16f5b
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_1-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..82f320ce8f2bbca0496d130ff9662de6284417be
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_ellipsis_n_bar_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_ellipsis_n_bar_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_ellipsis_n_bar_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..da3deb1aaf576e90101d03035ae3f9f41b80fd27
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_existential_there_object_raising": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_existential_there_object_raising": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..925e5b4680b003be07aad25d99c377b16c5c18e0
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood
@@ -0,0 +1 @@
+9b324b28ae3e1b5d49ecf4b7b2a16c7bbc8ff38d000cf216fab75df633da2084
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..03f45fd6199a5f9ba70098e00937fe0603cae2dd
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-loglikelihood
@@ -0,0 +1 @@
+d2d0711611b5b218c6fa8c7278494749252b7868c396451919b761303556bd66
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..183b815d22d6227785479681934c05726dc912b9
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood
@@ -0,0 +1 @@
+fa4addddd8e380031b8e0871776cabcb707c0f21dcaf5d8b3defec66cce55043
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6b900d05f4ab0e4143324c919e684900299e9adc
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood
@@ -0,0 +1 @@
+290e7eddacea4ec16989af697f2ee3373fdd9aef4b452bf887184c6e2f6e7d9d
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_sentential_negation_npi_scope-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_sentential_negation_npi_scope-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..c7aa260f9198481df3d83af52c9c16cc9e877d40
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_sentential_negation_npi_scope-v0-loglikelihood
@@ -0,0 +1 @@
+32fcbd0a1c6e664af2751bad552587b5ca3911973b07f4fb2cf0a2acd3de5349
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a7f8f1825ac91b69d8ba1a50a5f87f048aeb3f78
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_sentential_subject_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_sentential_subject_island": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3b0f9763529ee45a97ab0abdfd18efc9fe991241
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood
@@ -0,0 +1 @@
+d255a10a34f14d77d9526604a17b0f6747d32f62fc2e3a09e9ab10054535fd45
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..5f40ea63f1b31bfc83b5aa0385051fbcbc3574d8
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-loglikelihood
@@ -0,0 +1 @@
+d1d3e439b2020ef5ed232bfebbcc9634adc5117e9eb61e38fdbbe2c8ea128d54
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..95a2c0c7e115167e44288a57dc38ea1d40274c87
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_wh_vs_that_with_gap_long_distance": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_with_gap_long_distance": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..c4210f5f11540d44476cdf99252e9268ca85a6e0
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english": {"likelihood_difference": 0.3367363060632734, "likelihood_difference_stderr": 0.005827747024053628, "pct_stereotype": 0.5062611806797853, "pct_stereotype_stderr": 0.012212341600228745}}, "versions": {"crows_pairs_english": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..dbe264794f6009bd604d2d55928e1958c74ae35a
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_english_autre": {"likelihood_difference": 0.3424336593343321, "likelihood_difference_stderr": 0.08588068996335849, "pct_stereotype": 0.2727272727272727, "pct_stereotype_stderr": 0.14083575804390605}}, "versions": {"crows_pairs_english_autre": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_disability-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_disability-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..50c7b025631010289ee73762c8f493d8888122d3
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/crows_pairs_english_disability-v0-loglikelihood
@@ -0,0 +1 @@
+90c1bcfdeec0ff51d891ee8cf00ae2a5ec61bab6739faea9865809b8ffed2cdb
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/drop-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/drop-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..9384ca72fe6c84f3a6a9c419b82a7dd7f39bf7d1
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/drop-v0-res.json
@@ -0,0 +1 @@
+{"results": {"drop": {"em": 0.0, "em_stderr": 0.0, "f1": 0.0, "f1_stderr": 0.0}}, "versions": {"drop": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..cf3e02d82662bc1c4de5f1cf3dd9442b321de623
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json
@@ -0,0 +1 @@
+{"results": {"ethics_virtue": {"acc": 0.5035175879396985, "acc_stderr": 0.0070893491553555765, "em": 0.036180904522613064}}, "versions": {"ethics_virtue": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/gguf_test_8fcf3f2f52afeb2acd7c8e02c2cc3ce31a691b665d295f6c4e4bbd71c7caa1a2.pkl b/scripts/yans/lm-evaluation-harness/tests/testdata/gguf_test_8fcf3f2f52afeb2acd7c8e02c2cc3ce31a691b665d295f6c4e4bbd71c7caa1a2.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..057a5cb04f22d7f69cd4b516c0e4507df78b4148
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/gguf_test_8fcf3f2f52afeb2acd7c8e02c2cc3ce31a691b665d295f6c4e4bbd71c7caa1a2.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f79475c06a8800d8abef183b690409f304e0a6963681965f6caba1ca985b243
+size 532
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl b/scripts/yans/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..674d4b4cf12b369e32a36d570dc3310218e0ccf2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f7a190d338d1ef03f209a8a3340c0d282c73723633b8f5a71a8dc8ee94b9535
+size 570
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..9129d834b6037cda3db655064d6c18bb3dccfb54
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood
@@ -0,0 +1 @@
+767ca34d9714edd9fb030ddbcc35a64e5180d1e247b0cb557fbb22fdf971ad1f
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d4c0ee2d78364c0275d984a4ef43cfcedbaf55ed
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood
@@ -0,0 +1 @@
+a8a1892d1906cc3e7ffd321043f0a60f3b8b69ef76e5c6ff03c6ea41dc87d0cb
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-conceptual_physics-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-conceptual_physics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..05c4db0e2290998cb650c11373f0947c3be8f297
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-conceptual_physics-v0-loglikelihood
@@ -0,0 +1 @@
+622f191ccfc7a597d99f39897ebe3f95a9ddce0e662fcfb411aa554b289bb355
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..4656fac3c3026ec7e137ce8f49e4796fefe5e24f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-econometrics": {"acc": 0.24561403508771928, "acc_norm": 0.24561403508771928, "acc_norm_stderr": 0.04049339297748142, "acc_stderr": 0.040493392977481425}}, "versions": {"hendrycksTest-econometrics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..13b76c1d5f94218128b2038d55bd300faf66ff44
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-electrical_engineering": {"acc": 0.2689655172413793, "acc_norm": 0.2827586206896552, "acc_norm_stderr": 0.037528339580033376, "acc_stderr": 0.036951833116502325}}, "versions": {"hendrycksTest-electrical_engineering": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..ef6bec3f70adb9b8df43583cf76e6cd865831b0b
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood
@@ -0,0 +1 @@
+c0d0f0c008a5f3faf2f6f4268d87bbc09c40bb66ae08cf38eea0bf2e519c5a59
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..acde01d4d7d45333322eaa4a07edf42ec414d08c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-formal_logic": {"acc": 0.25396825396825395, "acc_norm": 0.2698412698412698, "acc_norm_stderr": 0.03970158273235172, "acc_stderr": 0.03893259610604674}}, "versions": {"hendrycksTest-formal_logic": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..0f39ddfde7066ac8c577156336644c35a543afbb
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-loglikelihood
@@ -0,0 +1 @@
+0e4c8d13806d3696167e40544d2d114c557c10c74bc61fcb9c51bbfced0266ef
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..42b781149bff323130b4491463168f03bdfbb9a9
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_psychology": {"acc": 0.24587155963302754, "acc_norm": 0.23302752293577983, "acc_norm_stderr": 0.018125669180861493, "acc_stderr": 0.018461940968708436}}, "versions": {"hendrycksTest-high_school_psychology": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-human_aging-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-human_aging-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d34fa529800590ecc8e199fdb9d141c99b8c6876
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-human_aging-v0-loglikelihood
@@ -0,0 +1 @@
+0880b3a78f8d7b17ffc612031427b9085367cf65dabe2a68c4b64e3171d17e88
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-human_sexuality-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-human_sexuality-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b3d3ae438c1fc59930d1d4ba053d73c38b6d9c07
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-human_sexuality-v0-loglikelihood
@@ -0,0 +1 @@
+4b07922fa1d549b655c21440b13d869263ce7dd9771d8147c450f11c91d26c10
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..53e498ddd480dfaf3994eba4069ead8a28694784
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood
@@ -0,0 +1 @@
+7a7138821a66ef946e427b40344cf7f1a916a2926995a85ef731a3bee40cb7ce
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2cc7a93f1c3c2b4747d4ce739ffbcd522fc50224
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-marketing": {"acc": 0.2863247863247863, "acc_norm": 0.2905982905982906, "acc_norm_stderr": 0.029745048572674043, "acc_stderr": 0.029614323690456648}}, "versions": {"hendrycksTest-marketing": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..48d49de8399fba6cfb50dd98d3cbcf8d39388ab2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood
@@ -0,0 +1 @@
+db6141246889a19dd3f6b9109f314d49c1a70f7a98795858804378b095c4a2fe
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-moral_scenarios-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-moral_scenarios-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..62ec15971237e04f6c883c7369bbb50888494830
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-moral_scenarios-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-moral_scenarios": {"acc": 0.2547486033519553, "acc_norm": 0.25251396648044694, "acc_norm_stderr": 0.014530330201468654, "acc_stderr": 0.014572650383409158}}, "versions": {"hendrycksTest-moral_scenarios": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_psychology-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_psychology-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..c6b33f4be16f9bc1ed04502ed0f1c121c3a9d1be
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_psychology-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-professional_psychology": {"acc": 0.27124183006535946, "acc_norm": 0.2826797385620915, "acc_norm_stderr": 0.01821726955205344, "acc_stderr": 0.01798661530403031}}, "versions": {"hendrycksTest-professional_psychology": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..efd450a8f2a4ca067f7380af809fdda48d1ee465
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood
@@ -0,0 +1 @@
+6829e6a8aa5922e6c92dd31403cc060f242dc0ede4a775e085a70da095ab2e20
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b599a89f7af0c28e795e5c5dfc1961f34acde2fc
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood
@@ -0,0 +1 @@
+7655e748b63ae7e9911411d2d2a2577221d6c861ca4448509992541294d689f3
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..561b88ffe110684b7de34a84ac613d1d901c72e5
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada_mt_en": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_mt_en": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
new file mode 100644
index 0000000000000000000000000000000000000000..a3ea263b794b561212250ea3d962d1ba8eb89bde
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/lambada_openai_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
@@ -0,0 +1,4 @@
+|    Tasks     |Version|Filter|n-shot|  Metric  |   | Value  |   |Stderr|
+|--------------|------:|------|-----:|----------|---|-------:|---|------|
+|lambada_openai|      1|none  |     0|acc       |↑  |  0.1000|±  |   N/A|
+|              |       |none  |     0|perplexity|↓  |605.3866|±  |   N/A|
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..1c7362fe44e4432f56f18932b4b429d5cf573399
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until
@@ -0,0 +1 @@
+46bc4cb219b6903397da782699a684bdbb982c0c954ff82e6beeed5c84878f42
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a27a38fa9d4f3a924828bdb4526953a35328c7e5
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json
@@ -0,0 +1 @@
+{"results": {"math_num_theory": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_num_theory": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f141eaa0a49aceaae493aea7080eab4e8b1cec16
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json
@@ -0,0 +1 @@
+{"results": {"mrpc": {"acc": 0.5392156862745098, "acc_stderr": 0.024707732873723128, "f1": 0.5982905982905982, "f1_stderr": 0.028928325246283727}}, "versions": {"mrpc": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/multirc-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/multirc-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..938141bbb888f55c3aa2786868c28925ac3fd123
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/multirc-v1-res.json
@@ -0,0 +1 @@
+{"results": {"multirc": {"acc": 0.046169989506820566, "acc_stderr": 0.006801377886208738}}, "versions": {"multirc": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..6ff7a517112eba76e15e999e9974124e04f07a83
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_books3": {"bits_per_byte": 1.2901280503011222e-06, "byte_perplexity": 1.0000008942490204, "word_perplexity": 1.0000052870063607}}, "versions": {"pile_books3": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..2fb27786c54abe6303683c0a247d4c689586a97c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+d5b7967c0ece8b816f3921a8bd0fad23365349e935b491595e2ad1135af42da6
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v1-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..2fb27786c54abe6303683c0a247d4c689586a97c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_dm-mathematics-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+d5b7967c0ece8b816f3921a8bd0fad23365349e935b491595e2ad1135af42da6
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..0bda41ffb37dd04bebd9982faf464616dd82a31d
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_freelaw": {"bits_per_byte": 3.16238943008513e-05, "byte_perplexity": 1.0000316243943415, "word_perplexity": 1.000203169094218}}, "versions": {"pile_freelaw": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_opensubtitles-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_opensubtitles-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..f718e515ba0cedfa5156b3a260d50ed55efc32e4
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_opensubtitles-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_opensubtitles": {"bits_per_byte": 1.5213441136639177e-05, "byte_perplexity": 1.0000152135568616, "word_perplexity": 1.0000856162053249}}, "versions": {"pile_opensubtitles": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_philpapers-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_philpapers-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..be561fe2f8a6fe5eba08c4c1efd113075da42e1f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_philpapers-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_philpapers": {"bits_per_byte": 6.241575895982095e-06, "byte_perplexity": 1.0000062415953748, "word_perplexity": 1.0000409888564146}}, "versions": {"pile_philpapers": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..d5369ed3c97838d67c2900cfac4aaeb5881ec884
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+731fdef4a43949b179ba0c540148ebc2fa41583dd583ef580dd812076c66a451
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..bd2772e32a91a6518ed2eb48ef880827f5246adf
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_pile-cc": {"bits_per_byte": 0.0001620742639125056, "byte_perplexity": 1.0001123476295946, "word_perplexity": 1.0006738958554477}}, "versions": {"pile_pile-cc": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v0-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..283109f32e0aac45adcbc90c7c8fb41114e7771f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+40b39d120d99a145690444e86acc3e3e24d41e6e0538a75e26929ad84926e5e0
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-loglikelihood_rolling b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..81c2e5ed06321b250a08a4232b3720ea5b650156
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+68263c52adc0086011e2220b619983935cabb1cc1f5f9f8ee1a74ab2a7457967
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..fcf2faa8bc7927212fa7c55940849f64d3c48968
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/pile_youtubesubtitles-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_youtubesubtitles": {"bits_per_byte": 3.3827117222045906e-05, "byte_perplexity": 1.000023447445816, "word_perplexity": 1.0001529192262875}}, "versions": {"pile_youtubesubtitles": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/qqp-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/qqp-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b7b31355e644bd9d6d57758ee9a454598445f7c9
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/qqp-v0-res.json
@@ -0,0 +1 @@
+{"results": {"qqp": {"acc": 0.49782339846648527, "acc_stderr": 0.0024866770696239894, "f1": 0.42322661288031593, "f1_stderr": 0.002695903831328166}}, "versions": {"qqp": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/reversed_words-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/reversed_words-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..3f28488a9028fed32a088de9a2e8c0fac4fd12de
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/reversed_words-v0-greedy_until
@@ -0,0 +1 @@
+1d79fc4f0177f9624a487b9973f4e0e1d3f8404993b419a7b807a690ebbbb290
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/squad2-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/squad2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2b370553acca14706a39428146194fa9449e09f2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/squad2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"squad2": {"HasAns_exact": 0.0, "HasAns_f1": 0.0, "NoAns_exact": 0.0, "NoAns_f1": 0.0, "best_exact": 50.07159100480081, "best_f1": 50.07159100480081, "exact": 0.0, "f1": 0.0}}, "versions": {"squad2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/toxigen-v0-loglikelihood b/scripts/yans/lm-evaluation-harness/tests/testdata/toxigen-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3074e09e14cf0763aa58e8fe2801337da805b734
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/toxigen-v0-loglikelihood
@@ -0,0 +1 @@
+7fedd930bafa92b9cca615a93ba92a4413244d2b77cf3f421a186815d721e0fa
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..52156c85072e4f1a829345a4b9eef7af2c2ca059
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_gen-v0-greedy_until
@@ -0,0 +1 @@
+0d7c56e1aa71ffd8f94bde28f6e8dfdd35f7aaadffa0620bd2a27704253d6c14
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b12b4765cce2e95398697685a9ebb0cdada833bf
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v0-res.json
@@ -0,0 +1 @@
+{"results": {"truthfulqa_mc": {"mc1": 0.2141982864137087, "mc1_stderr": 0.01436214815569045, "mc2": 0.465436996173817, "mc2_stderr": 0.0048422530880316405}}, "versions": {"truthfulqa_mc": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wikitext_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt b/scripts/yans/lm-evaluation-harness/tests/testdata/wikitext_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
new file mode 100644
index 0000000000000000000000000000000000000000..654e63ee7cb083d729d9be56e0d9d71ef1805928
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wikitext_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
@@ -0,0 +1,5 @@
+| Tasks  |Version|Filter|n-shot|    Metric     |   | Value  |   |Stderr|
+|--------|------:|------|-----:|---------------|---|-------:|---|------|
+|wikitext|      2|none  |     0|bits_per_byte  |↓  |  1.3394|±  |   N/A|
+|        |       |none  |     0|byte_perplexity|↓  |  2.5304|±  |   N/A|
+|        |       |none  |     0|word_perplexity|↓  |130.4801|±  |   N/A|
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..c02fb9875d5354fdb0892b7493a822ee4af9d6c2
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-greedy_until
@@ -0,0 +1 @@
+d13b5a6915ca86ac6c6ebc50d9be0d0be3dfca600c12e896df53190d875de74d
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..183e66270a61dcb463076306b2768dde7995162f
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-de": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.007148103038872972, "chrf_stderr": 9.594096858911254e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-de": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..57bad300d7f05b7eb0908ad655b0fc90a2bb9c26
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-ja": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 4.1308658294778584e-05, "chrf_stderr": 2.0456539027807417e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-ja": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..e5ee2e9be911cda88b6445715b833e1a0dbf92dd
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-km": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 1.9008351315007364e-05, "chrf_stderr": 7.136657625458525e-06, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-km": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..24db35e62fd176b0454ff426ab749787da805897
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-zh": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.00014170297316825535, "chrf_stderr": 6.590669847391838e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-zh": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a7a56daf0e793acf229c9b16a751383473bd5e26
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-zh": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.00014170297316825535, "chrf_stderr": 6.590669847391838e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-zh": 1}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d5d06a02a30635ad57907b32ae66ccb9ba5a7e23
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-fr-de": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.01143193767396364, "chrf_stderr": 0.00012555271954563658, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-fr-de": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..87a1981e79e0558366487aa2476cc751ad3857dc
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-greedy_until
@@ -0,0 +1 @@
+97bf664a8efa54b5366b8341f77b418106dd0cb26169d5b2d0144e4d3d2bc5c9
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..3a89d7fcdfb76bc3912a930cf592da0270ba440c
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-greedy_until
@@ -0,0 +1 @@
+1fd846f3c0104e794eb380dae7f648592092ab8bf59234c26d0a671bbbc28df1
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a2ad506bf94188b54a0f3b7ee6f5d787d34e68ff
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-ta-en": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.013841110664859798, "chrf_stderr": 0.00018476696850880766, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-ta-en": 0}}
\ No newline at end of file
diff --git a/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-greedy_until b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..41a1e91515b30a2acdc6363c36af1cdf43f477a9
--- /dev/null
+++ b/scripts/yans/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-greedy_until
@@ -0,0 +1 @@
+07dbadfd6f2b2b9462ab6187dbfaabae6e5192ab89a8e4ede9237834b9364dd1
\ No newline at end of file