koichi12 commited on Nov 28, 2024

Commit

c5b2990

verified ·

1 Parent(s): 852d1e7

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_complex_NP_island-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_expletive_it_object_raising-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_matrix_question_npi_licensor_present-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_religion-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_socioeconomic-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/drop-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl +3 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_bb2cc49115e88788ed870ad0716eb00b280a885f91c7ed6e1e864435e5e2b6ac.pkl +3 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-elementary_mathematics-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-virology-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_de-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v1-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/mc_taco-v0-loglikelihood +1 -0
scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-loglikelihood +1 -0

scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2da-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 6ca1ca6ebd7cac4420d5005f7f35b0edbc921377f5e4f8874cc176e4fb6d79d4

scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_4da-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ d3557beb8b9e5704122c2fc6362b11fbe2c3f2f3cb72aed4462b208767c40e01

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_complex_NP_island-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_complex_NP_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_complex_NP_island": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relational_noun-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 8aab641bd5933f84f46a14f5c1208a3c855cace7e67b44abcd5aff8fec96717d

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_distractor_agreement_relative_clause-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_distractor_agreement_relative_clause": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_distractor_agreement_relative_clause": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_existential_there_object_raising": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_existential_there_object_raising": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_subject_raising-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 9b324b28ae3e1b5d49ecf4b7b2a16c7bbc8ff38d000cf216fab75df633da2084

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_expletive_it_object_raising-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ ceede5b38248a62125a74a8332602b8eac5ef40864f071ad8d86e7971e07219d

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_matrix_question_npi_licensor_present-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ a3a702a3335c79b02b36caf37c68069050c2a8a3a03c3610c09afc39d2b83fb1

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_npi_present_2-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_npi_present_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_npi_present_2": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_only_npi_licensor_present-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_only_npi_licensor_present": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_only_npi_licensor_present": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_1-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ fa4addddd8e380031b8e0871776cabcb707c0f21dcaf5d8b3defec66cce55043

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 755bdfe2c89737c43001ff1dc83d68ad33e444aaf0669af66aaf82dcd09f2eca

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_principle_A_domain_1-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 290e7eddacea4ec16989af697f2ee3373fdd9aef4b452bf887184c6e2f6e7d9d

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_sentential_subject_island-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_sentential_subject_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_sentential_subject_island": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_1-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 973fe56534fdef1207f0fc08dd09a210304c55f33c6cbb17552754bf54f11c86

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_tough_vs_raising_2-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ d255a10a34f14d77d9526604a17b0f6747d32f62fc2e3a09e9ab10054535fd45

scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_with_gap_long_distance-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"blimp_wh_vs_that_with_gap_long_distance": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_with_gap_long_distance": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ a197ccc8538231404a8e43f5ed0fbbfb2c317b4da337f6e7aa9642131aeb426a

scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_autre-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_english_autre": {"likelihood_difference": 0.3424336593343321, "likelihood_difference_stderr": 0.08588068996335849, "pct_stereotype": 0.2727272727272727, "pct_stereotype_stderr": 0.14083575804390605}}, "versions": {"crows_pairs_english_autre": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_religion-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_english_religion": {"likelihood_difference": 0.32170622542430666, "likelihood_difference_stderr": 0.022101541392310232, "pct_stereotype": 0.43243243243243246, "pct_stereotype_stderr": 0.04723583229758394}}, "versions": {"crows_pairs_english_religion": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_english_socioeconomic-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_english_socioeconomic": {"likelihood_difference": 0.3424577735757881, "likelihood_difference_stderr": 0.017459994170011896, "pct_stereotype": 0.46842105263157896, "pct_stereotype_stderr": 0.036297038088316094}}, "versions": {"crows_pairs_english_socioeconomic": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"crows_pairs_french_autre": {"likelihood_difference": 0.3517045997290783, "likelihood_difference_stderr": 0.07647821858130377, "pct_stereotype": 0.23076923076923078, "pct_stereotype_stderr": 0.12162606385262997}}, "versions": {"crows_pairs_french_autre": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/drop-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"drop": {"em": 0.0, "em_stderr": 0.0, "f1": 0.0, "f1_stderr": 0.0}}, "versions": {"drop": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"ethics_virtue": {"acc": 0.5035175879396985, "acc_stderr": 0.0070893491553555765, "em": 0.036180904522613064}}, "versions": {"ethics_virtue": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f7a190d338d1ef03f209a8a3340c0d282c73723633b8f5a71a8dc8ee94b9535
+size 570

scripts/yans/eval/lm-evaluation-harness/tests/testdata/gpt3_test_bb2cc49115e88788ed870ad0716eb00b280a885f91c7ed6e1e864435e5e2b6ac.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad18c6203e8b3eda1b88f8dfd7d197c4053c07640b0542fcdd8170e9b3bd2d30
+size 2479

scripts/yans/eval/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 767ca34d9714edd9fb030ddbcc35a64e5180d1e247b0cb557fbb22fdf971ad1f

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-anatomy-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ bf05e04ed8cf61cf3aad294ed3f5a16137775ffdd20f1b129022ddffc1251768

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-computer_security-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ a8a1892d1906cc3e7ffd321043f0a60f3b8b69ef76e5c6ff03c6ea41dc87d0cb

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-econometrics-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-econometrics": {"acc": 0.24561403508771928, "acc_norm": 0.24561403508771928, "acc_norm_stderr": 0.04049339297748142, "acc_stderr": 0.040493392977481425}}, "versions": {"hendrycksTest-econometrics": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-electrical_engineering-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-electrical_engineering": {"acc": 0.2689655172413793, "acc_norm": 0.2827586206896552, "acc_norm_stderr": 0.037528339580033376, "acc_stderr": 0.036951833116502325}}, "versions": {"hendrycksTest-electrical_engineering": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-elementary_mathematics-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 6b21f5cd5606268421a667152ec989424b66905c02adbab8d4ff6bb9d21b77d1

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-formal_logic-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ c0d0f0c008a5f3faf2f6f4268d87bbc09c40bb66ae08cf38eea0bf2e519c5a59

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ dae59e82d3d4d8dec82239d9620b72cc47bb6efbe2f1c2f9b9d23e849c9c5e32

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_psychology-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-high_school_psychology": {"acc": 0.24587155963302754, "acc_norm": 0.23302752293577983, "acc_norm_stderr": 0.018125669180861493, "acc_stderr": 0.018461940968708436}}, "versions": {"hendrycksTest-high_school_psychology": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-machine_learning-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 7a7138821a66ef946e427b40344cf7f1a916a2926995a85ef731a3bee40cb7ce

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-medical_genetics-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ db6141246889a19dd3f6b9109f314d49c1a70f7a98795858804378b095c4a2fe

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"hendrycksTest-miscellaneous": {"acc": 0.23499361430395913, "acc_norm": 0.2515964240102171, "acc_norm_stderr": 0.015517322365529622, "acc_stderr": 0.015162024152278445}}, "versions": {"hendrycksTest-miscellaneous": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-virology-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 0ffa491f7bad2abbb64ecd752a295729167599b3815238cab0ecf4cb08bba9b6

scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 6829e6a8aa5922e6c92dd31403cc060f242dc0ede4a775e085a70da095ab2e20

scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 7655e748b63ae7e9911411d2d2a2577221d6c861ca4448509992541294d689f3

scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"lambada_mt_en": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_mt_en": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_de-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 5ad125e1708499832b2cee8c3388f89f9c0277010fd96fbd3359039ce8105984

scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"lambada_standard": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_standard": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_geometry-v1-greedy_until ADDED Viewed

	@@ -0,0 +1 @@


1	+ 46bc4cb219b6903397da782699a684bdbb982c0c954ff82e6beeed5c84878f42

scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v1-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"math_intermediate_algebra": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_intermediate_algebra": 1}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v0-res.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"results": {"math_num_theory": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_num_theory": 0}}

scripts/yans/eval/lm-evaluation-harness/tests/testdata/mc_taco-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 1811808ef05afd5f30ffc3471622a3dd7a1b681b17a2f7616695ad6b2a45943c

scripts/yans/eval/lm-evaluation-harness/tests/testdata/mnli_mismatched-v0-loglikelihood ADDED Viewed

	@@ -0,0 +1 @@


1	+ 3784acf322e79f31702a7a0612030e4ba5c4fc466ad976a34ee3f3d7278c01f0