cross-model-lora-prediction-3b / results_pass1_code.json

Final workshop round: results_pass1_code.json

e357986 verified 7 days ago

29.5 kB

	{
	"config": {
	"hub_repo": "CK0607/cross-model-lora-prediction-3b",
	"model_Y": "meta-llama/Llama-3.2-3B-Instruct",
	"no_surrogate": true,
	"generation": {
	"do_sample": false,
	"num_beams": 1,
	"max_new_tokens": 512
	},
	"tasks": [
	"mbpp_test_held",
	"mbpp_plus"
	],
	"cells": "2 tasks x (base_Y, oracle, mean, global_ridge, topk8_global_ridge)"
	},
	"records": [
	{
	"cell_id": "C::mbpp_plus::base_Y",
	"task": "mbpp_plus",
	"method": "base_Y",
	"adapter_kind": "base",
	"adapter_dir": null,
	"max_new_tokens": 512,
	"pass1": 0.5555555555555556,
	"eval_examples": 378,
	"generated_examples": 378,
	"unit_test_eval": true,
	"evalplus_used": true,
	"details_summary": {
	"passed": 210,
	"failed": 168,
	"first_failures": [
	{
	"task_id": 806,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmptri4xqqa/candidate_test.py\", line 47, in <module>\n assertion(max_run_uppercase(*inp), exp, 0)\n File \"/tmp/tmptri4xqqa/candidate_test.py\", line 41, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: 1, exp: 0\n",
	"code_chars": 245
	},
	{
	"task_id": 590,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpa_k5ig0d/candidate_test.py\", line 41, in <module>\n assertion(polar_rect(*inp), exp, 0)\n File \"/tmp/tmpa_k5ig0d/candidate_test.py\", line 32, in assertion\n if out != exp and atol != 0:\n ^^^^^^^^^^\nValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()\n",
	"code_chars": 95
	},
	{
	"task_id": 593,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpgo1nyw9p/candidate_test.py\", line 39, in <module>\n assertion(removezero_ip(*inp), exp, 0)\n File \"/tmp/tmpgo1nyw9p/candidate_test.py\", line 33, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: <generator object removezero_ip.<locals>.<genexpr>.<genexpr> at 0x2b4afc27d620>.<generator object removezero_ip.<locals>.<genexpr>.<genexpr> at 0x2b4afc27d620>.<generator object removezero_ip.<loca",
	"code_chars": 101
	},
	{
	"task_id": 294,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpnpzig0qw/candidate_test.py\", line 39, in <module>\n assertion(max_val(*inp), exp, 0)\n ^^^^^^^^^^^^^\n File \"/tmp/tmpnpzig0qw/candidate_test.py\", line 11, in max_val\n return max(lst)\n ^^^^^^^^\nTypeError: '>' not supported between instances of 'int' and 'str'\n",
	"code_chars": 37
	},
	{
	"task_id": 16,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpba__gp2n/candidate_test.py\", line 39, in <module>\n assertion(text_lowercase_underscore(*inp), exp, 0)\n File \"/tmp/tmpba__gp2n/candidate_test.py\", line 33, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: False, exp: True\n",
	"code_chars": 96
	}
	]
	},
	"gpu": 5,
	"eval_seconds": 314.115,
	"pass1_base": 0.5555555555555556,
	"pass1_oracle": 0.5502645502645502,
	"gap_recovered": -0.0,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_plus::global_ridge",
	"task": "mbpp_plus",
	"method": "global_ridge",
	"adapter_kind": "predicted",
	"adapter_dir": "/workspace/round3_out/round6/Y_pred/mbpp_plus_global_ridge_N24_full",
	"max_new_tokens": 512,
	"pass1": 0.5,
	"eval_examples": 378,
	"generated_examples": 378,
	"unit_test_eval": true,
	"evalplus_used": true,
	"details_summary": {
	"passed": 189,
	"failed": 189,
	"first_failures": [
	{
	"task_id": 558,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp7z1v0kjv/candidate_test.py\", line 39, in <module>\n assertion(digit_distance_nums(*inp), exp, 0)\n ^^^^^^^^^^^^^^^^^^^^^^^^^\n File \"/tmp/tmp7z1v0kjv/candidate_test.py\", line 11, in digit_distance_nums\n return abs(int(str(a)[0]) - int(str(b)[0])) + abs(int(str(a)[1]) - int(str(b)[1])) + abs(int(str(a)[2]) - int(str(b)[2]))\n ~~~~~~^^^\nIndexError: string index out of range\n",
	"code_chars": 154
	},
	{
	"task_id": 806,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpw3qi1w3a/candidate_test.py\", line 47, in <module>\n assertion(max_run_uppercase(*inp), exp, 0)\n File \"/tmp/tmpw3qi1w3a/candidate_test.py\", line 41, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: 1, exp: 0\n",
	"code_chars": 245
	},
	{
	"task_id": 775,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpcsvdn85j/candidate_test.py\", line 39, in <module>\n assertion(odd_position(*inp), exp, 0)\n File \"/tmp/tmpcsvdn85j/candidate_test.py\", line 33, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: False, exp: True\n",
	"code_chars": 100
	},
	{
	"task_id": 141,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp1f2jp4yb/candidate_test.py\", line 44, in <module>\n assertion(pancake_sort(*inp), exp, 0)\n File \"/tmp/tmp1f2jp4yb/candidate_test.py\", line 38, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: [69, 38, 25, 79, 15], exp: [15, 25, 38, 69, 79]\n",
	"code_chars": 237
	},
	{
	"task_id": 590,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpbbf8m54x/candidate_test.py\", line 42, in <module>\n assertion(polar_rect(*inp), exp, 0)\n File \"/tmp/tmpbbf8m54x/candidate_test.py\", line 36, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: (-1.960930862590836, -2.2704074859237844), exp: ((5.0, 0.9272952180016122), (-2+2.4492935982947064e-16j))\n",
	"code_chars": 111
	}
	]
	},
	"gpu": 0,
	"eval_seconds": 372.125,
	"pass1_base": 0.5555555555555556,
	"pass1_oracle": 0.5502645502645502,
	"gap_recovered": 10.499999999999895,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_plus::mean",
	"task": "mbpp_plus",
	"method": "mean",
	"adapter_kind": "predicted",
	"adapter_dir": "/workspace/round3_out/round6/Y_pred/mbpp_plus_mean_N24_full",
	"max_new_tokens": 512,
	"pass1": 0.5370370370370371,
	"eval_examples": 378,
	"generated_examples": 378,
	"unit_test_eval": true,
	"evalplus_used": true,
	"details_summary": {
	"passed": 203,
	"failed": 175,
	"first_failures": [
	{
	"task_id": 806,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpjltmt1oi/candidate_test.py\", line 47, in <module>\n assertion(max_run_uppercase(*inp), exp, 0)\n File \"/tmp/tmpjltmt1oi/candidate_test.py\", line 41, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: 1, exp: 0\n",
	"code_chars": 245
	},
	{
	"task_id": 775,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp7ovlp6ml/candidate_test.py\", line 39, in <module>\n assertion(odd_position(*inp), exp, 0)\n File \"/tmp/tmp7ovlp6ml/candidate_test.py\", line 33, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: False, exp: True\n",
	"code_chars": 84
	},
	{
	"task_id": 590,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp7tt6f0ai/candidate_test.py\", line 43, in <module>\n assertion(polar_rect(*inp), exp, 0)\n File \"/tmp/tmp7tt6f0ai/candidate_test.py\", line 37, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: (-1.960930862590836, -2.2704074859237844), exp: ((5.0, 0.9272952180016122), (-2+2.4492935982947064e-16j))\n",
	"code_chars": 112
	},
	{
	"task_id": 593,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp1j0nm0et/candidate_test.py\", line 39, in <module>\n assertion(removezero_ip(*inp), exp, 0)\n File \"/tmp/tmp1j0nm0et/candidate_test.py\", line 33, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: 0.0.0.0, exp: 0...\n",
	"code_chars": 78
	},
	{
	"task_id": 294,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpifhduwmn/candidate_test.py\", line 39, in <module>\n assertion(max_val(*inp), exp, 0)\n ^^^^^^^^^^^^^\n File \"/tmp/tmpifhduwmn/candidate_test.py\", line 11, in max_val\n return max(lst)\n ^^^^^^^^\nTypeError: '>' not supported between instances of 'int' and 'str'\n",
	"code_chars": 37
	}
	]
	},
	"gpu": 7,
	"eval_seconds": 419.41,
	"pass1_base": 0.5555555555555556,
	"pass1_oracle": 0.5502645502645502,
	"gap_recovered": 3.4999999999999583,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_plus::oracle",
	"task": "mbpp_plus",
	"method": "oracle",
	"adapter_kind": "oracle",
	"adapter_dir": "/workspace/round3_out/round4/Y/mbpp_plus",
	"max_new_tokens": 512,
	"pass1": 0.5502645502645502,
	"eval_examples": 378,
	"generated_examples": 378,
	"unit_test_eval": true,
	"evalplus_used": true,
	"details_summary": {
	"passed": 208,
	"failed": 170,
	"first_failures": [
	{
	"task_id": 806,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp64ns7rf1/candidate_test.py\", line 47, in <module>\n assertion(max_run_uppercase(*inp), exp, 0)\n File \"/tmp/tmp64ns7rf1/candidate_test.py\", line 41, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: 1, exp: 0\n",
	"code_chars": 247
	},
	{
	"task_id": 141,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpynhgsj0i/candidate_test.py\", line 44, in <module>\n assertion(pancake_sort(*inp), exp, 0)\n File \"/tmp/tmpynhgsj0i/candidate_test.py\", line 38, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: [12, 21, 23, 45, 78, 89, 56, 90, 67, 76, 54, 54, 76, 32, 32, 67, 89], exp: [12, 21, 23, 32, 32, 45, 54, 54, 56, 67, 67, 76, 76, 78, 89, 89, 90]\n",
	"code_chars": 199
	},
	{
	"task_id": 590,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpde362zz4/candidate_test.py\", line 40, in <module>\n assertion(polar_rect(*inp), exp, 0)\n File \"/tmp/tmpde362zz4/candidate_test.py\", line 34, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: ((5.0, 0.9272952180016122), (-1.960930862590836-2.2704074859237844j)), exp: ((5.0, 0.9272952180016122), (-2+2.4492935982947064e-16j))\n",
	"code_chars": 104
	},
	{
	"task_id": 593,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpe67upedn/candidate_test.py\", line 39, in <module>\n assertion(removezero_ip(*inp), exp, 0)\n File \"/tmp/tmpe67upedn/candidate_test.py\", line 33, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: 216.08.094.196, exp: 216.8.94.196\n",
	"code_chars": 81
	},
	{
	"task_id": 75,
	"passed": false,
	"error": " File \"/tmp/tmptps_2d9_/candidate_test.py\", line 11\n return tuple(x for x in test_list if all(x[i] % k == 0 for i in range(len(x)))\n ^\nSyntaxError: '(' was never closed\n",
	"code_chars": 111
	}
	]
	},
	"gpu": 6,
	"eval_seconds": 860.499,
	"pass1_base": 0.5555555555555556,
	"pass1_oracle": 0.5502645502645502,
	"gap_recovered": 1.0,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_plus::topk8_global_ridge",
	"task": "mbpp_plus",
	"method": "topk8_global_ridge",
	"adapter_kind": "predicted",
	"adapter_dir": "/workspace/round3_out/round6/Y_pred/mbpp_plus_topk8_global_ridge_N24_full",
	"max_new_tokens": 512,
	"pass1": 0.4947089947089947,
	"eval_examples": 378,
	"generated_examples": 378,
	"unit_test_eval": true,
	"evalplus_used": true,
	"details_summary": {
	"passed": 187,
	"failed": 191,
	"first_failures": [
	{
	"task_id": 558,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp0220tvq0/candidate_test.py\", line 39, in <module>\n assertion(digit_distance_nums(*inp), exp, 0)\n ^^^^^^^^^^^^^^^^^^^^^^^^^\n File \"/tmp/tmp0220tvq0/candidate_test.py\", line 11, in digit_distance_nums\n return abs(int(str(a)[0]) - int(str(b)[0])) + abs(int(str(a)[1]) - int(str(b)[1])) + abs(int(str(a)[2]) - int(str(b)[2]))\n ~~~~~~^^^\nIndexError: string index out of range\n",
	"code_chars": 154
	},
	{
	"task_id": 806,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp6ovain3_/candidate_test.py\", line 47, in <module>\n assertion(max_run_uppercase(*inp), exp, 0)\n File \"/tmp/tmp6ovain3_/candidate_test.py\", line 41, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: 1, exp: 0\n",
	"code_chars": 245
	},
	{
	"task_id": 775,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpyizpe0qu/candidate_test.py\", line 39, in <module>\n assertion(odd_position(*inp), exp, 0)\n File \"/tmp/tmpyizpe0qu/candidate_test.py\", line 33, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: False, exp: True\n",
	"code_chars": 100
	},
	{
	"task_id": 141,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpnqt7raox/candidate_test.py\", line 44, in <module>\n assertion(pancake_sort(*inp), exp, 0)\n File \"/tmp/tmpnqt7raox/candidate_test.py\", line 38, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: [69, 38, 25, 79, 15], exp: [15, 25, 38, 69, 79]\n",
	"code_chars": 237
	},
	{
	"task_id": 590,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp1qx22qre/candidate_test.py\", line 42, in <module>\n assertion(polar_rect(*inp), exp, 0)\n File \"/tmp/tmp1qx22qre/candidate_test.py\", line 36, in assertion\n assert out == exp, f\"out: {out}, exp: {exp}\"\n ^^^^^^^^^^\nAssertionError: out: (-1.960930862590836, -2.2704074859237844), exp: ((5.0, 0.9272952180016122), (-2+2.4492935982947064e-16j))\n",
	"code_chars": 111
	}
	]
	},
	"gpu": 1,
	"eval_seconds": 385.606,
	"pass1_base": 0.5555555555555556,
	"pass1_oracle": 0.5502645502645502,
	"gap_recovered": 11.499999999999885,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_test_held::base_Y",
	"task": "mbpp_test_held",
	"method": "base_Y",
	"adapter_kind": "base",
	"adapter_dir": null,
	"max_new_tokens": 512,
	"pass1": 0.68,
	"eval_examples": 100,
	"generated_examples": 100,
	"unit_test_eval": true,
	"evalplus_used": false,
	"details_summary": {
	"passed": 68,
	"failed": 32,
	"first_failures": [
	{
	"task_id": 72,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp8_12_t73/candidate_test.py\", line 18, in <module>\n assert dif_Square(5) == True\n ^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 145
	},
	{
	"task_id": 77,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpy2_se6hu/candidate_test.py\", line 16, in <module>\n assert is_Diff(1212112) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 49
	},
	{
	"task_id": 138,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp539snbcc/candidate_test.py\", line 19, in <module>\n assert is_Sum_Of_Powers_Of_Two(10) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 119
	},
	{
	"task_id": 143,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpnn4uxh_i/candidate_test.py\", line 15, in <module>\n assert find_lists(([1, 2, 3, 4], [5, 6, 7, 8])) == 2\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 47
	},
	{
	"task_id": 56,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpm38tbipo/candidate_test.py\", line 15, in <module>\n assert check(70) == False\n ^^^^^^^^^\n File \"/tmp/tmpm38tbipo/candidate_test.py\", line 13, in check\n return str(n) == str(n)[::-1] + 1\n ~~~~~~~~~~~~~^~~\nTypeError: can only concatenate str (not \"int\") to str\n",
	"code_chars": 51
	}
	]
	},
	"gpu": 0,
	"eval_seconds": 74.648,
	"pass1_base": 0.68,
	"pass1_oracle": 0.62,
	"gap_recovered": -0.0,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_test_held::global_ridge",
	"task": "mbpp_test_held",
	"method": "global_ridge",
	"adapter_kind": "predicted",
	"adapter_dir": "/workspace/round3_out/round6/Y_pred/mbpp_test_held_global_ridge_N24_full",
	"max_new_tokens": 512,
	"pass1": 0.62,
	"eval_examples": 100,
	"generated_examples": 100,
	"unit_test_eval": true,
	"evalplus_used": false,
	"details_summary": {
	"passed": 62,
	"failed": 38,
	"first_failures": [
	{
	"task_id": 72,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpcl77akia/candidate_test.py\", line 18, in <module>\n assert dif_Square(5) == True\n ^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 110
	},
	{
	"task_id": 137,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpxql1jc2o/candidate_test.py\", line 15, in <module>\n assert math.isclose(zero_count([0, 1, 2, -1, -5, 6, 0, -3, -2, 3, 4, 6, 8]), 0.181818, rel_tol=0.001)\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 51
	},
	{
	"task_id": 138,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpepzmyft4/candidate_test.py\", line 19, in <module>\n assert is_Sum_Of_Powers_Of_Two(10) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 131
	},
	{
	"task_id": 19,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp80yyqpv1/candidate_test.py\", line 15, in <module>\n assert test_duplicate(([1,2,3,4,5]))==False\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 59
	},
	{
	"task_id": 16,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpx7kpx303/candidate_test.py\", line 15, in <module>\n assert text_lowercase_underscore(\"aab_cbbbc\")==(True)\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 100
	}
	]
	},
	"gpu": 3,
	"eval_seconds": 90.194,
	"pass1_base": 0.68,
	"pass1_oracle": 0.62,
	"gap_recovered": 1.0,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_test_held::mean",
	"task": "mbpp_test_held",
	"method": "mean",
	"adapter_kind": "predicted",
	"adapter_dir": "/workspace/round3_out/round6/Y_pred/mbpp_test_held_mean_N24_full",
	"max_new_tokens": 512,
	"pass1": 0.62,
	"eval_examples": 100,
	"generated_examples": 100,
	"unit_test_eval": true,
	"evalplus_used": false,
	"details_summary": {
	"passed": 62,
	"failed": 38,
	"first_failures": [
	{
	"task_id": 72,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpmzr1cfth/candidate_test.py\", line 18, in <module>\n assert dif_Square(5) == True\n ^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 122
	},
	{
	"task_id": 77,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpfst93r14/candidate_test.py\", line 16, in <module>\n assert is_Diff(1212112) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 49
	},
	{
	"task_id": 137,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpa3ic2h3_/candidate_test.py\", line 17, in <module>\n assert math.isclose(zero_count([0, 1, 2, -1, -5, 6, 0, -3, -2, 3, 4, 6, 8]), 0.181818, rel_tol=0.001)\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 122
	},
	{
	"task_id": 138,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmphjayjee1/candidate_test.py\", line 19, in <module>\n assert is_Sum_Of_Powers_Of_Two(10) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 119
	},
	{
	"task_id": 143,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpgho_ozi5/candidate_test.py\", line 15, in <module>\n assert find_lists(([1, 2, 3, 4], [5, 6, 7, 8])) == 2\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 47
	}
	]
	},
	"gpu": 2,
	"eval_seconds": 99.525,
	"pass1_base": 0.68,
	"pass1_oracle": 0.62,
	"gap_recovered": 1.0,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_test_held::oracle",
	"task": "mbpp_test_held",
	"method": "oracle",
	"adapter_kind": "oracle",
	"adapter_dir": "/workspace/round3_out/round4/Y/mbpp_test_held",
	"max_new_tokens": 512,
	"pass1": 0.62,
	"eval_examples": 100,
	"generated_examples": 100,
	"unit_test_eval": true,
	"evalplus_used": false,
	"details_summary": {
	"passed": 62,
	"failed": 38,
	"first_failures": [
	{
	"task_id": 72,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpodexp81h/candidate_test.py\", line 20, in <module>\n assert dif_Square(5) == True\n ^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 158
	},
	{
	"task_id": 77,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpxaivmqy9/candidate_test.py\", line 21, in <module>\n assert is_Diff(1212112) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 152
	},
	{
	"task_id": 137,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp24kwxxwv/candidate_test.py\", line 19, in <module>\n assert math.isclose(zero_count([0, 1, 2, -1, -5, 6, 0, -3, -2, 3, 4, 6, 8]), 0.181818, rel_tol=0.001)\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 111
	},
	{
	"task_id": 138,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp4k1en3yh/candidate_test.py\", line 21, in <module>\n assert is_Sum_Of_Powers_Of_Two(10) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 176
	},
	{
	"task_id": 16,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpbkeaovdv/candidate_test.py\", line 20, in <module>\n assert text_lowercase_underscore(\"Aaab_abbbc\")==(False)\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 147
	}
	]
	},
	"gpu": 1,
	"eval_seconds": 104.671,
	"pass1_base": 0.68,
	"pass1_oracle": 0.62,
	"gap_recovered": 1.0,
	"target_domain": "code"
	},
	{
	"cell_id": "C::mbpp_test_held::topk8_global_ridge",
	"task": "mbpp_test_held",
	"method": "topk8_global_ridge",
	"adapter_kind": "predicted",
	"adapter_dir": "/workspace/round3_out/round6/Y_pred/mbpp_test_held_topk8_global_ridge_N24_full",
	"max_new_tokens": 512,
	"pass1": 0.6,
	"eval_examples": 100,
	"generated_examples": 100,
	"unit_test_eval": true,
	"evalplus_used": false,
	"details_summary": {
	"passed": 60,
	"failed": 40,
	"first_failures": [
	{
	"task_id": 72,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpk02lwrma/candidate_test.py\", line 18, in <module>\n assert dif_Square(5) == True\n ^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 110
	},
	{
	"task_id": 77,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmp09golsn6/candidate_test.py\", line 19, in <module>\n assert is_Diff (12345) == False\n ^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 140
	},
	{
	"task_id": 137,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpablp55k9/candidate_test.py\", line 15, in <module>\n assert math.isclose(zero_count([0, 1, 2, -1, -5, 6, 0, -3, -2, 3, 4, 6, 8]), 0.181818, rel_tol=0.001)\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 51
	},
	{
	"task_id": 138,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpu8czsutd/candidate_test.py\", line 19, in <module>\n assert is_Sum_Of_Powers_Of_Two(10) == True\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 131
	},
	{
	"task_id": 19,
	"passed": false,
	"error": "Traceback (most recent call last):\n File \"/tmp/tmpvj4cdzyb/candidate_test.py\", line 15, in <module>\n assert test_duplicate(([1,2,3,4,5]))==False\n ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^\nAssertionError\n",
	"code_chars": 59
	}
	]
	},
	"gpu": 4,
	"eval_seconds": 89.27,
	"pass1_base": 0.68,
	"pass1_oracle": 0.62,
	"gap_recovered": 1.3333333333333333,
	"target_domain": "code"
	}
	]
	}