diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml new file mode 100644 index 0000000000000000000000000000000000000000..b100094b57dcb0534c717f1b5b0c7f93d34cde8e --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_agricultural_sciences.yaml @@ -0,0 +1,83 @@ +dataset_name: agricultural_sciences +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 콩 + B: 완두 + C: 보리 + D: 옥수수 + question: '질문: 지하발아형 종자가 아닌 것은?' + target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 지하발아형(상배축신장형) 종자는 배유종자와 + 무배유종자로 나눌 수 있습니다. 배유종자에는 벼, 보리, 밀, 귀리, 옥수수가 포함되며, 무배유종자에는 완두, 잠두, 팥, 상추가 포함됩니다. + 하지만 콩은 지하발아형 종자가 아니라 지상발아형 종자입니다. 따라서, 정답은 (A) 입니다. + - A: 습한 자루에 3∼6 ℃에서 1∼2주 처리 + B: 습한 모래에 1∼10 ℃에서 3∼4주 처리 + C: 습한 진흙에 2∼9 ℃에서 2∼3주 처리 + D: 습한 짚 속에 6∼10 ℃에서 1∼2주 처리 + question: 종자의 습윤저온층적(濕潤低溫層積) 저장 설명으로 가장 적합한 것은? + target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 종자의 습윤저온층적(濕潤低溫層積)이란, 일정한 + 기간 동안 종자를 습하고 저온의 환경에서 보관하여 종자 내부의 생리적, 생화학적 변화를 일으키는 처리 방법을 말합니다. 이는 종자의 발아를 + 촉진하거나 동조화시키는 데 사용됩니다. 먼저 각 선택지에 대해 검토해보겠습니다. (A) 선택지는 습한 자루에 3∼6 ℃에서 1∼2주 처리하는 + 방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한 습도와 저온을 제공할 수 있지만, 종자의 종류에 따라 처리 기간이 충분하지 않을 + 수 있습니다. (B) 선택지는 습한 모래에 1∼10 ℃에서 3∼4주 처리하는 방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한 + 습도와 저온을 제공하며, 처리 기간도 상대적으로 길어 종자의 변화를 촉진시키는 데 충분할 수 있습니다. (C) 선택지는 습한 진흙에 2∼9 + ℃에서 2∼3주 처리하는 방법을 제시하고 있습니다. 이 방법은 습윤저온층적에 필요한 습도와 저온을 제공하지만, 진흙은 종자에 부적절한 압력을 + 가하거나 종자를 손상시킬 수 있습니다. (D) 선택지는 습한 짚 속에 6∼10 ℃에서 1∼2주 처리하는 방법을 제시하고 있습니다. 이 방법은 + 습윤저온층적에 필요한 습도를 제공할 수 있지만, 온도 범위가 상대적으로 높고 처리 기간이 짧아 종자의 변화를 촉진시키는 데 충분하지 않을 + 수 있습니다. , 종자의 습윤저온층적 저장 설명으로 가장 적합한 것은 습한 모래에 1∼10 ℃에서 3∼4주 처리하는 방법인 (B) 선택지일 + 것으로 보입니다. 이 방법은 습윤저온층적에 필요한 조건을 충족시키며, 처리 기간도 종자의 변화를 촉진시키는 데 충분합니다. 따라서, 정답은 + (B) 입니다. + - A: 종자값이 저렴하다. + B: 여러 환경조건에 대한 완충능력이 있다. + C: 개화기간이 길어 다른 교잡종보다 수분기회가 많아 이삭이 충실해진다. + D: 불량 환경조건일 때 종자의 균일도가 단교잡종이나 삼원교잡종 종자보다 낮다. + question: 옥수수 복교잡종의 특징이 아닌 것은? + target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 옥수수 복교잡종의 특징에 대해 알아보겠습니다. + 복교잡종은 두 개의 서로 다른 교잡종을 교배하여 만든 품종으로, 다양한 환경 조건에 대한 완충 능력이 있고, 개화 기간이 길어 다른 교잡종보다 + 수분 기회가 많아 이삭이 충실해지는 특징이 있습니다. 선택지를 하나씩 살펴보겠습니다. (A) 종자값이 저렴하다. - 복교잡종은 두 개의 + 교잡종을 교배하여 만들기 때문에, 단교잡종이나 삼원교잡종에 비해 종자값이 저렴할 수 있습니다. (B) 여러 환경조건에 대한 완충능력이 있다. + - 복교잡종은 다양한 환경 조건에 대한 완충 능력이 있어, 불량 환경 조건에서도 비교적 높은 생산량을 유지할 수 있습니다. (C) 개화기간이 + 길어 다른 교잡종보다 수분기회가 많아 이삭이 충실해진다. - 복교잡종은 개화 기간이 길어 다른 교잡종보다 수분 기회가 많기 때문에 이삭이 + 충실해지는 특징이 있습니다. (D) 불량 환경조건일 때 종자의 균일도가 단교잡종이나 삼원교잡종 종자보다 낮다. - 불량 환경 조건에서는 + 복교잡종의 종자 균일도가 단교잡종이나 삼원교잡종 종자보다 낮을 수 있습니다. 따라서, 정답은 (D) 입니다. + - A: OPTION창고 완두 종자가 더 퇴화되었다. + B: OPTION창고 완두 종자가 더 퇴화되었다. + C: OPTION창고와 OPTION창고 완두 종자의 퇴화는 똑같다. + D: 비교할 수 없다. + question: 완두 종자를 AㆍB 창고에 보관한 후 전기전도도 조사를 실시한 결과, A창고에 보관한 완 두 종자의 침출액이 더 많았다. + 종자퇴화는 어느 것이 더 진전되었는가? + target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 완두 종자의 퇴화와 전기전도도 조사의 + 관계를 이해해야 합니다. 종자의 퇴화는 씨앗의 생명력이나 발아력이 감소하는 현상을 말합니다. 이는 보관 상태, 온도, 습도 등 여러 요인에 + 의해 영향을 받습니다. 전기전도도 조사는 종자의 퇴화 정도를 판단하는 데 널리 사용되는 방법 중 하나입니다. 이 방법은 종자에서 침출된 + 이온의 양을 측정하여 종자의 생체막 손상 정도를 판단하는 방법입니다. 즉, 전기전도도가 높으면 종자에서 많은 양의 이온이 침출되었음을 의미하며, + 이는 종자의 생체막이 손상되었음을 나타냅니다. , A창고에 보관한 완두 종자의 침출액이 더 많았다는 것은 전기전도도가 높았음을 의미하며, + 이는 A창고의 완두 종자가 더 많은 생체막 손상을 입었음을 나타냅니다. 이는 A창고의 완두 종자가 더 많이 퇴화되었음을 의미합니다. 따라서, + 정답은 (A) 입니다. + - A: 격리재배를 통하여 이종의 혼입을 막는다. + B: 무병지에서 채종한다. + C: 감자의 바이러스 병을 막기 위해 평지에서 채종한다. + D: 벼 종자는 평야지보다 분지에서 생산된 것이 임실이 좋아서 종자가치가 높다. + question: 우량종자를 생산하는 방법으로 잘못된 것은? + target: 차근 차근 생각해봅시다. 농업 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 각 선택지에 대해 이해를 해보겠습니다. + (A) 선택지는 우량종자를 생산하는 방법 중 하나로 격리재배를 통해 이종의 혼입을 막는 방법을 말합니다. 이는 종자의 품질을 보장하기 위해 + 필요한 과정이므로 올바른 방법입니다. (B) 선택지는 무병지에서 채종하는 방법을 말합니다. 무병지는 병원균이 없는 땅을 의미하며, 병원균이 + 없는 상태에서 채종을 하면 병에 강한 우량종자를 얻을 수 있으므로 이 역시 올바른 방법입니다. (C) 선택지는 감자의 바이러스 병을 막기 + 위해 평지에서 채종한다는 내용입니다. 감자는 바이러스 병에 취약한 식물로 알려져 있습니다. 하지만 그것이 평지에서 채종을 해야 한다는 것과 + 직접적인 연관성은 없습니다. 감자의 바이러스 병 예방은 주로 바이러스 자체를 통제하거나, 바이러스에 강한 품종을 선택하는 것 등이 중요하다고 + 알려져 있습니다. (D) 선택지는 벼 종자는 평야지보다 분지에서 생산된 것이 임실이 좋아서 종자가치가 높다는 내용입니다. 벼는 물을 많이 + 필요로 하는 식물로, 일반적으로 물이 잘 공급되는 분지에서 재배되는 것이 좋다고 알려져 있습니다. 이 역시 올바른 방법입니다. , + 각 선택지를 분석한 결과 (C) 선택지인 '감자의 바이러스 병을 막기 위해 평지에서 채종한다.'가 가장 잘못된 방법으로 보입니다. 이는 + 감자의 바이러스 병 예방과 평지에서의 채종 사이에 직접적인 연관성이 없기 때문입니다. 따라서, 정답은 (C) 입니다. +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_agricultural_sciences diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..4d6e52b77cdae2abdc3e4a37876cd48df98865e9 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml @@ -0,0 +1,83 @@ +dataset_name: biology +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 생물학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 환원당 + B: 알도오스 + C: 헥소오스 + D: 퓨라노오스 + question: '질문: 포도당의 특성이 아닌 것은?' + target: '차근 차근 생각해봅시다. 생물학 관련 정보를 위해 위키피디아를 참조하겠습니다. 포도당은 가장 기본적인 단당류로, 생물학적 에너지의 + 주요한 원천입니다. (A) 환원당: 포도당은 환원당입니다. 환원당은 카르보닐 그룹이 있는 당류로, 이 카르보닐 그룹이 다른 화합물을 환원할 + 수 있는 특성을 가지고 있습니다. 포도당은 이러한 환원 반응을 일으킬 수 있으므로 환원당입니다. (B) 알도오스: 포도당은 알도오스입니다. + 알도오스는 알데히드 그룹(-CHO)을 가진 당류를 의미합니다. 포도당은 이 알데히드 그룹을 가지고 있으므로 알도오스입니다. (C) 헥소오스: + 포도당은 헥소오스입니다. 헥소오스는 6개의 탄소 원자를 가진 당류를 의미합니다. 포도당은 6개의 탄소 원자를 가지고 있으므로 헥소오스입니다. + (D) 퓨라노오스: 이것은 포도당의 특성이 아닙니다. 퓨라노오스는 5원 고리 구조를 가진 당류를 의미합니다. 포도당은 헥소오스 즉, 6원 + 고리 구조를 가지는 것이 일반적입니다. , 포도당은 퓨라노오스가 아닙니다. 따라서, 정답은 (D) 입니다.' + - A: 현탄액법 + B: 동결보존법 + C: 동결건조법 + D: 액체질소 보존법 + question: 미생물을 보존하는 방법 중 승화에 의한 수분이 제거되는 원리를 이용하는 것은? + target: 차근 차근 생각해봅시다. 생물학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 승화에 대해 알아보겠습니다. 승화는 물질이 + 고체 상태에서 기체 상태로 변화하는 것을 말합니다. 이는 수분이 제거되는 원리를 사용하는 방법 중 하나입니다. (A). 현탄액법은 미생물을 + 보존하는 방법 중 하나로, 미생물을 현탄액에 담가 보존하는 방법입니다. 이 방법은 승화의 원리를 사용하지 않습니다. (B). 동결보존법은 + 미생물을 극저온에서 보존하는 방법입니다. 이 방법은 미생물을 액체 질소 등의 극저온 환경에 노출시켜 보존하는 방법으로, 승화의 원리를 사용하지 + 않습니다. (C). 동결건조법은 미생물을 빠르게 동결한 후, 진공 상태에서 물을 제거하여 보존하는 방법입니다. 이 방법은 승화의 원리를 + 사용하여 물을 제거합니다. 동결된 미생물에서 물이 직접 기체 상태로 변화하게 되는데, 이것이 바로 승화입니다. (D). 액체질소 보존법은 + 미생물을 액체 질소에서 보존하는 방법입니다. 이 방법은 극저온에서 미생물을 보존하는 방법으로, 승화의 원리를 사용하지 않습니다. , 승화에 + 의한 수분이 제거되는 원리를 이용하는 미생물 보존 방법은 동결건조법입니다. 따라서, 정답은 (C) 입니다. + - A: 4시간 30분 + B: 5시간 + C: 5시간 30분 + D: 6시간 + question: 세포가 한번 분열하는데 30분이 걸린다면, 1개의 세포가 2048개로 분열하는데 걸리는 시간은? (단, 세포는 죽지 않는다고 + 가정한다.) + target: 차근 차근 생각해봅시다. 생물학 관련 정보를 위해 위키피디아를 참조하겠습니다. 세포가 분열하는데 30분이 걸린다는 것은, 1개의 + 세포가 2개로 분열하는데 30분이 필요하다는 것을 의미합니다. 이런 패턴이 계속된다면, 세포의 수는 2의 지수 형태로 증가하게 됩니다. + 즉, 1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048 순으로 증가하게 됩니다. 이러한 증가 방식을 + 보면, 세포가 처음 1개에서 2개로 분열하는데 30분이 걸리고, 그 다음 2개에서 4개로 분열하는데 추가로 30분이 걸립니다. 이런 식으로 + 세포의 수가 2배로 증가할 때마다 30분씩 추가로 걸립니다. , 1개의 세포가 2048개로 분열하는데 걸리는 시간을 계산하려면, 2048이 + 2의 몇 승인지 알아내면 됩니다. 2048은 2의 11승이므로, 11번의 분열이 필요하다는 것을 알 수 있습니다. 각 분열이 30분씩 걸리므로, + 총 시간은 11 * 30 = 330분이 됩니다. 330분을 시간과 분으로 변환하면, 5시간 30분이 됩니다. 따라서, 정답은 (C) 입니다. + - A: '8' + B: '10' + C: '12' + D: '14' + question: 10-6 N NaOH 수용액의 pH는? + target: 차근 차근 생각해봅시다. 생물학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, NaOH는 강염기로 알려져 있습니다. 강염기는 + 수용액에서 완전히 이온화되어 수산화 이온(OH-)을 생성합니다. NaOH의 농도가 pH에 직접적인 영향을 미칩니다. pH는 아래의 공식을 + 사용하여 계산됩니다. pH = -log[H+] 여기서 [H+]는 수산화 이온의 농도입니다. 그러나 우리는 NaOH의 농도를 알고 있으며, + 이는 수산화 이온의 농도와 동일합니다. 우리는 이를 pOH로 변환해야 합니다. pOH는 아래의 공식을 사용하여 계산됩니다. pOH = + -log[OH-] 여기서 [OH-]는 수산화 이온의 농도입니다. 주어진 문제에서 NaOH의 농도는 10^-6 N입니다. 이것을 pOH 공식에 + 대입하면, pOH = -log(10^-6) = 6 이를 통해 알 수 있는 것은, 이 수용액의 pOH는 6이라는 것입니다. 그러나 우리는 + pH를 찾고 있습니다. pH와 pOH는 다음과 같은 관계를 가지고 있습니다. pH + pOH = 14 pH는 14 - pOH = 14 + - 6 = 8입니다. 따라서, 정답은 (A) 입니다. + - A: 절대호산성 미생물 + B: 통성호산성 미생물 + C: 통성호염성 미생물 + D: 절대호염성 미생물 + question: 세포막의 안정성을 유지하기 위하여 고농도의 수소이온을 필요로 하며 중성 pH에서는 세포막이 파괴되어 성장할 수 없는 미생물은? + target: '차근 차근 생각해봅시다. 생물학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 각 선택지에 대한 이해가 필요합니다. + (A). 절대호산성 미생물: 이들은 극도의 산성 환경에서만 생존할 수 있는 미생물입니다. 즉, 중성의 환경에서 전혀 생육이 불가능합니다. + (B). 통성호산성 미생물: 이들은 산성 환경에서 성장하지만, 중성 또는 약 알칼리성 환경에서도 성장할 수 있는 미생물입니다. (C). + 통성호염성 미생물: 이들은 염분이 많은 환경에서 성장하지만, 염분이 적은 환경에서도 성장할 수 있는 미생물입니다. (D). 절대호염성 미생물: + 이들은 염분이 많은 환경에서만 성장할 수 있는 미생물입니다. 질문에서는 세포막의 안정성을 유지하기 위해 고농도의 수소이온이 필요하며, 중성 + pH에서는 세포막이 파괴되어 성장할 수 없는 미생물에 대해 묻고 있습니다. 수소 이온의 농도는 pH와 관련이 있습니다. pH가 낮을수록 + 수소 이온의 농도가 높아지며, 이는 산성 환경을 의미합니다. , 고농도의 수소 이온을 필요로 하는 미생물은 산성 환경에서 성장하는 미생물일 + 것입니다. 또한, 중성 pH에서 세포막이 파괴되어 성장할 수 없다는 점을 고려하면, 이 미생물은 중성 또는 알칼리성 환경에서는 성장할 수 + 없어야 합니다. 이러한 조건을 충족하는 미생물은 절대호산성 미생물입니다. 절대호산성 미생물은 극도로 산성 환경에서만 생존할 수 있으며, + 중성 또는 알칼리성 환경에서는 성장할 수 없습니다. 따라서, 정답은 (A) 입니다.' +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_biology diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..87d3d22e5a9713b11d53c10eda9b2de85ea96523 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_civil_engineering.yaml @@ -0,0 +1,100 @@ +dataset_name: civil_engineering +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 토목 공학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 도 · 농 통합적 계획으로의 전환 + B: 에너지 절약형 도시개발로의 전환 + C: 입체적 · 기능 통합적 토지이용관리 + D: 시민참여의 확대와 계획 및 개발주체의 단일화 + question: '질문: 도시의 새로운 계획 패러다임의 방향이 아닌 것은?' + target: 차근 차근 생각해봅시다. 토목 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 도시 계획의 새로운 패러다임은 주로 지속 가능한 + 개발과 더불어 사회, 경제, 환경의 균형을 유지하려는 방향으로 변화하고 있습니다. (A) 도·농 통합적 계획으로의 전환은 도시와 농촌 간의 + 균형있는 발전을 위한 방향으로, 지속 가능한 개발을 위한 중요한 패러다임입니다. 이는 도시와 농촌 간의 상호 의존성을 인식하고, 두 지역 + 간의 경제적, 사회적, 환경적 균형을 추구합니다. (B) 에너지 절약형 도시개발로의 전환은 에너지 효율성을 높이고, 에너지 소비를 줄이는 + 것을 목표로 합니다. 이는 환경 보호와 지속 가능한 개발을 위한 중요한 패러다임입니다. (C) 입체적 · 기능 통합적 토지이용관리는 다양한 + 기능과 활동을 효율적으로 수용하고, 토지 이용의 다양성을 증진시키는 것을 목표로 합니다. 이는 토지 자원의 효율적인 활용을 위한 중요한 + 패러다임입니다. (D) 시민참여의 확대와 계획 및 개발주체의 단일화는 다소 상반되는 개념입니다. 시민 참여의 확대는 도시 계획과 개발 과정에서 + 시민들의 의견을 더욱 존중하고, 그들의 요구와 필요를 반영하는 것을 목표로 합니다. 반면에, 계획 및 개발주체의 단일화는 주로 효율성과 + 통합성을 추구하는 경향이 있습니다. 이 두 가지 개념은 동시에 존재하기 어렵습니다. 시민 참여의 확대는 다양한 의견과 요구를 수용하려는 + 노력을 필요로 하지만, 개발주체의 단일화는 주로 결정권을 한 곳에 집중시키려는 경향이 있습니다. , 도시의 새로운 계획 패러다임의 방향이 + 아닌 것은 '시민참여의 확대와 계획 및 개발주체의 단일화'입니다. 이 두 가지는 동시에 존재하기 어렵습니다. 시민 참여의 확대는 다양한 + 의견과 요구를 수용하려는 노력을 필요로 하지만, 개발주체의 단일화는 주로 결정권을 한 곳에 집중시키려는 경향이 있습니다. 이 두 가지 개념은 + 서로 상반되는 경향이 있어 동시에 존재하기 어렵습니다. 따라서, 정답은 (D) 입니다. + - A: 토지대장 + B: 건축물대장 + C: 토지특성조사표 + D: 토지이용계획확인서 + question: 개별 필지에 대한 규제사항 및 토지이용계획사항을 확인하는 것으로, 해당 토지에 대한 용도지역ㆍ지구ㆍ구역, 도시ㆍ군계획시설, + 도시계획사업과 입안내용, 그리고 각종 규제에 대한 저축 여부 등을 확인할 수 있는 자료는? + target: 차근 차근 생각해봅시다. 토목 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 개별 필지에 대한 규제사항 및 토지이용계획사항을 + 확인하는 자료를 찾아야 합니다. (A) 토지대장은 토지의 소유자, 소재지, 지목, 면적 등 토지의 기본적인 사항을 기록한 공적인 증명서입니다. + 이는 토지의 기본적인 정보를 제공하지만, 규제사항이나 토지이용계획사항에 대한 정보는 포함하지 않습니다. (B) 건축물대장은 건축물의 위치, + 구조, 용도, 면적 등 건축물에 관한 사항을 기록한 공적인 증명서입니다. 이는 건축물에 대한 정보를 제공하지만, 토지에 대한 규제사항이나 + 이용계획사항에 대한 정보는 포함하지 않습니다. (C) 토지특성조사표는 토지의 지리적, 지질학적 특성을 조사하여 작성한 표입니다. 이는 토지의 + 특성에 대한 정보를 제공하지만, 규제사항이나 이용계획사항에 대한 정보는 포함하지 않습니다. (D) 토지이용계획확인서는 토지의 용도지역, + 지구, 구역, 도시, 군계획시설, 도시계획사업과 입안내용, 그리고 각종 규제에 대한 저축 여부 등을 확인할 수 있는 공적인 증명서입니다. + 이는 토지에 대한 규제사항 및 이용계획사항을 확인하는데 필요한 모든 정보를 포함하고 있습니다. 따라서, 정답은 (D) 입니다. + - A: 바스라(OPTIONasra) - 튀니지 + B: 라바트(Rabat) - 모로코 + C: 푸스타트(Fustat) - 이집트 + D: 코르도바(OPTIONordoba) - 스페인 + question: 중세시대 이슬람도시의 특성을 나타내고 있는 도시와 국가의 연결이 틀린 것은? + target: 차근 차근 생각해봅시다. 토목 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 선택지에 나와 있는 도시들이 중세시대 + 이슬람 도시의 특성을 나타내는 도시인지 확인해보겠습니다. (A) 바스라(Basra)는 이라크에 위치한 도시로, 중세 이슬람 시대에 바그다드와 + 함께 중요한 도시 중 하나였습니다. (B) 라바트(Rabat)는 모로코의 수도로, 중세 이슬람 시대에는 페스와 함께 모로코의 대표적인 도시였습니다. + (C) 푸스타트(Fustat)는 이집트 카이로에 위치한 도시로, 중세 이슬람 시대에 건설된 도시 중 하나입니다. (D) 코르도바(Cordoba)는 + 스페인에 위치한 도시로, 중세 이슬람 시대에는 유럽에서 가장 큰 도시 중 하나였습니다. 이제 각 도시와 국가의 연결이 맞는지 확인해보겠습니다. + (A) 바스라(Basra)는 이라크에 위치한 도시로, 튀니지와 연결되어 있지 않습니다. (B) 라바트(Rabat)는 모로코에 위치한 도시로, + 모로코와 연결되어 있습니다. (C) 푸스타트(Fustat)는 이집트에 위치한 도시로, 이집트와 연결되어 있습니다. (D) 코르도바(Cordoba)는 + 스페인에 위치한 도시로, 스페인과 연결되어 있습니다. 따라서, 정답은 (A) 입니다. + - A: 도ㆍ농 통합적 계획 지향 + B: 지속가능한 도시개발 지향 + C: 성장위주의 경제논리가 지배하는 도시개발 지향 + D: 시민참여 확대와 계획 및 개발주체의 다양화 지향 + question: 새로운 도시계획 패러다임으로 적절하지 않은 것은? + target: '차근 차근 생각해봅시다. 토목 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 각 선택지가 무엇을 의미하는지 살펴보겠습니다. + (A) 도ㆍ농 통합적 계획 지향: 이는 도시와 농촌이 서로 독립적으로 발전하는 것이 아니라, 상호보완적이고 균형있는 발전을 추구하는 것을 + 의미합니다. 즉, 도시와 농촌이 서로에게 필요한 자원과 기능을 제공하며, 상호 의존적인 관계를 유지하도록 계획하는 것입니다. (B) 지속가능한 + 도시개발 지향: 이는 환경, 경제, 사회 등 다양한 측면에서 지속 가능한 도시 개발을 추구하는 것을 의미합니다. 즉, 현재 세대의 필요를 + 충족시키는 동시에 미래 세대의 필요를 충족시킬 수 있도록 도시를 계획하고 개발하는 것입니다. (D) 시민참여 확대와 계획 및 개발주체의 + 다양화 지향: 이는 도시계획과 개발 과정에서 시민들의 의견을 적극적으로 수렴하고, 다양한 주체들이 도시계획과 개발에 참여하는 것을 추구하는 + 것을 의미합니다. (C) 성장위주의 경제논리가 지배하는 도시개발 지향: 이는 경제적 성장을 최우선 목표로 삼고, 그를 위해 도시를 계획하고 + 개발하는 것을 의미합니다. 이는 단기적인 경제적 이익을 추구하는 경향이 있으며, 이로 인해 환경 파괴, 사회적 불평등 등의 문제가 발생할 + 수 있습니다. , 새로운 도시계획 패러다임에서는 지속가능성, 균형, 다양성 등을 중요하게 생각합니다. 이에 비해 성장위주의 경제논리가 + 지배하는 도시개발 지향은 단기적인 경제적 이익을 우선시하는 경향이 있어, 이는 새로운 도시계획 패러다임과는 맞지 않는 것으로 보입니다. + 따라서, 정답은 (C) 입니다.' + - A: 협약(covenant) + B: 획지분할규제(subdivision control) + C: 공도(official mapping) + D: 성장관리(growth management) + question: 부동산 소유자간 또는 개발업자와 구입자 사이에 체결되는 민사계약으로 지역제보다 훨씬 상세하고 엄격한 규정으로 되어 있으며, + 일반적으로 토지ㆍ건물대장 및 권리서에 기재되어 부동산 매매 시 신규 구입자에게로 승계되는 것으로, 미국의 근대도시계획 성립기에 지역제의 + 바탕이 된 제도는? + target: 차근 차근 생각해봅시다. 토목 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 문제에서 요구하는 것은 부동산 소유자간 + 또는 개발업자와 구입자 사이에 체결되는 민사계약이며, 이 계약은 지역제보다 훨씬 상세하고 엄격한 규정으로 되어 있다는 것입니다. 그리고 + 이 계약은 토지, 건물대장 및 권리서에 기재되어 부동산 매매 시 신규 구입자에게로 승계되는 것입니다. 마지막으로, 이 계약은 미국의 근대도시계획 + 성립기에 지역제의 바탕이 된 제도라고 합니다. 선택지를 살펴보면, (A) 협약(covenant), (B) 획지분할규제(subdivision + control), (C) 공도(official mapping), (D) 성장관리(growth management)가 있습니다. (A) 협약(covenant)은 + 일반적으로 두 당사자 사이에 체결되는 계약을 의미하며, 부동산 매매에 있어서도 이용됩니다. 또한, 이 협약은 토지, 건물대장 및 권리서에 + 기재되어 부동산 매매 시 신규 구입자에게로 승계되는 것이 일반적입니다. (B) 획지분할규제(subdivision control)는 부동산 + 개발 과정에서 적용되는 규제로, 토지를 분할하여 개발하는 경우에 적용되는 규제입니다. 이 규제는 개발자가 토지를 분할하여 팔 때 적용되는 + 것이므로, 이는 부동산 소유자간의 계약이 아니라 개발업자와 구입자 사이의 계약에 더 가깝습니다. (C) 공도(official mapping)는 + 도시 계획을 위한 지도를 의미하며, 이는 도시의 미래 발전을 계획하는 데 사용됩니다. 이는 부동산 계약과는 직접적인 관련이 없습니다. (D) + 성장관리(growth management)는 도시의 성장을 관리하고 통제하는 데 사용되는 정책이나 기법을 의미합니다. 이는 부동산 계약과는 + 직접적인 관련이 없습니다. , 문제에서 요구하는 부동산 소유자간 또는 개발업자와 구입자 사이에 체결되는 민사계약이며, 이 계약은 지역제보다 + 훨씬 상세하고 엄격한 규정으로 되어 있으며, 이 계약은 토지, 건물대장 및 권리서에 기재되어 부동산 매매 시 신규 구입자에게로 승계되는 + 것이며, 이 계약은 미국의 근대도시계획 성립기에 지역제의 바탕이 된 제도는 (A) 협약(covenant)이 가장 적절한 선택입니다. 따라서, + 정답은 (A) 입니다. +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_civil_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml new file mode 100644 index 0000000000000000000000000000000000000000..463b8e75b371b82b313b5594010e4c51bb5eed70 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_computer_science.yaml @@ -0,0 +1,99 @@ +dataset_name: computer_science +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 컴퓨터 공학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: '비밀성 : 자료 유출의 방지' + B: '접근제어 : 프로토콜 데이터 부분의 접근 제어' + C: '무결성 : 메시지의 변조를 방지' + D: '부인봉쇄 : 송수신 사실의 부정 방지' + question: '질문: 암호 프로토콜 서비스에 대한 설명 중 옳지 않은 것은?' + target: '차근 차근 생각해봅시다. 컴퓨터 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 각 선택지에 대한 정확한 정의를 + 이해하는 것이 중요합니다. (A) 비밀성: 이는 데이터가 전송 중에 외부로부터 보호되어, 오직 수신자만이 그 내용을 이해할 수 있게 하는 + 것을 의미합니다. 이는 ''자료 유출의 방지''와 일치하는 설명입니다. (B) 접근제어: 이는 데이터나 리소스에 대한 접근을 제어하는 것을 + 의미합니다. 이는 일반적으로 사용자의 권한을 확인하고, 해당 권한에 따라 데이터나 리소스에 접근할 수 있는지를 결정합니다. 하지만, ''프로토콜 + 데이터 부분의 접근 제어''라는 설명은 정확하지 않습니다. 접근제어는 일반적으로 데이터나 리소스에 대해 적용되지, 특정 프로토콜 데이터 + 부분에 대해 적용되지는 않습니다. (C) 무결성: 이는 데이터가 전송 중에 변경되거나 손상되는 것을 방지하는 것을 의미합니다. 이는 ''메시지의 + 변조를 방지''와 일치하는 설명입니다. (D) 부인봉쇄: 이는 데이터의 송수신 사실을 부정할 수 없게 하는 것을 의미합니다. 이는 ''송수신 + 사실의 부정 방지''와 일치하는 설명입니다. , 정확하지 않은 설명은 (B) 접근제어: 프로토콜 데이터 부분의 접근 제어입니다. ''프로토콜 + 데이터 부분의 접근 제어''라는 설명은 접근제어의 정의와 일치하지 않습니다. 따라서, 정답은 (B) 입니다.' + - A: 해킹 + B: 펌웨어 + C: 크래킹 + D: 방화벽 + question: 인터넷상에서 시스템 보안 문제는 중요한 부분이다. 보안이 필요한 네트워크 통로를 단일화하여 이 출구를 보안 관리함으로써 외부로부터의 + 불법적인 접근을 막는 시스템은? + target: '차근 차근 생각해봅시다. 컴퓨터 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 인터넷상에서 시스템 보안 문제를 해결하기 + 위한 방법에 대한 질문입니다. 각 선택지를 분석해보겠습니다. (A) 해킹: 해킹은 시스템의 보안을 침해하는 행위를 의미합니다. 해킹은 보안 + 문제를 해결하는 방법이 아니라 보안 문제를 일으키는 원인 중 하나입니다. 이 선택지는 정답이 될 수 없습니다. (B) 펌웨어: 펌웨어는 + 컴퓨터나 장치의 제어 및 운영에 필요한 소프트웨어를 의미합니다. 펌웨어는 장치의 기능을 실행하는데 필요하지만, 직접적으로 보안을 관리하는 + 시스템은 아닙니다. 이 선택지도 정답이 아닙니다. (C) 크래킹: 크래킹은 보안 시스템을 무력화하거나 소프트웨어의 보호 기능을 제거하는 + 행위를 의미합니다. 해킹과 마찬가지로 크래킹도 보안 문제를 일으키는 원인 중 하나이므로 이 선택지도 정답이 아닙니다. (D) 방화벽: 방화벽은 + 네트워크의 보안을 유지하기 위해 설계된 시스템입니다. 네트워크 통로를 단일화하여 이 출구를 보안 관리함으로써 외부로부터의 불법적인 접근을 + 막습니다. 이 설명은 질문에서 요구하는 시스템의 기능과 일치합니다. 따라서, 정답은 (D) 입니다.' + - A: 논리 폭탄 + B: 웜 + C: 트로이 목마 + D: 잠입 + question: 인터넷에서 일어날 수 있는 대표적인 보안사고 유형으로 어떤 침입 행위를 시도하기 위해 일정기간 위장한 상태를 유지하며, 코드 + 형태로 시스템의 특정 프로그램 내부에 존재 하는 것은? + target: 차근 차근 생각해봅시다. 컴퓨터 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 이 질문은 인터넷 보안에 관한 것으로, 특정한 + 침입 행위를 위해 일정 기간 동안 위장하고, 코드 형태로 시스템의 특정 프로그램 내부에 존재하는 보안사고 유형에 대한 것입니다. 선택지를 + 하나씩 살펴보면, (A) 논리 폭탄은 특정 조건이 충족될 때까지 자신의 존재를 숨기고 그 조건이 만족되면 행동을 시작하는 프로그램을 의미합니다. + 하지만 이는 특정 시간 동안 위장하는 것이 아니라 특정 조건이 충족될 때까지 대기하는 것이므로 이 질문의 답이 아닙니다. (B) 웜은 네트워크를 + 통해 시스템에 침입하고 자신을 복제하여 다른 시스템에 전파하는 코드를 의미합니다. 웜은 자동으로 전파되지만 특정 프로그램 내부에 숨어있다가 + 공격하는 것은 아니므로 이 질문의 답이 아닙니다. (C) 트로이 목마는 사용자가 원하는 프로그램처럼 보이지만 실제로는 시스템에 해를 끼치는 + 코드를 실행하는 악성 프로그램입니다. 트로이 목마는 사용자가 원하는 프로그램으로 위장하여 시스템에 침입하고, 일정 시간 동안 그 상태를 + 유지할 수 있습니다. (D) 잠입은 시스템에 무단으로 들어가 정보를 훔치는 행위를 의미합니다. 하지만 이는 특정 프로그램 내부에 숨어있다가 + 공격하는 것이 아니라 시스템 자체에 침입하는 것이므로 이 질문의 답이 아닙니다. , 이 질문의 답은 (C) 트로이 목마입니다. 이 악성 + 프로그램은 사용자가 원하는 프로그램으로 위장하여 시스템에 침입하고, 일정 시간 동안 그 상태를 유지할 수 있습니다. 이는 질문에서 언급한 + "일정 기간 동안 위장하고, 코드 형태로 시스템의 특정 프로그램 내부에 존재하는" 보안사고 유형을 가장 잘 설명합니다. 따라서, 정답은 + (C) 입니다. + - A: Primary Server + B: OPTIONache Server + C: Expert Server + D: Master Name Server + question: DNS(Domain Name System) 서버 종류에 속하지 않는 것은? + target: '차근 차근 생각해봅시다. 컴퓨터 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. DNS(Domain Name System)는 + 웹 브라우징에 있어 핵심적인 역할을 하는 시스템입니다. 이 시스템은 사람이 읽을 수 있는 도메인 이름을 컴퓨터가 이해할 수 있는 IP 주소로 + 변환하는 역할을 합니다. 이렇게 하면 사용자가 웹사이트의 IP 주소를 외우지 않고도 웹사이트를 방문할 수 있습니다. DNS 서버의 종류에 + 대해 알아보면 다음과 같습니다. (A). Primary Server: 이는 DNS 구조의 가장 중요한 서버입니다. 모든 DNS 레코드를 + 저장하고, 이 정보를 다른 DNS 서버에 제공합니다. (B). Cache Server: 이 서버는 DNS 요청에 대한 응답을 임시로 저장하는 + 역할을 합니다. 이를 통해 같은 요청이 들어올 때마다 Primary Server에 접속하지 않고 빠르게 응답할 수 있습니다. (D). Master + Name Server: 이는 Primary Server와 같은 역할을 합니다. DNS 구조에서 가장 중요한 서버로, 모든 DNS 레코드를 + 저장하고, 이 정보를 다른 DNS 서버에 제공합니다. 그러나, (C). Expert Server는 DNS 서버의 종류로 존재하지 않습니다. + 따라서, 정답은 (C) 입니다.' + - A: OPTION1급은 보안에 대한 기능이 없는 것으로, MS-OPTIONOS 등이 이에 해당한다. + B: OPTION1급은 사용자의 접근제어, OPTIONuditing, Shadow Password 등의 부가적인 기능이 제공된다. + C: OPTION급의 보안OS는 다단계 보안을 제공하며, 필수적인 접근제어 등이 제공된다. + D: OPTION급은 검증된 설계 수준으로서 수학적인 검증 과정이 요구된다. + question: 보안 OS(Secure OS)에 대한 설명 중 가장 옳지 않은 것은? + target: '차근 차근 생각해봅시다. 컴퓨터 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 보안 운영 체제(Secure OS)의 분류에 + 대한 설명 중에서 가장 옳지 않은 것을 찾으려면, 각 옵션에 제시된 내용을 TCSEC(Trusted Computer System Evaluation + Criteria)의 기준에 따라 검토해야 합니다. TCSEC은 미국 국방부에서 개발한 시스템 보안 등급을 정의한 기준입니다. 각 등급은 + 다음과 같은 특징을 가집니다: D등급 (Minimal Protection): 보안 설정이 전혀 이루어지지 않은 시스템. C1등급 (Discretionary + Security Protection): 일반적인 로그인 과정이 있으며, 사용자 간 침범이 차단됨. 사용자는 자신이 생성한 파일에 대한 권한 + 설정이 가능. C2등급 (Controlled Access Protection): 계정별 로그인 가능, 그룹별 통제가 가능한 시스템. B1등급 + (Labeled Security): 시스템에 보안 정책 적용 가능, 데이터에 보안 레벨 설정 가능. B2등급 (Structured Protection): + B1 등급의 기능을 모두 포함, 정형화된 보안 정책 존재. B3등급 (Security Domains): 운영체제상 불필요한 영역 제거, + 모듈별 분석 및 테스트 가능. 시스템 파일 및 디렉터리에 대한 접근 방식 지정, 위험 동작 사용자에 대한 백업 자동화. A1등급 (Verified + Design): 수학적으로 완벽한 시스템 설계. 이 정보를 바탕으로 각 옵션을 검토해 보면: (A) D1급은 보안 기능이 없는 것으로 설명되어 + 있는데, 실제로 D등급은 보안 설정이 전혀 이루어지지 않은 시스템을 의미합니다. (B) C1급은 사용자의 접근 제어, 감사 추적(Auditing), + Shadow Password 등의 부가적인 기능이 제공된다고 설명되어 있으나, 실제 C1 등급은 일반적인 로그인 과정이 있고 사용자 간 + 침범을 차단하는 정도의 기능을 제공합니다. 감사 추적이나 Shadow Password는 C1에서 특별히 언급되지 않습니다. (C) B급의 + 보안 OS는 다단계 보안을 제공하며, 필수적인 접근제어 등이 제공된다고 설명되어 있으며, 이는 B등급의 특징을 정확하게 반영합니다. (D) + A급은 검증된 설계 수준으로서 수학적인 검증 과정이 요구된다고 설명되어 있으며, 이는 A1등급의 특징을 정확하게 반영합니다. 그러나, C1급은 + 주어진 설명에서 언급된 감사 추적(Auditing)이나 Shadow Password와 같은 부가적인 기능보다는 사용자 간 침범 차단과 사용자별 + 파일 권한 설정에 초점을 맞춘 것으로 정의됩니다. 따라서, 정답은 (B) 입니다.' +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_computer_science diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml new file mode 100644 index 0000000000000000000000000000000000000000..a277f637fa5d5a99989a00e14d68cf81ac679727 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_construction.yaml @@ -0,0 +1,86 @@ +dataset_name: construction +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 건설 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 흡기온도를 높인다. + B: 산소(O2)의 농도를 낮춘다. + C: 연소온도를 높인다. + D: 반응시간을 길게한다. + question: '질문: 디젤기관에서 질소 산화물(NOX)의 발생을 억제하려면 어떻게 해야 하는가?' + target: '차근 차근 생각해봅시다. 건설 관련 정보를 위해 위키피디아를 참조하겠습니다. 디젤 엔진에서 질소 산화물(NOx)의 발생을 억제하려면 + 연소 과정에서의 조건을 조절해야 합니다. 질소 산화물은 고온에서 산소와 질소가 결합할 때 생성되는데, 이는 디젤 엔진의 연소 과정에서 일어납니다. + (A) 흡기 온도를 높인다: 흡기 온도를 높이면, 공기와 연료의 혼합물이 더욱 빠르게 연소하게 되고 이는 연소 온도를 높이게 됩니다. NOx의 + 생성을 증가시킬 수 있습니다. (B) 산소(O2)의 농도를 낮춘다: 산소 농도를 낮추면, 연소 과정에서 산소와 질소가 결합하여 NOx를 + 생성하는 것을 줄일 수 있습니다. NOx의 발생을 억제하는데 도움이 될 수 있습니다. (C) 연소 온도를 높인다: 연소 온도를 높이면, + NOx의 생성이 증가합니다. 이는 NOx가 고온에서 산소와 질소가 결합할 때 생성되기 때문입니다. (D) 반응 시간을 길게 한다: 이론적으로, + 반응 시간을 길게 하면 연소 과정이 더욱 완전해지고, 이는 NOx의 생성을 줄일 수 있습니다. 그러나 실제로는 연소 시간이 길어지면 엔진의 + 효율이 떨어질 수 있으므로, 이 방법이 항상 적용 가능한 것은 아닙니다. , 산소의 농도를 낮추는 것이 디젤 엔진에서 NOx의 발생을 + 억제하는 가장 효과적인 방법으로 보입니다. 이는 연소 과정에서 산소와 질소가 결합하여 NOx를 생성하는 것을 줄일 수 있기 때문입니다. + 따라서, 정답은 (B) 입니다.' + - A: 냉각수온이 낮을 때 + B: 시동시 + C: 연료차단시 + D: 공전시 + question: 전자제어 기관에서 산소센서가 피드백이 되는 조건은? + target: '차근 차근 생각해봅시다. 건설 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 산소센서가 피드백 되는 조건을 파악하기 + 위해 전자제어 기관에서의 산소센서 역할을 이해해야 합니다. 산소센서는 배기가스 중 산소 농도를 검출하여 ECU(전자제어장치)에 전달하는 + 역할을 합니다. 이를 통해 ECU는 엔진의 상태를 파악하고, 최적의 공연비를 유지할 수 있도록 제어합니다. 산소센서가 피드백 되는 조건은 + 다음과 같습니다. - 엔진이 가동 중일 때: 산소센서는 엔진이 가동 중일 때만 작동합니다. - 공연비가 적절할 때: 산소센서는 공연비가 + 적절할 때만 피드백 됩니다. 공연비란, 공기와 연료의 비율을 말합니다. - 냉각수온이 정상일 때: 냉각수온이 낮으면 산소센서의 작동에 영향을 + 미칠 수 있습니다. 위의 조건을 바탕으로 선택지를 검토해보겠습니다. (A) 냉각수온이 낮을 때: 냉각수온이 낮으면 산소센서의 작동에 영향을 + 미칠 수 있으므로, 이는 피드백이 되는 조건이 아닙니다. (B) 시동시: 시동 시에는 엔진이 가동 중이지만, 공연비가 적절하지 않을 수 + 있으므로, 이는 피드백이 되는 조건이 아닙니다. (C) 연료차단시: 연료차단시에는 엔진이 가동 중이지만, 공연비가 적절하지 않을 수 있으므로, + 이는 피드백이 되는 조건이 아닙니다. (D) 공전시: 공전시에는 엔진이 가동 중이고, 공연비가 적절하게 유지되므로, 이는 피드백이 되는 + 조건입니다. 따라서, 정답은 (D) 입니다.' + - A: 오일유압의 압력저하로 적당한 오일의 공급량이 적어 오일의 오염도가 적다. + B: 오일간극이 적어 베어링의 소결이 생긴다. + C: 오일압력의 상승으로 각부에 윤활공급이 확실하다. + D: 운행중 소음이 많이 발생된다. + question: 크랭크축 메인저널의 외경이 규정보다 작을 때 일어나는 현상으로 가장 적당한 것은? + target: 차근 차근 생각해봅시다. 건설 관련 정보를 위해 위키피디아를 참조하겠습니다. 크랭크축 메인저널의 외경이 규정보다 작을 때의 현상을 + 생각해보면, 이는 크랭크축과 베어링 사이의 간극이 커지는 상황을 의미합니다. 크랭크축과 베어링 사이의 간극이 커지면, 이 간극 사이를 통과하는 + 엔진오일의 양이 많아지게 됩니다. 이로 인해 오일 압력이 감소하게 될 것입니다. 하지만, 선택지 A의 '오일유압의 압력저하로 적당한 오일의 + 공급량이 적어 오일의 오염도가 적다'는 설명은 오일 압력이 감소했지만, 오일의 공급량이 적어지는 것은 아니며, 오염도가 적어지는 것도 아닙니다. + 선택지 B의 '오일간극이 적어 베어링의 소결이 생긴다'는 설명은 크랭크축의 외경이 작아져 오일간극이 커진 상황과는 반대의 상황을 설명하고 + 있습니다. 선택지 C의 '오일압력의 상승으로 각부에 윤활공급이 확실하다'는 설명은 크랭크축의 외경이 작아져 오일 압력이 감소하는 상황과는 + 반대의 상황을 설명하고 있습니다. 선택지 D의 '운행중 소음이 많이 발생된다'는 설명은 크랭크축과 베어링 사이의 간극이 커져서 오일이 제대로 + 윤활을 하지 못하면, 마찰로 인해 소음이 발생할 수 있습니다. 따라서, 정답은 (D) 입니다. + - A: 가속 불량 + B: 연료소비 과다 + C: 매연 과다배출 + D: 엔진오일 연소 + question: 디젤엔진의 공기여과기가 막혔을 때 나타나는 현상이 아닌 것은? + target: '차근 차근 생각해봅시다. 건설 관련 정보를 위해 위키피디아를 참조하겠습니다. 디젤엔진의 공기여과기는 엔진이 외부에서 공기를 + 빨아들일 때 그 공기에 포함된 먼지나 이물질을 걸러내는 역할을 합니다. 이 공기여과기가 막혔을 때, 공기 흐름이 제대로 이루어지지 않아 + 엔진의 효율이 떨어질 수 있습니다. (A) 가속 불량: 공기여과기가 막혀 공기의 흐름이 제대로 이루어지지 않으면, 연료의 완전한 연소를 + 방해하게 되어 엔진의 출력이 떨어지고, 결국 가속력이 떨어질 수 있습니다. 이는 맞는 설명입니다. (B) 연료소비 과다: 엔진의 효율이 + 떨어지면 연료의 소비량이 증가하게 됩니다. 이는 공기여과기가 막힘으로 인해 공기와 연료의 비율이 제대로 맞지 않아 연료가 완전히 연소되지 + 않고 일부가 낭비되기 때문입니다. 이는 맞는 설명입니다. (C) 매연 과다배출: 공기여과기가 막혀 연료의 완전한 연소가 이루어지지 않으면, + 미연소 연료가 배기가스와 함께 배출되어 매연이 증가하게 됩니다. 이는 맞는 설명입니다. (D) 엔진오일 연소: 엔진오일의 연소는 엔진오일이 + 엔진실린더 내로 유입되어 연소되는 현상을 말합니다. 이는 주로 엔진의 내부 부품이 마모되거나 오일 밀봉부가 손상되어 발생하는 현상으로, + 공기여과기의 상태와는 직접적인 관련이 없습니다. 이는 디젤엔진의 공기여과기가 막혔을 때 나타나는 현상이 아닌 것으로 보입니다. 따라서, + 정답은 (D) 입니다.' + - A: 20cc + B: 30cc + C: 40cc + D: 65cc + question: 행정체적이 240cc이고 압축비가 9일 때 연소실 체적은 몇 cc인가? + target: '차근 차근 생각해봅시다. 건설 관련 정보를 위해 위키피디아를 참조하겠습니다. 압축비는 피스톤이 최하단에서 최상단으로 이동했을 + 때 실린더 내부의 전체 부피와 피스톤이 최상단에 있을 때 남는 연소실의 부피의 비율을 나타냅니다. 수학적으로 표현하면: \[ \text{압축비} + = \frac{\text{행정체적} + \text{연소실 체적}}{\text{연소실 체적}} \] 이 식을 연소실 체적에 대해 풀면: \[ + \text{연소실 체적} = \frac{\text{행정체적}}{\text{압축비} - 1} \] 여기서 주어진 값은 행정체적이 240cc이고 + 압축비가 9입니다. 이를 식에 대입하여 연소실 체적을 계산해 보겠습니다. 행정체적 = 240 압축비 = 9 연소실_체적 = 행정체적 / + (압축비 - 1) = 240 / 8 = 30 연소실의 체적은 30cc입니다. 따라서, 정답은 (B) 입니다.' +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_construction diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0e68a0b06d0b47ca044d997eba2458bc7b341e8b --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml @@ -0,0 +1,84 @@ +dataset_name: education +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 교육학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 학교 교육과정 또는 교육내용에 주목한다. + B: 불평등의 문제를 학교 교육 안에서 찾는다. + C: 학교에서 가르치는 지식의 사회적 성격을 탐구한다. + D: 구조기능주의에 기반하여 교육의 사회적 기능을 탐구한다. + question: '질문: 신 교육 사회학에 대한 설명으로 옳지 않은 것은?' + target: 차근 차근 생각해봅시다. 교육학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 신 교육 사회학은 학교 교육에 대한 사회학적 + 연구로서, 학교 교육이 사회적으로 어떻게 구성되고 어떤 영향을 미치는지에 대한 탐구를 수행합니다. 이를 바탕으로 선택지를 살펴보겠습니다. + (A) 학교 교육과정 또는 교육내용에 주목한다는 것은 신 교육 사회학의 주요한 특징 중 하나입니다. 신 교육 사회학은 교육과정이 사회적으로 + 구성되어 있으며, 이에 따라 학생들이 습득하는 지식과 가치가 영향을 받는다고 주장합니다. (B) 불평등의 문제를 학교 교육 안에서 찾는다는 + 것도 신 교육 사회학의 중요한 특징 중 하나입니다. 신 교육 사회학은 학교 교육이 사회적 불평등을 재생산하는 데에 기여한다고 주장합니다. + (C) 학교에서 가르치는 지식의 사회적 성격을 탐구한다는 것은 신 교육 사회학의 핵심적인 주장 중 하나입니다. 신 교육 사회학은 지식이 + 사회적으로 구성되어 있으며, 학교에서 가르치는 지식 역시 사회적 맥락에 따라 형성된다고 주장합니다. (D) 구조기능주의에 기반하여 교육의 + 사회적 기능을 탐구한다는 것은 신 교육 사회학의 특징이 아닙니다. 신 교육 사회학은 구조기능주의에 비판적이며, 교육의 사회적 기능을 다른 + 관점에서 해석합니다. 따라서, 정답은 (D) 입니다. + - A: 구성원의 성숙도 + B: 과업의 구조화 정도 + C: 지도자와 구성원의 관계 + D: 지도자가 구성원에 대해 가지고 있는 영향력의 정도 + question: 피들러(Fiedler)의 리더십 상황이론에서 강조하는 ‘상황’ 요소에 포함되지 않는 것은? + target: 차근 차근 생각해봅시다. 교육학 관련 정보를 위해 위키피디아를 참조하겠습니다. 피들러의 리더십 상황이론은 리더의 성향과 상황 + 요소를 중심으로 한 이론입니다. 이 이론에 따르면, 리더의 성향과 상황 요소의 적절한 조합이 효과적인 리더십을 만들어낸다는 것이 핵심입니다. + 상황 요소에는 '과업의 구조화 정도', '지도자와 구성원의 관계', '지도자가 구성원에 대해 가지고 있는 영향력의 정도' 등이 포함됩니다. + '과업의 구조화 정도'는 과업이 얼마나 명확하게 정의되고, 어떻게 수행되어야 하는지에 대한 정도를 의미합니다. '지도자와 구성원의 관계'는 + 상호 신뢰, 존경, 감정적 애착 등을 포함합니다. '지도자가 구성원에 대해 가지고 있는 영향력의 정도'는 리더의 권위와 영향력을 의미합니다. + 그러나 '구성원의 성숙도'는 허시-블랜차드의 리더십 이론에서 중요한 요소로 다루어지는 개념입니다. 이 이론에서는 구성원의 역량과 동기에 + 따라 리더십 스타일을 조절해야 한다는 주장을 하고 있습니다. , 피들러의 리더십 상황이론에서 강조하는 '상황' 요소에는 '구성원의 성숙도'가 + 포함되지 않습니다. 이는 허시-블랜차드의 리더십 이론에서 중요하게 다루어지는 요소입니다. 따라서, 정답은 (A) 입니다. + - A: 안정성 의 원리는 교육정책을 일관되고 지속적으로 추진해야 한다는 것이다. + B: 효율성 의 원리는 교육에 투입되는 비용을 상대적으로 적게 하면서 교육 목표를 달성하려는 것이다. + C: 자주 성의 원리는 지역의 특수성과 다양성을 반영하여 주민의 적극적인 의사와 자발적인 참여를 강조하는 것이다. + D: 민주성 의 원리는 이해당사자들의 의사를 적극적으로 반영하고 그들을 의사결정 과정에 적절하게 참여시켜야 한다는 것이다. + question: 교육행정의 원리에 대한 설명으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 교육학 관련 정보를 위해 위키피디아를 참조하겠습니다. 교육행정의 원리에 대해 알아보겠습니다. 우선 교육행정의 + 원리는 합법성, 기회균등, 자주성 존중, 지방분권, 민주성, 공공성, 효율성, 안정성 유지, 전문성 보장의 원리로 이루어진 9가지가 존재합니다. + (A) 안정성의 원리는 교육정책을 일관되고 지속적으로 추진해야 한다는 것으로, 교육의 효과를 높이고 사회적 안정을 유지하기 위해 중요합니다. + (B) 효율성의 원리는 교육에 투입되는 비용을 상대적으로 적게 하면서 교육 목표를 달성하려는 것으로, 교육 예산을 효율적으로 활용하고 교육의 + 성과를 높이기 위해 중요합니다. (D) 민주성의 원리는 이해당사자들의 의사를 적극적으로 반영하고 그들을 의사결정 과정에 적절하게 참여시켜야 + 한다는 것으로, 교육행정의 공정성과 투명성을 높이고 교육의 발전을 이루기 위해 중요합니다. 하지만, (C) 자주성의 원리는 교육행정의 원리에 + 해당하지 않습니다. 따라서, 정답은 (C) 입니다. + - A: 학생의 학습 실패 중요 요인으로 학생의 문화적 경험 부족을 지목한다. + B: 문화적 상대주의 관점이며, 학생 간의 교육격차가 문화적 결핍 보다는 문화적 차이 때문이라고 본다. + C: 빈곤 가정의 결핍된 문화적 환경을 보상하기 위한 프로그램 중 하나가 헤드스타트 프로그램이다. + D: 학교에서 학생들의 성공과 실패는 유전적으로 결정된 것이 아니라고 본다. + question: 문화실조론의 주장으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 교육학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 문화실조론에 대해 알아보겠습니다. 문화실조론은 + 1960년대 미국에서 빈곤층 아동들의 학업 성적 저하를 설명하기 위해 제기된 이론입니다. 이 이론은 학생들의 학업 성적 저하는 학생들이 + 가진 문화적 경험의 부족이 주된 원인이라고 주장합니다. 이에 따라 빈곤층 아동들의 문화적 경험을 풍부하게 하기 위한 여러 프로그램들이 제안되었는데, + 그 중 하나가 헤드스타트 프로그램입니다. 선택지 (A)는 문화실조론의 주요 주장을 잘 나타내고 있습니다. 학생들의 학업 성적 저하는 학생들이 + 가진 문화적 경험의 부족 때문이라는 것이 이론의 핵심입니다. (A)는 문화실조론의 주장입니다. 선택지 (B)는 문화적 상대주의 관점을 + 언급하고 있습니다. 이는 문화실조론과는 약간 다른 관점입니다. 문화적 상대주의는 모든 문화가 동등하다는 주장이며, 이는 문화실조론이 주장하는 + '문화적 결핍'과는 상반되는 개념입니다. 문화실조론은 특정 문화(여기서는 빈곤층 아동들의 문화)가 결핍되었다고 보는 반면, 문화적 상대주의는 + 모든 문화가 동등하다고 보기 때문입니다. (B)는 문화실조론의 주장이 아닙니다. 선택지 (C)는 문화실조론이 주장하는 바를 잘 나타내고 + 있습니다. 빈곤층 아동들의 문화적 경험을 풍부하게 하기 위한 프로그램 중 하나가 헤드스타트 프로그램이라는 것이 이론의 주장입니다. 마지막으로 + 선택지 (D)는 학교에서 학생들의 성공과 실패는 유전적으로 결정된 것이 아니라고 보는 것입니다. 이는 문화실조론이 주장하는 바와 일치합니다. + 문화실조론은 학생들의 학업 성적 저하는 학생들이 가진 문화적 경험의 부족이 주된 원인이라고 보기 때문입니다. 따라서, 정답은 (B) 입니다. + - A: 평생학습도시의 지정 및 지원에 필요한 사항은 교육부 장관이 정한다. + B: 전국평생학습도시협의회의 구성 및 운영에 필요한 사항은 교육부령으로 정한다. + C: 평생학습도 시 간의 연계․ 협력 및 정보교류의 증진을 위하여 전국 평생학습도시협의회를 둘 수 있다. + D: 국가는 지역사회의 평생교육 활성화를 위하여 시․군 및 자치구를 대상으로 평생학습도시를 지정 및 지원할 수 있다. + question: 평생교육법 상평생학습도시에 대한 설명으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 교육학 관련 정보를 위해 위키피디아를 참조하겠습니다. 우선, 평생교육법을 확인해야 합니다. 평생교육법 + 제24조에 따르면, 국가는 지역사회의 평생교육 활성화를 위하여 시․군 및 자치구를 대상으로 평생학습도시를 지정 및 지원할 수 있다. 이를 + 통해 선택지 (D)는 정확하다는 것을 알 수 있습니다. 그리고 평생교육법 제24조의2에는 평생학습도시의 지정 및 지원에 필요한 사항은 교육부 + 장관이 정한다는 내용이 있습니다. 이를 통해 선택지 (A)도 옳다는 것을 확인할 수 있습니다. 또한, 평생교육법 제24조의3에서는 평생학습도시 + 간의 연계․협력 및 정보교류의 증진을 위하여 전국 평생학습도시협의회를 둘 수 있다는 내용이 있습니다. 선택지 (C)도 옳다는 것을 확인할 + 수 있습니다. 하지만, 평생교육법에는 전국평생학습도시협의회의 구성 및 운영에 필요한 사항은 교육부령으로 정한다는 내용은 없습니다. 이를 + 통해 선택지 (B)가 평생교육법 상평생학습도시에 대한 설명으로 옳지 않다는 것을 알 수 있습니다. 따라서, 정답은 (B) 입니다. +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_education diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..3b5af8b76ddfb8bf409f661e1e32415610437041 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electrical_engineering.yaml @@ -0,0 +1,96 @@ +dataset_name: electrical_engineering +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 전기 공학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 양측 배치의 경우는 지그재그식으로 한다. + B: 한쪽만 배치하는 경우는 커브 바깥쪽에 배치한다. + C: 직선도로에서 보다 등 간격을 조금 더 넓게 한다. + D: 곡선도로의 곡률 반지름이 클수록 등 간격을 짧게 한다. + question: '질문: 곡선도로 조명상 조명기구의 배치 조건이 가장 적당한 것은?' + target: 차근 차근 생각해봅시다. 전기 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 각 선택지에 대한 검토를 해보겠습니다. + (A) 양측 배치의 경우는 지그재그식으로 한다. 지그재그식 배치는 보통 도로의 양측에 조명기구를 배치할 때 사용하는 방식입니다. 이 방식은 + 두 조명기구 사이의 거리를 적절하게 유지하면서도 도로의 전체적인 밝기를 유지할 수 있게 해줍니다. 하지만 이것이 곡선도로에서도 반드시 적용되는지에 + 대한 정보는 확인이 필요합니다. (B) 한쪽만 배치하는 경우는 커브 바깥쪽에 배치한다. 이 선택지는 로드 라이팅 디자인의 기본 원칙 중 + 하나로 보입니다. 곡선 도로에서 커브 바깥쪽에 조명을 배치하면, 운전자가 도로를 더 잘 볼 수 있습니다. 이는 운전자가 도로의 곡률을 더 + 잘 인식하게 하고, 사고 위험을 줄이는 데 도움이 됩니다. (C) 직선도로에서 보다 등 간격을 조금 더 넓게 한다. 이 선택지는 조명기구의 + 배치 간격에 관한 것입니다. 직선 도로에서는 조명기구 간의 거리가 일정하게 유지되지만, 곡선 도로에서는 조명기구 간의 거리를 넓게 유지해야 + 할 수도 있습니다. 이는 곡선 도로에서 운전자의 시야를 확보하기 위한 것일 수 있습니다. (D) 곡선도로의 곡률 반지름이 클수록 등 간격을 + 짧게 한다. 이 선택지는 곡선도로의 곡률 반지름에 따라 조명기구의 배치 간격을 조정하는 것을 제안하고 있습니다. 곡률 반지름이 큰 곡선도로에서는 + 도로가 덜 굽어 있으므로, 조명기구 간의 거리를 짧게 유지할 수 있습니다. 이는 도로의 밝기를 일정하게 유지하는 데 도움이 될 수 있습니다. + 각 선택지를 분석한 결과, (B) 한쪽만 배치하는 경우는 커브 바깥쪽에 배치한다는 가장 합리적인 배치 방법으로 보입니다. 이 방법은 곡선 + 도로에서 운전자의 시야를 가장 잘 확보할 수 있게 해주기 때문입니다. 다른 선택지들은 곡선 도로에서의 조명기구 배치에 대한 구체적인 가이드라인을 + 제공하지 않습니다. 따라서, 정답은 (B) 입니다. + - A: 4r2OPTION + B: πr2OPTION + C: π2r2OPTION + D: 4π2r2OPTION + question: 휘도 B[sb], 반지름 r[m]인 등휘도 완전 확산성 구 광원의 전광속 F[lm]은 얼마인가? + target: 차근 차근 생각해봅시다. 전기 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 등휘도 완전 확산성 구 광원에 대해 + 이해해야 합니다. 이는 구 형태의 광원에서 모든 방향으로 동일한 강도의 빛이 발산되는 것을 의미합니다. 휘도(B)는 광도(I)를 표면적(A)으로 + 나눈 값으로 정의됩니다. 즉, B = I/A입니다. 여기서 광도(I)는 빛의 강도를 나타내며, 단위는 루멘(lm)입니다. 표면적(A)는 + 단위 면적당 빛의 양을 나타내며, 단위는 제곱미터(m^2)입니다. 등휘도 완전 확산성 구 광원의 경우, 모든 방향으로 동일한 강도의 빛이 + 발산되므로, 전광속(F)은 광원의 모든 표면에서 발산되는 총 빛의 양을 나타냅니다. 구의 표면적(A)은 4πr^2로 계산됩니다. , 광도(I)는 + 휘도(B)와 표면적(A)의 곱, 즉 I = B * A이므로, I = B * 4πr^2가 됩니다. 전광속(F)는 광원의 모든 표면에서 발산되는 + 총 빛의 양이므로, 광도(I)와 동일합니다. , F = I = B * 4πr^2입니다. 따라서, 정답은 (D) 입니다. + - A: '20' + B: '40' + C: '50' + D: '83' + question: 200W 전구를 우유색 구형 글로브에 넣었을 경우 우유색 유리의 반사율은 40%, 투과율은 50%라고 할 때 글로브의 효율은 + 약 몇 %인가? + target: 차근 차근 생각해봅시다. 전기 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 우선, 글로브의 효율을 계산하기 위해 우리는 + 먼저 어떤 양이 글로브를 통과하거나 반사되는지 알아야 합니다. 문제에서 주어진 것은 우유색 유리의 반사율이 40%, 투과율이 50%라는 + 것입니다. 이것은 우유색 유리가 받은 전체 에너지 중 40%는 반사되고, 50%는 통과한다는 것을 의미합니다. 그럼 남은 10%는 어디로 + 갔을까요? 이 부분은 문제에서 명시적으로 언급되지 않았지만, 일반적으로 이러한 유형의 문제에서는 나머지 에너지가 흡수되었다고 가정합니다. , + 200W 전구의 경우, 40%는 반사되어 80W가 되고, 50%는 통과하여 100W가 됩니다. 글로브의 효율은 통과된 에너지와 반사된 에너지의 + 합을 전체 에너지로 나눈 것이므로, (80W + 100W) / 200W = 0.9 또는 90%가 됩니다. 그러나 선택지 중에 90%는 없습니다. + 이 경우, 문제의 정보가 잘못되었거나 제가 무언가를 잘못 이해하고 있는 것일 수 있습니다. 이러한 상황에서는 문제를 다시 확인하거나 추가 + 정보를 찾아보는 것이 좋습니다. 그러나 이 경우에는 추가 정보를 찾을 수 없으므로, 주어진 정보를 바탕으로 가장 가능성이 높은 답변을 선택해야 + 합니다. 이 문제에서는 글로브의 효율이 90%라고 계산되었지만, 선택지 중에서는 83%가 가장 가까운 값입니다. 따라서, 정답은 (D) + 입니다. + - A: '4000' + B: '4500' + C: '4800' + D: '5000' + question: 폭 24m인 거리의 양쪽에 20m의 간격으로 지그재그식으로 등주를 배치하여 도로상의 평균 조도를 5[lx]로 하고자 한다. + 각 등주상에 몇 [lm]의 전구가 필요한가? (단, 도로면에서의 광속 이용률은 25%이다.) + target: 차근 차근 생각해봅시다. 전기 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 이 문제를 해결하기 위해 조도와 플럭스에 + 대한 개념을 이해해야 합니다. 조도(lux, lx)는 단위 면적당 광속(lumen, lm)을 나타내는 단위입니다. 조도는 광속을 면적으로 + 나눈 값이라고 할 수 있습니다. 문제에서 주어진 정보를 바탕으로 필요한 광속을 계산해보겠습니다. 우선, 도로의 폭이 24m이고, 등주의 + 간격이 20m라는 정보를 통해 도로의 면적을 계산할 수 있습니다. 면적은 폭과 길이를 곱한 값이므로, 도로의 면적은 24m * 20m = + 480m²입니다. 다음으로, 도로상의 평균 조도가 5lx라는 정보를 통해 필요한 총 광속을 계산할 수 있습니다. 조도가 면적당 광속이므로, + 총 광속은 조도 * 면적입니다. 필요한 총 광속은 5lx * 480m² = 2400lm입니다. 그러나, 도로면에서의 광속 이용률이 25%라는 + 정보를 고려해야 합니다. 이는 도로에 비추어지는 전체 광속 중 실제로 도로면에서 이용되는 광속의 비율을 의미합니다. 실제로 필요한 광속은 + 계산된 총 광속을 이용률로 나눈 값이 됩니다. 즉, 필요한 광속은 2400lm / 0.25 = 9600lm입니다. 하지만, 이는 도로 전체에 + 필요한 광속이므로, 등주 하나에 필요한 광속을 계산해야 합니다. 등주가 지그재그식으로 배치되어 있으므로, 하나의 등주는 2개의 도로 면적을 + 비추게 됩니다. 하나의 등주에 필요한 광속은 9600lm / 2 = 4800lm입니다. 따라서, 정답은 (C) 입니다. + - A: 광고온계 + B: 방사 온도계 + C: 열전 온도계 + D: 저항 온도계 + question: 플랭크의 방사법칙을 이용하여 온도를 측정하는 것은? + target: '차근 차근 생각해봅시다. 전기 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 플랭크의 방사법칙은 물체가 방출하는 전자기 + 복사의 스펙트럼과 세기가 그 물체의 온도와 관련이 있다는 원리를 설명합니다. 이 원리를 이용하여 온도를 측정하는 장치는 물체가 방출하는 + 복사 에너지를 측정하여 온도를 결정합니다. 주어진 옵션들 중에서: (A) 광고온계 (Optical Pyrometer): 이 장치는 특정 + 파장(여기서는 0.65μm의 적색 단파장)의 가시광선을 이용해 온도를 측정합니다. 열원으로부터 방사되는 빛과 기기 내의 표준 열원으로부터 + 나오는 같은 파장의 빛의 강도를 비교함으로써 온도를 측정합니다. 이 방법은 비앙(Wien)의 분배법칙에 바탕을 두고 있으며, 흑체 또는 + 흑체 조건에서 방사되는 열 에너지의 파장과 강도가 온도에 따라 변화하는 원리를 이용합니다. (B) 방사 온도계 (Radiation Pyrometer): + 이 장치는 물체로부터 방출되는 열방사(적외선)를 받아들여 온도를 측정합니다. 이 방법은 열전도를 이용하는 온도계와는 다르게 비접촉 방식이며, + 고속으로 온도를 측정할 수 있습니다. (C) 열전 온도계 (Thermocouple): 이 장치는 두 다른 금속의 접합점에서 발생하는 전압 + 변화를 측정하여 온도를 결정합니다. (D) 저항 온도계 (Resistance Thermometer): 이 장치는 온도에 따라 변하는 재료의 + 전기 저항을 측정하여 온도를 결정합니다. 주어진 옵션들 중에서, 플랭크의 방사법칙을 이용하여 온도를 측정하는 장치는 광고온계(Optical + Pyrometer)입니다. 이는 흑체 또는 비슷한 조건의 물체로부터 방사되는 가시광선의 강도를 통해 온도를 측정하는 방식을 사용하며, 흑체의 + 방사율을 1로 설정하여 보정하는 원리를 기반으로 합니다. 따라서, 정답은 (A) 입니다.' +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_electrical_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..4d1327034f885fee689e3b7f5abfe61c6309b812 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_electronics_engineering.yaml @@ -0,0 +1,82 @@ +dataset_name: electronics_engineering +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 전자 공학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: double + B: short + C: integer + D: float + question: '질문: C 언어에서 사용되는 자료형이 아닌 것은?' + target: 차근 차근 생각해봅시다. 전자 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. C 언어에서는 여러가지 기본 자료형을 제공하고 + 있습니다. (A) double은 C 언어에서 실수를 표현하는 자료형 중 하나로, float보다 더 넓은 범위의 실수를 표현할 수 있습니다. 이는 + C 언어의 자료형입니다. (B) short는 C 언어에서 정수를 표현하는 자료형 중 하나로, int보다 작은 범위의 정수를 표현할 수 있습니다. + 이 역시 C 언어의 자료형입니다. (D) float은 C 언어에서 실수를 표현하는 자료형으로, double보다 작은 범위의 실수를 표현할 + 수 있습니다. 이 역시 C 언어의 자료형입니다. 그러나 (C) integer는 C 언어의 자료형이 아닙니다. C 언어에서 정수를 표현하는 + 자료형은 int, short, long 등이 있지만 'integer'라는 자료형은 존재하지 않습니다. 따라서, 정답은 (C) 입니다. + - A: linker + B: debugger + C: cross-compiler + D: preprocessor + question: 원시 프로그램을 컴파일러가 수행되는 기계에 대한 기계어로 번역하는 것이 아니라, 다른 기종에 대한 기계어로 번역하는 것은? + target: 차근 차근 생각해봅시다. 전자 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 각 선택지에 대한 설명을 해보겠습니다. + (A) 링커(linker)는 여러 개의 오브젝트 파일들을 연결시켜 하나의 실행 파일을 만드는 역할을 합니다. 이는 컴파일 과정의 마지막 + 단계에서 일어나는 작업입니다. (B) 디버거(debugger)는 프로그램의 오류를 찾고 수정하는 데 사용되는 소프트웨어 도구입니다. 이는 + 실행 중인 프로그램을 모니터링하고, 필요한 경우 중단시켜 변수의 값을 검사하거나 변경할 수 있습니다. (C) 크로스 컴파일러(cross-compiler)는 + 한 기종의 컴퓨터에서 실행되지만, 다른 기종의 컴퓨터에서 실행될 수 있는 코드를 생성하는 컴파일러입니다. 이는 다른 하드웨어 아키텍처를 + 대상으로 코드를 생성할 때 사용됩니다. (D) 프리프로세서(preprocessor)는 컴파일러가 소스 코드를 컴파일하기 전에 처리하는 프로그램입니다. + 이는 주로 소스 코드 내의 매크로를 확장하거나, 조건부 컴파일 지시자를 처리하는 데 사용됩니다. 질문에서는 '원시 프로그램을 컴파일러가 + 수행되는 기계에 대한 기계어로 번역하는 것이 아니라, 다른 기종에 대한 기계어로 번역하는 것'을 묻고 있습니다. 이 설명은 크로스 컴파일러(cross-compiler)의 + 기능과 일치합니다. 따라서, 정답은 (C) 입니다. + - A: ::= + B: <> + C: '|' + D: '#' + question: BNF 심볼 중 택일을 의미하는 것은? + target: '차근 차근 생각해봅시다. 전자 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. BNF(Backus-Naur Form)는 + 문법을 정의하는 메타 문법입니다. 이는 프로그래밍 언어나 데이터 구조의 문법을 표현하는 데 사용됩니다. BNF에서 사용되는 심볼들은 각각 + 특정한 의미를 가지고 있습니다. 선택지를 하나씩 살펴보면, (A) ::= 심볼은 BNF에서 "정의한다"는 의미를 가집니다. 즉, 왼쪽에 + 있는 식이나 요소가 오른쪽에 있는 식이나 요소로 정의된다는 것을 나타냅니다. (B) <> 심볼은 BNF에서 비터미널을 표현하는 데 사용됩니다. + 비터미널이란, 규칙에 의해 다른 심볼로 대체될 수 있는 심볼을 의미합니다. (C). | : 이 심볼은 BNF에서 여러 선택 사항 중 하나를 + 선택할 수 있음을 나타냅니다. 예를 들어, A | B는 A나 B 중 하나를 선택할 수 있음을 의미합니다. (D) # 심볼은 일반적으로 BNF에서 + 사용되지 않는 심볼입니다. 따라서, 정답은 (C) 입니다.' + - A: 할당(allocation) + B: 연결(link) + C: 번역(translation) + D: 재배치(relocation) + question: 로더(Loader)의 기능으로 볼 수 없는 것은? + target: '차근 차근 생각해봅시다. 전자 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 로더(loader)는 컴퓨터 시스템에서 실행할 + 프로그램을 메모리에 적재하는 역할을 하는 프로그램입니다. 이를 위해 로더는 크게 세 가지 주요 기능을 수행합니다. 1. 할당(Allocation): + 로더는 프로그램이 메모리 내에서 어디에 위치할지 결정합니다. 이를 위해 프로그램이 필요로 하는 메모리 공간을 찾아 할당하는 작업을 수행합니다. , + ''할당''은 로더의 기능 중 하나입니다. 2. 연결(Linking): 프로그램은 여러 개의 모듈로 분할될 수 있습니다. 로더는 이러한 + 모듈들을 연결하여 하나의 실행 가능한 프로그램을 만듭니다. , ''연결'' 또한 로더의 기능 중 하나입니다. 3. 재배치(Relocation): + 프로그램이 메모리 내의 특정 위치에 적재되면, 그 프로그램 내의 모든 주소는 적재된 위치를 기준으로 재배치됩니다. 이러한 작업을 로더가 + 수행하므로, ''재배치'' 또한 로더의 기능입니다. 그러나 ''번역(Translation)''은 로더의 기능이 아닙니다. 번역은 주로 컴파일러나 + 인터프리터가 수행하는 작업으로, 고급 언어로 작성된 소스 코드를 저급 언어인 기계어로 변환하는 과정을 의미합니다. 이는 로더의 역할 범위를 + 벗어난 작업입니다. 따라서, 정답은 (C) 입니다.' + - A: 프로그래머가 작성한 응용 프로그램에 대한 오류를 자동으로 수정한다. + B: 파일의 생성, 판독, 삭제 등의 파일에 대한 조작을 지원한다. + C: 각종 자원에 대한 사용 내역이나 응답시간과 같은 성능향상을 위한 요소들을 기록하여 관리한다. + D: 컴퓨터 시스템의 하드웨어 오류를 발견하고 그에 대한 적절한 조치를 한다. + question: 운영체제가 제공하는 서비스로 볼 수 없는 것은? + target: 차근 차근 생각해봅시다. 전자 공학 관련 정보를 위해 위키피디아를 참조하겠습니다. 운영체제는 컴퓨터 시스템의 자원을 관리하고 + 응용 프로그램과 하드웨어 사이의 인터페이스 역할을 하는 소프트웨어입니다. 선택지 (A)는 프로그래머가 작성한 응용 프로그램에 대한 오류를 + 자동으로 수정한다는 내용입니다. 하지만, 이는 운영체제의 기능이 아닙니다. 프로그램의 오류는 프로그래머나 개발자가 디버깅 과정을 통해 찾아내고 + 수정해야 합니다. 운영체제는 오류가 발생하면 그 정보를 프로그래머에게 전달할 수 있지만, 자동으로 수정하는 것은 아닙니다. 선택지 (B)는 + 파일의 생성, 판독, 삭제 등의 파일에 대한 조작을 지원한다는 내용입니다. 이는 운영체제의 핵심 기능 중 하나로, 파일 시스템 관리를 통해 + 사용자가 파일을 효과적으로 관리하고 사용할 수 있게 지원합니다. 선택지 (C)는 각종 자원에 대한 사용 내역이나 응답시간과 같은 성능향상을 + 위한 요소들을 기록하여 관리한다는 내용입니다. 이 또한 운영체제의 중요한 기능 중 하나로, 시스템 성능을 모니터링하고 최적화하는 역할을 + 합니다. 마지막으로 선택지 (D)는 컴퓨터 시스템의 하드웨어 오류를 발견하고 그에 대한 적절한 조치를 한다는 내용입니다. 이 역시 운영체제의 + 기능으로, 하드웨어 오류를 감지하고 적절한 처리를 하여 시스템의 안정성을 유지하는 역할을 합니다. 따라서, 정답은 (A) 입니다. +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_electronics_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml new file mode 100644 index 0000000000000000000000000000000000000000..d9080b078a11033c07a93e1a06a9c9e3fef7d3fe --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_environmental_science.yaml @@ -0,0 +1,85 @@ +dataset_name: environmental_science +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 환경 과학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 'Fe : 1000' + B: 'Na : 3500' + C: 'OPTIONa : 1500' + D: 'Mg : 800' + question: '질문: 혐기성 소화에서 독성을 유발 시킬 수 있느 물질의 농도(mg/L)로 가장 적절한 것은?' + target: 차근 차근 생각해봅시다. 환경 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 혐기성 소화는 미생물이 산소 없이 유기물을 + 분해하는 과정입니다. 이 과정에서 다양한 미네랄이 필요하며, 그 중 철(Fe), 나트륨(Na), 칼슘(Ca), 마그네슘(Mg) 등이 있습니다. + 이들 미네랄의 적절한 농도는 혐기성 소화 과정의 효율성을 결정하며, 농도가 너무 높으면 독성을 유발할 수 있습니다. , 이 질문의 답을 + 찾기 위해서는 각 미네랄의 독성 농도를 확인해야 합니다. - 철(Fe)의 경우, 물에 대한 독성 농도는 1000mg/L 이상일 때 발생한다고 + 합니다. - 나트륨(Na)의 경우, 물에 대한 독성 농도는 2300mg/L 이상일 때 발생한다고 합니다. - 칼슘(Ca)의 경우, 물에 + 대한 독성 농도는 2000mg/L 이상일 때 발생한다고 합니다. - 마그네슘(Mg)의 경우, 물에 대한 독성 농도는 1250mg/L 이상일 + 때 발생한다고 합니다. 위의 정보를 바탕으로 보았을 때, 주어진 선택지 중에서 가장 적절한 독성 농도는 철(Fe)의 1000mg/L입니다. + 이는 철(Fe)의 독성 농도가 1000mg/L 이상일 때 발생한다는 정보와 일치하기 때문입니다. 따라서, 정답은 (A) 입니다. + - A: 6탄당의 중합체 + B: 아미노산 중합체 + C: 당, 전분 등 + D: 방향환과 메톡실기를 포함한 중합체 + question: 도시폐기물의 유기성 성분 중 셀룰로오스에 해당하는 것은? + target: 차근 차근 생각해봅시다. 환경 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 셀룰로오스는 식물 세포벽의 주요 구성요소로, + 대부분의 식물 세포에 존재합니다. 셀룰로오스는 탄수화물의 한 종류로, 긴 사슬 모양의 구조를 가지고 있습니다. 이 사슬은 당류인 글루코스의 + 수천 개 단위가 연결된 것으로 이루어져 있습니다. 이 글루코스 단위들은 화학적으로 연결되어 있어서, 셀룰로오스는 매우 강하고 튼튼한 물질이 + 됩니다. 선택지를 보면, (A) 6탄당의 중합체, (B) 아미노산 중합체, (C) 당, 전분 등, (D) 방향환과 메톡실기를 포함한 중합체가 + 있습니다. (A) 6탄당의 중합체는 셀룰로오스의 정의에 가장 가깝습니다. 셀룰로오스는 기본적으로 6탄당인 글루코스의 중합체입니다. (B) + 아미노산 중합체는 단백질을 형성하는 요소로, 셀룰로오스와는 무관합니다. (C) 당, 전분 등은 셀룰로오스의 구성 요소인 글루코스와 관련이 + 있지만, 셀룰로오스 자체를 정의하는 것은 아닙니다. (D) 방향환과 메톡실기를 포함한 중합체는 리그닌의 구조를 설명하는 것으로, 셀룰로오스와는 + 다른 식물 세포벽의 구성요소입니다. 따라서, 정답은 (A) 입니다. + - A: '5' + B: '10' + C: '15' + D: '20' + question: 완전히 건조시킨 폐기물 20g을 채취해 회분함량을 분석하였더니 5g 이었다. 폐기물의 함수율이 40% 이었다면, 습량기준으로 + 회분 중량비(%)는? (단, 비중 = 1.0) + target: 차근 차근 생각해봅시다. 환경 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 문제에서 주어진 정보를 이해해보겠습니다. + 1. 건조시킨 폐기물의 무게는 20g입니다. 2. 그 중 회분함량이 5g입니다. 3. 폐기물의 습도는 40%입니다. 여기서 회분 중량비를 + 구하라고 했는데, 회분 중량비는 회분함량을 습기를 포함한 전체 무게로 나눈 것을 퍼센트로 표현한 것입니다. , 먼저 습기를 포함한 전체 + 무게를 구해야 합니다. 건조시킨 폐기물의 무게는 20g이고, 이는 습도를 제거한 상태이므로, 이 무게는 전체 무게의 60%(100% - + 40% = 60%)에 해당합니다. 전체 무게는 20g / 0.6 = 약 33.33g입니다. 이제 회분 중량비를 구할 수 있습니다. 회분 + 중량비 = (회분함량 / 습기를 포함한 전체 무게) * 100% = (5g / 33.33g) * 100% = 약 15%입니다. 따라서, + 정답은 (C) 입니다. + - A: 넓은 범위의 액상, 고상 폐기물은 소각할 수 있다. + B: 일반적으로 회전속도는 0.3~1.5 rpm, 주변속도는 5~25 mm/sec 정도이다. + C: 예열, 혼합, 파쇄 등 전처리를 거쳐야만 주입이 가능하다. + D: 회전하는 원통형 소각로로서 경사진 구조로 되어있으며 길이와 직경의 비는 2~10 정도이다. + question: 소각방식 중 회전로(Rotary Kiln)에 대한 설명으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 환경 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 회전로(Rotary Kiln)에 대한 + 기본적인 정보를 확인해보겠습니다. 회전로는 원통형의 소각로로서 경사진 구조로 되어 있습니다. 그리고 이 회전로의 길이와 직경의 비는 일반적으로 + 2~10 정도로 알려져 있습니다. 선택지 (D)는 회전로에 대한 정확한 설명입니다. 다음으로, 회전로는 넓은 범위의 액상, 고상 폐기물을 + 소각할 수 있는 장점이 있습니다. 이는 회전로의 작동 원리와 관련이 있습니다. 회전로는 원통 내부에서 폐기물을 높은 온도로 가열하면서 소각하는 + 방식이기 때문에 다양한 종류의 폐기물을 처리할 수 있습니다. 선택지 (A)는 옳은 설명입니다. 회전로의 회전속도는 일반적으로 0.3~1.5 + rpm, 주변속도는 5~25 mm/sec 정도로 알려져 있습니다. 이는 폐기물이 고르게 분배되어 효율적으로 소각되도록 하는데 필요한 조건입니다. 선택지 + (B) 역시 옳은 설명입니다. 마지막으로, 회전로에서 폐기물을 소각하기 전에는 예열, 혼합, 파쇄 등의 전처리 과정이 필요합니다. 하지만 + 이는 모든 폐기물에 적용되는 것은 아닙니다. 일부 폐기물은 이러한 전처리 과정 없이도 바로 회전로에 주입될 수 있습니다. 선택지 (C)는 + '모든 폐기물이 전처리를 거쳐야만 주입이 가능하다'는 점에서 부정확한 설명입니다. 따라서, 정답은 (C) 입니다. + - A: 개선평가 + B: 영향평가 + C: 과정분석 + D: 목록분석 + question: 전과정평가(LCA)의 구성요소로 가장 거리가 먼 것은? + target: '차근 차근 생각해봅시다. 환경 과학 관련 정보를 위해 위키피디아를 참조하겠습니다. 전과정평가(Life Cycle Assessment, + LCA)의 주요 구성요소를 이해하고 각 옵션을 평가해보겠습니다. LCA는 제품이나 서비스의 전체 생애주기 동안의 환경적 영향을 평가하는 + 과정입니다. 일반적으로 LCA는 다음 네 가지 주요 단계로 구성됩니다: 목적 및 범위 정의: LCA의 목적과 범위를 명확히 하는 단계입니다. + 목록분석 (Inventory Analysis): 제품이나 서비스의 생애주기 동안 발생하는 모든 입력(원자재, 에너지 등)과 출력(배출물, + 폐기물 등)을 수집하는 과정입니다. 영향평가 (Impact Assessment): 수집된 데이터를 바탕으로 환경적 영향을 평가하는 단계입니다. + 해석: 수집된 데이터와 평가 결과를 분석하고 해석하는 단계입니다. 주어진 옵션들을 이러한 단계들과 비교해보면: (A) 개선평가: 이는 LCA의 + 일반적인 단계는 아닙니다. 하지만 LCA 결과를 바탕으로 제품이나 과정의 환경적 영향을 개선하는 방안을 고려할 수 있습니다. (B) 영향평가 + (Impact Assessment): 이는 LCA의 주요 단계 중 하나입니다. (C) 과정분석: 이는 목록분석과 유사하게 들리지만, LCA의 + 전통적인 구성요소는 아닙니다. 과정분석은 보다 일반적인 용어로, 다양한 맥락에서 사용될 수 있습니다. (D) 목록분석 (Inventory + Analysis): 이 역시 LCA의 핵심 단계 중 하나입니다. 따라서, 정답은 (C) 입니다.' +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_environmental_science diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_geomatics.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_geomatics.yaml new file mode 100644 index 0000000000000000000000000000000000000000..cfc4866a625bb98d16e35e01fa5714afb820b095 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_geomatics.yaml @@ -0,0 +1,78 @@ +dataset_name: geomatics +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 기하학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 수도용지 + B: 기타도로 + C: 철도용지 + D: 하천 + question: '질문: 일람도 제도에서 붉은색 0.2mm 폭의 2선으로 제도하는 것은?' + target: 차근 차근 생각해봅시다. 기하학 관련 정보를 위해 위키피디아를 참조하겠습니다. 일람도 제도에서 사용되는 선의 종류와 색깔, 그리고 + 폭은 특정한 의미를 가지고 있습니다. 이를 통해 각 선이 표현하는 것이 무엇인지 파악할 수 있습니다. 일람도 제도 규정에 따르면, 붉은색 + 0.2mm 폭의 2선은 '철도용지'를 나타냅니다. 일람도는 지리 정보를 시각적으로 표현하는 방법 중 하나로, 각 선의 색상, 폭, 형태 + 등은 특정한 의미를 지니고 있습니다. 이러한 선들은 특정한 규칙에 따라 사용되며, 이 규칙은 일반적으로 국가나 기관의 표준에 따라 정해집니다. + 붉은색 0.2mm 폭의 2선은 일반적으로 철도용지를 나타내는데 사용됩니다. 따라서, 정답은 (C) 입니다. + - A: 100° 20′ + B: 159° 40′ + C: 200° 20′ + D: 249° 40′ + question: 방위가 S 20° 20′ W인 측선에 대한 방위각은? + target: 차근 차근 생각해봅시다. 기하학 관련 정보를 위해 위키피디아를 참조하겠습니다. 방위각은 보통 북쪽을 기준으로 시계방향으로 측정하는 + 각도를 의미합니다. 주어진 방위는 'S 20° 20′ W'인데, 이는 남쪽을 기준으로 서쪽으로 20° 20′ 회전한 방향을 의미합니다. + 우리는 이를 북쪽을 기준으로 바꾸어 생각해야 합니다. 그러므로, 북쪽에서 시계방향으로 얼마나 회전해야 이 방향에 도달할 수 있는지 계산해야 + 합니다. 남쪽은 북쪽에서 시계방향으로 180° 회전한 방향입니다. , 남쪽에서 시계방향으로 20° 20′ 회전한 방향은 북쪽에서 시계방향으로 + 180° + 20° 20′ 회전한 방향과 같습니다. 이를 계산하면, 200° 20′가 됩니다. 따라서, 정답은 (C) 입니다. + - A: 전자면적측정기법 + B: 좌표면적계산법 + C: 축척자삼사법 + D: 방안지조사법 + question: 경위의측량방법으로 세부측량을 한 지역의 필지별 면적측정 방법으로 옳은 것은? + target: '차근 차근 생각해봅시다. 기하학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 각 선택지에 대해 이해를 해보겠습니다. + (A) 전자면적측정기법: 이 방법은 전자적인 장비를 사용하여 면적을 측정하는 방법입니다. 보통 건물의 내부 공간이나 토지 등의 면적을 측정할 + 때 사용됩니다. (B) 좌표면적계산법: 이 방법은 지도상의 좌표를 이용하여 면적을 계산하는 방법입니다. 지도상의 여러 지점의 좌표를 알고 + 있을 때, 이 좌표들을 이용하여 다각형의 면적을 계산할 수 있습니다. (C) 축척자삼사법: 이 방법은 지도상의 축척을 이용하여 면적을 측정하는 + 방법입니다. 지도의 축척과 실제 토지의 면적 사이의 관계를 이용하여 면적을 측정합니다. (D) 방안지조사법: 이 방법은 현장에서 직접 조사하여 + 면적을 측정하는 방법입니다. 토지의 실제 면적을 측정하거나 건물의 내부 공간을 측정할 때 사용됩니다. 그런데 여기서 ''경위의측량방법으로 + 세부측량을 한 지역의 필지별 면적측정 방법''이라는 질문에서 주목해야 할 부분은 ''경위의측량방법''입니다. 경위의측량은 지구의 곡률을 + 고려하지 않고, 평면상에서의 측량을 의미합니다. 이를 고려하면, 필지별 면적측정 방법으로 가장 적합한 것은 ''좌표를 이용한 면적계산법''이 + 될 것입니다. 왜냐하면, 좌표를 이용하면 평면상에서의 면적을 가장 정확하게 계산할 수 있기 때문입니다. 따라서, 정답은 (B) 입니다.' + - A: 전 + B: 장 + C: 목 + D: 용 + question: 목장용지의 부호 표기로 옳은 것은? + target: '차근 차근 생각해봅시다. 기하학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 Geomatics는 지리 정보과학을 의미하며, + 지도학, 측량학, GPS 기술 등을 포괄하는 학문입니다. 이 질문은 Geomatics의 한 분야인 지도학과 관련이 있습니다. 지도학에서는 + 특정 지역의 특성을 표현하기 위해 다양한 부호를 사용합니다. ''목장용지''는 주로 가축이 방목되는 땅을 의미하며, 이를 지도 상에서 표현할 + 때는 특정한 부호를 사용합니다. 선택지 중에서 목장용지를 가장 잘 표현할 수 있는 부호를 찾아야 합니다. (A) 전: 일반적으로 ''전''은 + 농작물을 재배하는 농지를 의미합니다. 이는 목장용지를 표현하기에 적합하지 않습니다. (B) 장: ''장''은 일반적으로 장소나 공간을 + 의미하는 말로, 특정한 의미를 가지고 있지 않습니다. 이는 목장용지를 표현하기에 적합하지 않습니다. (C) 목: ''목''은 일반적으로 + 목장을 의미하는 말로, 가축이 방목되는 땅을 의미합니다. 이는 목장용지를 표현하기에 적합해 보입니다. (D) 용: ''용''은 일반적으로 + 용도를 의미하는 말로, 특정한 의미를 가지고 있지 않습니다. 이는 목장용지를 표현하기에 적합하지 않습니다. 따라서, 정답은 (C) 입니다.' + - A: 허용면적 + B: 축척분모 + C: 산출면적 + D: 보정계수 + question: 전자면적측정기에 따른 면적측정을 하는 경우, 교차를 구하기 위한 A = 0.0232M√F 공식 중 M의 값으로 옳은 것은? + target: 차근 차근 생각해봅시다. 기하학 관련 정보를 위해 위키피디아를 참조하겠습니다. 전자면적측정기에 따른 면적측정 공식에서 M의 값에 + 대해 이해하려면, 먼저 해당 공식이 어떤 것인지, 그리고 각 요소가 무엇을 의미하는지 알아야 합니다. 이 공식은 전자면적측정기를 사용하여 + 지형의 면적을 측정할 때 사용되는 공식입니다. 공식의 각 부분을 분석해보면, A는 측정된 면적, F는 측정된 거리를 의미하며, 0.0232는 + 상수입니다. 그렇다면 M은 무엇을 의미할까요? 선택지 중에서 M이 의미할 수 있는 것은 '허용면적', '축척분모', '산출면적', '보정계수' + 네 가지입니다. '허용면적'이나 '산출면적'은 면적을 나타내는 값이므로, 이 값들이 M에 해당할 가능성은 낮습니다. '보정계수'는 측정값을 + 조정하는 데 사용되는 값이지만, 이 경우에는 M이 면적이 아닌 거리에 대한 값을 나타내는 것으로 보입니다. , '축척분모'가 가장 가능성이 + 높습니다. 축척분모는 지도의 축척을 나타내는 값으로, 실제 거리와 지도 상의 거리 사이의 비율을 의미합니다. 이 값이 M에 해당한다면, + 공식은 실제 거리의 제곱근에 축척분모를 곱한 값이 측정된 면적이 될 것입니다. 이렇게 보면, 공식이 의미하는 바를 잘 나타내는 것 같습니다. + 따라서, 정답은 (B) 입니다. +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_geomatics diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_health.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_health.yaml new file mode 100644 index 0000000000000000000000000000000000000000..d5b477911d5af37cad7fbc6873528916c688ef8b --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_health.yaml @@ -0,0 +1,88 @@ +dataset_name: health +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 건강학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 면허제도 + B: 고객만족도 + C: 임상진료지침 + D: 의료 이용도 조사 + question: '질문: 도나베디안 (Donabedian) 의 보건의료 서비스 질 평가 중 구조적 접근은?' + target: 차근 차근 생각해봅시다. 건강학 관련 정보를 위해 위키피디아를 참조하겠습니다. 도나베디안의 보건의료 서비스 질 평가는 구조(Structure), + 과정(Process), 결과(Outcome)의 세 가지 요소로 이루어져 있습니다. 이 중에서 구조적 접근은 '보건의료 서비스의 질을 평가하는 + 데 필요한 자원과 시스템을 말합니다. 이러한 구조적 접근은 의료기관의 물리적, 인적 자원, 그리고 그 자원을 운영하기 위한 시스템과 절차를 + 포함합니다. 예를 들어, 의료기관의 시설과 장비, 의료인력의 수와 자격, 의료 서비스 제공을 위한 정책과 절차 등이 구조적 접근에 해당합니다. + 선택지 중에서 (A) 면허제도는 의료인력의 자격을 보장하는 시스템으로, 구조적 접근의 일부로 볼 수 있습니다. 반면에 (B) 고객만족도, + (C) 임상진료지침, (D) 의료 이용도 조사는 과정이나 결과에 더 가깝게 연관되어 있습니다. 고객만족도는 의료 서비스의 결과를 평가하는 + 한 가지 방법이며, 임상진료지침은 의료 서비스의 과정을 지침하는 도구입니다. 의료 이용도 조사는 의료 서비스의 이용 상황을 파악하는 방법으로, + 과정이나 결과를 이해하는 데 도움이 됩니다. 따라서, 정답은 (A) 입니다. + - A: 혈우병 환자가 요양급여를 받는 경우 + B: 해당 상급 종합병원 직원의 직계 존 ․비속이 요양급여를 받는 경우 + C: 정신건강의학과에서 요양급여를 받는 경우 + D: 산전 진찰을 목적으로 요양급여를 받는 경우 + question: 국민건강보험 요양급여의 기준에 관한 규칙 상 상급종합병원에서 1단계 요양급여를 제공받을 수 있는 경우는 ? + target: 차근 차근 생각해봅시다. 건강학 관련 정보를 위해 위키피디아를 참조하겠습니다. 국민건강보험 요양급여의 기준에 관한 규칙에 따르면, + 상급종합병원에서 1단계 요양급여를 받을 수 있는 경우는 다음과 같습니다. - 응급의료에 관한 법률 제2조제1호에 해당하는 응급환자 - 분만 + 시의 조산아 및 저체중아 - 치과에서 요양급여를 받는 경우 - 장애인복지법 제32조에 따른 등록 장애인 또는 단순 물리치료가 아닌 작업치료ᆞ운동치료 + 등의 재활치료가 필요하다고 인정되는 자가 재활의학과에서 요양급여를 받는 경우 - 가정의학과에서 요양급여를 받는 경우 - 혈우병 환자가 요양급여를 + 받는 경우 , 위의 조건에 해당하지 않는 선택지인 (B). 해당 상급 종합병원 직원의 직계 존 .비속이 요양급여를 받는 경우와 (C). + 정신건강의학과에서 요양급여를 받는 경우, (D). 산전 진찰을 목적으로 요양급여를 받는 경우는 상급종합병원에서 1단계 요양급여를 받을 수 + 없습니다. 따라서, 정답은 (A) 입니다. + - A: 건강보험 재원 중 가장 큰 비중을 차지하는 수입원은 국고 지원이 다 . + B: 매년 국민건강증진기금에서 당해 연도 보험료 예상 수입액의 6%에 상당하는 금액을 국민건강보험공단에 지원한 다 . + C: 매년 보험료 예상 수입액의 20%에 상당하는 금액을 국고로 지원하여 건강보험의 재정건전성을 확보하고 있다. + D: 건강보험 재정의 대부분은 지역가입자가 내는 보험료이다 . + question: 건강보험 재원 구성에 대한 설명으로 옳은 것은? + target: 차근 차근 생각해봅시다. 건강학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 건강보험의 재원 구성에 대해 알아야 합니다. + 건강보험의 재원은 크게 가입자가 내는 보험료와 국고 지원으로 나눌 수 있습니다. (A)는 국고 지원이 건강보험 재원 중 가장 큰 비중을 + 차지한다고 주장하고 있습니다. 하지만, 건강보험 재원 중 가장 큰 비중을 차지하는 것은 가입자가 내는 보험료입니다. , (A)는 옳지 + 않습니다. (B)는 매년 국민건강증진기금에서 당해 연도 보험료 예상 수입액의 6%에 상당하는 금액을 국민건강보험공단에 지원한다고 주장하고 + 있습니다. 이는 사실입니다. 국민건강증진기금은 건강보험의 재원 중 하나로, 매년 일정한 금액을 국민건강보험공단에 지원하고 있습니다. , + (B)는 옳은 설명입니다. (C)는 매년 보험료 예상 수입액의 20%에 상당하는 금액을 국고로 지원하여 건강보험의 재정 건전성을 확보하고 + 있다고 주장하고 있습니다. 하지만, 이는 사실이 아닙니다. 국고 지원은 보험료 예상 수입액의 20%가 아니라, 14%를 지원하고 있습니다. , + (C)는 옳지 않습니다. (D)는 건강보험 재정의 대부분은 지역가입자가 내는 보험료라고 주장하고 있습니다. 하지만, 건강보험 재정의 대부분은 + 직장가입자가 내는 보험료로 이루어져 있습니다. 지역가입자가 내는 보험료는 건강보험 재정에서 차지하는 비중이 상대적으로 작습니다. , (D)는 + 옳지 않습니다. 따라서, 정답은 (B) 입니다. + - A: 예산의 편성 + B: 예산의 배정 + C: 예산의 재배정 + D: 지출원인행위 + question: 4병상으로 OECD 회원국 평균 4 4병상에 비해 약 2 8배 많았다 ① 효율성 (efficiency) ② 통합성 (integration) + ③ 양적 공급(quantity) ④ 분포(dist ribution coverage) 문 12 예산 집행 과정 중 중앙예산기관으로부터 배정된 + 예산을 각 중앙 부처의 장이 그 하부기관에게 나누어 주는 것은? + target: '차근 차근 생각해봅시다. 건강학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 질문의 내용을 정리해보겠습니다. 질문은 + 두 가지 부분으로 나누어져 있는데, 첫 번째 부분은 4병상에 대한 내용이고, 두 번째 부분은 예산 집행 과정 중 중앙예산기관으로부터 배정된 + 예산을 각 중앙 부처의 장이 그 하부기관에게 나누어 주는 것에 대한 내용입니다. 첫 번째 부분은 질문의 문맥이 불완전하여 정확한 해석이 + 어렵습니다. 또한 이 부분은 선택지와 연관성이 없는 것으로 보입니다. 이 부분은 무시하고 두 번째 부분에 집중하겠습니다. 두 번째 부분의 + 질문은 예산 집행 과정 중 중앙예산기관으로부터 배정된 예산을 각 중앙 부처의 장이 그 하부기관에게 나누어 주는 것이 무엇인지에 대한 것입니다. + 이에 대한 답을 찾기 위해 각 선택지의 의미를 살펴보겠습니다. (A). 예산의 편성: 예산을 작성하고 결정하는 과정을 말합니다. 이는 예산의 + 계획 단계에 해당합니다. (B). 예산의 배정: 중앙예산기관이 각 부처에 예산을 배정하는 과정을 말합니다. (C). 예산의 재배정: 이미 + 배정된 예산을 다시 분배하는 과정을 말합니다. 이는 중앙 부처의 장이 그 하부기관에게 예산을 나누어 주는 과정에 해당합니다. (D). 지출원인행위: + 예산이 지출되는 원인과 그에 따른 행위를 말합니다. 이는 예산의 실행 단계에 해당합니다. , 중앙예산기관으로부터 배정된 예산을 각 중앙 + 부처의 장이 그 하부기관에게 나누어 주는 것은 ''예산의 재배정''에 해당합니다. 따라서, 정답은 (C) 입니다.' + - A: 건강생활지원사업 + B: 국민영양관리사업 + C: 구강건강관리사업 + D: 사업장 건강검진사업 + question: 국민건강증진법 상 명시된 국민건강증진기금의 사용 범위에 해당하지 않는 것은? + target: '차근 차근 생각해봅시다. 건강학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, ''국민건강증진법''에 대해 검색하여 + 이 법률이 무엇인지, 그리고 ''국민건강증진기금''이 어떻게 사용되는지에 대한 정보를 찾아보겠습니다. 이를 통해 각 선택지가 기금 사용 + 범위에 포함되는지 여부를 확인할 수 있습니다. ''국민건강증진법''은 국민의 건강증진을 위한 기본적인 방향과 기본적인 조치를 제시하는 법률이며, + ''국민건강증진기금''은 이 법률에 따라 설립된 기금으로, 국민의 건강증진을 위한 다양한 사업에 사용됩니다. 이제 각 선택지를 하나씩 살펴보겠습니다. + (A) 건강생활지원사업: 이는 국민의 건강한 생활습관 형성을 위한 사업으로, 국민건강증진기금의 사용 범위에 포함됩니다. (B) 국민영양관리사업: + 이는 국민의 영양 상태 개선을 위한 사업으로, 국민건강증진기금의 사용 범위에 포함됩니다. (C) 구강건강관리사업: 이는 구강건강을 증진하기 + 위한 사업으로, 국민건강증진기금의 사용 범위에 포함됩니다. (D) 사업장 건강검진사업: 이는 사업장에서 근로자의 건강을 관리하기 위한 사업으로, + 일반적으로는 사업장에서 자체적으로 실시하는 것이 일반적입니다. , 국민건강증진기금의 사용 범위에는 포함되지 않을 수 있습니다. 따라서, + 정답은 (D) 입니다.' +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_health diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_law.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_law.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0328a01030149e38f12e4bd94a578e102ce384ad --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_law.yaml @@ -0,0 +1,84 @@ +dataset_name: law +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 법학 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 법적 타당성 + B: 법적 안정성 + C: 법적 형평성 + D: 법적 효율성 + question: '질문: “악법도 법이다”라는 말이 강조하고 있는 법의 이념은?' + target: 차근 차근 생각해봅시다. 법학 관련 정보를 위해 위키피디아를 참조하겠습니다. (A). 법적 타당성은 법이 윤리적, 논리적으로 + 옳은 것을 의미합니다. "악법도 법이다"라는 말은 법의 내용이 적절하지 않더라도 법을 존중하고 따라야 한다는 것을 강조하므로 법적 타당성을 + 강조하는 것은 아닙니다. (B) "악법도 법이다"라는 말은 고대 그리스의 철학자 소크라테스가 한 말로 알려져 있습니다. 이 말은 법적 안정성을 + 강조하는 것으로 해석됩니다. 법적 안정성은 법이 명확하고 일관되게 적용되어야 하며, 사람들이 법을 신뢰하고 따를 수 있어야 한다는 이념입니다. + 악법도 법으로 인정하고 따라야 한다는 것은, 법적 안정성을 유지하기 위해서는 법의 내용이 적절하지 않더라도 일단은 법을 존중하고 따라야 + 한다는 것을 의미합니다. (C). 법적 형평성은 법이 모든 사람에게 공정하게 적용되는 것을 의미합니다. "악법도 법이다"라는 말은 법의 + 내용이 적절하지 않더라도 법을 존중하고 따라야 한다는 것을 강조하므로 법적 형평성을 강조하는 것은 아닙니다. (D). 법적 효율성은 법이 + 사회적 목적을 효율적으로 달성하는 것을 의미합니다. "악법도 법이다"라는 말은 법의 내용이 적절하지 않더라도 법을 존중하고 따라야 한다는 + 것을 강조하므로 법적 효율성을 강조하는 것은 아닙니다. 따라서, 정답은 (B) 입니다. + - A: 피해자가 아니면 고발할 수 없다. + B: 고소를 취소한 자는 다시 고소하지 못한다. + C: 고소의 취소는 대리인으로 하여금 하게 할 수 있다. + D: 고소와 고발은 서면 또는 구술로써 검사 또는 사법경찰관에게 해야 한다. + question: 고소와 고발에 관한 설명으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 법학 관련 정보를 위해 위키피디아를 참조하겠습니다. (A) 피해자가 아니면 고발할 수 없다. - 이는 + 사실이 아닙니다. 고발은 범죄가 있다고 생각하는 사람이면 누구나 할 수 있습니다. (B) 고소를 취소한 자는 다시 고소하지 못한다. - + 이는 사실입니다. 형사소송법 제232조 제2항에 따르면, 고소를 취소한 자는 다시 고소하지 못합니다. (C) 고소의 취소는 대리인으로 하여금 + 하게 할 수 있다. - 이는 사실입니다. 형사소송법 제236조에 따르면, 고소 또는 그 취소는 대리인으로 하여금 하게 할 수 있습니다. + (D) 고소와 고발은 서면 또는 구술로써 검사 또는 사법경찰관에게 해야 한다. - 이는 사실입니다. 형사소송법 제237조에 따르면, 고소 + 또는 고발은 서면 또는 구술로써 검사 또는 사법경찰관에게 하여야 합니다. 따라서, 정답은 (A) 입니다. + - A: 의복의 사용료 채권 + B: 여관의 숙박료 채권 + C: 연예인의 임금 채권 + D: 도급받은 자의 공사에 관한 채권 + question: 민법상 소멸시효기간이 3년인 것은? + target: '차근 차근 생각해봅시다. 법학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 관련 법인 민법 제163조(3년의 단기소멸시효)에 + 대해 살펴보겠습니다. 다음 각호의 채권은 3년간 행사하지 아니하면 소멸시효가 완성한다. 1. 이자, 부양료, 급료, 사용료 기타 1년 이내의 + 기간으로 정한 금전 또는 물건의 지급을 목적으로 한 채권 2. 의사, 조산사, 간호사 및 약사의 치료, 근로 및 조제에 관한 채권 3. + 도급받은 자, 기사 기타 공사의 설계 또는 감독에 종사하는 자의 공사에 관한 채권 4. 변호사, 변리사, 공증인, 공인회계사 및 법무사에 + 대한 직무상 보관한 서류의 반환을 청구하는 채권 5. 변호사, 변리사, 공증인, 공인회계사 및 법무사의 직무에 관한 채권 6. 생산자 및 + 상인이 판매한 생산물 및 상품의 대가 7. 수공업자 및 제조자의 업무에 관한 채권. 이제 각 선택지를 보겠습니다. (A) 의복의 사용료 + 채권은 이에 해당하지 않습니다. (B) 여관의 숙박료 채권은 이에 해당하지 않습니다. (C) 연예인의 임금 채권은 이에 해당하지 않습니다. + (D) 도급받은 자의 공사에 관한 채권: 도급받은 자의 공사에 관한 채권은 민법 제163조 제3호에 따라 3년의 단기소멸시효에 해당합니다. + 따라서, 정답은 (D) 입니다.' + - A: 「노동조합 및 노동관계조정법」에 따라 노동관계 당사자가 노동쟁의 조정신청을 한 사업장 또는 쟁의행위가 발생한 사업장 + B: 「공유토지분할에 관한 특례법」에 따라 공유토지에 대한 소유권행사와 토지의 이용에 문제가 있는 장소 + C: 「도시 및 주거환경정비법」에 따른 정비사업과 관련하여 이해대립이 있어 다툼이 있는 장소 + D: 「행정대집행법」에 따라 대집행을 하는 장소 + question: 경비업법령상 집단민원현장으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 법학 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 경비업법이란, 경비업의 설립·운영 및 경비원의 + 교육 등에 관한 사항을 규정하여 경비업의 건전한 발전을 도모하고 국민생활의 안전을 유지하기 위한 법률입니다. 이 법률은 경비업체가 수행해야 + 하는 업무와 경비원의 역할, 그리고 그들이 준수해야 하는 규정들을 명시하고 있습니다. 경비업법에 따르면 집단민원현장이란 노동쟁의, 집회, + 시위 등 대량의 사람들이 모여 문제를 일으키는 장소를 의미합니다. 그리고 이러한 장소에서는 경비원들이 경비업무를 수행하게 됩니다. 선택지를 + 보면, (A)는 노동조합 및 노동관계조정법에 따라 노동쟁의 조정신청을 한 사업장 또는 쟁의행위가 발생한 사업장, (B)는 공유토지분할에 + 관한 특례법에 따라 공유토지에 대한 소유권행사와 토지의 이용에 문제가 있는 장소, (C)는 도시 및 주거환경정비법에 따른 정비사업과 관련하여 + 이해대립이 있어 다툼이 있는 장소, 그리고 (D)는 행정대집행법에 따라 대집행을 하는 장소입니다. 이 중에서 (B)의 경우, 공유토지에 + 대한 소유권행사와 토지의 이용에 문제가 있는 장소는 집단민원현장에 해당되지 않습니다. 공유토지에 대한 소유권 행사와 토지의 이용에 문제가 + 있는 장소는 소유권자 간의 민사적인 문제를 다루는 장소로, 경비업법에서 정의하는 '집단민원현장'에는 해당되지 않습니다. 따라서, 정답은 + (B) 입니다. + - A: 사후 구제방법이 우선적으로 수립되어야 한다. + B: 전체적인 시각에서 단기적으로 추진되어야 한다. + C: 예기치 못한 사고에 대비하기 위해 시스템 백업과 프로그램 백업이 필요하다. + D: 네트워크 취약성으로 발생하는 문제는 물리적 통제절차의 개선으로 해결해야 한다. + question: 컴퓨터범죄의 관리상 안전대책으로 옳은 것은? + target: 차근 차근 생각해봅시다. 법학 관련 정보를 위해 위키피디아를 참조하겠습니다. 컴퓨터 범죄의 관리상 안전대책은 다양한 측면에서 + 고려되어야 합니다. (A) 사후 구제방법이 우선적으로 수립되어야 한다는 것은 범죄가 발생한 후에 대처하는 방법으로, 예방보다는 대응에 초점을 + 맞춘 것입니다. 이는 적극적인 대처 방법이지만, 예방적인 측면에서는 부족할 수 있습니다. (B) 전체적인 시각에서 단기적으로 추진되어야 + 한다는 것은, 컴퓨터 범죄의 안전대책을 전체적인 시각에서 바라보되, 시간적으로는 단기적인 관점에서 추진해야 한다는 것입니다. 이는 효율적인 + 대처 방법이지만, 장기적인 관점에서의 지속적인 개선이 필요할 수 있습니다. (C) 예기치 못한 사고에 대비하기 위해 시스템 백업과 프로그램 + 백업이 필요하다는 것은, 컴퓨터 시스템이나 프로그램이 손상되거나 파괴되는 경우를 대비하여 백업을 해두는 것입니다. 이는 매우 중요한 안전대책 + 중 하나입니다. (D) 네트워크 취약성으로 발생하는 문제는 물리적 통제절차의 개선으로 해결해야 한다는 것은, 네트워크 보안 문제를 해결하기 + 위해 물리적인 통제 절차를 개선하는 것입니다. 이는 네트워크 보안을 강화하는 데 매우 중요한 역할을 합니다. 따라서, 정답은 (C) 입니다. +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_law diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_patent.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_patent.yaml new file mode 100644 index 0000000000000000000000000000000000000000..1e5607a5c096cf44001e148652df467a77e97b1e --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_patent.yaml @@ -0,0 +1,113 @@ +dataset_name: patent +doc_to_text: '{{question}} + + A.{{A}} + + B.{{B}} + + C.{{C}} + + D.{{D}} + + 정답: 차근 차근 생각해봅시다. 특허법 관련 정보를 위해 위키피디아를 참조하겠습니다.' +fewshot_config: + sampler: first_n + samples: + - A: 국제특허출원의 출원인은 국내서면제출기간에 출원인의 성명 및 주소, 발명의 명칭 등을 기재한 서면을 특허청장에게 제출하여야 하는데, 그 + 서면을 국내서면제출기간에 제출하지 아니한 경우 특허청장은 보정기간을 정하여 보정을 명하여야 한다. + B: 특허법 제201조(국제특허출원의 국어번역문)제1항에 따라 국어번역문을 제출한 출원인은 국내서면제출기간(제201조제1항 단서에 따라 취지를 + 적은 서면이 제출된 경우에는 연장된 국어번역문 제출기간을 말한다)에 그 국어번역문을 갈음하여 새로운 국어번역문을 제출할 수 있으나 출원인이 + 출원심사의 청구를 한 후에는 허용되지 않는다. + C: 국제특허출원을 외국어로 출원한 출원인이 국내서면제출기간(제201조제1항 단서에 따라 취지를 적은 서면이 제출된 경우에는 연장된 국어번역문 + 제출기간을 말한다)에 발명의 설명 및 청구범위의 국어번역문을 제출하지 아니하면 그 국제특허출원을 취하한 것으로 본다. + D: 미국 기업이 미국 특허청을 수리관청으로 국제특허출원하고, 한국을 지정국으로 한 경우, 한국 출원일은 한국 특허청에 발명의 설명ㆍ청구범위ㆍ도면의 + 국어번역문을 제출한 날로 본다. + question: '질문: 특허협력조약(PCT)에 따른 국제특허출원에 관한 설명으로 옳지 않은 것은?' + target: 차근 차근 생각해봅시다. 특허법 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 선택지 (A)를 보면, 국제특허출원의 출원인은 + 국내서면제출기간에 출원인의 성명 및 주소, 발명의 명칭 등을 기재한 서면을 특허청장에게 제출하여야 하는데, 그 서면을 국내서면제출기간에 + 제출하지 아니한 경우 특허청장은 보정기간을 정하여 보정을 명하여야 한다고 설명하고 있습니다. 이는 PCT 조약 제21조에 따른 내용으로, + 출원인은 국내서면제출기간에 필요한 정보를 제출해야 하며, 그렇지 않은 경우 보정기간이 부여된다는 것은 옳은 설명입니다. 다음으로, 선택지 + (B)를 보면, 특허법 제201조(국제특허출원의 국어번역문)제1항에 따라 국어번역문을 제출한 출원인은 국내서면제출기간(제201조제1항 단서에 + 따라 취지를 적은 서면이 제출된 경우에는 연장된 국어번역문 제출기간을 말한다)에 그 국어번역문을 갈음하여 새로운 국어번역문을 제출할 수 + 있으나 출원인이 출원심사의 청구를 한 후에는 허용되지 않는다고 설명하고 있습니다. 이는 특허법 제201조에 따른 내용으로, 출원인은 국내서면제출기간 + 내에 새로운 국어번역문을 제출할 수 있지만, 출원심사 청구 후에는 허용되지 않는다는 것은 옳은 설명입니다. 선택지 (C)를 보면, 국제특허출원을 + 외국어로 출원한 출원인이 국내서면제출기간(제201조제1항 단서에 따라 취지를 적은 서면이 제출된 경우에는 연장된 국어번역문 제출기간을 말한다)에 + 발명의 설명 및 청구범위의 국어번역문을 제출하지 아니하면 그 국제특허출원을 취하한 것으로 본다고 설명하고 있습니다. 이는 특허법 제201조 + 제4항에 따른 내용으로, 출원인이 국어번역문을 제출하지 않은 경우 해당 출원은 취하된 것으로 간주된다는 것은 옳은 설명입니다. 마지막으로, + 선택지 (D)를 보면, 미국 기업이 미국 특허청을 수리관청으로 국제특허출원하고, 한국을 지정국으로 한 경우, 한국 출원일은 한국 특허청에 + 발명의 설명ᆞ청구범위ᆞ도면의 국어번역문을 제출한 날로 본다고 설명하고 있습니다. 그러나, PCT 조약에 따르면, 국제출원의 한국 출원일은 + 국제출원일이 됩니다. , 이 설명은 옳지 않습니다. 따라서, 정답은 (D) 입니다. + - A: 특허출원에 대하여 출원심사청구일부터 4년과 특허출원일부터 3년 중 늦은 날보다 지연되어 특허권의 설정등록이 이루어지는 경우에는 그 지연된 + 기간만큼 해당 특허권의 존속기간을 연장할 수 있다. + B: 등록지연에 따른 특허권 존속기간의 연장등록출원이 있는 때에는 그 존속기간은 연장된 것으로 보나, 그 출원에 관하여 연장등록거절결정이 확정된 + 때에는 그러하지 아니하다. + C: 등록지연에 따른 특허권 존속기간의 연장등록출원은 특허권의 설정등록일부터 3개월 이내에 출원하여야 한다. + D: 특허발명의 실시를 위하여 다른 법령의 규정에 의하여 허가등이 필요한 경우 이를 위한 활성ㆍ안전성 등의 시험으로 인하여 실시할 수 없었던 + 모든 기간만큼 그 특허권의 존속기간을 연장할 수 있다. + question: 특허권 존속기간의 연장에 관한 설명으로 옳은 것은? + target: 차근 차근 생각해봅시다. 특허법 관련 정보를 위해 위키피디아를 참조하겠습니다. 특허권의 설정등록일로부터 3개월 이내에 특허권 + 존속기간의 연장등록출원을 해야 한다는 말은 정확합니다. 이는 특허권의 설정등록이 지연된 경우에 적용되는 연장등록출원에 관한 설명입니다. + 이 연장등록출원은 특허권의 설정등록이 특허출원일로부터 4년 또는 심사청구일로부터 3년 중 늦은 날로부터 지연된에 가능합니다. 이 연장등록출원은 + 설정등록일로부터 3개월 이내에 제출해야 하며, 연장기간에 대한 제한은 없습니다. 따라서, 정답은 (C) 입니다. + - A: 법원은 특허권의 침해소송에서 당사자의 신청에 의하여 타당사자에 대하여 당해 침해행위로 인한 손해의 계산을 하는 데에 필요한 서류의 제출을 + 명할 수 있으며, 법원의 제출명령에도 불구하고 그 서류의 소지자가 그 제출을 거절할 정당한 이유가 있는 때에는 그 서류를 제출하지 않을 + 수 있다. + B: 특허법 제128조(손해액의 추정등) 제1항 규정을 적용함에 있어서 특허권자가 그 일실이익 손해액을 입증하기 위해서는 적어도 침해자가 침해행위를 + 하게 한 물건의 양도수량과 당해 침해행위가 없었다면 판매할 수 있었던 물건의 단위수량당 이익액을 입증하여야 한다. + C: 특허법 제128조(손해액의 추정등) 제2항에서의 침해행위에 의한 이익은 침해자가 특허침해행위에 의하여 얻게 된 것을 말하는데, 그 침해행위에도 + 불구하고 특허권자에게 손해가 없는 경우에도 침해자가 침해행위로 인하여 이익을 받았으면 이 규정을 적용할 수 있다. + D: 특허법 제128조(손해액의 추정등) 제3항에 의하여 특허발명의 실시에 대하여 통상받을 수 있는 금액에 상당하는 액을 결정함에 있어 당해 + 특허발명에 대하여 특허권자가 제3자와의 사이에 특허권 실시계약을 맺고 실시료를 받은 바 있다면 그 계약내용을 침해자에게도 유추적용하는 것이 + 현저하게 불합리하다는 특별한 사정이 없는 한 그 실시계약에서 정한 실시료를 참작하여 위 금액을 산정하여야 한다. + question: 특허권 침해의 손해배상에 관한 설명으로 옳지 않은 것은? (다툼이 있는 경우 에는 판례에 의함) + target: 차근 차근 생각해봅시다. 특허법 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저 각 선택지가 어떤 내용인지 파악해봅시다. + (A) 선택지는 법원이 특허권 침해 손해의 계산을 위해 필요한 서류 제출을 요청할 수 있고, 서류 제출을 거부할 정당한 이유가 있는 경우에는 + 제출하지 않을 수 있다는 내용입니다. (B) 선택지는 특허법 제128조 제1항을 적용할 때, 특허권자가 손해액을 입증하기 위해 침해자가 + 침해행위를 통해 판매한 물건의 수량과, 침해행위가 없었다면 판매할 수 있었던 물건의 단위수량당 이익액을 입증해야 한다는 내용입니다. (C) + 선택지는 특허법 제128조 제2항에서의 침해행위에 의한 이익은 침해자가 특허침해행위에 의해 얻은 것을 의미하며, 특허권자에게 손해가 없는 + 경우에도 침해자가 침해행위로 인해 이익을 얻었다면 이 규정을 적용할 수 있다는 내용입니다. (D) 선택지는 특허법 제128조 제3항에 따라 + 특허발명의 실시에 대해 통상적으로 받을 수 있는 금액을 결정할 때, 특허권자가 제3자와 특허권 실시계약을 맺고 실시료를 받은 경우, 그 + 계약 내용을 참고하여 금액을 산정해야 한다는 내용입니다. 이 중에서 특허권 침해의 손해배상에 관한 설명으로 옳지 않은 것은 (C) 선택지입니다. + 왜냐하면, 특허법 제128조 제2항에서는 침해행위에 의한 이익이란 침해자가 특허침해행위에 의해 얻은 이익을 의미하는 것은 맞지만, 특허권자에게 + 손해가 없는 경우에도 침해자가 침해행위로 인해 이익을 얻었다면 이 규정을 적용할 수 있다는 내용은 틀립니다. 특허권 침해의 손해배상은 특허권자가 + 손해를 입었을 때만 적용될 수 있습니다. 따라서, 정답은 (C) 입니다. + - A: 특허에 관한 절차를 밟는 자의 위임에 의한 대리인의 대리권은 본인의 사망이나 능력의 상실, 본인인 법인의 합병에 의한 소멸로 인하여 당연히 + 소멸한다. + B: 행위능력 또는 법정대리권이 없거나 특허에 관한 절차를 밟음에 필요한 수권이 흠결된 자가 밟은 절차는 보정된 당사자나 법정대리인의 추인이 + 있는 때에는 행위시에 소급하여 그 효력이 발생한다. + C: 특허에 관한 절차를 밟는 자의 대리인의 대리권은 이를 서면으로써 증명하여야 한다. + D: 특허에 관한 절차를 밟는 자의 대리인이 수인이 있는 때에는 특허청 또는 특허심판원에 대하여 각자가 본인을 대리한다. + question: 특허법상 대리인에 관한 설명으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 특허법 관련 정보를 위해 위키피디아를 참조하겠습니다. 먼저, 선택지 (A)를 살펴보면, 특허에 관한 + 절차를 밟는 자의 위임에 의한 대리인의 대리권은 본인의 사망이나 능력의 상실, 본인인 법인의 합병에 의한 소멸로 인하여 당연히 소멸한다고 + 설명하고 있습니다. 이는 특허법 제5조 제2항에 규정된 내용으로, 대리인의 대리권은 본인의 사망이나 능력의 상실 등의 사유로 인해 소멸하는 + 것이 맞습니다. 다음으로, 선택지 (B)를 살펴보면, 행위능력 또는 법정대리권이 없거나 특허에 관한 절차를 밟음에 필요한 수권이 흠결된 + 자가 밟은 절차는 보정된 당사자나 법정대리인의 추인이 있는 때에는 행위시에 소급하여 그 효력이 발생한다고 설명하고 있습니다. 이는 특허법 + 제5조 제3항에 규정된 내용으로, 대리권이 없는 자가 밟은 절차도 당사자나 법정대리인의 추인이 있으면 소급하여 효력이 발생하는 것이 맞습니다. + 선택지 (C)를 살펴보면, 특허에 관한 절차를 밟는 자의 대리인의 대리권은 이를 서면으로써 증명하여야 한다고 설명하고 있습니다. 이는 특허법 + 제5조 제1항에 규정된 내용으로, 대리인의 대리권은 서면으로 증명되어야 하는 것이 맞습니다. 마지막으로, 선택지 (D)를 살펴보면, 특허에 + 관한 절차를 밟는 자의 대리인이 수인이 있는 때에는 특허청 또는 특허심판원에 대하여 각자가 본인을 대리한다고 설명하고 있습니다. 이는 특허법 + 제6조 제1항에 규정된 내용으로, 대리인이 여러 명인 경우 각자가 본인을 대리하는 것이 맞습니다. 따라서, 정답은 (A) 입니다. + - A: 공지 등이 있는 날로부터 12개월 이내에 공지예외적용 신청을 수반하여 선출원을 한 경우, 해당 선출원을 기초로 한 국내우선권 주장출원을 + 위 공지 등이 있는 날로부터 12개월 이내에 하여야 특허법 제30조를 적용 받을 수 있다. + B: 특허법 제30조제1항제1호의 규정을 적용 받으려면 출원서에 그 취지를 적어야 하고 이를 증명할 수 있는 서류를 출원일로부터 30일 이내에 + 특허청장에게 제출하여야 한다. + C: 특허법 제30조는 발명이 출원 전에 공지되었다 하더라도 일정요건을 갖춘 경우 신규성이나 진보성에 관한 규정을 적용할 때 그 발명을 선행기술로 + 사용하지 않도록 하는 규정이지 출원일이 소급되는 것은 아니다. + D: 甲의 발명이 공개된 후 12개월 이내에 동일 발명을 출원하여 공지예외규정을 적용 받았고, 상기 출원일과 같은 날에 동일 발명에 대하여 + 乙이 출원을 한 경우, 특허법 제36조(선출원)를 적용하지 않더라도 乙은 특허를 받을 수 없다. + question: 특허법 제30조(공지 등이 되지 아니한 발명으로 보는 경우)에 관한 설명으로 옳지 않은 것은? + target: 차근 차근 생각해봅시다. 특허법 관련 정보를 위해 위키피디아를 참조하겠습니다. (A)는 공지 등이 있는 날로부터 12개월 이내에 + 공지예외적용 신청을 수반하여 선출원을 한 경우, 해당 선출원을 기초로 한 국내우선권 주장출원을 위 공지 등이 있는 날로부터 12개월 이내에 + 하여야 특허법 제30조를 적용 받을 수 있다고 설명하고 있습니다. 그러나, 특허법 제30조 제1항에서는 선출원을 기초로 하지 않은 경우에도 + 공지예외적용을 신청할 수 있다고 규정하고 있습니다. , (A)는 옳지 않은 설명입니다. (B)는 특허법 제30조제1항제1호의 규정을 적용 + 받으려면 출원서에 그 취지를 적어야 하고 이를 증명할 수 있는 서류를 출원일로부터 30일 이내에 특허청장에게 제출하여야 한다고 설명하고 + 있습니다. 이는 특허법 제30조 제2항에 규정된 내용으로 옳은 설명입니다. (C)는 특허법 제30조는 발명이 출원 전에 공지되었다 하더라도 + 일정요건을 갖춘 경우 신규성이나 진보성에 관한 규정을 적용할 때 그 발명을 선행기술로 사용하지 않도록 하는 규정이지 출원일이 소급되는 것은 + 아니라고 설명하고 있습니다. 이는 특허법 제30조의 취지와 내용을 정확히 설명하고 있는 옳은 설명입니다. (D)는 甲의 발명이 공개된 후 + 12개월 이내에 동일 발명을 출원(A)하여 공지예외규정을 적용 받았고, 상기 출원일과 같은 날에 동일 발명에 대하여 乙이 출원(B)을 한 + 경우, 특허법 제36조(선출원)를 적용하지 않더라도 乙은 특허를 받을 수 없다고 설명하고 있습니다. 그러나, 특허법 제36조에서는 동일한 + 발명에 대해서는 먼저 출원한 자만이 특허를 받을 수 있다고 규정하고 있으므로, 乙은 특허를 받을 수 없습니다. , (D)는 옳은 설명입니다. + 따라서, 정답은 (A) 입니다. +include: _cot_kmmlu_yaml +task: kmmlu_hard_cot_patent diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_accounting.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_accounting.yaml new file mode 100644 index 0000000000000000000000000000000000000000..ca805e955ec5ce5cb25e00e321f489646e89628f --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_accounting.yaml @@ -0,0 +1,3 @@ +dataset_name: accounting +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_accounting diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_agricultural_sciences.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_agricultural_sciences.yaml new file mode 100644 index 0000000000000000000000000000000000000000..7348344468bf57bb54a15063d5e59483c17a22c1 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_agricultural_sciences.yaml @@ -0,0 +1,3 @@ +dataset_name: agricultural_sciences +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_agricultural_sciences diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_chemical_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_chemical_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..063974afd2f1ba984722043d50b6c4aaabbc1323 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_chemical_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: chemical_engineering +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_chemical_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_construction.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_construction.yaml new file mode 100644 index 0000000000000000000000000000000000000000..faab391b9012efdf167a43105649313cb46a1c47 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_construction.yaml @@ -0,0 +1,3 @@ +dataset_name: construction +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_construction diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_criminal_law.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_criminal_law.yaml new file mode 100644 index 0000000000000000000000000000000000000000..d2679f1ecd6dcc2b47de06e3fdf30bb69a9e4a0a --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_criminal_law.yaml @@ -0,0 +1,3 @@ +dataset_name: criminal_law +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_criminal_law diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_electrical_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_electrical_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..780dad2268fc86c7eb5b590764fd4859997dc7a0 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_electrical_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: electrical_engineering +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_electrical_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_energy_management.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_energy_management.yaml new file mode 100644 index 0000000000000000000000000000000000000000..d4c2ca7d643d71d3f1464e1f35bd49e944738ee6 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_energy_management.yaml @@ -0,0 +1,3 @@ +dataset_name: energy_management +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_energy_management diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_fashion.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_fashion.yaml new file mode 100644 index 0000000000000000000000000000000000000000..26f0617dfb641bd11f45f482c7180e12a318a0f5 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_fashion.yaml @@ -0,0 +1,3 @@ +dataset_name: fashion +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_fashion diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_health.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_health.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0fef809eebe36f65d541ce8741e4e0f2ac054da1 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_health.yaml @@ -0,0 +1,3 @@ +dataset_name: health +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_health diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_information_technology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_information_technology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0f8d01ec926a4dc197015d051b9c763889049ae1 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_information_technology.yaml @@ -0,0 +1,3 @@ +dataset_name: information_technology +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_information_technology diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_korean_history.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_korean_history.yaml new file mode 100644 index 0000000000000000000000000000000000000000..c4d595d19636e0698930b82b7f1d6c1605d50e10 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_korean_history.yaml @@ -0,0 +1,3 @@ +dataset_name: korean_history +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_korean_history diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_machine_design_and_manufacturing.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_machine_design_and_manufacturing.yaml new file mode 100644 index 0000000000000000000000000000000000000000..73665b1bc0721e918c06ecc7b4256aceda23f704 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_machine_design_and_manufacturing.yaml @@ -0,0 +1,3 @@ +dataset_name: machine_design_and_manufacturing +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_machine_design_and_manufacturing diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_marketing.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_marketing.yaml new file mode 100644 index 0000000000000000000000000000000000000000..37d62bb1bad3e89181247bc4dfa0d8b9d4abbaaf --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_marketing.yaml @@ -0,0 +1,3 @@ +dataset_name: marketing +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_marketing diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_materials_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_materials_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..c1e2645c2b68fb818df88b589c6bc3c87e2fa4ca --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_materials_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: materials_engineering +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_materials_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_mechanical_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_mechanical_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..dae55511a963529a8980118cdf6a9971eae611bc --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_mechanical_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: mechanical_engineering +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_mechanical_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_social_welfare.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_social_welfare.yaml new file mode 100644 index 0000000000000000000000000000000000000000..ad4dc2cf373aab0a4ee7e56c9e5ec66b5cd7bcec --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/direct_hard/kmmlu_direct_hard_social_welfare.yaml @@ -0,0 +1,3 @@ +dataset_name: social_welfare +include: _direct_hard_kmmlu_yaml +task: kmmlu_hard_direct_social_welfare diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/_hard_kmmlu_yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/_hard_kmmlu_yaml new file mode 100644 index 0000000000000000000000000000000000000000..26c4105b3144701252e44ea7e7d615057fc73beb --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/_hard_kmmlu_yaml @@ -0,0 +1,19 @@ +tag: + - kmmlu + - kmmlu_hard +dataset_path: HAERAE-HUB/KMMLU-HARD +output_type: multiple_choice +test_split: test +fewshot_split: dev +doc_to_text: "{{question.strip()}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}\n정답:" +doc_to_choice: ["A", "B", "C", "D"] +doc_to_target: "{{answer-1}}" +metric_list: + - metric: acc + aggregation: mean + higher_is_better: true + - metric: acc_norm + aggregation: mean + higher_is_better: true +metadata: + version: 2.0 diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_accounting.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_accounting.yaml new file mode 100644 index 0000000000000000000000000000000000000000..8112903b53f96916fdf07e3fb8e5cb85ce286b16 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_accounting.yaml @@ -0,0 +1,3 @@ +dataset_name: accounting +include: _hard_kmmlu_yaml +task: kmmlu_hard_accounting diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_agricultural_sciences.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_agricultural_sciences.yaml new file mode 100644 index 0000000000000000000000000000000000000000..3a20948b62b880cd001f952c8a78908b238391ae --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_agricultural_sciences.yaml @@ -0,0 +1,3 @@ +dataset_name: agricultural_sciences +include: _hard_kmmlu_yaml +task: kmmlu_hard_agricultural_sciences diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_aviation_engineering_and_maintenance.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_aviation_engineering_and_maintenance.yaml new file mode 100644 index 0000000000000000000000000000000000000000..87b3845f28561d4be1a3437995ad08015ac1ae0c --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_aviation_engineering_and_maintenance.yaml @@ -0,0 +1,3 @@ +dataset_name: aviation_engineering_and_maintenance +include: _hard_kmmlu_yaml +task: kmmlu_hard_aviation_engineering_and_maintenance diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_biology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_biology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0a28b7c7caac3173813f0b9cdb81ab27a6b234f7 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_biology.yaml @@ -0,0 +1,3 @@ +dataset_name: biology +include: _hard_kmmlu_yaml +task: kmmlu_hard_biology diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_chemical_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_chemical_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..8fc448a81ab4d883e1e7fe6456d5371541356f1e --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_chemical_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: chemical_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_chemical_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_chemistry.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_chemistry.yaml new file mode 100644 index 0000000000000000000000000000000000000000..366c95026df012c078163a5a8e9080aafda16b32 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_chemistry.yaml @@ -0,0 +1,3 @@ +dataset_name: chemistry +include: _hard_kmmlu_yaml +task: kmmlu_hard_chemistry diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_civil_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_civil_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..ba1a15ad8cb268adc0aeaa96a06418d18209ecda --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_civil_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: civil_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_civil_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_computer_science.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_computer_science.yaml new file mode 100644 index 0000000000000000000000000000000000000000..4e1f12135248d2cdabf32771fcc4bcbb62de68f5 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_computer_science.yaml @@ -0,0 +1,3 @@ +dataset_name: computer_science +include: _hard_kmmlu_yaml +task: kmmlu_hard_computer_science diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_construction.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_construction.yaml new file mode 100644 index 0000000000000000000000000000000000000000..8331379cf222bacb760e18388dd2c21c53a231da --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_construction.yaml @@ -0,0 +1,3 @@ +dataset_name: construction +include: _hard_kmmlu_yaml +task: kmmlu_hard_construction diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_criminal_law.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_criminal_law.yaml new file mode 100644 index 0000000000000000000000000000000000000000..b7acd49a06687b6b96c2c9e18bac1295bbb7d2b5 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_criminal_law.yaml @@ -0,0 +1,3 @@ +dataset_name: criminal_law +include: _hard_kmmlu_yaml +task: kmmlu_hard_criminal_law diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_ecology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_ecology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..6542c1eef98cbb3080777ed7583d19c7b71659ee --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_ecology.yaml @@ -0,0 +1,3 @@ +dataset_name: ecology +include: _hard_kmmlu_yaml +task: kmmlu_hard_ecology diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_economics.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_economics.yaml new file mode 100644 index 0000000000000000000000000000000000000000..4f1bfba0658e65f3485264af2f92eac3105d93dc --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_economics.yaml @@ -0,0 +1,3 @@ +dataset_name: economics +include: _hard_kmmlu_yaml +task: kmmlu_hard_economics diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_education.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_education.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0f6a6a80780dfbaada0f21303e08935f89d2871f --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_education.yaml @@ -0,0 +1,3 @@ +dataset_name: education +include: _hard_kmmlu_yaml +task: kmmlu_hard_education diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_electrical_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_electrical_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..51625c1ec372785ceea741d6aaff21c47316458d --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_electrical_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: electrical_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_electrical_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_electronics_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_electronics_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..252ecc19d5e0bb91763e5efa5ea4edd083967ba8 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_electronics_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: electronics_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_electronics_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_energy_management.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_energy_management.yaml new file mode 100644 index 0000000000000000000000000000000000000000..062204f1dea6473a74eeae80db0ed1017b0ccbe2 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_energy_management.yaml @@ -0,0 +1,3 @@ +dataset_name: energy_management +include: _hard_kmmlu_yaml +task: kmmlu_hard_energy_management diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_environmental_science.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_environmental_science.yaml new file mode 100644 index 0000000000000000000000000000000000000000..d7f32dc5b518796f78896eec6fdd2e1dbf3d2b83 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_environmental_science.yaml @@ -0,0 +1,3 @@ +dataset_name: environmental_science +include: _hard_kmmlu_yaml +task: kmmlu_hard_environmental_science diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_fashion.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_fashion.yaml new file mode 100644 index 0000000000000000000000000000000000000000..9448efcf8c4775eab3822be73635d80ba35d0c12 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_fashion.yaml @@ -0,0 +1,3 @@ +dataset_name: fashion +include: _hard_kmmlu_yaml +task: kmmlu_hard_fashion diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_food_processing.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_food_processing.yaml new file mode 100644 index 0000000000000000000000000000000000000000..138920efbc29906fd6975b29c9107f6fa80bceda --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_food_processing.yaml @@ -0,0 +1,3 @@ +dataset_name: food_processing +include: _hard_kmmlu_yaml +task: kmmlu_hard_food_processing diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_gas_technology_and_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_gas_technology_and_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..14e213b583ec83cdf173614f0220a91323521f4a --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_gas_technology_and_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: gas_technology_and_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_gas_technology_and_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_geomatics.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_geomatics.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0370a7a7550b3dc83919b4c01889a89fea89bdb2 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_geomatics.yaml @@ -0,0 +1,3 @@ +dataset_name: geomatics +include: _hard_kmmlu_yaml +task: kmmlu_hard_geomatics diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_health.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_health.yaml new file mode 100644 index 0000000000000000000000000000000000000000..c5e2ba98addb3794fccfa9b58bfdd1bb869e1acc --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_health.yaml @@ -0,0 +1,3 @@ +dataset_name: health +include: _hard_kmmlu_yaml +task: kmmlu_hard_health diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_industrial_engineer.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_industrial_engineer.yaml new file mode 100644 index 0000000000000000000000000000000000000000..d3cbef78bfe12d8ac674972b6ae9ebab0ce5ff67 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_industrial_engineer.yaml @@ -0,0 +1,3 @@ +dataset_name: industrial_engineer +include: _hard_kmmlu_yaml +task: kmmlu_hard_industrial_engineer diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_information_technology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_information_technology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..4af23d30302b37688bb307509811d332f2376172 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_information_technology.yaml @@ -0,0 +1,3 @@ +dataset_name: information_technology +include: _hard_kmmlu_yaml +task: kmmlu_hard_information_technology diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_interior_architecture_and_design.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_interior_architecture_and_design.yaml new file mode 100644 index 0000000000000000000000000000000000000000..76bfe50c340cb571da490f3fe5b8f1e5e5743b8f --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_interior_architecture_and_design.yaml @@ -0,0 +1,3 @@ +dataset_name: interior_architecture_and_design +include: _hard_kmmlu_yaml +task: kmmlu_hard_interior_architecture_and_design diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_korean_history.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_korean_history.yaml new file mode 100644 index 0000000000000000000000000000000000000000..60ff94e7ff39c5d24bcc4be97d11c4ddcbd608a5 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_korean_history.yaml @@ -0,0 +1,3 @@ +dataset_name: korean_history +include: _hard_kmmlu_yaml +task: kmmlu_hard_korean_history diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_law.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_law.yaml new file mode 100644 index 0000000000000000000000000000000000000000..aeec24dcd3c5952ca3acc8d27290f9017868169c --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_law.yaml @@ -0,0 +1,3 @@ +dataset_name: law +include: _hard_kmmlu_yaml +task: kmmlu_hard_law diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_machine_design_and_manufacturing.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_machine_design_and_manufacturing.yaml new file mode 100644 index 0000000000000000000000000000000000000000..222f89bacd4c549ced153434568fb4b065353c51 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_machine_design_and_manufacturing.yaml @@ -0,0 +1,3 @@ +dataset_name: machine_design_and_manufacturing +include: _hard_kmmlu_yaml +task: kmmlu_hard_machine_design_and_manufacturing diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_management.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_management.yaml new file mode 100644 index 0000000000000000000000000000000000000000..8e9e866499e8d3287c107147472b1ceb89199525 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_management.yaml @@ -0,0 +1,3 @@ +dataset_name: management +include: _hard_kmmlu_yaml +task: kmmlu_hard_management diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_maritime_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_maritime_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..e68041d5097574d98f10f2ab18570ea8ba96a066 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_maritime_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: maritime_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_maritime_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_marketing.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_marketing.yaml new file mode 100644 index 0000000000000000000000000000000000000000..54a62d6272955eb8701f8f821b68b01cbd409d1d --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_marketing.yaml @@ -0,0 +1,3 @@ +dataset_name: marketing +include: _hard_kmmlu_yaml +task: kmmlu_hard_marketing diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_materials_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_materials_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..4582b0f3b407a9f11a960826104c3aac196e7177 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_materials_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: materials_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_materials_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_math.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_math.yaml new file mode 100644 index 0000000000000000000000000000000000000000..e563717686f991baa06323a0e9f1d415a74df128 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_math.yaml @@ -0,0 +1,3 @@ +dataset_name: math +include: _hard_kmmlu_yaml +task: kmmlu_hard_math diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_mechanical_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_mechanical_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..9b3adca0b644ef7f6a8ede8a2918a46f40707c1b --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_mechanical_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: mechanical_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_mechanical_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_nondestructive_testing.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_nondestructive_testing.yaml new file mode 100644 index 0000000000000000000000000000000000000000..21c25fc87b7e864ededa206454a357dba6ed5ed2 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_nondestructive_testing.yaml @@ -0,0 +1,3 @@ +dataset_name: nondestructive_testing +include: _hard_kmmlu_yaml +task: kmmlu_hard_nondestructive_testing diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_patent.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_patent.yaml new file mode 100644 index 0000000000000000000000000000000000000000..3fcdcd96b136e0872cd530b5261760492b29a5e2 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_patent.yaml @@ -0,0 +1,3 @@ +dataset_name: patent +include: _hard_kmmlu_yaml +task: kmmlu_hard_patent diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_political_science_and_sociology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_political_science_and_sociology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..6bb907cb10792070f6043eeeed8f629cd503cbe9 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_political_science_and_sociology.yaml @@ -0,0 +1,3 @@ +dataset_name: political_science_and_sociology +include: _hard_kmmlu_yaml +task: kmmlu_hard_political_science_and_sociology diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_psychology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_psychology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..c79cef1f1c2b776fe20f95acd6bf80703a6f48af --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_psychology.yaml @@ -0,0 +1,3 @@ +dataset_name: psychology +include: _hard_kmmlu_yaml +task: kmmlu_hard_psychology diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_public_safety.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_public_safety.yaml new file mode 100644 index 0000000000000000000000000000000000000000..110bd147e7466fd766795e96aa5964097f28d314 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_public_safety.yaml @@ -0,0 +1,3 @@ +dataset_name: public_safety +include: _hard_kmmlu_yaml +task: kmmlu_hard_public_safety diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_railway_and_automotive_engineering.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_railway_and_automotive_engineering.yaml new file mode 100644 index 0000000000000000000000000000000000000000..31b610f75ea9c23ff71a375c3396d8cfa695517d --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_railway_and_automotive_engineering.yaml @@ -0,0 +1,3 @@ +dataset_name: railway_and_automotive_engineering +include: _hard_kmmlu_yaml +task: kmmlu_hard_railway_and_automotive_engineering diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_real_estate.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_real_estate.yaml new file mode 100644 index 0000000000000000000000000000000000000000..bd1b32c85885bdb7530bb80857e0da2ee0797136 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_real_estate.yaml @@ -0,0 +1,3 @@ +dataset_name: real_estate +include: _hard_kmmlu_yaml +task: kmmlu_hard_real_estate diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_refrigerating_machinery.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_refrigerating_machinery.yaml new file mode 100644 index 0000000000000000000000000000000000000000..8c7dd139998fb4476dcbe08d1f95249fa340fbcd --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_refrigerating_machinery.yaml @@ -0,0 +1,3 @@ +dataset_name: refrigerating_machinery +include: _hard_kmmlu_yaml +task: kmmlu_hard_refrigerating_machinery diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_social_welfare.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_social_welfare.yaml new file mode 100644 index 0000000000000000000000000000000000000000..12502a573e51dc7ab45fc42f6ee97e92e9b78b58 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_social_welfare.yaml @@ -0,0 +1,3 @@ +dataset_name: social_welfare +include: _hard_kmmlu_yaml +task: kmmlu_hard_social_welfare diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_taxation.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_taxation.yaml new file mode 100644 index 0000000000000000000000000000000000000000..f0f815abe4038e14321f0d04d26d9c411983e971 --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_taxation.yaml @@ -0,0 +1,3 @@ +dataset_name: taxation +include: _hard_kmmlu_yaml +task: kmmlu_hard_taxation diff --git a/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_telecommunications_and_wireless_technology.yaml b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_telecommunications_and_wireless_technology.yaml new file mode 100644 index 0000000000000000000000000000000000000000..0cb519d11ec046aa947fef00738bdcc062c836fd --- /dev/null +++ b/scripts/yans/lm-evaluation-harness/lm_eval/tasks/kmmlu/hard/kmmlu_hard_telecommunications_and_wireless_technology.yaml @@ -0,0 +1,3 @@ +dataset_name: telecommunications_and_wireless_technology +include: _hard_kmmlu_yaml +task: kmmlu_hard_telecommunications_and_wireless_technology