TIGER-Lab/MMLU-Pro
Benchmark • Updated • 12.1k • 157k • 490
모델 카드 (Model Card)
ExtGemma4-41B는 Google의 google/gemma-4-31B-it를 기반으로, 레이어 확장(Layer Expansion) 기법을 적용하여 60층에서 80층으로 늘린 대규모 언어 모델입니다.
본 모델은 한국어 법률(민사법) 및 STEM 도메인에 대한 적응형 사전학습과 Instruction Tuning을 거쳐, 추론 능력(CoT, Chain-of-Thought) 향상과 지식 확장을 목표로 개발되었습니다.
google/gemma-4-31B-it 원본 Gemma4-31B(60층)의 레이어 구조를 유지하면서, 각 블록(6층) 내에서 Sliding Attention 레이어를 2개씩 추가하여 총 80층으로 확장했습니다.
원본: [s0, s1, s2, s3, s4, F] × 10 = 60레이어
확장: [s0, s1, s1, s2, s3, s4, s4, F] × 10 = 80레이어
↑ 앞쪽 복제 ↑ 뒤쪽 복제
[1, 6, 9, 14, 17, 22, 25, 30, 33, 38, 41, 46, 49, 54, 57, 62, 65, 70, 73, 78][7, 15, 23, 31, 39, 47, 55, 63, 71, 79] (매 블록 마지막 층)확장된 레이어가 파인튜닝 전에도 베이스 모델과 동일한 출력을 보장하도록 LLaMA-Pro 방식의 Identity 초기화를 적용했습니다.
self_attn.o_proj.weight → 0mlp.down_proj.weight → 0layer_scalar 파라미터를 1.0으로 설정 (기본값 0.0654). hidden_states *= layer_scalar를 수행하므로, 이 값을 1로 두지 않으면 잔차 경로가 왜곡됩니다.0.000e+00으로, 항등 함수가 정확히 구현되었음을 확인했습니다.text_config.num_hidden_layers: 60 → 80text_config.layer_types: 80개 배열 (sliding × 7, full × 1 반복)model.safetensors.index.json: 숫자 정렬 적용 (GGUF 변환 시 블록 순서 보장)본 모델은 아래의 데이터셋을 참조하여 사전학습(계속적 학습) 및 Instruction Tuning을 수행했습니다.
| 데이터셋 | 출처 | 용도 |
|---|---|---|
| 민사법 LLM 사전학습 데이터 | AIHub (https://aihub.or.kr) | 법률 도메인 적응형 사전학습 |
| 민사법 Instruction Tuning 데이터 | AIHub | 법률 QA 및 추론 튜닝 |
| KMMLU-PRO | HAERAE-HUB (arXiv:2402.11548) | 한국어 다중 분야 추론 평가 |
| CLiCK | EunsuKim/CLiCK (HuggingFace) | 한국어 대화 및 지식 추론 데이터 |
참고: 데이터셋별 라이선스 및 이용 조건은 각 데이터셋의 원본 페이지를 따릅니다.
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
--min-p 0.00
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Nextnine/ExtGemma4-41B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
inputs = tokenizer("한국의 민법 제1조는 무엇인가요?", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512, temperature=1.0, top_p=0.95, top_k=64)
print(tokenizer.decode(outputs[0]))
./llama-cli -m ExtGemma4-41B.gguf -p "민법상 계약의 성립 요건을 설명해주세요." -n 512 --temp 1.0 --top-p 0.95 --top-k 64
google/gemma-4-31B-it (Google Gemma 라이선스)본 모델을 연구에 활용하실 경우 아래와 같이 인용해 주시기 바랍니다.
@misc{nextnine_extgemma4_2026,
author = {Nextnine (Kyungbok University Startup Incubator)},
title = {ExtGemma4-41B: Layer-Expanded Gemma4 for Korean Legal and STEM Reasoning},
year = {2026},
publisher = {Hugging Face},
url = {https://huggingface.co/Nextnine/ExtGemma4-41B}
}
모델 카드 버전: 1.0 (2026년 6월)