--- base_model: google/gemma-3-1b-it library_name: peft tags: - gemma - peft - lora - classification - korean - academic-conference - lightweight-model license: apache-2.0 --- # 논문 제목 → 학술대회 분류 LLM (IITP 실무 기반 경량 AI) 이 모델은 논문 제목을 입력하면 해당 논문이 발표될 가능성이 높은 학술대회를 예측하는 한국어 경량 LLM입니다. Agent AI 활용 확산과 맞물려, 연구현장에서 자연어 기반의 분류 업무를 자동화할 수 있도록 실무 데이터를 기반으로 구축하였습니다. 본 프로젝트는 정보통신기획평가원(IITP)의 정책 수혜자로서, 실제 기관에서 직면한 '논문-학술대회 분류' 업무를 효율화하는 데 기여하고자 기획되었습니다. --- ## 🧠 Model Details - **Base Model**: `google/gemma-3-1b-it` - **Fine-tuning method**: LoRA (PEFT) - **Language**: Korean - **Task**: Classification (논문 제목 → 학술대회) - **Developed by**: 변정흠 - **Affiliation**: 정보통신기획평가원(IITP) 업무 지원용 Test 모델 - **Fine-tuned on**: 한국연구재단 학술대회 논문심사 데이터 (공개 CSV 활용) --- ## 🧾 Dataset - **원본**: `한국연구재단_학술대회논문심사_20241231.csv` - **구성**: `{"text": 논문 제목, "label": 학술대회명}` 형태의 JSONL 변환 - **샘플 수**: 약 9,000건 - **전처리 방식**: `[INST] 논문 제목: {제목} 어떤 학술대회명인가요? [/INST] {학술대회명}` 형식으로 Prompt 생성 --- ## 🚀 Model Usage ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch model = AutoModelForCausalLM.from_pretrained("JeongHeum/gemma3-korean-academic-classifier") tokenizer = AutoTokenizer.from_pretrained("JeongHeum/gemma3-korean-academic-classifier") prompt = "[INST] 논문 제목: 딥러닝 기반 한국어 음성 인식 시스템 [/INST]" inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=20) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) # 예시 출력: 한국음성처리학회