---
base_model: google/gemma-3-1b-it
library_name: peft
tags:
  - gemma
  - peft
  - lora
  - classification
  - korean
  - academic-conference
  - lightweight-model
license: apache-2.0
---

# 논문 제목 → 학술대회 분류 LLM (IITP 실무 기반 경량 AI)

이 모델은 논문 제목을 입력하면 해당 논문이 발표될 가능성이 높은 학술대회를 예측하는 한국어 경량 LLM입니다.  
Agent AI 활용 확산과 맞물려, 연구현장에서 자연어 기반의 분류 업무를 자동화할 수 있도록 실무 데이터를 기반으로 구축하였습니다.

본 프로젝트는 정보통신기획평가원(IITP)의 정책 수혜자로서, 실제 기관에서 직면한 '논문-학술대회 분류' 업무를 효율화하는 데 기여하고자 기획되었습니다.

---

## 🧠 Model Details

- **Base Model**: `google/gemma-3-1b-it`
- **Fine-tuning method**: LoRA (PEFT)
- **Language**: Korean
- **Task**: Classification (논문 제목 → 학술대회)
- **Developed by**: 변정흠
- **Affiliation**: 정보통신기획평가원(IITP) 업무 지원용 Test 모델
- **Fine-tuned on**: 한국연구재단 학술대회 논문심사 데이터 (공개 CSV 활용)

---

## 🧾 Dataset

- **원본**: `한국연구재단_학술대회논문심사_20241231.csv`
- **구성**: `{"text": 논문 제목, "label": 학술대회명}` 형태의 JSONL 변환
- **샘플 수**: 약 9,000건
- **전처리 방식**: `[INST] 논문 제목: {제목} 어떤 학술대회명인가요? [/INST] {학술대회명}` 형식으로 Prompt 생성

---

## 🚀 Model Usage

```python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained("JeongHeum/gemma3-korean-academic-classifier")
tokenizer = AutoTokenizer.from_pretrained("JeongHeum/gemma3-korean-academic-classifier")

prompt = "[INST] 논문 제목: 딥러닝 기반 한국어 음성 인식 시스템 [/INST]"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=20)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# 예시 출력: 한국음성처리학회