gemma-2-9b-HangulFixer
- Base Model: unsloth/gemma-2-9b-bnb-4bit
- Developed by: SeongeonKim
- Base Model License: Apache 2.0
- Finetuned Model License: CC BY-NC 4.0 (비영리적 사용만 허용)
- Language: Korean (ko)
- Tags:
- text-generation-inference
- transformers
- unsloth
- gemma2
- trl
- sft
모델 설명
gemma-2-9b-HangulFixer는 Unsloth와 Hugging Face의 TRL 라이브러리를 사용해 fine-tuning한 텍스트 생성 모델입니다.
이 모델은 난독화된 한글 호텔 리뷰를 원래의 명확하고 자연스러운 리뷰로 복원하기 위해 설계되었습니다.
데이터 배경
한국 숙소 예약 사이트에서는 부정적인 리뷰가 삭제될 수 있는 우려가 있습니다. 이를 피하면서 한국 사용자들에게만 유용한 정보를 전달하기 위해 일부 사용자들은 리뷰를 난독화하는 방식을 사용해 솔직한 후기를 남기고자 합니다.
이 방식은 한국 사용자들에게는 솔직한 정보를 제공하는 장점이 있지만, 숙소 운영자와 방문객 간 피드백 전달을 어렵게 만들어 서비스 품질 향상에 장애가 될 수 있습니다.
학습 데이터
이 모델은 SeongeonKim/ko-scrambled_v0.1 데이터셋의 학습 데이터를 사용해 학습되었습니다.
총 11,263개의 난독화된 한글 호텔 리뷰와 그에 상응하는 복원된 원본 리뷰를 사용해 fine-tuning이 진행되었습니다.
이 데이터셋은 리뷰의 난독화된 형태(input)와 복원된 형태(output)로 구성되어 있습니다.
예제 데이터:
- Input:
쉭딱 윕 턺려윤 굼멕웨 뷔햅 완쩐 별료. 2빡 3윌엣 88많 언 켤쳅햇눈뎨, 츙젼귓됴 엽셔써 1충깥쥐 뷜릴럴 찍졉 낼력카써 쩐황변효, 윕룸, 싼인깔찌 햄안 뷜려쥼. 효텔욹 왝 온냐? 셥핏슥 좋콥 싯셜 초핫션 옥는 꺼쮜. 낵갔 셸플롭 넬력갉 겸면 홅뗄욺 웸 욘낚? 륨 껀팃션톱 솔쑈. 빵읽 굶렇께 깨꿋학컨낢 씽끄태냐 밟탁 등둥 딱힙 쩡걺한 눅킴있 엎씀. 윌판 묘뗄뽀댜 못한 틋? 돈 악캬윤 효텔른 억긱갔 쪄욺뮌 뜻. 돈 값섭찜 묫한눈 굣. 통대뮨 촉 왐토 닫쉰는 엿길 앉 멈뮬 뜯. 잃핥는 쌀람둘한퉤 쑤코할락코 윈싸해돛 땟꿀똥 얀 함. 어긴 뭐 한는 교씬쥐ㅋㅋ. 빵엥 화짱태또 없숨. 얀님 홧챵댑툐 엾눈 호뗄잃 있낡옻? 커실 딱챠에 놓곧 화창함 깨붉편. 황짱씰 변뀌엣섧 질린넥 냠 덟럽떠럽. 넴쎄 낫써 활짱싫 쑬 떼맞타 짯층. 언빡위랒 욍출함면선 냄쎄낚뉘 캔쿳햐궤 청솎햇 탉랴 햇눈뒈 쩡쇼는 챨뒈였쥐만 냄섄눈 걔쏙 낢. 방꽉 겉씰 파탁됴 췸침햐교 쩡쇽까 체데롭 얀 퇴여 잊는 눅뀜잃엊눈뗏 뎌렵딱곰 먈학곯 왜츌학꼲 욥뉘 잘 닦았낮. 받타끼 뾰숑햇움. 쳤냐른 쳅탤료 쩡쑈 않한 겆 맏쯤. 윌 효텔, 됴늚 져져뻘륀눈 뜻. 치굼 섕갹케됴 또 톤 악깝눼. 훙, 탓씬 앉 갊. 꽁짠료 차랖곬 했돎 얀 갊. - Output:
식탁 위 더러운 금액에 비해 완전 별로. 2박 3일에 88만 원 결제했는데, 충전기도 없어서 1층까지 빌리러 직접 내려가서 전화번호, 이름, 싸인까지 해야 빌려줌. 호텔을 왜 오나? 서비스 좋고 시설 좋아서 오는 거지. 내가 셀프로 내려갈 거면 호텔을 왜 오나? 룸 컨디션도 쏘쏘. 방이 그렇게 깨끗하거나 싱크대나 바닥 등등 딱히 청결한 느낌이 없음. 일반 모텔보다 못한 듯? 돈 아까운 호텔은 여기가 처음인 듯. 돈 값어치 못하는 곳. 동대문 쪽 와도 다시는 여기 안 머물 듯. 일하는 사람들한테 수고하라고 인사해도 대꾸도 안 함. 여긴 뭐 하는 곳인지ㅋㅋ. 방에 화장대도 없음. 아니 화장대도 없는 호텔이 있나요? 거실 탁자에 놓고 화장함 개불편. 화장실 변기에서 지린내 남 더럽더럽. 냄새 나서 화장실 쓸 때마다 짜증. 연박이라 외출하면서 냄새나니 깨끗하게 청소해 달라 했는데 청소는 잘되었지만 냄새는 계속 남. 방과 거실 바닥도 찜찜하고 청소가 제대로 안 되어 있는 느낌이었는데 더럽다고 말하고 외출하고 오니 잘 닦았나. 바닥이 뽀송했음. 첫날은 제대로 청소 안한 거 맞음. 이 호텔, 돈을 저저버리는 듯. 지금 생각해도 또 돈 아깝네. 흥, 다신 안 감. 공짜로 자라고 해도 안 감.
모델 성능
- Base Model:
unsloth/gemma-2-9b-bnb-4bit를 기반으로 학습되었습니다. - Training Efficiency: Unsloth를 사용해 2배 더 빠른 속도로 학습 완료.
- Target Task: 텍스트 복원
- Language: 한글
사용 방법
아래는 모델을 사용하는 기본적인 예제입니다:
from transformers import AutoModelForCausalLM, AutoTokenizer
# 모델 로드
model_name = "SeongeonKim/gemma-2-9b-HangulFixer"
model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 테스트 입력
input_text = "녀뮨넒뭅 만죡숭러윤 효템뤼에오. 푸싸눼 옰면 콕 츄쩐학꼬 싶은 콧쉰웨오."
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
상업적 이용 관련 제한 사항
이 모델은 학습 데이터의 라이선스에 따라 CC BY-NC 4.0 라이선스를 따릅니다.
이 라이선스는 비영리적 사용만 허용하며, 상업적 용도로 사용하려면 별도의 허가가 필요합니다.
데이터를 이용하는 경우, 연구 목적으로 사용하거나 학습 데이터의 출처와 라이선스를 명확히 표기해야 합니다.
- 라이선스 세부사항: CC BY-NC 4.0
모델 개발 관련 참고 사항
- 사용된 기술: Unsloth와 Hugging Face의 TRL(SFT) 사용
- 데이터 출처: SeongeonKim/ko-scrambled_v0.1 데이터셋
- 사용 제한: 데이터의 라이선스를 준수하며, 상업적 용도로 사용 불가
This gemma2 model was trained 2x faster with Unsloth and Huggingface's TRL library.
- Downloads last month
- 4
