SOVYN
/

SOVYN-85M

Text Generation

Eval Results (legacy)

Model card Files Files and versions

SOVYN-1.1B 학습 시작 + Ollama 지원 소식

#1

pinned

by SOVYN - opened Apr 11

Owner Apr 11

안녕하세요, SOVYN 개발자입니다.

간단하게 업데이트 소식 전합니다.

SOVYN-1.1B 학습 중

85M 다음 모델로 1.1B를 학습하고 있습니다.

LLaMA 스타일 아키텍처 (RMSNorm, RoPE, GQA, SwiGLU)
24 레이어, 2048 임베딩, 16 어텐션 헤드
한국어 17억 토큰으로 사전학습 진행 중
현재 Step 260/10,000 정도 진행됐고 loss 잘 내려가고 있습니다

학습 완료되면 여기에도 올리겠습니다.

SOVYN-85M Ollama 지원

85M 모델을 GGUF로 변환해서 Ollama에서 로컬로 돌릴 수 있게 만들었습니다. 한국어 출력도 정상적으로 됩니다.

관심 가져주셔서 감사합니다. 다운로드 300 넘었네요!

Owner Apr 11

85M vs 1.1B 성능 비교

주요 포인트

벤치마크: 85M 86.5% (실측) -> 1.1B ~93% (예상)
수열 카테고리: 33% -> 70% 로 가장 큰 개선 예상 (모델 크기가 커지면 패턴 인식 능력 향상)
Loss: 1.1B가 현재 Step 260에서 6.65, 학습 완료 시 ~1.5 예상
아키텍처 업그레이드: GPT -> LLaMA 스타일 (RMSNorm, RoPE, GQA, SwiGLU)

학습 완료되면 실측 결과로 업데이트하겠습니다.

SOVYN pinned discussion Apr 11

Apr 11

Y

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment