SOVYN-1.1B 학습 시작 + Ollama 지원 소식

#1
by SOVYN - opened

안녕하세요, SOVYN 개발자입니다.

간단하게 업데이트 소식 전합니다.

SOVYN-1.1B 학습 중

85M 다음 모델로 1.1B를 학습하고 있습니다.

  • LLaMA 스타일 아키텍처 (RMSNorm, RoPE, GQA, SwiGLU)
  • 24 레이어, 2048 임베딩, 16 어텐션 헤드
  • 한국어 17억 토큰으로 사전학습 진행 중
  • 현재 Step 260/10,000 정도 진행됐고 loss 잘 내려가고 있습니다

학습 완료되면 여기에도 올리겠습니다.

SOVYN-85M Ollama 지원

85M 모델을 GGUF로 변환해서 Ollama에서 로컬로 돌릴 수 있게 만들었습니다. 한국어 출력도 정상적으로 됩니다.

관심 가져주셔서 감사합니다. 다운로드 300 넘었네요!

85M vs 1.1B 성능 비교

SOVYN 비교

주요 포인트

  • 벤치마크: 85M 86.5% (실측) -> 1.1B ~93% (예상)
  • 수열 카테고리: 33% -> 70% 로 가장 큰 개선 예상 (모델 크기가 커지면 패턴 인식 능력 향상)
  • Loss: 1.1B가 현재 Step 260에서 6.65, 학습 완료 시 ~1.5 예상
  • 아키텍처 업그레이드: GPT -> LLaMA 스타일 (RMSNorm, RoPE, GQA, SwiGLU)

학습 완료되면 실측 결과로 업데이트하겠습니다.

SOVYN pinned discussion

Sign up or log in to comment