haebo commited on
Commit
4e979e4
·
verified ·
1 Parent(s): 6eba853

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -0
README.md CHANGED
@@ -124,6 +124,7 @@ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
124
  - **Quality Score**: 금지어, 반복, 허용 문자, 이모지 등 서비스 품질
125
  - **Type Score**: 목표 동물 말투 패턴 일치(1.0: 완벽, 0.2: 혼합, 0.1: 반대, 0: 없음)
126
  - **데이터 클랜징**: 한글/영문/숫자/주요구두점/이모지만 허용, URL·불용문자·다중공백·과도반복 제거
 
127
 
128
  ---
129
 
 
124
  - **Quality Score**: 금지어, 반복, 허용 문자, 이모지 등 서비스 품질
125
  - **Type Score**: 목표 동물 말투 패턴 일치(1.0: 완벽, 0.2: 혼합, 0.1: 반대, 0: 없음)
126
  - **데이터 클랜징**: 한글/영문/숫자/주요구두점/이모지만 허용, URL·불용문자·다중공백·과도반복 제거
127
+ - **데이터 필터링**: 5가지 평가 기준에 따른 threshold를 설정 후 미달된 데이터 삭제
128
 
129
  ---
130