Update README.md
Browse files
README.md
CHANGED
|
@@ -124,6 +124,7 @@ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
|
|
| 124 |
- **Quality Score**: 금지어, 반복, 허용 문자, 이모지 등 서비스 품질
|
| 125 |
- **Type Score**: 목표 동물 말투 패턴 일치(1.0: 완벽, 0.2: 혼합, 0.1: 반대, 0: 없음)
|
| 126 |
- **데이터 클랜징**: 한글/영문/숫자/주요구두점/이모지만 허용, URL·불용문자·다중공백·과도반복 제거
|
|
|
|
| 127 |
|
| 128 |
---
|
| 129 |
|
|
|
|
| 124 |
- **Quality Score**: 금지어, 반복, 허용 문자, 이모지 등 서비스 품질
|
| 125 |
- **Type Score**: 목표 동물 말투 패턴 일치(1.0: 완벽, 0.2: 혼합, 0.1: 반대, 0: 없음)
|
| 126 |
- **데이터 클랜징**: 한글/영문/숫자/주요구두점/이모지만 허용, URL·불용문자·다중공백·과도반복 제거
|
| 127 |
+
- **데이터 필터링**: 5가지 평가 기준에 따른 threshold를 설정 후 미달된 데이터 삭제
|
| 128 |
|
| 129 |
---
|
| 130 |
|