devngho commited on
Commit
aef43b0
·
verified ·
1 Parent(s): 247c543

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +82 -3
README.md CHANGED
@@ -10,21 +10,100 @@ NFKD 정규화를 하면 한국어 외 다른 언어 토크나이징에 영향
10
 
11
  **한국어 예시**: 원래 토크나이저보다 효율적으로 토크나이징
12
 
13
- Text: 모든 인간은 태어날 때부터 자유로우며 그 존엄과 권리에 있어 동등하다. 인간은 천부적으로 이성과 양심을 부여받았으며 서로 형제애의 정신으로 행동하여야 한다.
14
-
15
 
16
  phi4: 85 (0.00% more effective than phi-4) (�|�|든| 인|간|은| �|�|어|�|�| 때|부|터| 자|�|�|로|우|�|�| 그| �|��|�|�|과| �|�|�|리|에| 있|어| �|�|�|�|하|다|.| 인|간|은| �|�|부|적|으로| 이|성|과| �|�|�|�|을| 부|여|�|�|�|�|으|�|�| 서|로| �|�|제|�|�|의| 정|신|으로| �|��|동|하여|야| 한|다|.)
17
 
18
- phi4-jamo: 42 (102.38% more effective than phi-4) (모든| 인간은| 태어나|ᆯ| 때|부터| 자유|로우|며| 그| 존|엄|과| 권|리에| 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의| 정신|으로| 행동|하여|야| 한다|.)
 
 
19
 
20
  jamo-exp1: 39 (117.95% more effective than phi-4) (모든|인간은|태어나|ᆯ 때|부터|자유|로우|며|그|존|엄|과|권리|에 있어|동|등|하다|.|인간은|천|부|적으로|이|성과|양|심을|부여|받아|ᆻ으며|서로|형제|애|의 정|신|으로|행동|하여|야 한다|.)
21
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
22
  **다국어 예시**: 원래 토크나이저와 동일
23
 
24
  Text: Zoë
25
 
26
  phi4: 3 (0.00% more effective than phi-4) (Z|o|ë)
27
 
 
 
28
  phi4-jamo: 3 (0.00% more effective than phi-4) (Z|o|ë)
29
 
30
  jamo-exp1: 5 (-40.00% more effective than phi-4) (Z|o|e|�|�)
 
10
 
11
  **한국어 예시**: 원래 토크나이저보다 효율적으로 토크나이징
12
 
13
+ Text: `모든 인간은 태어날 때부터 자유로우며 그 존엄과 권리에 있어 동등하다. 인간은 천부적으로 이성과 양심을 부여받았으며 서로 형제애의 정신으로 행동하여야 한다.`
 
14
 
15
  phi4: 85 (0.00% more effective than phi-4) (�|�|든| 인|간|은| �|�|어|�|�| 때|부|터| 자|�|�|로|우|�|�| 그| �|��|�|�|과| �|�|�|리|에| 있|어| �|�|�|�|하|다|.| 인|간|은| �|�|부|적|으로| 이|성|과| �|�|�|�|을| 부|여|�|�|�|�|으|�|�| 서|로| �|�|제|�|�|의| 정|신|으로| �|��|동|하여|야| 한|다|.)
16
 
17
+ phi4-mini-jamo: 39 (117.95% more effective than phi-4) (모든| 인간은| 태어나|ᆯ 때|부터| 자유|로우|며| 그| 존|엄|과| 권리|에 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의 정|신|으로| 행동|하여|야 한다|.)
18
+
19
+ phi4-jamo: 39 (117.95% more effective than phi-4) (모든| 인간은| 태어나|ᆯ 때|부터| 자유|로우|며| 그| 존|엄|과| 권리|에 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의 정|신|으로| 행동|하여|야 한다|.)
20
 
21
  jamo-exp1: 39 (117.95% more effective than phi-4) (모든|인간은|태어나|ᆯ 때|부터|자유|로우|며|그|존|엄|과|권리|에 있어|동|등|하다|.|인간은|천|부|적으로|이|성과|양|심을|부여|받아|ᆻ으며|서로|형제|애|의 정|신|으로|행동|하여|야 한다|.)
22
 
23
+ Text:
24
+ ```
25
+ PyTorch, TensorFlow, JAX를 위한 최첨단 머신러닝
26
+
27
+ 🤗 Transformers는 사전학습된 최첨단 모델들을 쉽게 다운로드하고 훈련시킬 수 있는 API와 도구를 제공합니다. 사전학습된 모델을 쓰면 컴퓨팅 비용과 탄소 배출량이 줄고, 모델을 처음부터 훈련시키는 데 필요한 시간과 리소스를 절약할 수 있습니다. 저희 모델들은 다양한 분야의 태스크를 지원합니다.
28
+
29
+ 📝 자연어 처리: 텍스트 분류, 개체명 인식, 질의응답, 언어 모델링, 요약, 번역, 객관식 질의응답, 텍스트 생성
30
+ 🖼️ 컴퓨터 비전: 이미지 분류, 객체 탐지, 객체 분할
31
+ 🗣️ 오디오: 자동음성인식, 오디오 분류
32
+ 🐙 멀티모달: 표 질의응답, 광학 문자 인식 (OCR), 스캔한 문서에서 정보 추출, 비디오 분류, 시각 질의응답
33
+
34
+ 🤗 Transformers는 PyTorch, TensorFlow와 JAX 간의 상호운용성을 지원합니다. 유연하게 모델의 각 단계마다 다른 프레임워크를 사용할 수도 있습니다. 예를 들어 코드 3줄만 써서 모델을 훈련시킨 다음, 다른 프레임워크 상에서 추론할 수 있습니다. 모델을 운영 환경에 배포하기 위해 ONNX나 TorchScript 형식으로 내보낼 수도 있습니다.
35
+
36
+ 커뮤니티에 참여하시려면 Hub, 포럼, 디스코드를 방문해주세요!
37
+ ```
38
+ <details> <summary>토큰 단위 결과</summary>
39
+ phi4: 540 (0.00% more effective than phi-4) (Py|T|orch|,| TensorFlow|,| J|AX|를| 위|한| 최|�|�|�|�| �|�|�|신|러|�|�|
40
+
41
+ |�|�|�| Transformers|는| 사|전|�|�|습|된| 최|�|�|�|�| 모|�|�|들|을| �|�|�|게| 다|운|로|드|하|고| �|�|�|�|�|시|�|��| 수| 있는| API|와| �|�|구|를| 제|공|합니다|.| 사|전|�|�|습|된| 모|�|�|을| �|�|�|면| �|�|�|�|�|�|�| 비|용|과| �|�|소| 배|출|�|�|이| �|�|고|,| 모|�|�|을| 처|음|부|터| �|�|�|�|�|시|�|��|는| �|��| 필|요|한| 시|간|과| 리|소|스|를| �|�|�|�|할| 수| 있|습니다|.| �|�|�|�|�| 모|�|�|들|은| 다|�|�|한| �|�|야|의| �|�|스|크|를| 지|원|합니다|.
42
+
43
+ |�|�|�| 자|�|�|어| 처리|:| �|��|스트| �|�|류|,| 개|체|명| 인|식|,| �|�|의|�|�|�|�|,| �|�|어| 모|�|�|�|�|,| 요|�|�|,| 번|�|�|,| �|�|�|��|식| �|�|의|�|�|�|�|,| �|��|스트| 생성|
44
+ |�|�|�|️| �|�|�|�|�|터| 비|전|:| 이미|지| �|�|류|,| 객체| �|�|지|,| 객체| �|�|할|
45
+ |�|�|�|️| 오|디|오|:| 자|동|음|성|인|식|,| 오|디|오| �|�|류|
46
+ |�|�|�| �|�|�|�|�|�|�|�|�|:| �|��| �|�|의|�|�|�|�|,| �|�|�|�|�| 문자| 인|식| (|OCR|),| �|�|�|�|�|한| 문|서|에서| 정보| 추|출|,| 비|디|오| �|�|류|,| 시|�|�| �|�|의|�|�|�|�|
47
+
48
+ |�|�|�| Transformers|는| Py|T|orch|,| TensorFlow|와| J|AX| �|�|의| 상|호|운|용|성|을| 지|원|합니다|.| �|�|�|�|하|게| 모|�|�|의| �|�| �|�|�|�|�|�다| 다|른| 프|�|�|임|�|�|크|를| 사용|할| 수|도| 있|습니다|.| 예|를| �|�|어| 코드| |3|�|�|만| �|�|�|서| 모|�|�|을| �|�|�|�|�|시|�|��| 다|음|,| 다|른| 프|�|�|임|�|�|크| 상|에서| 추|�|�|할| 수| 있|습니다|.| 모|�|�|을| �|�|�|�| �|�|경|에| 배|�|�|�|하기| 위|해| ON|NX|나| Torch|Script| �|�|식|으로| 내|보|�|�| 수|도| 있|습니다|.
49
+
50
+ |�|�|�|�|�|�|니|�|�|�|에| �|�|여|하|시|�|�|면| Hub|,| 포|�|�|,| �|�|스|�|��드|를| 방|문|해|주세요|!)
51
+
52
+ phi4-mini-jamo: 305 (77.05% more effective than phi-4) (Py|T|orch|,| |Tensor|Flow|,| |J|AX|를| 위한| 최|첨|단| 머|신|러|닝|
53
+
54
+ |�|�|�| |Transform|ers|는| 사전|학습|된| 최|첨|단| 모델|들을| 쉽게| 다|운|로드|하고| 훈련|시키|ᆯ 수 있는| |API|와| 도|구를| 제공합니다|.| 사전|학습|된| 모델을| 쓰|면| ᄏ|ᅥᆷ퓨|팅| 비용|과| 탄소| 배출|량이| 줄|고|,| 모델을| 처음|부터| 훈련|시키는 데| 필요한| 시간과| 리|소|스를| 절|약하|ᆯ 수 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
55
+
56
+ |�|�|�| 자연|어| 처리|:| 텍|스트| 분류|,| 개|체|명| 인식|,| 질의|응답|,| 언어| 모데|ᆯ링|,| 요약|,| 번|역|,| 객|관|식| 질의|응답|,| 텍|스트| 생성|
57
+ |�|�|�|️| 컴퓨터| 비|전|:| 이미지| 분류|,| 객|체| 탐|지|,| 객|체| 분|할|
58
+ |�|�|�|️| 오|디오|:| 자동|음성|인식|,| 오|디오| 분류|
59
+ |�|�|�| 멀티|모|달|:| 표| 질의|응답|,| 광학| 문자| 인식| |(|OCR|),| 스|캐|ᆫ|한| 문|서|에서| 정보| 추출|,| 비디오| 분류|,| 시각| 질의|응답|
60
+
61
+ |�|�|�| |Transform|ers|는| |Py|T|orch|,| |Tensor|Flow|와| |J|AX| 간|의 상호|운용|성을| 지원|합니다|.| 유연|하게| 모데|ᆯ의| 각| 단계|마다| 다른| 프레임|워크|를 사용|할 수도| 있습니다|.| 예를 들어| 코드| |3|줄|만| 써|서| 모델을| 훈련|시킨| 다음|,| 다른| 프레임|워크| 상에서| 추|론|할 수 있|습니다|.| 모델을| 운영| 환경|에| 배|포|하기 위해| |ON|NX|나| |T|orch|Script| 형|식으로| 내|보내|ᆯ 수도| 있습니다|.
62
+
63
+ |커뮤니티|에 참여|하시|려면| |Hub|,| 포|럼|,| 디|스코|드를| 방문|해주|세요|!)
64
+
65
+ phi4-jamo: 305 (77.05% more effective than phi-4) (Py|T|orch|,| |Tensor|Flow|,| |J|AX|를| 위한| 최|첨|단| 머|신|러|닝|
66
+
67
+ |�|�|�| |Transform|ers|는| 사전|학습|된| 최|첨|단| 모델|들을| 쉽게| 다|운|로드|하고| 훈련|시키|ᆯ 수 있는| |API|와| 도|구를| 제공합니다|.| 사전|학습|된| 모델을| 쓰|면| ᄏ|ᅥᆷ퓨|팅| 비용|과| 탄소| 배출|량이| 줄|고|,| 모델을| 처음|부터| 훈련|시키는 데| 필요한| 시간과| 리|소|스를| 절|약하|ᆯ 수 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
68
+
69
+ |�|�|�| 자연|어| 처리|:| 텍|스트| 분류|,| 개|체|명| 인식|,| 질의|응답|,| 언어| 모데|ᆯ링|,| 요약|,| 번|역|,| 객|관|식| 질의|응답|,| 텍|스트| 생성|
70
+ |�|�|�|️| 컴퓨터| 비|전|:| 이미지| 분류|,| 객|체| 탐|지|,| 객|체| 분|할|
71
+ |�|�|�|️| 오|디오|:| 자동|음성|인식|,| 오|디오| 분류|
72
+ |�|�|�| 멀티|모|달|:| 표| 질의|응답|,| 광학| 문자| 인식| |(|OCR|),| 스|캐|ᆫ|한| 문|서|에서| 정보| 추출|,| 비디오| 분류|,| 시각| 질의|응답|
73
+
74
+ |�|�|�| |Transform|ers|는| |Py|T|orch|,| |Tensor|Flow|와| |J|AX| 간|의 상호|운용|성을| 지원|합니다|.| 유연|하게| 모데|ᆯ의| 각| 단계|마다| 다른| 프레임|워크|를 사용|할 수도| 있습니다|.| 예를 들어| 코드| |3|줄|만| 써|서| 모델을| 훈련|시킨| 다음|,| 다른| 프레임|워크| 상에서| 추|론|할 수 있|습니다|.| 모델을| 운영| 환경|에| 배|포|하기 위해| |ON|NX|나| |T|orch|Script| 형|식으로| 내|보내|ᆯ 수도| 있습니다|.
75
+
76
+ |커뮤니티|에 참여|하시|려면| |Hub|,| 포|럼|,| 디|스코|드를| 방문|해주|세요|!)
77
+
78
+ jamo-exp1: 345 (56.52% more effective than phi-4) (P|y|T|or|ch|,|T|en|s|or|F|lo|w|,|J|A|X|를 위한|최|첨|단|머|신|러|닝|
79
+ |
80
+ |�|�|�|�|T|r|an|s|for|m|ers|는 사|전|학습|된|최|첨|단|모델|들을|쉽게|다|운|로드|하고|훈련|시키|ᆯ 수 있는|AP|I|와|도|구를|제공합니다|.|사전|학습|된|모델을|쓰|면|ᄏ|ᅥᆷ퓨|팅|비용|과|탄소|배출|량이|줄|고|,|모델을|처음|부터|훈련|시키는 데|필요한|시간과|리|소|스를|절|약하|ᆯ 수 있습니다|.|저|희|모델|들은|다양한|분야|의|태|스크|를|지원|합니다|.|
81
+ |
82
+ |�|�|�|�|자연|ᄋ��|처리|:|텍|스트|분류|,|개|체|명|인식|,|질의|응답|,|언어|모데|ᆯ링|,|요약|,|번|역|,|객|관|식|질의|응답|,|텍|스트|생성|
83
+ |�|�|�|�|�|�|�|컴퓨터|비|전|:|이미지|분류|,|객|체|탐|지|,|객|체|분|할|
84
+ |�|�|�|�|�|�|�|오|디오|:|자동|음성|인식|,|오|디오|분류|
85
+ |�|�|�|�|멀티|모|달|:|표|질의|응답|,|광학|문자|인식||(|OC|R|)|,|스|캐|ᆫ|한|문|서|에서|정보|추출|,|비디오|분류|,|시각|질의|응답|
86
+ |
87
+ |�|�|�|�|T|r|an|s|for|m|ers|는|P|y|T|or|ch|,|T|en|s|or|F|lo|w|와|J|A|X|간|의 상호|운용|성을|지원|합니다|.|유연|하게|모데|ᆯ의|각|단계|마다|다른|프레임|워크|를 사용|할 수도|있습니다|.|예를 들어|코드||3|줄|만|써|서|모델을|훈련|시킨|다음|,|다른|프레임|워크|상에서|추|론|할 수 있|습니다|.|모델을|운영|환경|에|배|포|하기 위해|ON|N|X|나|T|or|ch|S|c|ri|p|t|형|식으로|내|보내|ᆯ 수도|있습니다|.|
88
+ |
89
+ |커뮤니티|에 참여|하시|려면|H|ub|,|포|럼|,|디|스코|드를|방문|해주|세요|!)</details>
90
+
91
+ phi4: 540 (0.00% more effective than phi-4)
92
+
93
+ phi4-mini-jamo: 305 (77.05% more effective than phi-4)
94
+
95
+ phi4-jamo: 305 (77.05% more effective than phi-4)
96
+
97
+ jamo-exp1: 345 (56.52% more effective than phi-4)
98
+
99
  **다국어 예시**: 원래 토크나이저와 동일
100
 
101
  Text: Zoë
102
 
103
  phi4: 3 (0.00% more effective than phi-4) (Z|o|ë)
104
 
105
+ phi4-mini-jamo: 3 (0.00% more effective than phi-4) (Z|o|ë)
106
+
107
  phi4-jamo: 3 (0.00% more effective than phi-4) (Z|o|ë)
108
 
109
  jamo-exp1: 5 (-40.00% more effective than phi-4) (Z|o|e|�|�)