jonghhhh commited on
Commit
05ae654
·
verified ·
1 Parent(s): d3f5ca9

Upload 3 files

Browse files
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
pytorch_model (1).bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c8fc982ff1626ef9847d8ad341b0bb66bd261a85af3f5675b472fecf6058745d
3
+ size 498676081
학습데이터 정보.txt ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ## 텍스트 윤리검증 데이터
2
+
3
+ https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=558
4
+
5
+ multiclass:
6
+ ----------/2393(검증)/2659(평가)
7
+ {'eval_loss': 0.3986741900444031, 'eval_accuracy': 0.5832020503656329, 'eval_f1': 0.703118469310467, 'eval_confusion_matrix': [[[21050, 2999], [3218, 15262]], [[41480, 263], [588, 198]], [[39740, 534], [807, 1448]], [[33299, 2411], [4179, 2640]], [[37207, 1481], [2514, 1327]], [[18467, 4441], [4481, 15140]], [[40082, 555], [1012, 880]], [[40144, 501], [754, 1130]]], 'eval_runtime': 76.5959, 'eval_samples_per_second': 555.239, 'eval_steps_per_second': 34.715, 'epoch': 10.0}
8
+
9
+
10
+
11
+
12
+
13
+
14
+
15
+
16
+
17
+
18
+ 구분 통계 정보 항목명 결과
19
+ 1 비윤리성 판단 정보 sentences[].is_immoral 비윤리 문장: 250,307
20
+ 비윤리 아님 문장: 200,803
21
+ 2 비윤리 유형 정보 sentences[].types "CENSURE": 204,029
22
+ "HATE": 69,990
23
+ "DISCRIMINATION": 39,885
24
+ "SEXUAL": 23,682
25
+ "ABUSE": 19,747
26
+ "VIOLENCE": 19,562
27
+ "CRIME": 8,187
28
+ 3 비윤리 강도의 평균 sentences[].intensity 1점: 79,137
29
+ 1점 초과 ~ 2점 미만: 129,230
30
+ 2점: 26,952
31
+ 2점 초과 ~ 3점 미만: 10,140
32
+ 3점: 4,848
33
+ "2점 미만 비율: 83%
34
+ 2점 비율: 11%
35
+ 2점 초과 비율: 6%"
36
+ 4 비윤리 강도투표자 성별 분포 "sentences[].votes[].
37
+ voter[].gender" “female”: 599,811
38
+ “male”: 651,724
39
+ 5 비윤리 강도 투표자 연령 분포 sentences[].votes[].voter[].age "10": 89
40
+ "20": 369,762
41
+ "30": 222,310
42
+ "40": 211,866
43
+ "50": 294,909
44
+ "60": 155,288
45
+ 6 대화세트당 평균 문장수 sentences count ÷ talksets count 3.4
46
+ (451110/132303)
47
+ 7 문장 어절수 분포 “1”: 2,295
48
+ “2”: 14,052
49
+ “3": 40,125
50
+ “4": 64,182
51
+ “5": 74,554
52
+ “6": 70,254
53
+ “7": 57,117
54
+ “8": 42,796
55
+ “9": 30,118
56
+ “10": 19,849
57
+ “11이상": 35,768
58
+ 최빈값: 5 어절 / 중앙값: 5 어절 / 산술평균: 6.4 어절 / 최솟값: 1 어절 / 최댓값: 68 어절