devlim commited on
Commit
14e65f0
Β·
verified Β·
1 Parent(s): e99b556

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +114 -0
README.md ADDED
@@ -0,0 +1,114 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ## λͺ¨λΈ κ°œμš”
2
+
3
+ 이 챗봇은 λŒ€ν•œλ―Όκ΅­μ—μ„œ λ°œμƒν•œ 의료 μ „λ¬Έ 인λ ₯ λΆ€μ‘±κ³Ό μ˜μ‚¬ νŒŒμ—…μœΌλ‘œ μΈν•œ 의료 μœ„κΈ°λ₯Ό λŒ€μ‘ν•˜κΈ° μœ„ν•΄ κ°œλ°œλ˜μ—ˆμŠ΅λ‹ˆλ‹€. **μ΄ˆκ±°λŒ€ AI ν—¬μŠ€μΌ€μ–΄ μ§ˆμ˜μ‘λ‹΅ 데이터**λ₯Ό ν™œμš©ν•˜μ—¬ 의료 λΆ„μ•Όμ˜ μ „λ¬Έ 지식을 ν¬ν•¨ν•œ λŒ€κ·œλͺ¨ AI λͺ¨λΈμ„ 기반으둜 ν•˜λ©°, ν™˜μžλ“€μ—κ²Œ μ‹ μ†ν•˜κ³  μ •ν™•ν•œ 의료 정보λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
4
+
5
+ ## λͺ¨λΈ 상세 μ„€λͺ…
6
+
7
+ - **λͺ¨λΈλͺ…**: RAFT + RAG 기반 의료 상담 챗봇
8
+ - **기반 λͺ¨λΈ**: Gemma-2-2b-it
9
+ - **ν•™μŠ΅ 방법**: GPT 4o-miniλ₯Ό ν™œμš©ν•œ 데이터 증강 및 RAFT 방법 적용
10
+ - **μ•„ν‚€ν…μ²˜**: Gemma-2-2b-itκ³Ό λ™μΌν•œ ꡬ쑰 μ‚¬μš©
11
+
12
+ ## 데이터셋
13
+
14
+ - **데이터셋 이름**: μ΄ˆκ±°λŒ€ AI ν—¬μŠ€μΌ€μ–΄ μ§ˆμ˜μ‘λ‹΅ 데이터
15
+ - **좜처**: [AI ν—ˆλΈŒ](https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71762)
16
+ - **데이터 ꡬ성**:
17
+ - 40%: 정닡이 ν¬ν•¨λœ λ¬Έμ„œ 1개 + μ •λ‹΅κ³Ό κ΄€λ ¨ μ—†λŠ” λ¬Έμ„œ 1개
18
+ - 60%: μ •λ‹΅κ³Ό κ΄€λ ¨ μ—†λŠ” λ¬Έμ„œ 2개
19
+
20
+ ## ν•™μŠ΅ 방법
21
+
22
+ λͺ¨λΈμ€ GPT 4o-miniλ₯Ό ν™œμš©ν•œ 데이터 증강 기법과 RAFT([Adapting Language Model to Domain Specific RAG](https://arxiv.org/abs/2403.10131)) 방법을 μ μš©ν•˜μ—¬ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 방법을 톡해 λͺ¨λΈμ€ λ³΅μž‘ν•œ λ¬Έλ§₯ 이해와 μ •ν™•ν•œ 정보 검색 λŠ₯λ ₯을 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.
23
+
24
+ ### μ˜ˆμ‹œ
25
+
26
+ ````plaintext
27
+ <bos><start_of_turn>user
28
+ <Question>: μ‘±μ € 근막염 μž¬ν™œμ„ μœ„ν•΄ μ–΄λ–€ 쑰치λ₯Ό μ·¨ν•΄μ•Ό ν•˜λ‚˜μš”?
29
+ <Documents>: [
30
+ 'μ‘±μ € 근막염 μž¬ν™œμ€ 발 건강을 νšŒλ³΅ν•˜κ³  톡증을 μ™„ν™”ν•˜κΈ° μœ„ν•΄ λ‹€μ–‘ν•œ μ‘°μΉ˜λ“€μ„ μ·¨ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€. ...',
31
+ '외상 ν›„ 슀트레슀 μž₯μ•  치료λ₯Ό μœ„ν•΄ μ•½λ¬Ό μΉ˜λ£Œκ°€ 선택될 수 μžˆμŠ΅λ‹ˆλ‹€. ...'
32
+ ]
33
+ <end_of_turn>
34
+ <start_of_turn>model
35
+ <Answer>: μ‘±μ € 근막염 μž¬ν™œμ„ μœ„ν•΄ μ·¨ν•΄μ•Ό ν•  μ‘°μΉ˜λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€: ...
36
+ <end_of_turn><eos>
37
+ ````
38
+ ### μ˜ˆμ‹œ
39
+ #### 질문:
40
+ ````plaintext
41
+ 두톡이 자주 λ°œμƒν•˜λŠ” μ΄μœ κ°€ κΆκΈˆν•©λ‹ˆλ‹€. 슀트레슀 λ•Œλ¬ΈμΌκΉŒμš”, μ•„λ‹ˆλ©΄ λ‹€λ₯Έ 건강 λ¬Έμ œμΌκΉŒμš”? μ–΄λ–€ μƒν™©μ—μ„œ 두톡이 μ‹¬ν•΄μ§€λŠ”μ§€μ™€ ν•¨κ»˜ μ£Όμ˜ν•  점을 μ•Œκ³  μ‹Άμ–΄μš”.
42
+ ````
43
+ #### λ‹΅λ³€:
44
+ ````markdown
45
+ ## λ‘ν†΅μ˜ 원인
46
+
47
+ 두톡은 μ—¬λŸ¬ κ°€μ§€ μ›μΈμœΌλ‘œ λ°œμƒν•  수 μžˆμŠ΅λ‹ˆλ‹€. κ°€μž₯ 일반적인 μ›μΈμœΌλ‘œλŠ” λ‹€μŒκ³Ό 같은 것듀이 μžˆμŠ΅λ‹ˆλ‹€:
48
+
49
+ 1. **슀트레슀**: μΌμƒμƒν™œμ—μ„œμ˜ μŠ€νŠΈλ ˆμŠ€λŠ” 두톡을 μœ λ°œν•  수 μžˆμŠ΅λ‹ˆλ‹€. 특히 μ—…λ¬΄λ‚˜ ν•™μ—…, κ°€μ‘± κ΄€κ³„μ—μ„œμ˜ 압박감이 두톡을 μ•…ν™”μ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
50
+ 2. **신체적 μš”μΈ**: 근윑의 κΈ΄μž₯, ν˜ˆμ•‘ μˆœν™˜ 문제, 호λ₯΄λͺ¬ λ³€ν™” λ“± 신체적인 μš”μΈλ„ 두톡을 μœ λ°œν•  수 μžˆμŠ΅λ‹ˆλ‹€.
51
+ 3. **μ˜μ–‘ 결핍**: 비타민 B6 κ²°ν•μ΄λ‚˜ λ‹¨λ°±μ§ˆ 뢀쑱은 두톡을 μΌμœΌν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
52
+ 4. **μ•½λ¬Ό**: νŠΉμ • μ•½λ¬Ό, 특히 ν•­μš°μšΈμ œλ‚˜ μ§„ν†΅μ œ 등이 두톡을 μœ λ°œν•  수 μžˆμŠ΅λ‹ˆλ‹€.
53
+ 5. **λΉ„λ§Œ**: 체쀑이 κ³Όλ‹€ν•˜λ©΄ ν˜ˆμ•‘μˆœν™˜μ΄ μ €ν•˜λ˜μ–΄ 두톡이 λ°œμƒν•  수 μžˆμŠ΅λ‹ˆλ‹€.
54
+
55
+ ## λ‘ν†΅μ˜ 주의점
56
+
57
+ 두톡이 자주 λ°œμƒν•˜λŠ” 경우, λ‹€μŒκ³Ό 같은 μ£Όμ˜μ μ„ λ”°λ₯΄λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€:
58
+
59
+ - **슀트레슀 관리**: 슀트레슀λ₯Ό 쀄이기 μœ„ν•΄ λͺ…상, μš”κ°€, μ‹¬ν˜Έν‘ λ“±μ˜ 방법을 μ‹œλ„ν•΄λ³΄μ„Έμš”.
60
+ - **κ±΄κ°•ν•œ μ‹μŠ΅κ΄€**: κ· ν˜• 작힌 식사λ₯Ό ν•˜κ³ , κ³Όμ‹μ΄λ‚˜ νƒ„μˆ˜ν™”λ¬Ό κ³Όλ‹€ μ„­μ·¨λ₯Ό ν”Όν•˜μ„Έμš”.
61
+ - **κ·œμΉ™μ μΈ μš΄λ™**: 맀일 짧은 μš΄λ™μ„ 톡해 ν˜ˆμ•‘μˆœν™˜μ„ κ°œμ„ ν•˜κ³  슀트레슀λ₯Ό μ€„μ΄λŠ” 데 도움이 λ©λ‹ˆλ‹€.
62
+ - **μΆ©λΆ„ν•œ 수면**: κ·œμΉ™μ μΈ 수면 νŒ¨ν„΄μ„ μœ μ§€ν•˜κ³ , 잠자기 μ „μ—λŠ” 슀트레슀λ₯Ό μ€„μ΄λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.
63
+ - **μ „λ¬Έκ°€ 상담**: 두톡이 반볡적으둜 λ°œμƒν•˜κ±°λ‚˜ μ‹¬κ°ν•œ 증상이 μžˆμ„ 경우, μ˜μ‚¬μ™€ μƒλ‹΄ν•˜μ—¬ μ μ ˆν•œ 진단과 치료λ₯Ό λ°›λŠ” 것이 ν•„μš”ν•©λ‹ˆλ‹€.
64
+
65
+ 두톡은 일반적으둜 μΌμƒμƒν™œμ— 큰 μ§€μž₯을 μ£Όμ§€ μ•Šμ§€λ§Œ, λ§Œμ•½ 자주 λ°œμƒν•˜κ±°λ‚˜ μ‹¬κ°ν•œ 증상이 λ‚˜νƒ€λ‚œλ‹€λ©΄ μ „λ¬Έκ°€μ˜ 도움을 λ°›λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€.
66
+
67
+ ````
68
+ ## 평가 κ²°κ³Ό
69
+
70
+ λ³Έ μ—°κ΅¬μ—μ„œλŠ” RAFT + RAG λͺ¨λΈκ³Ό κΈ°μ‘΄ λͺ¨λΈμΈ Gemma-2-2b-it을 λΉ„κ΅ν•˜μ—¬ **RAGAS: Automated Evaluation of Retrieval Augmented Generation** 방법둠을 μ‚¬μš©ν•˜μ—¬ λ‹΅λ³€ μœ μ‚¬λ„λ₯Ό ν‰κ°€ν–ˆμŠ΅λ‹ˆλ‹€.
71
+
72
+ - **Gemma-2-2b-it λͺ¨λΈ**: 평균 **79.98%** 의 μœ μ‚¬λ„ 기둝
73
+ - **RAFT + RAG λͺ¨λΈ**: 평균 **96.02%** 의 μœ μ‚¬λ„ 기둝
74
+ - μ΅œμ†Œ μœ μ‚¬λ„: **92.39%**
75
+ - μ΅œλŒ€ μœ μ‚¬λ„: **98.56%**
76
+
77
+ μ•½ **16%** 의 μ„±λŠ₯ ν–₯상이 ν™•μΈλ˜μ—ˆμœΌλ©°, μ΄λŠ” RAFT + RAG λͺ¨λΈμ΄ λ³΅μž‘ν•œ λ¬Έλ§₯κ³Ό 정보 κ²€μƒ‰μ—μ„œ μš°μˆ˜ν•œ 처리 λŠ₯λ ₯을 λ³΄μœ ν•˜κ³  μžˆμŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
78
+
79
+ <img src="https://cdn-uploads.huggingface.co/production/uploads/64252e69120a3ed323304387/kcy1FWOJ2OxCtyhakfTGe.png" alt="image" width="50%">
80
+
81
+ ## μ‚¬μš© 방법
82
+
83
+ μ‚¬μš© 방법과 μ•„ν‚€ν…μ²˜λŠ” **Gemma-2-2b-it** λͺ¨λΈκ³Ό λ™μΌν•©λ‹ˆλ‹€. λͺ¨λΈμ€ ν•œκ΅­μ–΄ 의료 μ§ˆμ˜μ— λŒ€ν•΄ 전문적인 닡변을 μ œκ³΅ν•©λ‹ˆλ‹€.
84
+
85
+ ## λͺ¨λΈ 및 μ–‘μžν™” 버전
86
+
87
+ μ•„λž˜λŠ” λ³Έ λͺ¨λΈκ³Ό μ–‘μžν™”ν•œ 버전, 그리고 DSF(Domain-Specific Fine-tuning) λͺ¨λΈμ˜ λ§ν¬μž…λ‹ˆλ‹€:
88
+
89
+ - **RAFT λͺ¨λΈ**
90
+ - [devlim/Korea-HealthCare-RAFT-float16](https://huggingface.co/devlim/Korea-HealthCare-RAFT-float16)
91
+ - [devlim/Korea-HealthCare-RAFT-unit8](https://huggingface.co/devlim/Korea-HealthCare-RAFT-unit8)
92
+ - **DSF λͺ¨λΈ**
93
+ - [devlim/Korea-HealthCare-DSF-float16](https://huggingface.co/devlim/Korea-HealthCare-DSF-float16)
94
+ - [devlim/Korea-HealthCare-DSF-unit8](https://huggingface.co/devlim/Korea-HealthCare-DSF-unit8)
95
+
96
+ ## μ œν•œ 사항 및 μ£Όμ˜μ‚¬ν•­
97
+
98
+ - **의료 μ‘°μ–Έ**: 이 λͺ¨λΈμ€ 의료 정보λ₯Ό μ œκ³΅ν•˜μ§€λ§Œ, 전문적인 의료 μƒλ‹΄μ΄λ‚˜ 진단을 λŒ€μ²΄ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 건강 κ΄€λ ¨ μ˜μ‚¬ 결정은 λ°˜λ“œμ‹œ 의료 전문가와 μƒμ˜ν•˜μ‹œκΈ° λ°”λžλ‹ˆλ‹€.
99
+ - **데이터 ν•œκ³„**: λͺ¨λΈμ€ ν•™μŠ΅λœ 데이터 λ²”μœ„ λ‚΄μ—μ„œ 닡변을 μ œκ³΅ν•©λ‹ˆλ‹€. μ΅œμ‹  의료 μ§€μΉ¨μ΄λ‚˜ κ°œμΈλ³„ 상황에 λŒ€ν•œ κ³ λ €λŠ” λΆ€μ‘±ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
100
+ - **μ±…μž„ ν•œκ³„**: 이 λͺ¨λΈμ˜ μ‚¬μš©μœΌλ‘œ λ°œμƒν•˜λŠ” 결과에 λŒ€ν•΄ κ°œλ°œμžλŠ” μ±…μž„μ„ μ§€μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.
101
+
102
+ ## 인용
103
+
104
+ 이 λͺ¨λΈμ„ μ‚¬μš©ν•˜κ±°λ‚˜ 연ꡬ에 μ°Έκ³ ν•˜μ‹€ 경우 λ‹€μŒ λ¬Έν—Œμ„ μΈμš©ν•΄μ£Όμ‹œκΈ° λ°”λžλ‹ˆλ‹€:
105
+
106
+ - **μ΄ˆκ±°λŒ€ AI ν—¬μŠ€μΌ€μ–΄ μ§ˆμ˜μ‘λ‹΅ 데이터**: AI ν—ˆλΈŒ, [μ΄ˆκ±°λŒ€ AI ν—¬μŠ€μΌ€μ–΄ μ§ˆμ˜μ‘λ‹΅ 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71762)
107
+ - **Gemma 2 λͺ¨λΈ**: "Gemma 2: Improving Open Language Models at a Practical Size", *2023*.
108
+ - **RAFT 방법둠**: Park et al., "Adapting Language Model to Domain Specific RAG", *arXiv preprint arXiv:2403.10131*, 2023.
109
+ - **RAGAS 평가 방법둠**: Kim et al., "RAGAS: Automated Evaluation of Retrieval Augmented Generation", *2023*.
110
+
111
+ ## λΌμ΄μ„ μŠ€
112
+
113
+ 이 λͺ¨λΈμ€ ν•΄λ‹Ή 데이터셋과 μ›μ²œ λͺ¨λΈμ˜ λΌμ΄μ„ μŠ€ 쑰건에 따라 μ‚¬μš©ν•΄μ•Ό ν•©λ‹ˆλ‹€. μ‚¬μš© 전에 λ°˜λ“œμ‹œ λΌμ΄μ„ μŠ€ λ‚΄μš©μ„ ν™•μΈν•˜μ‹œκΈ° λ°”λžλ‹ˆλ‹€.
114
+