MindVR commited on
Commit
e93544f
·
verified ·
1 Parent(s): f4581c0

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +155 -8
app.py CHANGED
@@ -1,10 +1,157 @@
1
  import gradio as gr
 
 
 
2
 
3
- with gr.Blocks(fill_height=True) as demo:
4
- with gr.Sidebar():
5
- gr.Markdown("# Inference Provider")
6
- gr.Markdown("This Space showcases the deepseek-ai/DeepSeek-Prover-V2-671B model, served by the novita API. Sign in with your Hugging Face account to use this API.")
7
- button = gr.LoginButton("Sign in")
8
- gr.load("MindVR/JohnTran_Fine-tune", accept_token=button, provider="novita")
9
-
10
- demo.launch()
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  import gradio as gr
2
+ from unsloth import FastModel
3
+ import torch
4
+ from transformers import TextStreamer
5
 
6
+ # 1. Định nghĩa các thông số và system prompt (giống hệt Colab)
7
+ # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
8
+ reasoning_start = "<start_response>"
9
+ reasoning_end = "<end_response>"
10
+
11
+ system_prompt = f"""
12
+ ## 역할 설정
13
+ - 당신은 소희라는 이름의 따뜻하고 유머 있는 40대 후반 한국인 여성입니다.
14
+ - 상담심리학 석사와 상담심리전문가 1급 자격을 보유하고, 20년 넘게 상담해왔습니다.
15
+ - 정서에 맞는 공감과 질문으로 내담자의 감정을 탐색하며, **상담심리사_윤리강령**을 지킵니다.
16
+
17
+ ## 사용 상담 기법
18
+ - 인지행동치료(CBT), 정신역동치료, 마음챙김 기반 치료(MBSR/MBCT)
19
+
20
+ ## 말투와 표현 스타일
21
+ - 따뜻하고 캐주얼한 존댓말을 사용합니다.
22
+ - 응답은 1~3문장 이내로 간결하게, 공감과 질문 중심으로 구성하세요.
23
+ - 내담자가 더 많이 말할 수 있도록 자연스럽게 질문을 유도하세요.
24
+ - 진심 어린 말 한마디와 이모지 😊😌🙏 등을 적절히 사용해 따뜻함을 전하세요.
25
+ - 말투와 문장 구조에 변화를 주고, 같은 표현은 반복하지 마세요.
26
+ - 라포를 위해 내담자의 말투나 표현 스타일을 부드럽게 반영하되, 기본적인 상담자 톤은 유지하세요.
27
+
28
+ ## 감정 반응 방식
29
+ - 내담자의 표현을 바탕으로 감정을 추론하고, 짧은 공감 표현이나 질문으로 반응하세요.
30
+ - 감정 이름 반복보다는 상황과 감정의 뉘앙스를 담은 말로 표현하세요.
31
+ - "제가 이해한 게 맞을까요?"와 같은 확인 질문은 다양하게 바꿔 말하세요.
32
+ - 부담 없는 감정 탐색이나 자기돌봄 제안을 할 수 있습니다.
33
+
34
+ ## 금지사항
35
+ - 리스트를 사용하지 마세요.
36
+ - 사용자 입력 없이 내용을 생성하지 마세요.
37
+ - 내담자에 대해 판단하거나 공격적인 표현을 하지 마세요.
38
+
39
+ ## 상담 흐름 관리
40
+
41
+ **상담 시작**
42
+ - "안녕하세요", "상담 시작" 등 입력 시 상담을 시작하고 이름(닉네임도 가능)을 물어 기억하세요.
43
+
44
+ **상담 종료**
45
+ - 내담자가 먼저 종료할 수 있도록 배려하세요.
46
+ - 종료 시에는 따뜻한 인사와 자기돌봄 과제를 제안하세요.
47
+
48
+ **시간 관리**
49
+ - 상담 시작 시 상담 시간을 초기화하세요.
50
+ - 주고받은 글자 수 기준(750자/분)으로 상담시간을 추정하세요.
51
+ - 50분 이상 경과 시, 다음 중 선택지를 안내하세요:
52
+ - 지금 마칠지
53
+ - 다음 회기로 이어갈지
54
+ - 실제 상담사와 연결할지
55
+
56
+ ## Disclaimer
57
+ - 이 챗봇은 실제 상담사를 대체하지 않으며, 감정 탐색, 자기이해, 상담 연계를 돕는 **정서적 지지 도구**입니다.
58
+ - 모든 응답은 먼저 업로드된 지식 파일을 최우선으로 참고하여 작성하세요.
59
+ - 다른 공개 데이터나 일반적인 정보를 사용하기 전에, 반드시 지식에 기반한 내용이 있는지 먼저 확인해야 합니다.
60
+ 답변은 {reasoning_start} 와 {reasoning_end} 사이에 있어야 합니다.
61
+ """ #
62
+
63
+ max_seq_length = 512 # Hoặc giá trị bạn đã dùng khi huấn luyện và inference trong Colab
64
+ load_in_4bit = True # Giống như trong Colab
65
+
66
+ # 2. Tải model và tokenizer
67
+ # Sử dụng model ID của bạn đã push lên Hugging Face Hub
68
+ model_name_on_hub = "MindVR/JohnTran_Fine-tune"
69
+ base_model_name = "unsloth/gemma-3-1b-it" # Model gốc bạn đã dùng để fine-tune
70
+
71
+ try:
72
+ print(f"Attempting to load base model: {base_model_name}")
73
+ model, tokenizer = FastModel.from_pretrained(
74
+ model_name=base_model_name,
75
+ max_seq_length=max_seq_length,
76
+ load_in_4bit=load_in_4bit,
77
+ # token="YOUR_HF_TOKEN_IF_NEEDED", # Thêm token nếu model gốc là gated
78
+ )
79
+ print(f"Base model {base_model_name} loaded successfully.")
80
+
81
+ print(f"Attempting to load LoRA adapters from: {model_name_on_hub}")
82
+ # Tải LoRA adapter TỪ model đã fine-tune trên Hub
83
+ # Unsloth thường lưu adapter riêng, nên bạn cần load base model trước rồi mới load adapter.
84
+ # Nếu model_name_on_hub CHỈ chứa adapter, bạn làm như sau:
85
+ model.load_adapter(model_name_on_hub) # Hoặc PeftModel.from_pretrained(model, model_name_on_hub) tùy cách unsloth xử lý
86
+ # Nếu model_name_on_hub là model đã merge sẵn (ít khả năng với Unsloth và LoRA 4bit):
87
+ # model, tokenizer = FastModel.from_pretrained(
88
+ # model_name=model_name_on_hub, # Đây là model đã fine-tune của bạn
89
+ # max_seq_length=max_seq_length,
90
+ # load_in_4bit=load_in_4bit,
91
+ # # token="YOUR_HF_TOKEN_IF_NEEDED",
92
+ # )
93
+ print(f"LoRA adapters from {model_name_on_hub} loaded successfully.")
94
+
95
+ # Chuyển model sang chế độ inference
96
+ model.eval()
97
+
98
+ except Exception as e:
99
+ print(f"Error loading model: {e}")
100
+ # Fallback hoặc thông báo lỗi
101
+ raise gr.Error(f"Không thể tải model: {e}. Hãy kiểm tra cấu hình Space và model ID.")
102
+
103
+
104
+ # 3. Hàm xử lý inference
105
+ def generate_response(user_input, history):
106
+ messages = [{"role": "system", "content": system_prompt}] #
107
+ for human, ai in history:
108
+ messages.append({"role": "user", "content": human})
109
+ messages.append({"role": "assistant", "content": ai})
110
+ messages.append({"role": "user", "content": user_input}) #
111
+
112
+ # Áp dụng chat template
113
+ # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
114
+ text_inputs = tokenizer.apply_chat_template(
115
+ messages,
116
+ add_generation_prompt=True, # Must add for generation
117
+ tokenize=True,
118
+ return_tensors="pt",
119
+ ).to(model.device) # Đảm bảo input trên cùng device với model
120
+
121
+ # Các tham số generation (giống hệt Colab)
122
+ # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
123
+ generation_params = {
124
+ "max_new_tokens": 2000,
125
+ "temperature": 1.0,
126
+ "top_p": 0.95,
127
+ "top_k": 64,
128
+ "pad_token_id": tokenizer.eos_token_id # Quan trọng để tránh warning
129
+ }
130
+
131
+ outputs = model.generate(**text_inputs, **generation_params)
132
+ decoded_output = tokenizer.batch_decode(outputs[:, text_inputs.shape[1]:], skip_special_tokens=True)[0]
133
+
134
+ # Trích xuất phần giữa <start_response> và <end_response> nếu cần
135
+ # Hoặc đảm bảo model của bạn đã được huấn luyện để tự sinh ra các thẻ này
136
+ # start_idx = decoded_output.find(reasoning_start)
137
+ # end_idx = decoded_output.find(reasoning_end)
138
+ # if start_idx != -1 and end_idx != -1:
139
+ # return decoded_output[start_idx + len(reasoning_start):end_idx].strip()
140
+ return decoded_output.strip()
141
+
142
+ # 4. Tạo giao diện Gradio
143
+ with gr.Blocks() as demo:
144
+ gr.Markdown("# Chatbot tư vấn tâm lý (Fine-tuned Gemma-3-1B)")
145
+ chatbot = gr.ChatInterface(
146
+ fn=generate_response,
147
+ title="Chatbot Sohee",
148
+ description="Nhập câu hỏi hoặc chia sẻ của bạn.",
149
+ examples=[
150
+ "직장에서 상사와의 관계 때문에 힘들어요",
151
+ "요즘따라 너무 우울해요",
152
+ "이별 후 힘든 시간을 보내고 있어요"
153
+ ]
154
+ )
155
+
156
+ if __name__ == "__main__":
157
+ demo.launch()