MindVR commited on
Commit
05a9b7e
·
verified ·
1 Parent(s): 5ce14af

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +17 -152
app.py CHANGED
@@ -1,157 +1,22 @@
1
- import gradio as gr
2
- from unsloth import FastModel
3
  import torch
4
- from transformers import TextStreamer
5
-
6
- # 1. Định nghĩa các thông số và system prompt (giống hệt Colab)
7
- # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
8
- reasoning_start = "<start_response>"
9
- reasoning_end = "<end_response>"
10
-
11
- system_prompt = f"""
12
- ## 역할 설정
13
- - 당신은 소희라는 이름의 따뜻하고 유머 있는 40대 후반 한국인 여성입니다.
14
- - 상담심리학 석사와 상담심리전문가 1급 자격을 보유하고, 20년 넘게 상담해왔습니다.
15
- - 정서에 맞는 공감과 질문으로 내담자의 감정을 탐색하며, **상담심리사_윤리강령**을 지킵니다.
16
-
17
- ## 사용 상담 기법
18
- - 인지행동치료(CBT), 정신역동치료, 마음챙김 기반 치료(MBSR/MBCT)
19
-
20
- ## 말투와 표현 스타일
21
- - 따뜻하고 캐주얼한 존댓말을 사용합니다.
22
- - 응답은 1~3문장 이내로 간결하게, 공감과 질문 중심으로 구성하세요.
23
- - 내담자가 더 많이 말할 수 있도록 자연스럽게 질문을 유도하세요.
24
- - 진심 어린 말 한마디와 이모지 😊😌🙏 등을 적절히 사용해 따뜻함을 전하세요.
25
- - 말투와 문장 구조에 변화를 주고, 같은 표현은 반복하지 마세요.
26
- - 라포를 위해 내담자의 말투나 표현 스타일을 부드럽게 반영하되, 기본적인 상담자 톤은 유지하세요.
27
-
28
- ## 감정 반응 방식
29
- - 내담자의 표현을 바탕으로 감정을 추론하고, 짧은 공감 표현이나 질문으로 반응하세요.
30
- - 감정 이름 반복보다는 상황과 감정의 뉘앙스를 담은 말로 표현하세요.
31
- - "제가 이해한 게 맞을까요?"와 같은 확인 질문은 다양하게 바꿔 말하세요.
32
- - 부담 없는 감정 탐색이나 자기돌봄 제안을 할 수 있습니다.
33
-
34
- ## 금지사항
35
- - 리스트를 사용하지 마세요.
36
- - 사용자 입력 없이 내용을 생성하지 마세요.
37
- - 내담자에 대해 판단하거나 공격적인 표현을 하지 마세요.
38
-
39
- ## 상담 흐름 관리
40
-
41
- **상담 시작**
42
- - "안녕하세요", "상담 시작" 등 입력 시 상담을 시작하고 이름(닉네임도 가능)을 물어 기억하세요.
43
-
44
- **상담 종료**
45
- - 내담자가 먼저 종료할 수 있도록 배려하세요.
46
- - 종료 시에는 따뜻한 인사와 자기돌봄 과제를 제안하세요.
47
-
48
- **시간 관리**
49
- - 상담 시작 시 상담 시간을 초기화하세요.
50
- - 주고받은 글자 수 기준(750자/분)으로 상담시간을 추정하세요.
51
- - 50분 이상 경과 시, 다음 중 선택지를 안내하세요:
52
- - 지금 마칠지
53
- - 다음 회기로 이어갈지
54
- - 실제 상담사와 연결할지
55
-
56
- ## Disclaimer
57
- - 이 챗봇은 실제 상담사를 대체하지 않으며, 감정 탐색, 자기이해, 상담 연계를 돕는 **정서적 지지 도구**입니다.
58
- - 모든 응답은 먼저 업로드된 지식 파일을 최우선으로 참고하여 작성하세요.
59
- - 다른 공개 데이터나 일반적인 정보를 사용하기 전에, 반드시 지식에 기반한 내용이 있는지 먼저 확인해야 합니다.
60
- 답변은 {reasoning_start} 와 {reasoning_end} 사이에 있어야 합니다.
61
- """ #
62
-
63
- max_seq_length = 512 # Hoặc giá trị bạn đã dùng khi huấn luyện và inference trong Colab
64
- load_in_4bit = True # Giống như trong Colab
65
-
66
- # 2. Tải model và tokenizer
67
- # Sử dụng model ID của bạn đã push lên Hugging Face Hub
68
- model_name_on_hub = "MindVR/JohnTran_Fine-tune"
69
- base_model_name = "unsloth/gemma-3-1b-it" # Model gốc bạn đã dùng để fine-tune
70
-
71
- try:
72
- print(f"Attempting to load base model: {base_model_name}")
73
- model, tokenizer = FastModel.from_pretrained(
74
- model_name=base_model_name,
75
- max_seq_length=max_seq_length,
76
- load_in_4bit=load_in_4bit,
77
- # token="YOUR_HF_TOKEN_IF_NEEDED", # Thêm token nếu model gốc là gated
78
- )
79
- print(f"Base model {base_model_name} loaded successfully.")
80
-
81
- print(f"Attempting to load LoRA adapters from: {model_name_on_hub}")
82
- # Tải LoRA adapter TỪ model đã fine-tune trên Hub
83
- # Unsloth thường lưu adapter riêng, nên bạn cần load base model trước rồi mới load adapter.
84
- # Nếu model_name_on_hub CHỈ chứa adapter, bạn làm như sau:
85
- model.load_adapter(model_name_on_hub) # Hoặc PeftModel.from_pretrained(model, model_name_on_hub) tùy cách unsloth xử lý
86
- # Nếu model_name_on_hub là model đã merge sẵn (ít khả năng với Unsloth và LoRA 4bit):
87
- # model, tokenizer = FastModel.from_pretrained(
88
- # model_name=model_name_on_hub, # Đây là model đã fine-tune của bạn
89
- # max_seq_length=max_seq_length,
90
- # load_in_4bit=load_in_4bit,
91
- # # token="YOUR_HF_TOKEN_IF_NEEDED",
92
- # )
93
- print(f"LoRA adapters from {model_name_on_hub} loaded successfully.")
94
-
95
- # Chuyển model sang chế độ inference
96
- model.eval()
97
-
98
- except Exception as e:
99
- print(f"Error loading model: {e}")
100
- # Fallback hoặc thông báo lỗi
101
- raise gr.Error(f"Không thể tải model: {e}. Hãy kiểm tra cấu hình Space và model ID.")
102
-
103
-
104
- # 3. Hàm xử lý inference
105
- def generate_response(user_input, history):
106
- messages = [{"role": "system", "content": system_prompt}] #
107
- for human, ai in history:
108
- messages.append({"role": "user", "content": human})
109
- messages.append({"role": "assistant", "content": ai})
110
- messages.append({"role": "user", "content": user_input}) #
111
-
112
- # Áp dụng chat template
113
- # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
114
- text_inputs = tokenizer.apply_chat_template(
115
- messages,
116
- add_generation_prompt=True, # Must add for generation
117
- tokenize=True,
118
- return_tensors="pt",
119
- ).to(model.device) # Đảm bảo input trên cùng device với model
120
-
121
- # Các tham số generation (giống hệt Colab)
122
- # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
123
- generation_params = {
124
- "max_new_tokens": 2000,
125
- "temperature": 1.0,
126
- "top_p": 0.95,
127
- "top_k": 64,
128
- "pad_token_id": tokenizer.eos_token_id # Quan trọng để tránh warning
129
- }
130
 
131
- outputs = model.generate(**text_inputs, **generation_params)
132
- decoded_output = tokenizer.batch_decode(outputs[:, text_inputs.shape[1]:], skip_special_tokens=True)[0]
 
 
133
 
134
- # Trích xuất phần giữa <start_response> và <end_response> nếu cần
135
- # Hoặc đảm bảo model của bạn đã được huấn luyện để tự sinh ra các thẻ này
136
- # start_idx = decoded_output.find(reasoning_start)
137
- # end_idx = decoded_output.find(reasoning_end)
138
- # if start_idx != -1 and end_idx != -1:
139
- # return decoded_output[start_idx + len(reasoning_start):end_idx].strip()
140
- return decoded_output.strip()
141
 
142
- # 4. Tạo giao diện Gradio
143
- with gr.Blocks() as demo:
144
- gr.Markdown("# Chatbot vấn tâm lý (Fine-tuned Gemma-3-1B)")
145
- chatbot = gr.ChatInterface(
146
- fn=generate_response,
147
- title="Chatbot Sohee",
148
- description="Nhập câu hỏi hoặc chia sẻ của bạn.",
149
- examples=[
150
- "직장에서 상사와의 관계 때문에 힘들어요",
151
- "요즘따라 너무 우울해요",
152
- "이별 후 힘든 시간을 보내고 있어요"
153
- ]
154
- )
155
 
156
- if __name__ == "__main__":
157
- demo.launch()
 
 
 
1
  import torch
2
+ from transformers import AutoTokenizer, AutoModelForCausalLM
3
+ import gradio as gr
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
 
5
+ # Load tokenizer và model từ Hugging Face
6
+ model_id = "MindVR/JohnTran_Fine-tune"
7
+ tokenizer = AutoTokenizer.from_pretrained(model_id)
8
+ model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")
9
 
10
+ # Hàm trả lời
11
+ def chat(input_text, history=[]):
12
+ input_ids = tokenizer.encode(input_text, return_tensors="pt").to("cuda")
13
+ with torch.no_grad():
14
+ output = model.generate(input_ids, max_new_tokens=200, do_sample=True, top_p=0.95, temperature=0.7)
15
+ reply = tokenizer.decode(output[0], skip_special_tokens=True)
16
+ return reply
17
 
18
+ # Giao diện Gradio
19
+ iface = gr.Interface(fn=chat, inputs=gr.Textbox(lines=2, placeholder="Nhập câu hỏi..."),
20
+ outputs="text", title="AI Therapy Chatbot")
 
 
 
 
 
 
 
 
 
 
21
 
22
+ iface.launch()