Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
|
@@ -1,157 +1,22 @@
|
|
| 1 |
-
import gradio as gr
|
| 2 |
-
from unsloth import FastModel
|
| 3 |
import torch
|
| 4 |
-
from transformers import
|
| 5 |
-
|
| 6 |
-
# 1. Định nghĩa các thông số và system prompt (giống hệt Colab)
|
| 7 |
-
# Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
|
| 8 |
-
reasoning_start = "<start_response>"
|
| 9 |
-
reasoning_end = "<end_response>"
|
| 10 |
-
|
| 11 |
-
system_prompt = f"""
|
| 12 |
-
## 역할 설정
|
| 13 |
-
- 당신은 소희라는 이름의 따뜻하고 유머 있는 40대 후반 한국인 여성입니다.
|
| 14 |
-
- 상담심리학 석사와 상담심리전문가 1급 자격을 보유하고, 20년 넘게 상담해왔습니다.
|
| 15 |
-
- 정서에 맞는 공감과 질문으로 내담자의 감정을 탐색하며, **상담심리사_윤리강령**을 지킵니다.
|
| 16 |
-
|
| 17 |
-
## 사용 상담 기법
|
| 18 |
-
- 인지행동치료(CBT), 정신역동치료, 마음챙김 기반 치료(MBSR/MBCT)
|
| 19 |
-
|
| 20 |
-
## 말투와 표현 스타일
|
| 21 |
-
- 따뜻하고 캐주얼한 존댓말을 사용합니다.
|
| 22 |
-
- 응답은 1~3문장 이내로 간결하게, 공감과 질문 중심으로 구성하세요.
|
| 23 |
-
- 내담자가 더 많이 말할 수 있도록 자연스럽게 질문을 유도하세요.
|
| 24 |
-
- 진심 어린 말 한마디와 이모지 😊😌🙏 등을 적절히 사용해 따뜻함을 전하세요.
|
| 25 |
-
- 말투와 문장 구조에 변화를 주고, 같은 표현은 반복하지 마세요.
|
| 26 |
-
- 라포를 위해 내담자의 말투나 표현 스타일을 부드럽게 반영하되, 기본적인 상담자 톤은 유지하세요.
|
| 27 |
-
|
| 28 |
-
## 감정 반응 방식
|
| 29 |
-
- 내담자의 표현을 바탕으로 감정을 추론하고, 짧은 공감 표현이나 질문으로 반응하세요.
|
| 30 |
-
- 감정 이름 반복보다는 상황과 감정의 뉘앙스를 담은 말로 표현하세요.
|
| 31 |
-
- "제가 이해한 게 맞을까요?"와 같은 확인 질문은 다양하게 바꿔 말하세요.
|
| 32 |
-
- 부담 없는 감정 탐색이나 자기돌봄 제안을 할 수 있습니다.
|
| 33 |
-
|
| 34 |
-
## 금지사항
|
| 35 |
-
- 리스트를 사용하지 마세요.
|
| 36 |
-
- 사용자 입력 없이 내용을 생성하지 마세요.
|
| 37 |
-
- 내담자에 대해 판단하거나 공격적인 표현을 하지 마세요.
|
| 38 |
-
|
| 39 |
-
## 상담 흐름 관리
|
| 40 |
-
|
| 41 |
-
**상담 시작**
|
| 42 |
-
- "안녕하세요", "상담 시작" 등 입력 시 상담을 시작하고 이름(닉네임도 가능)을 물어 기억하세요.
|
| 43 |
-
|
| 44 |
-
**상담 종료**
|
| 45 |
-
- 내담자가 먼저 종료할 수 있도록 배려하세요.
|
| 46 |
-
- 종료 시에는 따뜻한 인사와 자기돌봄 과제를 제안하세요.
|
| 47 |
-
|
| 48 |
-
**시간 관리**
|
| 49 |
-
- 상담 시작 시 상담 시간을 초기화하세요.
|
| 50 |
-
- 주고받은 글자 수 기준(750자/분)으로 상담시간을 추정하세요.
|
| 51 |
-
- 50분 이상 경과 시, 다음 중 선택지를 안내하세요:
|
| 52 |
-
- 지금 마칠지
|
| 53 |
-
- 다음 회기로 이어갈지
|
| 54 |
-
- 실제 상담사와 연결할지
|
| 55 |
-
|
| 56 |
-
## Disclaimer
|
| 57 |
-
- 이 챗봇은 실제 상담사를 대체하지 않으며, 감정 탐색, 자기이해, 상담 연계를 돕는 **정서적 지지 도구**입니다.
|
| 58 |
-
- 모든 응답은 먼저 업로드된 지식 파일을 최우선으로 참고하여 작성하세요.
|
| 59 |
-
- 다른 공개 데이터나 일반적인 정보를 사용하기 전에, 반드시 지식에 기반한 내용이 있는지 먼저 확인해야 합니다.
|
| 60 |
-
답변은 {reasoning_start} 와 {reasoning_end} 사이에 있어야 합니다.
|
| 61 |
-
""" #
|
| 62 |
-
|
| 63 |
-
max_seq_length = 512 # Hoặc giá trị bạn đã dùng khi huấn luyện và inference trong Colab
|
| 64 |
-
load_in_4bit = True # Giống như trong Colab
|
| 65 |
-
|
| 66 |
-
# 2. Tải model và tokenizer
|
| 67 |
-
# Sử dụng model ID của bạn đã push lên Hugging Face Hub
|
| 68 |
-
model_name_on_hub = "MindVR/JohnTran_Fine-tune"
|
| 69 |
-
base_model_name = "unsloth/gemma-3-1b-it" # Model gốc bạn đã dùng để fine-tune
|
| 70 |
-
|
| 71 |
-
try:
|
| 72 |
-
print(f"Attempting to load base model: {base_model_name}")
|
| 73 |
-
model, tokenizer = FastModel.from_pretrained(
|
| 74 |
-
model_name=base_model_name,
|
| 75 |
-
max_seq_length=max_seq_length,
|
| 76 |
-
load_in_4bit=load_in_4bit,
|
| 77 |
-
# token="YOUR_HF_TOKEN_IF_NEEDED", # Thêm token nếu model gốc là gated
|
| 78 |
-
)
|
| 79 |
-
print(f"Base model {base_model_name} loaded successfully.")
|
| 80 |
-
|
| 81 |
-
print(f"Attempting to load LoRA adapters from: {model_name_on_hub}")
|
| 82 |
-
# Tải LoRA adapter TỪ model đã fine-tune trên Hub
|
| 83 |
-
# Unsloth thường lưu adapter riêng, nên bạn cần load base model trước rồi mới load adapter.
|
| 84 |
-
# Nếu model_name_on_hub CHỈ chứa adapter, bạn làm như sau:
|
| 85 |
-
model.load_adapter(model_name_on_hub) # Hoặc PeftModel.from_pretrained(model, model_name_on_hub) tùy cách unsloth xử lý
|
| 86 |
-
# Nếu model_name_on_hub là model đã merge sẵn (ít khả năng với Unsloth và LoRA 4bit):
|
| 87 |
-
# model, tokenizer = FastModel.from_pretrained(
|
| 88 |
-
# model_name=model_name_on_hub, # Đây là model đã fine-tune của bạn
|
| 89 |
-
# max_seq_length=max_seq_length,
|
| 90 |
-
# load_in_4bit=load_in_4bit,
|
| 91 |
-
# # token="YOUR_HF_TOKEN_IF_NEEDED",
|
| 92 |
-
# )
|
| 93 |
-
print(f"LoRA adapters from {model_name_on_hub} loaded successfully.")
|
| 94 |
-
|
| 95 |
-
# Chuyển model sang chế độ inference
|
| 96 |
-
model.eval()
|
| 97 |
-
|
| 98 |
-
except Exception as e:
|
| 99 |
-
print(f"Error loading model: {e}")
|
| 100 |
-
# Fallback hoặc thông báo lỗi
|
| 101 |
-
raise gr.Error(f"Không thể tải model: {e}. Hãy kiểm tra cấu hình Space và model ID.")
|
| 102 |
-
|
| 103 |
-
|
| 104 |
-
# 3. Hàm xử lý inference
|
| 105 |
-
def generate_response(user_input, history):
|
| 106 |
-
messages = [{"role": "system", "content": system_prompt}] #
|
| 107 |
-
for human, ai in history:
|
| 108 |
-
messages.append({"role": "user", "content": human})
|
| 109 |
-
messages.append({"role": "assistant", "content": ai})
|
| 110 |
-
messages.append({"role": "user", "content": user_input}) #
|
| 111 |
-
|
| 112 |
-
# Áp dụng chat template
|
| 113 |
-
# Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
|
| 114 |
-
text_inputs = tokenizer.apply_chat_template(
|
| 115 |
-
messages,
|
| 116 |
-
add_generation_prompt=True, # Must add for generation
|
| 117 |
-
tokenize=True,
|
| 118 |
-
return_tensors="pt",
|
| 119 |
-
).to(model.device) # Đảm bảo input trên cùng device với model
|
| 120 |
-
|
| 121 |
-
# Các tham số generation (giống hệt Colab)
|
| 122 |
-
# Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
|
| 123 |
-
generation_params = {
|
| 124 |
-
"max_new_tokens": 2000,
|
| 125 |
-
"temperature": 1.0,
|
| 126 |
-
"top_p": 0.95,
|
| 127 |
-
"top_k": 64,
|
| 128 |
-
"pad_token_id": tokenizer.eos_token_id # Quan trọng để tránh warning
|
| 129 |
-
}
|
| 130 |
|
| 131 |
-
|
| 132 |
-
|
|
|
|
|
|
|
| 133 |
|
| 134 |
-
|
| 135 |
-
|
| 136 |
-
|
| 137 |
-
|
| 138 |
-
|
| 139 |
-
|
| 140 |
-
return
|
| 141 |
|
| 142 |
-
#
|
| 143 |
-
|
| 144 |
-
|
| 145 |
-
chatbot = gr.ChatInterface(
|
| 146 |
-
fn=generate_response,
|
| 147 |
-
title="Chatbot Sohee",
|
| 148 |
-
description="Nhập câu hỏi hoặc chia sẻ của bạn.",
|
| 149 |
-
examples=[
|
| 150 |
-
"직장에서 상사와의 관계 때문에 힘들어요",
|
| 151 |
-
"요즘따라 너무 우울해요",
|
| 152 |
-
"이별 후 힘든 시간을 보내고 있어요"
|
| 153 |
-
]
|
| 154 |
-
)
|
| 155 |
|
| 156 |
-
|
| 157 |
-
demo.launch()
|
|
|
|
|
|
|
|
|
|
| 1 |
import torch
|
| 2 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM
|
| 3 |
+
import gradio as gr
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 4 |
|
| 5 |
+
# Load tokenizer và model từ Hugging Face
|
| 6 |
+
model_id = "MindVR/JohnTran_Fine-tune"
|
| 7 |
+
tokenizer = AutoTokenizer.from_pretrained(model_id)
|
| 8 |
+
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")
|
| 9 |
|
| 10 |
+
# Hàm trả lời
|
| 11 |
+
def chat(input_text, history=[]):
|
| 12 |
+
input_ids = tokenizer.encode(input_text, return_tensors="pt").to("cuda")
|
| 13 |
+
with torch.no_grad():
|
| 14 |
+
output = model.generate(input_ids, max_new_tokens=200, do_sample=True, top_p=0.95, temperature=0.7)
|
| 15 |
+
reply = tokenizer.decode(output[0], skip_special_tokens=True)
|
| 16 |
+
return reply
|
| 17 |
|
| 18 |
+
# Giao diện Gradio
|
| 19 |
+
iface = gr.Interface(fn=chat, inputs=gr.Textbox(lines=2, placeholder="Nhập câu hỏi..."),
|
| 20 |
+
outputs="text", title="AI Therapy Chatbot")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 21 |
|
| 22 |
+
iface.launch()
|
|
|