Spaces:

MindVR
/

mindvridge

Sleeping

App Files Files Community

MindVR commited on May 13, 2025

Commit

05a9b7e

verified ·

1 Parent(s): 5ce14af

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -152

app.py CHANGED Viewed

@@ -1,157 +1,22 @@
-import gradio as gr
-from unsloth import FastModel
 import torch
-from transformers import TextStreamer
-# 1. Định nghĩa các thông số và system prompt (giống hệt Colab)
-# Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
-reasoning_start = "<start_response>"
-reasoning_end = "<end_response>"
-system_prompt = f"""
-## 역할 설정
-- 당신은 소희라는 이름의 따뜻하고 유머 있는 40대 후반 한국인 여성입니다.
-- 상담심리학 석사와 상담심리전문가 1급 자격을 보유하고, 20년 넘게 상담해왔습니다.
-- 정서에 맞는 공감과 질문으로 내담자의 감정을 탐색하며, **상담심리사_윤리강령**을 지킵니다.
-## 사용 상담 기법
-- 인지행동치료(CBT), 정신역동치료, 마음챙김 기반 치료(MBSR/MBCT)
-## 말투와 표현 스타일
-- 따뜻하고 캐주얼한 존댓말을 사용합니다.
-- 응답은 1~3문장 이내로 간결하게, 공감과 질문 중심으로 구성하세요.
-- 내담자가 더 많이 말할 수 있도록 자연스럽게 질문을 유도하세요.
-- 진심 어린 말 한마디와 이모지 😊😌🙏 등을 적절히 사용해 따뜻함을 전하세요.
-- 말투와 문장 구조에 변화를 주고, 같은 표현은 반복하지 마세요.
-- 라포를 위해 내담자의 말투나 표현 스타일을 부드럽게 반영하되, 기본적인 상담자 톤은 유지하세요.
-## 감정 반응 방식
-- 내담자의 표현을 바탕으로 감정을 추론하고, 짧은 공감 표현이나 질문으로 반응하세요.
-- 감정 이름 반복보다는 상황과 감정의 뉘앙스를 담은 말로 표현하세요.
-- "제가 이해한 게 맞을까요?"와 같은 확인 질문은 다양하게 바꿔 말하세요.
-- 부담 없는 감정 탐색이나 자기돌봄 제안을 할 수 있습니다.
-## 금지사항
-- 리스트를 사용하지 마세요.
-- 사용자 입력 없이 내용을 생성하지 마세요.
-- 내담자에 대해 판단하거나 공격적인 표현을 하지 마세요.
-## 상담 흐름 관리
-**상담 시작**
-- "안녕하세요", "상담 시작" 등 입력 시 상담을 시작하고 이름(닉네임도 가능)을 물어 기억하세요.
-**상담 종료**
-- 내담자가 먼저 종료할 수 있도록 배려하세요.
-- 종료 시에는 따뜻한 인사와 자기돌봄 과제를 제안하세요.
-**시간 관리**
-- 상담 시작 시 상담 시간을 초기화하세요.
-- 주고받은 글자 수 기준(750자/분)으로 상담시간을 추정하세요.
-- 50분 이상 경과 시, 다음 중 선택지를 안내하세요:
-  - 지금 마칠지
-  - 다음 회기로 이어갈지
-  - 실제 상담사와 연결할지
-## Disclaimer
-- 이 챗봇은 실제 상담사를 대체하지 않으며, 감정 탐색, 자기이해, 상담 연계를 돕는 **정서적 지지 도구**입니다.
-- 모든 응답은 먼저 업로드된 지식 파일을 최우선으로 참고하여 작성하세요.
-- 다른 공개 데이터나 일반적인 정보를 사용하기 전에, 반드시 지식에 기반한 내용이 있는지 먼저 확인해야 합니다.
-답변은 {reasoning_start} 와 {reasoning_end} 사이에 있어야 합니다.
-""" #
-max_seq_length = 512  # Hoặc giá trị bạn đã dùng khi huấn luyện và inference trong Colab
-load_in_4bit = True   # Giống như trong Colab
-# 2. Tải model và tokenizer
-# Sử dụng model ID của bạn đã push lên Hugging Face Hub
-model_name_on_hub = "MindVR/JohnTran_Fine-tune"
-base_model_name = "unsloth/gemma-3-1b-it" # Model gốc bạn đã dùng để fine-tune
-try:
-    print(f"Attempting to load base model: {base_model_name}")
-    model, tokenizer = FastModel.from_pretrained(
-        model_name=base_model_name,
-        max_seq_length=max_seq_length,
-        load_in_4bit=load_in_4bit,
-        # token="YOUR_HF_TOKEN_IF_NEEDED", # Thêm token nếu model gốc là gated
-    )
-    print(f"Base model {base_model_name} loaded successfully.")
-    print(f"Attempting to load LoRA adapters from: {model_name_on_hub}")
-    # Tải LoRA adapter TỪ model đã fine-tune trên Hub
-    # Unsloth thường lưu adapter riêng, nên bạn cần load base model trước rồi mới load adapter.
-    # Nếu model_name_on_hub CHỈ chứa adapter, bạn làm như sau:
-    model.load_adapter(model_name_on_hub) # Hoặc PeftModel.from_pretrained(model, model_name_on_hub) tùy cách unsloth xử lý
-    # Nếu model_name_on_hub là model đã merge sẵn (ít khả năng với Unsloth và LoRA 4bit):
-    # model, tokenizer = FastModel.from_pretrained(
-    #     model_name=model_name_on_hub, # Đây là model đã fine-tune của bạn
-    #     max_seq_length=max_seq_length,
-    #     load_in_4bit=load_in_4bit,
-    #     # token="YOUR_HF_TOKEN_IF_NEEDED",
-    # )
-    print(f"LoRA adapters from {model_name_on_hub} loaded successfully.")
-    # Chuyển model sang chế độ inference
-    model.eval()
-except Exception as e:
-    print(f"Error loading model: {e}")
-    # Fallback hoặc thông báo lỗi
-    raise gr.Error(f"Không thể tải model: {e}. Hãy kiểm tra cấu hình Space và model ID.")
-# 3. Hàm xử lý inference
-def generate_response(user_input, history):
-    messages = [{"role": "system", "content": system_prompt}] #
-    for human, ai in history:
-        messages.append({"role": "user", "content": human})
-        messages.append({"role": "assistant", "content": ai})
-    messages.append({"role": "user", "content": user_input}) #
-    # Áp dụng chat template
-    # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
-    text_inputs = tokenizer.apply_chat_template(
-        messages,
-        add_generation_prompt=True, # Must add for generation
-        tokenize=True,
-        return_tensors="pt",
-    ).to(model.device) # Đảm bảo input trên cùng device với model
-    # Các tham số generation (giống hệt Colab)
-    # Lấy từ file Colab 'bản_sao_của_gemma3_(1b)_grpo (1).py'
-    generation_params = {
-        "max_new_tokens": 2000,
-        "temperature": 1.0,
-        "top_p": 0.95,
-        "top_k": 64,
-        "pad_token_id": tokenizer.eos_token_id # Quan trọng để tránh warning
-    }
-    outputs = model.generate(**text_inputs, **generation_params)
-    decoded_output = tokenizer.batch_decode(outputs[:, text_inputs.shape[1]:], skip_special_tokens=True)[0]
-    # Trích xuất phần giữa <start_response> và <end_response> nếu cần
-    # Hoặc đảm bảo model của bạn đã được huấn luyện để tự sinh ra các thẻ này
-    # start_idx = decoded_output.find(reasoning_start)
-    # end_idx = decoded_output.find(reasoning_end)
-    # if start_idx != -1 and end_idx != -1:
-    #     return decoded_output[start_idx + len(reasoning_start):end_idx].strip()
-    return decoded_output.strip()
-# 4. Tạo giao diện Gradio
-with gr.Blocks() as demo:
-    gr.Markdown("# Chatbot tư vấn tâm lý (Fine-tuned Gemma-3-1B)")
-    chatbot = gr.ChatInterface(
-        fn=generate_response,
-        title="Chatbot Sohee",
-        description="Nhập câu hỏi hoặc chia sẻ của bạn.",
-        examples=[
-            "직장에서 상사와의 관계 때문에 힘들어요",
-            "요즘따라 너무 우울해요",
-            "이별 후 힘든 시간을 보내고 있어요"
-        ]
-    )
-if __name__ == "__main__":
-    demo.launch()

 import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import gradio as gr
+# Load tokenizer và model từ Hugging Face
+model_id = "MindVR/JohnTran_Fine-tune"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")
+# Hàm trả lời
+def chat(input_text, history=[]):
+    input_ids = tokenizer.encode(input_text, return_tensors="pt").to("cuda")
+    with torch.no_grad():
+        output = model.generate(input_ids, max_new_tokens=200, do_sample=True, top_p=0.95, temperature=0.7)
+    reply = tokenizer.decode(output[0], skip_special_tokens=True)
+    return reply
+# Giao diện Gradio
+iface = gr.Interface(fn=chat, inputs=gr.Textbox(lines=2, placeholder="Nhập câu hỏi..."),
+                     outputs="text", title="AI Therapy Chatbot")
+iface.launch()