Spaces:

fantaxy
/

glm47_flash

Sleeping

App Files Files Community

fantaxy commited on Jan 22

Commit

ce55546

verified ·

1 Parent(s): fb2d730

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -36

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ MODEL_ID = "zai-org/GLM-4.7-Flash"
 print(f"[Init] Loading tokenizer from {MODEL_ID}...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
-model = None  # 지연 로딩
 def get_model():
     global model
@@ -41,7 +41,7 @@ def get_model():
 def extract_text_from_pdf(file_path: str) -> str:
     """PDF 파일에서 텍스트 추출"""
     try:
-        import fitz  # PyMuPDF
         doc = fitz.open(file_path)
         text_parts = []
         for page_num, page in enumerate(doc, 1):
@@ -70,13 +70,10 @@ def extract_text_from_docx(file_path: str) -> str:
     try:
         from docx import Document
         doc = Document(file_path)
         text_parts = []
         for para in doc.paragraphs:
             if para.text.strip():
                 text_parts.append(para.text)
         for table_idx, table in enumerate(doc.tables, 1):
             table_text = [f"\n[표 {table_idx}]"]
             for row in table.rows:
@@ -85,7 +82,6 @@ def extract_text_from_docx(file_path: str) -> str:
                     table_text.append(row_text)
             if len(table_text) > 1:
                 text_parts.append("\n".join(table_text))
         return "\n\n".join(text_parts) if text_parts else "[DOCX에서 텍스트를 추출할 수 없습니다]"
     except Exception as e:
         return f"[DOCX 읽기 오류: {str(e)}]"
@@ -197,13 +193,11 @@ def execute_tool(tool_name: str, arguments: dict) -> str:
 def parse_tool_calls(response: str) -> list:
     """응답에서 도구 호출 파싱"""
     tool_calls = []
     patterns = [
         r'<\|tool_call\|>(\{.*?\})<\|/tool_call\|>',
         r'```json\s*(\{[^`]*"name"[^`]*\})\s*```',
         r'\{"name":\s*"(\w+)",\s*"arguments":\s*(\{[^}]+\})\}',
     ]
     for pattern in patterns:
         matches = re.findall(pattern, response, re.DOTALL)
         for match in matches:
@@ -215,11 +209,10 @@ def parse_tool_calls(response: str) -> list:
                 tool_calls.append(tool_call)
             except:
                 continue
     return tool_calls
 # ═══════════════════════════════════════════════════════════
-# 💬 스트리밍 채팅 함수
 # ═══════════════════════════════════════════════════════════
 file_context = {"name": "", "content": ""}
@@ -235,16 +228,16 @@ def chat_streaming(
     enable_thinking: bool,
     enable_tools: bool,
 ):
-    """스트리밍 채팅 생성"""
     global file_context
     if not message.strip():
-        yield history, ""
         return
     model = get_model()
-    messages = []
     sys_content = system_prompt if system_prompt.strip() else "You are a helpful AI assistant."
     if file_context["content"]:
@@ -260,20 +253,27 @@ You have access to these tools:
 """
         sys_content += f"\n\n{tool_desc}"
-    messages.append({"role": "system", "content": sys_content})
     for h in history:
-        if h[0]:
-            messages.append({"role": "user", "content": h[0]})
-        if h[1]:
-            messages.append({"role": "assistant", "content": h[1]})
     user_content = message
     if enable_thinking:
         user_content = f"<think>\nLet me think step by step.\n</think>\n\n{message}"
     messages.append({"role": "user", "content": user_content})
     try:
         inputs = tokenizer.apply_chat_template(
             messages,
@@ -283,34 +283,51 @@ You have access to these tools:
             return_tensors="pt",
         ).to(model.device)
     except Exception as e:
-        yield history + [[message, f"토크나이즈 오류: {str(e)}"]], ""
         return
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = {
         **inputs,
         "streamer": streamer,
-        "max_new_tokens": max_tokens,
-        "temperature": temperature if temperature > 0 else 0.01,
-        "top_p": top_p,
-        "do_sample": temperature > 0,
-        "pad_token_id": tokenizer.pad_token_id or tokenizer.eos_token_id,
     }
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     partial_response = ""
-    new_history = history + [[message, ""]]
     for new_token in streamer:
         partial_response += new_token
-        new_history[-1][1] = partial_response
-        yield new_history, ""
     thread.join()
     if enable_tools:
         tool_calls = parse_tool_calls(partial_response)
         if tool_calls:
@@ -321,9 +338,9 @@ You have access to these tools:
             if tool_results:
                 final_response = partial_response + "\n\n📌 **도구 실행 결과:**\n" + "\n".join(tool_results)
-                new_history[-1][1] = final_response
-    yield new_history, ""
 def handle_file_upload(file):
     """파일 업로드 처리"""
@@ -354,10 +371,10 @@ def clear_file():
 def clear_chat():
     """채팅 초기화"""
-    return [], ""
 # ═══════════════════════════════════════════════════════════
-# 🎨 Gradio UI (6.0 호환)
 # ═══════════════════════════════════════════════════════════
 with gr.Blocks(title="GLM-4.7-Flash Chatbot") as demo:
@@ -373,6 +390,7 @@ with gr.Blocks(title="GLM-4.7-Flash Chatbot") as demo:
             chatbot = gr.Chatbot(
                 label="대화",
                 height=500,
             )
             with gr.Row():
@@ -425,20 +443,26 @@ with gr.Blocks(title="GLM-4.7-Flash Chatbot") as demo:
                 inputs=message,
             )
-    # 이벤트
     submit_event = submit_btn.click(
         fn=chat_streaming,
         inputs=[message, chatbot, system_prompt, max_tokens, temperature, top_p, enable_thinking, enable_tools],
-        outputs=[chatbot, message],
     )
     message.submit(
         fn=chat_streaming,
         inputs=[message, chatbot, system_prompt, max_tokens, temperature, top_p, enable_thinking, enable_tools],
-        outputs=[chatbot, message],
     )
-    clear_btn.click(fn=clear_chat, outputs=[chatbot, message])
     stop_btn.click(fn=None, cancels=[submit_event])
     file_upload.change(fn=handle_file_upload, inputs=[file_upload], outputs=[file_status])

 print(f"[Init] Loading tokenizer from {MODEL_ID}...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
+model = None
 def get_model():
     global model
 def extract_text_from_pdf(file_path: str) -> str:
     """PDF 파일에서 텍스트 추출"""
     try:
+        import fitz
         doc = fitz.open(file_path)
         text_parts = []
         for page_num, page in enumerate(doc, 1):
     try:
         from docx import Document
         doc = Document(file_path)
         text_parts = []
         for para in doc.paragraphs:
             if para.text.strip():
                 text_parts.append(para.text)
         for table_idx, table in enumerate(doc.tables, 1):
             table_text = [f"\n[표 {table_idx}]"]
             for row in table.rows:
                     table_text.append(row_text)
             if len(table_text) > 1:
                 text_parts.append("\n".join(table_text))
         return "\n\n".join(text_parts) if text_parts else "[DOCX에서 텍스트를 추출할 수 없습니다]"
     except Exception as e:
         return f"[DOCX 읽기 오류: {str(e)}]"
 def parse_tool_calls(response: str) -> list:
     """응답에서 도구 호출 파싱"""
     tool_calls = []
     patterns = [
         r'<\|tool_call\|>(\{.*?\})<\|/tool_call\|>',
         r'```json\s*(\{[^`]*"name"[^`]*\})\s*```',
         r'\{"name":\s*"(\w+)",\s*"arguments":\s*(\{[^}]+\})\}',
     ]
     for pattern in patterns:
         matches = re.findall(pattern, response, re.DOTALL)
         for match in matches:
                 tool_calls.append(tool_call)
             except:
                 continue
     return tool_calls
 # ═══════════════════════════════════════════════════════════
+# 💬 스트리밍 채팅 함수 (Gradio 6.0 messages format)
 # ═══════════════════════════════════════════════════════════
 file_context = {"name": "", "content": ""}
     enable_thinking: bool,
     enable_tools: bool,
 ):
+    """스트리밍 채팅 생성 - Gradio 6.0 messages format"""
     global file_context
     if not message.strip():
+        yield history
         return
     model = get_model()
+    # 시스템 프롬프트 구성
     sys_content = system_prompt if system_prompt.strip() else "You are a helpful AI assistant."
     if file_context["content"]:
 """
         sys_content += f"\n\n{tool_desc}"
+    # 모델용 메시지 구성
+    messages = [{"role": "system", "content": sys_content}]
+    # 히스토리 변환 (Gradio 6.0 format -> 모델 format)
     for h in history:
+        if isinstance(h, dict):
+            messages.append({"role": h["role"], "content": h["content"]})
+        elif isinstance(h, (list, tuple)) and len(h) == 2:
+            if h[0]:
+                messages.append({"role": "user", "content": h[0]})
+            if h[1]:
+                messages.append({"role": "assistant", "content": h[1]})
+    # 현재 메시지
     user_content = message
     if enable_thinking:
         user_content = f"<think>\nLet me think step by step.\n</think>\n\n{message}"
     messages.append({"role": "user", "content": user_content})
+    # 토크나이즈
     try:
         inputs = tokenizer.apply_chat_template(
             messages,
             return_tensors="pt",
         ).to(model.device)
     except Exception as e:
+        new_history = history + [
+            {"role": "user", "content": message},
+            {"role": "assistant", "content": f"토크나이즈 오류: {str(e)}"}
+        ]
+        yield new_history
         return
+    # 스트리머 설정
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    # GenerationConfig 사용
+    from transformers import GenerationConfig
+    gen_config = GenerationConfig(
+        max_new_tokens=max_tokens,
+        temperature=temperature if temperature > 0 else 0.01,
+        top_p=top_p,
+        do_sample=temperature > 0,
+        pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id,
+    )
     generation_kwargs = {
         **inputs,
         "streamer": streamer,
+        "generation_config": gen_config,
     }
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
+    # Gradio 6.0 messages format으로 히스토리 구성
+    new_history = history + [
+        {"role": "user", "content": message},
+        {"role": "assistant", "content": ""}
+    ]
     partial_response = ""
     for new_token in streamer:
         partial_response += new_token
+        new_history[-1]["content"] = partial_response
+        yield new_history
     thread.join()
+    # Tool 호출 처리
     if enable_tools:
         tool_calls = parse_tool_calls(partial_response)
         if tool_calls:
             if tool_results:
                 final_response = partial_response + "\n\n📌 **도구 실행 결과:**\n" + "\n".join(tool_results)
+                new_history[-1]["content"] = final_response
+    yield new_history
 def handle_file_upload(file):
     """파일 업로드 처리"""
 def clear_chat():
     """채팅 초기화"""
+    return []
 # ═══════════════════════════════════════════════════════════
+# 🎨 Gradio UI (6.0 호환 - messages format)
 # ═══════════════════════════════════════════════════════════
 with gr.Blocks(title="GLM-4.7-Flash Chatbot") as demo:
             chatbot = gr.Chatbot(
                 label="대화",
                 height=500,
+                type="messages",  # Gradio 6.0 messages format
             )
             with gr.Row():
                 inputs=message,
             )
+    # 이벤트 - Gradio 6.0에서는 chatbot만 output
     submit_event = submit_btn.click(
         fn=chat_streaming,
         inputs=[message, chatbot, system_prompt, max_tokens, temperature, top_p, enable_thinking, enable_tools],
+        outputs=[chatbot],
+    ).then(
+        fn=lambda: "",
+        outputs=[message],
     )
     message.submit(
         fn=chat_streaming,
         inputs=[message, chatbot, system_prompt, max_tokens, temperature, top_p, enable_thinking, enable_tools],
+        outputs=[chatbot],
+    ).then(
+        fn=lambda: "",
+        outputs=[message],
     )
+    clear_btn.click(fn=clear_chat, outputs=[chatbot])
     stop_btn.click(fn=None, cancels=[submit_event])
     file_upload.change(fn=handle_file_upload, inputs=[file_upload], outputs=[file_status])