Spaces:

HaitameLaframe
/

ChatBot

Runtime error

App Files Files Community

HAITAME LAFRAME commited on May 25, 2024

Commit

2bbaa94

verified ·

1 Parent(s): 4da74c8

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -55

app.py CHANGED Viewed

@@ -1,4 +1,8 @@
-import gradio as gr
 try:
     import torch
 except ImportError:
@@ -6,37 +10,36 @@ except ImportError:
     subprocess.run([sys.executable, "-m", "pip", "install", "torch"], check=True)
     import torch
-from transformers import (
-    AutoModelForCausalLM,
-    AutoTokenizer,
-    TextIteratorStreamer,
-)
-import os
-from threading import Thread
-import spaces
-import time
-import subprocess
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
-token = os.environ["HF_TOKEN"]
 model = AutoModelForCausalLM.from_pretrained(
     "HaitameLaf/Phi3-Game16bit",
-    token=token,
     trust_remote_code=True,
 )
-tok = AutoTokenizer.from_pretrained("HaitameLaf/Phi3-Game16bit", token=token)
-terminators = [
-    tok.eos_token_id,
-]
 if torch.cuda.is_available():
     device = torch.device("cuda")
     print(f"Using GPU: {torch.cuda.get_device_name(device)}")
@@ -45,33 +48,24 @@ else:
     print("Using CPU")
 model = model.to(device)
-# Dispatch Errors
-@spaces.GPU(duration=60)
 def chat(message, history, temperature, do_sample, max_tokens):
-    chat = []
-    for item in history:
-        chat.append({"role": "user", "content": item[0]})
-        if item[1] is not None:
-            chat.append({"role": "assistant", "content": item[1]})
     chat.append({"role": "user", "content": message})
     messages = tok.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
     model_inputs = tok([messages], return_tensors="pt").to(device)
-    streamer = TextIteratorStreamer(
-        tok, timeout=20.0, skip_prompt=True, skip_special_tokens=True
-    )
-    generate_kwargs = dict(
-        model_inputs,
-        streamer=streamer,
-        max_new_tokens=max_tokens,
-        do_sample=True,
-        temperature=temperature,
-        eos_token_id=terminators,
-    )
-    if temperature == 0:
-        generate_kwargs["do_sample"] = False
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
@@ -83,30 +77,22 @@ def chat(message, history, temperature, do_sample, max_tokens):
     yield partial_text
 demo = gr.ChatInterface(
     fn=chat,
     examples=[["Write me a poem about Machine Learning."]],
-    # multimodal=False,
     additional_inputs_accordion=gr.Accordion(
         label="⚙️ Parameters", open=False, render=False
     ),
     additional_inputs=[
-        gr.Slider(
-            minimum=0, maximum=1, step=0.1, value=0.9, label="Temperature", render=False
-        ),
         gr.Checkbox(label="Sampling", value=True),
-        gr.Slider(
-            minimum=128,
-            maximum=4096,
-            step=1,
-            value=512,
-            label="Max new tokens",
-            render=False,
-        ),
     ],
     stop_btn="Stop Generation",
     title="Chat With LLMs",
     description="Now Running [microsoft/Phi-3-mini-128k-instruct](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct)",
 )
-demo.launch()

+import subprocess
+import sys
+import os
+# Vérifiez si torch est installé, sinon installez-le
 try:
     import torch
 except ImportError:
     subprocess.run([sys.executable, "-m", "pip", "install", "torch"], check=True)
     import torch
+# Installer flash-attn
 subprocess.run(
     "pip install flash-attn --no-build-isolation",
     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
     shell=True,
 )
+import gradio as gr
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    TextIteratorStreamer,
+)
+from threading import Thread
+# Obtenir le token d'authentification Hugging Face
+token = os.getenv("HF_TOKEN")
+if not token:
+    raise ValueError("Le token d'authentification HF_TOKEN n'est pas défini.")
+# Charger le modèle et le tokenizer
 model = AutoModelForCausalLM.from_pretrained(
     "HaitameLaf/Phi3-Game16bit",
+    use_auth_token=token,
     trust_remote_code=True,
 )
+tok = AutoTokenizer.from_pretrained("HaitameLaf/Phi3-Game16bit", use_auth_token=token)
+terminators = [tok.eos_token_id]
+# Vérifier la disponibilité du GPU
 if torch.cuda.is_available():
     device = torch.device("cuda")
     print(f"Using GPU: {torch.cuda.get_device_name(device)}")
     print("Using CPU")
 model = model.to(device)
+# Fonction de chat
 def chat(message, history, temperature, do_sample, max_tokens):
+    chat = [{"role": "user", "content": item[0]} for item in history]
+    chat.extend({"role": "assistant", "content": item[1]} for item in history if item[1])
     chat.append({"role": "user", "content": message})
     messages = tok.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
     model_inputs = tok([messages], return_tensors="pt").to(device)
+    streamer = TextIteratorStreamer(tok, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
+    generate_kwargs = {
+        "input_ids": model_inputs.input_ids,
+        "streamer": streamer,
+        "max_new_tokens": max_tokens,
+        "do_sample": do_sample,
+        "temperature": temperature,
+        "eos_token_id": terminators,
+    }
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
     yield partial_text
+# Configuration de Gradio
 demo = gr.ChatInterface(
     fn=chat,
     examples=[["Write me a poem about Machine Learning."]],
     additional_inputs_accordion=gr.Accordion(
         label="⚙️ Parameters", open=False, render=False
     ),
     additional_inputs=[
+        gr.Slider(minimum=0, maximum=1, step=0.1, value=0.9, label="Temperature"),
         gr.Checkbox(label="Sampling", value=True),
+        gr.Slider(minimum=128, maximum=4096, step=1, value=512, label="Max new tokens"),
     ],
     stop_btn="Stop Generation",
     title="Chat With LLMs",
     description="Now Running [microsoft/Phi-3-mini-128k-instruct](https://huggingface.co/microsoft/Phi-3-mini-128k-instruct)",
 )
+if __name__ == "__main__":
+    demo.launch()