Spaces:

Akjava
/

chat-phi-4-deepseek-R1K-RL-EZO

Runtime error

App Files Files Community

Akjava commited on Aug 6, 2024

Commit

3043da5

verified ·

1 Parent(s): 569ebbc

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -14

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 import gradio as gr
 text_generator = None
 def init():
     global text_generator
     huggingface_token = os.getenv("HUGGINGFACE_TOKEN")
@@ -27,27 +28,35 @@ def init():
     print(model_id,device,dtype)
     histories = []
     #model = None
-    if next(model.parameters()).is_cuda:
-        print("The model is on a GPU")
-    else:
-        print("The model is on a CPU")
-    #print(f"text_generator.device='{text_generator.device}")
-    if str(text_generator.device).strip() == 'cuda':
-        print("The pipeline is using a GPU")
-    else:
-        print("The pipeline is using a CPU")
     print("initialized")
 @spaces.GPU(duration=120)
 def generate_text(messages):
-    model = AutoModelForCausalLM.from_pretrained(
-            model_id, token=huggingface_token ,torch_dtype=dtype,device_map=device
-        )
-    text_generator = pipeline("text-generation", model=model, tokenizer=tokenizer,torch_dtype=dtype,device_map=device ) #pipeline has not to(device)
     result = text_generator(messages, max_new_tokens=256, do_sample=True, temperature=0.7)
     generated_output = result[0]["generated_text"]

 import gradio as gr
 text_generator = None
+is_hugging_face = True
 def init():
     global text_generator
     huggingface_token = os.getenv("HUGGINGFACE_TOKEN")
     print(model_id,device,dtype)
     histories = []
     #model = None
+    if not is_hugging_face:
+         model = AutoModelForCausalLM.from_pretrained(
+            model_id, token=huggingface_token ,torch_dtype=dtype,device_map=device
+        )
+        text_generator = pipeline("text-generation", model=model, tokenizer=tokenizer,torch_dtype=dtype,device_map=device ) #pipeline has not to(device)
+        if next(model.parameters()).is_cuda:
+            print("The model is on a GPU")
+        else:
+            print("The model is on a CPU")
+        #print(f"text_generator.device='{text_generator.device}")
+        if str(text_generator.device).strip() == 'cuda':
+            print("The pipeline is using a GPU")
+        else:
+            print("The pipeline is using a CPU")
     print("initialized")
 @spaces.GPU(duration=120)
 def generate_text(messages):
+        if is_hugging_face:#need everytime initialize for ZeroGPU
+        model = AutoModelForCausalLM.from_pretrained(
+                model_id, token=huggingface_token ,torch_dtype=dtype,device_map=device
+            )
+        text_generator = pipeline("text-generation", model=model, tokenizer=tokenizer,torch_dtype=dtype,device_map=device ) #pipeline has not to(device)
     result = text_generator(messages, max_new_tokens=256, do_sample=True, temperature=0.7)
     generated_output = result[0]["generated_text"]