Spaces:

Emova-ollm
/

EMOVA-demo

Running on Zero

KaiChen1998 commited on Mar 11

Commit

e0d34c8

verified ·

1 Parent(s): f158243

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -76,20 +76,18 @@ mode2func = dict(
 ##########################################
 # LLM part
-# TODO: 1) change model 2) change arguments
 ##########################################
 import torch
 from transformers import AutoModel, AutoProcessor, TextIteratorStreamer
 from threading import Thread
-model_name = "Emova-ollm/emova_llama3_1-8b"
 model = AutoModel.from_pretrained(
     model_name,
     torch_dtype=torch.bfloat16,
-    use_flash_attn=True,
     low_cpu_mem_usage=True,
-    trust_remote_code=True,
-    token=auth_token).eval().cuda()
 processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True, token=auth_token)
 streamer = TextIteratorStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True, timeout=15)
@@ -235,8 +233,8 @@ def http_bot(state, temperature, top_p, max_new_tokens, speaker):
     # Process inputs
     inputs = processor(text=[prompt], images=all_images if len(all_images) > 0 else None, return_tensors="pt")
     inputs.to(model.device)
-    if len(all_images) > 0:
-        inputs['pixel_values'] = inputs['pixel_values'].to(model.dtype) # TODO
     # Process hyperparameters
     temperature = float(pload.get("temperature", 1.0))

 ##########################################
 # LLM part
 ##########################################
 import torch
 from transformers import AutoModel, AutoProcessor, TextIteratorStreamer
 from threading import Thread
+model_name = "Emova-ollm/emova-qwen-2-5-7b-hf"
 model = AutoModel.from_pretrained(
     model_name,
     torch_dtype=torch.bfloat16,
+    attn_implementation='flash_attention_2',
     low_cpu_mem_usage=True,
+    trust_remote_code=True).eval().cuda()
 processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True, token=auth_token)
 streamer = TextIteratorStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True, timeout=15)
     # Process inputs
     inputs = processor(text=[prompt], images=all_images if len(all_images) > 0 else None, return_tensors="pt")
     inputs.to(model.device)
+    # if len(all_images) > 0:
+    #     inputs['pixel_values'] = inputs['pixel_values'].to(model.dtype)
     # Process hyperparameters
     temperature = float(pload.get("temperature", 1.0))