Spaces:

ariG23498
/

phi4-multimodal

Paused

App Files Files Community

ariG23498 HF Staff commited on Feb 27, 2025

Commit

6cec260

1 Parent(s): 97e7627

remove flash

Browse files

Files changed (2) hide show

app.py +6 -10
requirements.txt +5 -5

app.py CHANGED Viewed

@@ -13,14 +13,11 @@ model_path = "microsoft/Phi-4-multimodal-instruct"
 processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     model_path,
-    device_map="cuda",
     torch_dtype="auto",
     trust_remote_code=True,
-    attn_implementation="eager",  # Changed from 'flash_attention_2' to 'eager'
-).cuda()
-# Load generation config
-generation_config = GenerationConfig.from_pretrained(model_path)
 # Define prompt structure
 user_prompt = '<|user|>'
@@ -38,12 +35,12 @@ def process_input(input_type, file, question):
         prompt = f'{user_prompt}<|image_1|>{question}{prompt_suffix}{assistant_prompt}'
         # Open image from uploaded file
         image = Image.open(file)
-        inputs = processor(text=prompt, images=image, return_tensors='pt').to('cuda:0')
     elif input_type == "Audio":
         prompt = f'{user_prompt}<|audio_1|>{question}{prompt_suffix}{assistant_prompt}'
         # Read audio from uploaded file
         audio, samplerate = sf.read(file)
-        inputs = processor(text=prompt, audios=[(audio, samplerate)], return_tensors='pt').to('cuda:0')
     else:
         return "Invalid input type selected."
@@ -51,8 +48,7 @@ def process_input(input_type, file, question):
     with torch.no_grad():
         generate_ids = model.generate(
             **inputs,
-            max_new_tokens=1000,
-            generation_config=generation_config,
             num_logits_to_keep=0,
         )
     generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:]

 processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     model_path,
+    device_map="auto",
     torch_dtype="auto",
     trust_remote_code=True,
+    _attn_implementation="eager",
+)
 # Define prompt structure
 user_prompt = '<|user|>'
         prompt = f'{user_prompt}<|image_1|>{question}{prompt_suffix}{assistant_prompt}'
         # Open image from uploaded file
         image = Image.open(file)
+        inputs = processor(text=prompt, images=image, return_tensors='pt').to(model.device)
     elif input_type == "Audio":
         prompt = f'{user_prompt}<|audio_1|>{question}{prompt_suffix}{assistant_prompt}'
         # Read audio from uploaded file
         audio, samplerate = sf.read(file)
+        inputs = processor(text=prompt, audios=[(audio, samplerate)], return_tensors='pt').to(model.device)
     else:
         return "Invalid input type selected."
     with torch.no_grad():
         generate_ids = model.generate(
             **inputs,
+            max_new_tokens=200,
             num_logits_to_keep=0,
         )
     generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:]

requirements.txt CHANGED Viewed

@@ -1,11 +1,11 @@
 gradio
 spaces
 torch
-peft
-torchvision
-scipy
-soundfile
 pillow
-accelerate
 transformers
 backoff

 gradio
 spaces
+requests
 torch
 pillow
+soundfile
 transformers
+torchvision
+scipy
+peft
 backoff