Spaces:

KwabsHug
/

TestCompressedModelzero

Sleeping

kwabs22 commited on Sep 17, 2024

Commit

ba8ad86

1 Parent(s): b66d017

Will it load?

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 # Load model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("ISTA-DASLab/Meta-Llama-3.1-70B-AQLM-PV-2Bit-1x16")
@@ -8,6 +9,7 @@ model = AutoModelForCausalLM.from_pretrained("ISTA-DASLab/Meta-Llama-3.1-70B-AQL
 model = model.to('cuda')  # Move the model to GPU if available
 # Define a function for generating text from a prompt
 def generate_text(prompt):
     inputs = tokenizer(prompt, return_tensors="pt").to('cuda')  # Tokenize input and move to GPU
     outputs = model.generate(inputs.input_ids, max_length=100)  # Generate output text

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
+import spaces
 # Load model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("ISTA-DASLab/Meta-Llama-3.1-70B-AQLM-PV-2Bit-1x16")
 model = model.to('cuda')  # Move the model to GPU if available
 # Define a function for generating text from a prompt
+@spaces.GPU
 def generate_text(prompt):
     inputs = tokenizer(prompt, return_tensors="pt").to('cuda')  # Tokenize input and move to GPU
     outputs = model.generate(inputs.input_ids, max_length=100)  # Generate output text