draft-docker

Paused

harsh-manvar commited on Dec 30, 2024

Commit

72c2e54

verified ·

1 Parent(s): ef9bb69

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,9 +10,6 @@ tokenizer = AutoTokenizer.from_pretrained(model_name)
 vllm_model = LLM(model=model_name, tensor_parallel_size=1, device="cpu")
 def generate_response(prompt, max_tokens, temperature, top_p):
-    # Tokenize the prompt
-    inputs = tokenizer(prompt, return_tensors="pt")["input_ids"].tolist()[0]
     # Define sampling parameters
     sampling_params = SamplingParams(
         max_tokens=max_tokens,
@@ -20,11 +17,11 @@ def generate_response(prompt, max_tokens, temperature, top_p):
         top_p=top_p,
     )
-    # Generate text using vLLM
-    output = vllm_model.generate(inputs, sampling_params)
-    # Decode the generated tokens to text
-    generated_text = tokenizer.decode(output[0].outputs[0].token_ids, skip_special_tokens=True)
     return generated_text
 # Gradio UI
@@ -76,4 +73,4 @@ with gr.Blocks() as demo:
     )
 # Launch the app
-demo.launch()

 vllm_model = LLM(model=model_name, tensor_parallel_size=1, device="cpu")
 def generate_response(prompt, max_tokens, temperature, top_p):
     # Define sampling parameters
     sampling_params = SamplingParams(
         max_tokens=max_tokens,
         top_p=top_p,
     )
+    # Generate text using vLLM (input is the raw string `prompt`)
+    output = vllm_model.generate(prompt, sampling_params)
+    # Extract and decode the generated tokens
+    generated_text = output[0].outputs[0].text
     return generated_text
 # Gradio UI
     )
 # Launch the app
+demo.launch()