Spaces:

Chengxb888
/

test

Sleeping

Chengxb888 commited on Jul 18, 2024

Commit

1cd6700

verified ·

1 Parent(s): 6c88388

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,14 +22,14 @@ def say_hello(msg: Annotated[str, Form()]):
     # for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
     model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
-    messages = [{"role": "user", "content": "things about elasticsearch"}]
     input_text=tokenizer.apply_chat_template(messages, tokenize=False)
     print(input_text)
     input_ids = tokenizer(msg, return_tensors="pt").to("cpu")
     print("output")
     inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
-    outputs = model.generate(inputs, max_new_tokens=32, temperature=0.6, top_p=0.92, do_sample=True)
     print("complete")
     return {"message": tokenizer.decode(outputs[0])}

     # for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
     model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
+    messages = [{"role": "user", "content": msg}]
     input_text=tokenizer.apply_chat_template(messages, tokenize=False)
     print(input_text)
     input_ids = tokenizer(msg, return_tensors="pt").to("cpu")
     print("output")
     inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
+    outputs = model.generate(inputs, max_new_tokens=256, temperature=0.6, top_p=0.92, do_sample=True)
     print("complete")
     return {"message": tokenizer.decode(outputs[0])}