MergeLlama-7b

Paused

codys12 commited on Oct 17, 2023

Commit

151d4c2

1 Parent(s): c4cdcd8

history

Files changed (1) hide show

app.py CHANGED Viewed

@@ -42,17 +42,17 @@ def generate(
         current_input += user
         current_input += assistant
     current_input += message
     device = "cuda"
     input_ids = tokenizer(current_input, return_tensors="pt").input_ids.to(device)
-    print(input_ids)
     if len(input_ids) > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[-MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning("Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
-    streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_special_tokens=False)
     generate_kwargs = dict(
         {"input_ids": input_ids},
         streamer=streamer,

         current_input += user
         current_input += assistant
+    history = current_input
     current_input += message
     device = "cuda"
     input_ids = tokenizer(current_input, return_tensors="pt").input_ids.to(device)
     if len(input_ids) > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[-MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning("Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
+    streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_special_tokens=True)
     generate_kwargs = dict(
         {"input_ids": input_ids},
         streamer=streamer,