llama-cpp-python

Runtime error

zac commited on Aug 7, 2023

Commit

31cf808

1 Parent(s): 40a9466

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-import json
 import time
 import ctypes #to run on C api directly
 import llama_cpp
@@ -21,12 +21,11 @@ def generate_text(input_text, history):
         input_text_with_history += f"Q: {input_text} \n A:"
     print("new input", input_text_with_history)
     output = llm(input_text_with_history, max_tokens=1024, stop=["Q:", "\n"], stream=True)
-    response = output['choices'][0]['text'] + "\n"
-    print("response", response)
     history =["init",input_text_with_history]
     for out in output:
-     print(json.dump(out, indent=2))
-    return response
 demo = gr.ChatInterface(generate_text)
 demo.queue(concurrency_count=1, max_size=5)

 import gradio as gr
+import copy
 import time
 import ctypes #to run on C api directly
 import llama_cpp
         input_text_with_history += f"Q: {input_text} \n A:"
     print("new input", input_text_with_history)
     output = llm(input_text_with_history, max_tokens=1024, stop=["Q:", "\n"], stream=True)
     history =["init",input_text_with_history]
     for out in output:
+     stream = copy.deepcopy(out)
+     yield print(stream["choice"][0]["text"])
 demo = gr.ChatInterface(generate_text)
 demo.queue(concurrency_count=1, max_size=5)