llamacpp-flan-t5-large-grammar-synthesis

Sleeping

Akjava commited on Mar 19

Commit

e496267

verified ·

1 Parent(s): e557599

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -283,7 +283,12 @@ def respond(
     top_k: int,
     repeat_penalty: float,
 ):
-    llama = Llama("models/madlad400-3b-mt-q8_0.gguf")
     #tokens = llama.tokenize(f"<2ja>{message}")#
     tokens = llama.tokenize(f"<2ja>{message}".encode("utf-8"))
     llama.encode(tokens)

     top_k: int,
     repeat_penalty: float,
 ):
+    llama = Llama("models/madlad400-3b-mt-q8_0.gguf",flash_attn=False,
+                n_gpu_layers=0,
+                n_batch=16,
+                n_ctx=512,
+                n_threads=2,
+                n_threads_batch=8,)
     #tokens = llama.tokenize(f"<2ja>{message}")#
     tokens = llama.tokenize(f"<2ja>{message}".encode("utf-8"))
     llama.encode(tokens)