hermes3-llama-cpp

Running

Jodaro commited on 1 day ago

Commit

192caec

verified ·

1 Parent(s): b5a58c5

Fix model loading (remove hf_model, set model_type)

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ print("Loading model...")
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_REPO,
     model_file=MODEL_FILE,
-    hf_model=MODEL_REPO,
     gpu_layers=0,
     context_length=4096,
 )
@@ -18,11 +18,13 @@ def respond(message, history):
     for user_msg, bot_msg in history:
         prompt += f"<|im_start|>user\n{user_msg}\n<|im_end|>\n"
         prompt += f"<|im_start|>assistant\n{bot_msg}\n<|im_end|>\n"
     prompt += f"<|im_start|>user\n{message}\n<|im_end|>\n<|im_start|>assistant\n"
     output = model(prompt, max_new_tokens=512, temperature=0.7, top_p=0.9)
     return output
 iface = gr.ChatInterface(respond)
 if __name__ == "__main__":
-    iface.launch()

 model = AutoModelForCausalLM.from_pretrained(
     MODEL_REPO,
     model_file=MODEL_FILE,
+    model_type="llama",
     gpu_layers=0,
     context_length=4096,
 )
     for user_msg, bot_msg in history:
         prompt += f"<|im_start|>user\n{user_msg}\n<|im_end|>\n"
         prompt += f"<|im_start|>assistant\n{bot_msg}\n<|im_end|>\n"
     prompt += f"<|im_start|>user\n{message}\n<|im_end|>\n<|im_start|>assistant\n"
     output = model(prompt, max_new_tokens=512, temperature=0.7, top_p=0.9)
     return output
 iface = gr.ChatInterface(respond)
 if __name__ == "__main__":
+    iface.launch()