Spaces:

theguywhosucks
/

mochaV2-Inference

Sleeping

App Files Files Community

theguywhosucks commited on Sep 17, 2025

Commit

b9ebb9a

verified ·

1 Parent(s): a4dc3b9

Create app.py

Browse files

Files changed (1) hide show

app.py +44 -0

app.py ADDED Viewed

	@@ -0,0 +1,44 @@

+import torch
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# HF repo containing your model (with safetensors)
+repo_id = "theguywhosucks/mochaV2"
+# Load tokenizer from HF (no manual itos/stoi)
+tokenizer = AutoTokenizer.from_pretrained(repo_id, use_fast=False)
+# Load model (safetensors will be used automatically if available)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model = AutoModelForCausalLM.from_pretrained(
+    repo_id,
+    torch_dtype=torch.float32,  # or torch.float16 for faster GPU inference
+    trust_remote_code=True
+)
+model.to(device)
+model.eval()
+# Gradio function
+def complete_sentence(prompt, max_new_tokens=50, temperature=0.7):
+    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
+    with torch.no_grad():
+        outputs = model.generate(
+            input_ids,
+            max_new_tokens=max_new_tokens,
+            do_sample=True,
+            temperature=temperature
+        )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# Launch Gradio app
+gr.Interface(
+    fn=complete_sentence,
+    inputs=[
+        gr.Textbox(label="Prompt"),
+        gr.Slider(10, 200, value=50, step=10, label="Max new tokens"),
+        gr.Slider(0.1, 2.0, value=0.7, step=0.1, label="Temperature")
+    ],
+    outputs=gr.Textbox(label="Completed Text"),
+    title="Mocha Sentence Completion",
+    description="Enter a prompt and get AI completions from your model."
+).launch()