Spaces:

theguywhosucks
/

mochaV2-Inference

Sleeping

theguywhosucks commited on Sep 17, 2025

Commit

262bf6d

verified ·

1 Parent(s): 6f17340

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,30 +2,28 @@ import torch
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
-# HF repo containing your model (with safetensors)
 repo_id = "theguywhosucks/mochaV2"
-# Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(repo_id, use_fast=False)
-# GPT2-style models often don't have a pad token, set it to eos
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
-# Load model (safetensors automatically used if available)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = AutoModelForCausalLM.from_pretrained(
     repo_id,
-    dtype=torch.float32,  # torch_dtype is deprecated; use dtype
     trust_remote_code=True
 )
 model.to(device)
 model.eval()
-# Gradio completion function
 def complete_sentence(prompt, max_new_tokens=50, temperature=0.7):
-    # Encode input with proper padding
-    inputs = tokenizer(prompt, return_tensors="pt", padding=True).to(device)
     with torch.no_grad():
         outputs = model.generate(
@@ -33,10 +31,9 @@ def complete_sentence(prompt, max_new_tokens=50, temperature=0.7):
             max_new_tokens=max_new_tokens,
             do_sample=True,
             temperature=temperature,
-            pad_token_id=tokenizer.pad_token_id  # ensures safe embedding lookup
         )
-    # Decode output safely
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 # Launch Gradio app

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 repo_id = "theguywhosucks/mochaV2"
+# Load the tokenizer from the repo (uses tokenizer.json internally)
 tokenizer = AutoTokenizer.from_pretrained(repo_id, use_fast=False)
+# GPT2-style models often don't have a pad token
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
+# Load the model (safetensors used automatically)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = AutoModelForCausalLM.from_pretrained(
     repo_id,
+    dtype=torch.float32,  # torch_dtype is deprecated
     trust_remote_code=True
 )
 model.to(device)
 model.eval()
 def complete_sentence(prompt, max_new_tokens=50, temperature=0.7):
+    # Tokenize input safely
+    inputs = tokenizer(prompt, return_tensors="pt").to(device)
     with torch.no_grad():
         outputs = model.generate(
             max_new_tokens=max_new_tokens,
             do_sample=True,
             temperature=temperature,
+            pad_token_id=tokenizer.pad_token_id
         )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 # Launch Gradio app