Spaces:

ranggafermata
/

Fermata-v.1.2-LightCoder

Runtime error

ranggafermata commited on Jul 26, 2025

Commit

5c24f7c

verified ·

1 Parent(s): fe03a00

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,17 +10,9 @@ login(token=os.getenv("HF_TOKEN"))
 # Load the model and tokenizer
 model_name = "ranggafermata/Fermata-v1.2-lightcoder"
-device = "cuda" if torch.cuda.is_available() else "cpu"
-dtype = torch.float16 if device == "cuda" else torch.float32
-# Load tokenizer and model with eager attention
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    torch_dtype=dtype,
-    attn_implementation="eager",
-    trust_remote_code=True
-).to(device)
 def generate_code(prompt, max_tokens, temperature, top_p):
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
@@ -35,18 +27,17 @@ def generate_code(prompt, max_tokens, temperature, top_p):
         )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
-# Gradio Interface
 iface = gr.Interface(
     fn=generate_code,
     inputs=[
-        gr.Textbox(lines=5, label="Prompt", placeholder="Write your prompt here..."),
-        gr.Slider(minimum=10, maximum=512, value=128, step=8, label="Max Tokens"),
-        gr.Slider(minimum=0.1, maximum=1.5, value=0.8, step=0.1, label="Temperature"),
-        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)")
     ],
     outputs=gr.Textbox(lines=20, label="Generated Code"),
     title="Fermata v1.2 LightCoder",
-    description="Code generator powered by TinyLlama fine-tuned on math/code tasks."
 )
 iface.launch(mcp_server=True)

 # Load the model and tokenizer
 model_name = "ranggafermata/Fermata-v1.2-lightcoder"
+tokenizer = LlamaTokenizerFast.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32)
+model.eval()
 def generate_code(prompt, max_tokens, temperature, top_p):
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
         )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 iface = gr.Interface(
     fn=generate_code,
     inputs=[
+        gr.Textbox(lines=5, label="Prompt"),
+        gr.Slider(10, 512, value=128, label="Max Tokens"),
+        gr.Slider(0.1, 1.5, value=0.8, label="Temperature"),
+        gr.Slider(0.1, 1.0, value=0.95, label="Top-p")
     ],
     outputs=gr.Textbox(lines=20, label="Generated Code"),
     title="Fermata v1.2 LightCoder",
+    description="A fine-tuned code model based on TinyLlama."
 )
 iface.launch(mcp_server=True)