Spaces:

yukee1992
/

gemma-1b-script-generatorV2

Paused

yukee1992 commited on Aug 11, 2025

Commit

6a274d8

verified ·

1 Parent(s): 4c52de3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,34 +1,23 @@
 import torch
-from transformers import AutoTokenizer, AutoModelForCausalLM
-import gradio as gr
-# Load model (cache on first run)
 model_id = "google/gemma-1.1-7b-it"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
-    device_map="auto",
-    torch_dtype=torch.bfloat16  # Optimized for NVIDIA
-)
-def generate_script(topic):
-    prompt = f"""Generate a viral YouTube Short script about {topic} with:
-    1) HOOK: Controversial opening (5 words max)
-    2) BODY: 3 scientific facts
-    3) CTA: Actionable challenge
-    Script:"""
-    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
-    outputs = model.generate(**inputs, max_new_tokens=300)
-    return tokenizer.decode(outputs[0], skip_special_tokens=True)
-# Gradio UI
-demo = gr.Interface(
-    fn=generate_script,
-    inputs=gr.Textbox(label="Topic"),
-    outputs=gr.Textbox(label="Generated Script"),
-    title="Gemma-7B Script Generator"
 )
-demo.launch(server_port=7860, share=True)

+from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 model_id = "google/gemma-1.1-7b-it"
+# CPU-specific config
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
+    device_map="cpu",
+    torch_dtype=torch.float32,  # Required for CPU
+    load_in_8bit=True  # Reduces RAM usage by 2x
 )
+def generate(prompt):
+    inputs = tokenizer(prompt, return_tensors="pt").to("cpu")
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=150,  # Must stay under 200
+        do_sample=True,
+        temperature=0.7
+    )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)