Spaces:

druvx13
/

GPT

Sleeping

App Files Files Community

druvx13 commited on May 21, 2025

Commit

abdc137

verified ·

1 Parent(s): bba23cc

Update app.py

Browse files

Files changed (1) hide show

app.py +126 -78

app.py CHANGED Viewed

@@ -1,87 +1,135 @@
-import os
-import json
-import torch
-from transformers import pipeline, set_seed
 import gradio as gr
-# Model setup
-CACHE_DIR = "./model_cache"
-os.makedirs(CACHE_DIR, exist_ok=True)
-generator = pipeline(
-    "text-generation",
-    model="openai-community/openai-gpt",
-    cache_dir=CACHE_DIR,
-    device=-1,  # CPU
 )
-# Chat history state
-# Initialize empty history list
-def init_history():
-    return []
-# Generate text and record history
-def generate_and_record(
-    prompt, max_length, temperature, top_k, top_p, repetition_penalty, seed, num_return_sequences, history
-):
-    if seed is not None:
-        set_seed(int(seed))
-    outputs = generator(
-        prompt,
-        max_length=int(max_length),
-        temperature=float(temperature),
-        top_k=int(top_k),
-        top_p=float(top_p),
-        repetition_penalty=float(repetition_penalty),
-        num_return_sequences=int(num_return_sequences),
-        do_sample=True,
-    )
-    texts = [out["generated_text"] for out in outputs]
-    history.append({"prompt": prompt, "results": texts})
-    return "\n\n---\n\n".join(texts), history
-# Export chat history to JSON file
-def export_history(history):
-    path = "chat_history.json"
-    with open(path, "w", encoding="utf-8") as f:
-        json.dump(history, f, ensure_ascii=False, indent=2)
-    return path
-# Build Gradio interface
-with gr.Blocks(title="GPT Text Generation") as demo:
-    gr.Markdown("## Text Generation with openai-community/openai-gpt (CPU)")
     with gr.Row():
-        prompt_input = gr.Textbox(label="Prompt", placeholder="Enter your prompt here", lines=2)
-        max_length = gr.Slider(32, 1024, value=128, step=32, label="Max Length")
-    with gr.Row():
-        temperature = gr.Slider(0.1, 1.5, value=1.0, step=0.1, label="Temperature")
-        top_k = gr.Slider(0, 100, value=50, step=1, label="Top-K Sampling")
-    with gr.Row():
-        top_p = gr.Slider(0.0, 1.0, value=0.9, step=0.05, label="Top-P (Nucleus) Sampling")
-        repetition_penalty = gr.Slider(0.5, 2.0, value=1.1, step=0.1, label="Repetition Penalty")
-    seed_input = gr.Number(value=None, precision=0, label="Seed (optional)")
-    num_seq = gr.Dropdown(choices=[1, 2, 3, 5], value=1, label="Number of Generations")
-    generate_btn = gr.Button("Generate")
-    clear_btn = gr.Button("Clear History")
-    export_btn = gr.Button("Export History")
-    output_text = gr.TextArea(label="Generated Text", interactive=False, lines=10)
-    history_state = gr.State(init_history())
-    generate_btn.click(
-        fn=generate_and_record,
-        inputs=[prompt_input, max_length, temperature, top_k, top_p, repetition_penalty, seed_input, num_seq, history_state],
-        outputs=[output_text, history_state]
     )
-    clear_btn.click(lambda _: ([], ""), inputs=[history_state], outputs=[history_state, output_text])
-    export_btn.click(fn=export_history, inputs=[history_state], outputs=[])
-# Launch app
-demo.queue().launch(server_name="0.0.0.0", server_port=7860)

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+import torch
+import os
+# 🔧 CPU Optimization Suite
+os.environ["OMP_NUM_THREADS"] = "4"  # Match your physical core count
+os.environ["MKL_NUM_THREADS"] = "4"
+torch.set_num_threads(4)
+torch.manual_seed(42)
+# 📦 Model Configuration
+MODEL_NAME = "openai-community/openai-gpt"
+cache_dir = "./model_cache"
+# 🧠 Load Model with Surgical Precision
+tokenizer = AutoTokenizer.from_pretrained(
+    MODEL_NAME,
+    cache_dir=cache_dir,
+    padding_side="left"
 )
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    torch_dtype=torch.float32,  # FP32 for CPU stability
+    low_cpu_mem_usage=True,
+    cache_dir=cache_dir
+).eval()
+# 🚀 Create CPU-Optimized Pipeline
+text_generator = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    device=-1  # Explicit CPU usage
+)
+def generate_response(prompt, max_new_tokens=128, temperature=0.7, top_p=0.9, num_sequences=1):
+    """Optimized for 18GB CPU with strict memory control"""
+    try:
+        # 🛡️ Input Protection
+        inputs = tokenizer(
+            prompt,
+            return_tensors="pt",
+            truncation=True,
+            max_length=512,
+            padding="max_length"
+        )
+        with torch.inference_mode():
+            outputs = model.generate(
+                **inputs,
+                max_new_tokens=int(max_new_tokens),
+                temperature=float(temperature),
+                top_p=float(top_p),
+                do_sample=True,
+                num_return_sequences=int(num_sequences),
+                pad_token_id=tokenizer.eos_token_id,
+                eos_token_id=tokenizer.eos_token_id
+            )
+        return "\n\n".join([
+            f"📝 Result {i+1}:\n{tokenizer.decode(output, skip_special_tokens=True)}"
+            for i, output in enumerate(outputs)
+        ])
+    except Exception as e:
+        return f"🚨 CPU Memory Alert: {str(e)}\nTry shorter inputs or fewer results!"
+# 🎨 UI Layout with Gradio Blocks
+with gr.Blocks(theme="soft", title="GPT-1 Legacy Engine") as demo:
+    gr.Markdown("""
+    # 🧠 Legacy GPT-1 Text Generator (CPU-Optimized Edition)
+    *Running the original transformer-based language model with surgical memory control*
+    🔥 Features:
+    - Thread-limited execution for stable performance
+    - Input length protection (512 tokens)
+    - Batch generation support
+    - Temperature-controlled creativity
+    - Interactive examples
+    """)
     with gr.Row():
+        with gr.Column(scale=2):
+            prompt = gr.Textbox(
+                label="Input Prompt",
+                placeholder="Enter your prompt here...",
+                lines=5
+            )
+            with gr.Accordion("⚙️ Generation Parameters", open=False):
+                max_new_tokens = gr.Slider(
+                    minimum=32, maximum=256, value=128, step=16,
+                    label="Max New Tokens (Output Length)"
+                )
+                temperature = gr.Slider(
+                    minimum=0.1, maximum=1.5, value=0.7, step=0.1,
+                    label="Creativity Level (Temperature)"
+                )
+                top_p = gr.Slider(
+                    minimum=0.1, maximum=1.0, value=0.9, step=0.1,
+                    label="Top-p Sampling (Nucleus Filtering)"
+                )
+                num_sequences = gr.Slider(
+                    minimum=1, maximum=3, value=1, step=1,
+                    label="Number of Results to Generate"
+                )
+            submit = gr.Button("✨ Generate Text", variant="primary")
+        with gr.Column(scale=2):
+            output = gr.Textbox(
+                label="Generated Text",
+                lines=15,
+                show_copy_button=True
+            )
+    submit.click(
+        fn=generate_response,
+        inputs=[prompt, max_new_tokens, temperature, top_p, num_sequences],
+        outputs=output
+    )
+    gr.Examples(
+        examples=[
+            ["The future of artificial intelligence will"],
+            ["Explain quantum physics like I'm five"],
+            ["Write a haiku about machine learning"]
+        ],
+        inputs=prompt,
+        label="🚀 Try These Prompts"
     )
+if __name__ == "__main__":
+    demo.launch()