Spaces:

druvx13
/

GPT

Sleeping

App Files Files Community

druvx13 commited on May 21, 2025

Commit

9b561b2

verified ·

1 Parent(s): 980a21a

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -15

app.py CHANGED Viewed

@@ -1,10 +1,10 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 import torch
 import os
 # 🔧 CPU Optimization Suite
-os.environ["OMP_NUM_THREADS"] = "4"  # Match your physical core count
 os.environ["MKL_NUM_THREADS"] = "4"
 torch.set_num_threads(4)
 torch.manual_seed(42)
@@ -13,38 +13,37 @@ torch.manual_seed(42)
 MODEL_NAME = "openai-community/openai-gpt"
 cache_dir = "./model_cache"
-# 🧠 Load Model with Surgical Precision
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_NAME,
     cache_dir=cache_dir,
     padding_side="left"
 )
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
-    torch_dtype=torch.float32,  # FP32 for CPU stability
     low_cpu_mem_usage=True,
     cache_dir=cache_dir
 ).eval()
-# 🚀 Create CPU-Optimized Pipeline
-text_generator = pipeline(
-    "text-generation",
-    model=model,
-    tokenizer=tokenizer,
-    device=-1  # Explicit CPU usage
-)
 def generate_response(prompt, max_new_tokens=128, temperature=0.7, top_p=0.9, num_sequences=1):
     """Optimized for 18GB CPU with strict memory control"""
     try:
-        # 🛡️ Input Protection
         inputs = tokenizer(
             prompt,
             return_tensors="pt",
             truncation=True,
             max_length=512,
-            padding="max_length"
         )
         with torch.inference_mode():
@@ -55,7 +54,7 @@ def generate_response(prompt, max_new_tokens=128, temperature=0.7, top_p=0.9, nu
                 top_p=float(top_p),
                 do_sample=True,
                 num_return_sequences=int(num_sequences),
-                pad_token_id=tokenizer.eos_token_id,
                 eos_token_id=tokenizer.eos_token_id
             )

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import os
 # 🔧 CPU Optimization Suite
+os.environ["OMP_NUM_THREADS"] = "4"
 os.environ["MKL_NUM_THREADS"] = "4"
 torch.set_num_threads(4)
 torch.manual_seed(42)
 MODEL_NAME = "openai-community/openai-gpt"
 cache_dir = "./model_cache"
+# 🧠 Load Tokenizer with Padding Fix
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_NAME,
     cache_dir=cache_dir,
     padding_side="left"
 )
+# ✅ Add pad_token if missing (required for batched generation)
+if tokenizer.pad_token is None:
+    tokenizer.add_special_tokens({'pad_token': '[PAD]'})
+    tokenizer.pad_token = tokenizer.eos_token  # Fallback to EOS as pad
+# 🧠 Load Model with CPU-specific settings
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
+    torch_dtype=torch.float32,
     low_cpu_mem_usage=True,
     cache_dir=cache_dir
 ).eval()
 def generate_response(prompt, max_new_tokens=128, temperature=0.7, top_p=0.9, num_sequences=1):
     """Optimized for 18GB CPU with strict memory control"""
     try:
+        # 🛡️ Input Protection with explicit padding
         inputs = tokenizer(
             prompt,
             return_tensors="pt",
             truncation=True,
             max_length=512,
+            padding="max_length",
+            pad_to_multiple_of=8
         )
         with torch.inference_mode():
                 top_p=float(top_p),
                 do_sample=True,
                 num_return_sequences=int(num_sequences),
+                pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id,
                 eos_token_id=tokenizer.eos_token_id
             )