Spaces:

sarekuwa
/

livecoder

Sleeping

App Files Files Community

Vladislav Krasnov commited on about 1 month ago

Commit

cd00e73

1 Parent(s): 6627d48

Update space 11

Browse files

Files changed (1) hide show

app.py +46 -22

app.py CHANGED Viewed

@@ -2,36 +2,48 @@ import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-# Load model and tokenizer
-USERNAME = "sarekuwa"
-SPACE_NAME = "livecoder"
-API_ENDPOINT = f"https://{USERNAME}-{SPACE_NAME}.hf.space/api/predict"
-model_name = "microsoft/phi-2"
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
-tokenizer.pad_token = tokenizer.eos_token
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float32,
-    device_map="cpu",
-    trust_remote_code=True
-)
 def generate_response(message):
     """Process user input and generate response"""
     if not message.strip():
         return "Please enter a question."
     try:
-        prompt = f"### Instruction: {message}\n### Response:"
-        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
         with torch.no_grad():
             outputs = model.generate(
                 inputs.input_ids,
-                max_new_tokens=256,
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
@@ -43,10 +55,11 @@ def generate_response(message):
         return response.strip()
     except Exception as e:
-        return f"Error generating response: {str(e)}"
 interface = gr.Interface(
-    fn=generate_response,  # Connect function to interface
     inputs=gr.Textbox(label="Input", placeholder="Enter programming question...", lines=3),
     outputs=gr.Textbox(label="Output", lines=10),
     title="LiveCoder API",
@@ -54,7 +67,18 @@ interface = gr.Interface(
     allow_flagging="never"
 )
-# Launch application
-interface.launch(server_name="0.0.0.0", server_port=7860, share=False)
-print(f"API Endpoint: {API_ENDPOINT}")

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+# Use lighter model for CPU
+# model_name = "microsoft/phi-2"  # 2.7B - TOO HEAVY
+model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"  # 1.1B - much lighter
+try:
+    print(f"Loading {model_name}...")
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    tokenizer.pad_token = tokenizer.eos_token
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        torch_dtype=torch.float32,
+        device_map="cpu",
+        low_cpu_mem_usage=True  # Critical for CPU
+    )
+    print("Model loaded successfully")
+except Exception as e:
+    print(f"Failed to load model: {e}")
+    # Fallback to dummy function
+    model, tokenizer = None, None
 def generate_response(message):
     """Process user input and generate response"""
     if not message.strip():
         return "Please enter a question."
+    if model is None or tokenizer is None:
+        return f"Model not loaded. Testing UI with: {message}"
     try:
+        # Format for chat model
+        prompt = f"<|user|>\n{message}\n<|assistant|>\n"
+        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=384)
+        # Generate with lower token count for CPU
         with torch.no_grad():
             outputs = model.generate(
                 inputs.input_ids,
+                attention_mask=inputs.attention_mask,  # FIX: Add attention mask
+                max_new_tokens=150,  # Reduced for CPU
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
         return response.strip()
     except Exception as e:
+        return f"Error: {str(e)[:100]}"
+# Create interface
 interface = gr.Interface(
+    fn=generate_response,
     inputs=gr.Textbox(label="Input", placeholder="Enter programming question...", lines=3),
     outputs=gr.Textbox(label="Output", lines=10),
     title="LiveCoder API",
     allow_flagging="never"
 )
+# API endpoint info
+USERNAME = "sarekuwa"
+SPACE_NAME = "livecoder"
+print(f"API Endpoint: https://{USERNAME}-{SPACE_NAME}.hf.space/api/predict")
+# CRITICAL: Enable queue for request processing
+interface.queue(default_concurrency_limit=1)
+# Launch application
+interface.launch(
+    server_name="0.0.0.0",
+    server_port=7860,
+    share=False,
+    debug=False
+)