Spaces:

sarekuwa
/

livecoder

Running

App Files Files Community

Vladislav Krasnov commited on Jan 6

Commit

6627d48

1 Parent(s): a3be3b5

Update space 10

Browse files

Files changed (1) hide show

app.py +19 -47

app.py CHANGED Viewed

@@ -2,36 +2,21 @@ import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-# Your space info (for API endpoint calculation)
-USERNAME = "sarekuwa"
 SPACE_NAME = "livecoder"
 API_ENDPOINT = f"https://{USERNAME}-{SPACE_NAME}.hf.space/api/predict"
-# Print endpoint BEFORE launching (will appear in logs)
-print(f"API Endpoint for external use: {API_ENDPOINT}")
-print("Model loading...")
-# Use a lighter model for CPU - Phi-2 is too heavy
-# model_name = "microsoft/phi-2"  # TOO HEAVY - 2.7B parameters
-model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"  # Lighter alternative
-try:
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    tokenizer.pad_token = tokenizer.eos_token
-    model = AutoModelForCausalLM.from_pretrained(
-        model_name,
-        torch_dtype=torch.float32,
-        device_map="cpu"
-    )
-    print("Model loaded successfully")
-except Exception as e:
-    print(f"Error loading model: {e}")
-    # Fallback to simplest model
-    model_name = "distilgpt2"
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    tokenizer.pad_token = tokenizer.eos_token
-    model = AutoModelForCausalLM.from_pretrained(model_name)
 def generate_response(message):
     """Process user input and generate response"""
@@ -39,36 +24,29 @@ def generate_response(message):
         return "Please enter a question."
     try:
-        # Format prompt for chat model
-        if "TinyLlama" in model_name or "phi" in model_name:
-            prompt = f"<|user|>\n{message}\n<|assistant|>\n"
-        else:
-            prompt = f"User: {message}\nAssistant:"
         inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
-        # Generate with lower token count for CPU
         with torch.no_grad():
             outputs = model.generate(
                 inputs.input_ids,
-                max_new_tokens=150,  # Reduced for CPU
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
                 pad_token_id=tokenizer.pad_token_id,
-                eos_token_id=tokenizer.eos_token_id,
-                repetition_penalty=1.1
             )
         response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
         return response.strip()
     except Exception as e:
-        return f"Error: {str(e)}"
-# Create interface
 interface = gr.Interface(
-    fn=generate_response,
     inputs=gr.Textbox(label="Input", placeholder="Enter programming question...", lines=3),
     outputs=gr.Textbox(label="Output", lines=10),
     title="LiveCoder API",
@@ -76,13 +54,7 @@ interface = gr.Interface(
     allow_flagging="never"
 )
-# CRITICAL: Enable queue for async processing
-interface.queue(default_concurrency_limit=1)
 # Launch application
-interface.launch(
-    server_name="0.0.0.0",
-    server_port=7860,
-    share=False,
-    debug=False  # Set to True for more logs
-)

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+# Load model and tokenizer
+USERNAME = "sarekuwa"
 SPACE_NAME = "livecoder"
 API_ENDPOINT = f"https://{USERNAME}-{SPACE_NAME}.hf.space/api/predict"
+model_name = "microsoft/phi-2"
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+tokenizer.pad_token = tokenizer.eos_token
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float32,
+    device_map="cpu",
+    trust_remote_code=True
+)
 def generate_response(message):
     """Process user input and generate response"""
         return "Please enter a question."
     try:
+        prompt = f"### Instruction: {message}\n### Response:"
         inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
         with torch.no_grad():
             outputs = model.generate(
                 inputs.input_ids,
+                max_new_tokens=256,
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
                 pad_token_id=tokenizer.pad_token_id,
+                eos_token_id=tokenizer.eos_token_id
             )
         response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
         return response.strip()
     except Exception as e:
+        return f"Error generating response: {str(e)}"
 interface = gr.Interface(
+    fn=generate_response,  # Connect function to interface
     inputs=gr.Textbox(label="Input", placeholder="Enter programming question...", lines=3),
     outputs=gr.Textbox(label="Output", lines=10),
     title="LiveCoder API",
     allow_flagging="never"
 )
 # Launch application
+interface.launch(server_name="0.0.0.0", server_port=7860, share=False)
+print(f"API Endpoint: {API_ENDPOINT}")