Spaces:

OpceanAI
/

Yuuki

Running

App Files Files Community

Gogs commited on 13 days ago

Commit

39e8823

1 Parent(s): 4363dc2

🔧 Switch to Inference API (no local model loading)

Browse files

Files changed (1) hide show

app.py +13 -62

app.py CHANGED Viewed

@@ -7,40 +7,6 @@ import torch
 # ============================================================================
 MODEL_ID = "OpceanAI/Yuuki-best"
-MODEL_LOADED = False
-model = None
-tokenizer = None
-def load_model():
-    """Load the Yuuki model with proper error handling."""
-    global model, tokenizer, MODEL_LOADED
-    if MODEL_LOADED:
-        return True
-    try:
-        print(f"Loading Yuuki model from {MODEL_ID}...")
-        tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-        model = AutoModelForCausalLM.from_pretrained(
-            MODEL_ID,
-            torch_dtype=torch.float32,
-            low_cpu_mem_usage=True,
-            trust_remote_code=True
-        )
-        if tokenizer.pad_token is None:
-            tokenizer.pad_token = tokenizer.eos_token
-        MODEL_LOADED = True
-        print("Model loaded successfully!")
-        return True
-    except Exception as e:
-        print(f"Error loading model: {e}")
-        return False
 def generate_code(
     prompt: str,
@@ -50,43 +16,28 @@ def generate_code(
     top_k: int = 50,
     repetition_penalty: float = 1.1
 ) -> str:
-    """Generate code completion using Yuuki."""
-    if not MODEL_LOADED:
-        if not load_model():
-            return "Error: Model failed to load. Please try refreshing the page."
     if not prompt or not prompt.strip():
         return "Please enter a code prompt."
     try:
-        inputs = tokenizer(
-            prompt,
-            return_tensors="pt",
-            truncation=True,
-            max_length=512
         )
-        with torch.no_grad():
-            outputs = model.generate(
-                **inputs,
-                max_new_tokens=max_new_tokens,
-                temperature=temperature,
-                top_p=top_p,
-                top_k=top_k,
-                repetition_penalty=repetition_penalty,
-                do_sample=True,
-                pad_token_id=tokenizer.pad_token_id,
-                eos_token_id=tokenizer.eos_token_id,
-                num_return_sequences=1
-            )
-        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        return generated_text
     except Exception as e:
-        return f"Generation error: {str(e)}"
 # ============================================================================
 # Examples

 # ============================================================================
 MODEL_ID = "OpceanAI/Yuuki-best"
 def generate_code(
     prompt: str,
     top_k: int = 50,
     repetition_penalty: float = 1.1
 ) -> str:
+    """Generate code using HuggingFace Inference API (no local loading)."""
     if not prompt or not prompt.strip():
         return "Please enter a code prompt."
     try:
+        from huggingface_hub import InferenceClient
+        client = InferenceClient()
+        response = client.text_generation(
+            prompt,
+            model=MODEL_ID,
+            max_new_tokens=max_new_tokens,
+            temperature=temperature,
+            top_p=top_p,
+            do_sample=True
         )
+        return response
     except Exception as e:
+        return f"Generation error: {str(e)}\n\nTry model directly: https://huggingface.co/OpceanAI/Yuuki-best"
 # ============================================================================
 # Examples