Spaces:

Rahul-8799
/

MAC_UI

Sleeping

Rahul-8799 commited on May 9, 2025

Commit

d655b62

verified ·

1 Parent(s): d00cb32

Update utils/inference.py

Files changed (1) hide show

utils/inference.py CHANGED Viewed

@@ -1,11 +1,37 @@
-from huggingface_hub import InferenceClient
 import os
-client = InferenceClient(
-    model="bigcode/starcoder2-3b",
-    token=os.environ.get("HF_TOKEN"),
-    provider="together"
-)
 def call_model(prompt: str) -> str:
-    return client.text_generation(prompt, max_new_tokens=2048, temperature=0.3, return_full_text=False)

 import os
+import requests
+# Replace this with your actual endpoint URL
+API_URL = "https://lgj704z9p0j2vf79.us-east4.gcp.endpoints.huggingface.cloud"  # e.g., https://mistral-rw123.hf.space
+HF_ENDPOINT_TOKEN = os.environ.get("HF_ENDPOINT_TOKEN")
+headers = {
+    "Authorization": f"Bearer {HF_ENDPOINT_TOKEN}",
+    "Content-Type": "application/json"
+}
 def call_model(prompt: str) -> str:
+    response = requests.post(
+        f"{API_URL}/v1/completions",  # Use `/v1/completions` or `/generate` depending on config
+        headers=headers,
+        json={
+            "inputs": prompt,
+            "parameters": {
+                "max_new_tokens": 2048,
+                "temperature": 0.3,
+                "do_sample": False
+            }
+        }
+    )
+    if response.status_code != 200:
+        raise RuntimeError(f"Inference error: {response.status_code} - {response.text}")
+    # The response schema may vary slightly; adjust if needed:
+    result = response.json()
+    if isinstance(result, dict) and "generated_text" in result:
+        return result["generated_text"]
+    elif isinstance(result, list) and "generated_text" in result[0]:
+        return result[0]["generated_text"]
+    else:
+        return result.get("data", "⚠️ No output generated.")