Spaces:

CedricZ
/

HS25_LLM_Assignment_4

Sleeping

CedricZ commited on Oct 8, 2025

Commit

19df4a4

1 Parent(s): b3c7565

fixes

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,8 @@
 import gradio as gr
 import os
-from huggingface_hub import InferenceClient
 def respond(
     message,
@@ -8,21 +10,21 @@ def respond(
     temperature,
     top_p
 ):
-    client = InferenceClient(token=os.getenv('access_token'), model="meta-llama/Meta-Llama-3.1-8B", provider="featherless-ai")
-    try:
-        output = client.text_generation(
-            message,
-            max_new_tokens=max_tokens,
-            stream=False,
-            temperature=temperature,
-            top_p=top_p,
-            repetition_penalty=1.1)
-    except:
-        output = "Error: Too many requests at the moment. Please try submit again in a few seconds."
-    return output
 demo = gr.Interface(

 import gradio as gr
 import os
+import requests
+API_KEY = os.getenv("access_token")
 def respond(
     message,
     temperature,
     top_p
 ):
+    response = requests.post(
+    url="https://api.featherless.ai/v1/completions",
+    headers={
+        "Authorization": f"Bearer {API_KEY}",
+        "Content-type": "application/json"
+    },
+    json={
+        "model": "Qwen/Qwen3-8B",
+        "prompt": message,
+        "max_tokens": max_tokens,
+        "temperature": temperature,
+        "top_p": top_p
+    }
+)
+    return response.json()["choices"][0]["text"]
 demo = gr.Interface(