Spaces:

lablab-ai-amd-developer-hackathon
/

ForgeSight

Sleeping

App Files Files Community

rasAli02 commited on 16 days ago

Commit

8d2779b

1 Parent(s): 4cc00df

feat: finalize MI300X inference connection and live status update

Browse files

Files changed (10) hide show

backend/agents.py +4 -4
backend/deploy_to_amd.sh +4 -2
backend/server.py +6 -0
backend/start_vllm.sh +8 -8
hf_space/agents.py +4 -4
hf_space_repo +1 -1
lablab_forgesight +1 -0
lablab_forgesight_download/.gitattributes +35 -0
lablab_forgesight_download/README.md +13 -0
scratch/test_amd_connection.py +50 -0

backend/agents.py CHANGED Viewed

@@ -15,17 +15,17 @@ import httpx  # async HTTP — lightweight, no extra deps beyond requirements
 # ── AMD vLLM inference endpoint ─────────────────────────────────────────────
 # vLLM exposes an OpenAI-compatible API at /v1/chat/completions.
 # Set AMD_INFERENCE_URL in your .env to point at the running vLLM server.
-# Example: http://129.212.191.163   (direct port — ensure firewall allows it)
-# Or use the Jupyter proxy route: http://129.212.191.163/proxy/8000
 AMD_INFERENCE_URL = os.environ.get(
     "AMD_INFERENCE_URL",
-    "http://165.245.143.46:8000"
 ).rstrip("/")
 # Token for the AMD inference server (if required)
 AMD_INFERENCE_TOKEN = os.environ.get(
     "AMD_INFERENCE_TOKEN",
-    "5peRa6unb0DdXvzB3Pbck48IgNTDmxeJSUvE4NdnhvW70FcaX"
 )
 # The model name vLLM is serving (used in the chat/completions request).

 # ── AMD vLLM inference endpoint ─────────────────────────────────────────────
 # vLLM exposes an OpenAI-compatible API at /v1/chat/completions.
 # Set AMD_INFERENCE_URL in your .env to point at the running vLLM server.
+# Example: http://165.245.143.46:8000   (direct port — ensure firewall allows it)
+# Or use the Jupyter proxy route: http://165.245.143.46/proxy/8000
 AMD_INFERENCE_URL = os.environ.get(
     "AMD_INFERENCE_URL",
+    "http://165.245.137.80"
 ).rstrip("/")
 # Token for the AMD inference server (if required)
 AMD_INFERENCE_TOKEN = os.environ.get(
     "AMD_INFERENCE_TOKEN",
+    "DiPipPSZoxb96rcrP7X+B0N5mTTEzxU/ziesgI/Z2NPo9xPKM"
 )
 # The model name vLLM is serving (used in the chat/completions request).

backend/deploy_to_amd.sh CHANGED Viewed

@@ -59,8 +59,10 @@ cat > /opt/forgesight/.env << 'EOF'
 MONGO_URL=mongodb://localhost:27017
 DB_NAME=forgesight
 CORS_ORIGINS=*
-# Set your AMD vLLM inference server URL here if running a local model:
-AMD_INFERENCE_URL=http://localhost:8000
 EOF
 echo ""

 MONGO_URL=mongodb://localhost:27017
 DB_NAME=forgesight
 CORS_ORIGINS=*
+# Set your AMD vLLM inference server URL here:
+AMD_INFERENCE_URL=http://165.245.137.80
+AMD_INFERENCE_TOKEN=DiPipPSZoxb96rcrP7X+B0N5mTTEzxU/ziesgI/Z2NPo9xPKM
+AMD_MODEL_NAME=Qwen/Qwen2-VL-7B-Instruct
 EOF
 echo ""

backend/server.py CHANGED Viewed

@@ -341,3 +341,9 @@ logger = logging.getLogger("forgesight")
 @app.on_event("shutdown")
 async def shutdown_db_client():
     client.close()

 @app.on_event("shutdown")
 async def shutdown_db_client():
     client.close()
+if __name__ == "__main__":
+    import uvicorn
+    port = int(os.environ.get("PORT", 8001))
+    uvicorn.run(app, host="0.0.0.0", port=port)

backend/start_vllm.sh CHANGED Viewed

@@ -17,13 +17,13 @@ fi
 export HSA_OVERRIDE_GFX_VERSION=11.0.0
 export NCCL_DEBUG=ERROR
-python3 -m vllm.entrypoints.openai.api_server \
-    --model "$MODEL_NAME" \
     --host 0.0.0.0 \
     --port "$PORT" \
-    --trust-remote-code \
-    --dtype bfloat16 \
-    --limit-mm-per-prompt image=1 \
-    --gpu-memory-utilization 0.95 \
-    --max-model-len 8192 \
-    --tensor-parallel-size 1

 export HSA_OVERRIDE_GFX_VERSION=11.0.0
 export NCCL_DEBUG=ERROR
+vllm serve "$MODEL_NAME" \
     --host 0.0.0.0 \
     --port "$PORT" \
+    --tensor-parallel-size 8 \
+    --enable-expert-parallel \
+    --mm-encoder-tp-mode data \
+    --mm-processor-cache-type shm \
+    --reasoning-parser qwen3 \
+    --enable-prefix-caching \
+    --trust-remote-code

hf_space/agents.py CHANGED Viewed

@@ -15,17 +15,17 @@ import httpx  # async HTTP — lightweight, no extra deps beyond requirements
 # ── AMD vLLM inference endpoint ─────────────────────────────────────────────
 # vLLM exposes an OpenAI-compatible API at /v1/chat/completions.
 # Set AMD_INFERENCE_URL in your .env to point at the running vLLM server.
-# Example: http://129.212.191.163:8000   (direct port — ensure firewall allows it)
-# Or use the Jupyter proxy route: http://129.212.191.163/proxy/8000
 AMD_INFERENCE_URL = os.environ.get(
     "AMD_INFERENCE_URL",
-    "http://165.245.143.46:8000"
 ).rstrip("/")
 # Token for the AMD inference server (if required)
 AMD_INFERENCE_TOKEN = os.environ.get(
     "AMD_INFERENCE_TOKEN",
-    "5peRa6unb0DdXvzB3Pbck48IgNTDmxeJSUvE4NdnhvW70FcaX"
 )
 # The model name vLLM is serving (used in the chat/completions request).

 # ── AMD vLLM inference endpoint ─────────────────────────────────────────────
 # vLLM exposes an OpenAI-compatible API at /v1/chat/completions.
 # Set AMD_INFERENCE_URL in your .env to point at the running vLLM server.
+# Example: http://165.245.143.46:8000   (direct port — ensure firewall allows it)
+# Or use the Jupyter proxy route: http://165.245.143.46/proxy/8000
 AMD_INFERENCE_URL = os.environ.get(
     "AMD_INFERENCE_URL",
+    "http://165.245.137.80"
 ).rstrip("/")
 # Token for the AMD inference server (if required)
 AMD_INFERENCE_TOKEN = os.environ.get(
     "AMD_INFERENCE_TOKEN",
+    "DiPipPSZoxb96rcrP7X+B0N5mTTEzxU/ziesgI/Z2NPo9xPKM"
 )
 # The model name vLLM is serving (used in the chat/completions request).

hf_space_repo CHANGED Viewed

	@@ -1 +1 @@
1	- Subproject commit ~~53cd64c92db6de4b88570e9f034bf0164c174619~~


1	+ Subproject commit 5afad5017a9c8584dd462568837d8fa95ebfe1d1

lablab_forgesight ADDED Viewed

	@@ -0,0 +1 @@


1	+ Subproject commit 7ca49a46b7aa216edef41b4dc1a0f9095ec71ef9

lablab_forgesight_download/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

lablab_forgesight_download/README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Forgesight
+emoji: 🌍
+colorFrom: gray
+colorTo: indigo
+sdk: gradio
+sdk_version: 6.14.0
+python_version: '3.13'
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

scratch/test_amd_connection.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import httpx
+import asyncio
+import json
+AMD_URL = "http://165.245.137.80"
+AMD_TOKEN = "DiPipPSZoxb96rcrP7X+B0N5mTTEzxU/ziesgI/Z2NPo9xPKM"
+async def test():
+    headers = {"Authorization": f"Bearer {AMD_TOKEN}"}
+    print(f"Testing connectivity to {AMD_URL}...")
+    # 1. Test port 80 / proxy
+    try:
+        async with httpx.AsyncClient(timeout=10) as client:
+            r = await client.get(f"{AMD_URL}/v1/models", headers=headers)
+            print(f"Port 80 /v1/models: {r.status_code}")
+            if r.status_code == 200:
+                print("SUCCESS: vLLM is alive on Port 80!")
+                print(r.json())
+                return
+    except Exception as e:
+        print(f"Port 80 /v1/models failed: {e}")
+    # 2. Test /proxy/8000
+    try:
+        async with httpx.AsyncClient(timeout=10) as client:
+            r = await client.get(f"{AMD_URL}/proxy/8000/v1/models", headers=headers)
+            print(f"Port 80 /proxy/8000/v1/models: {r.status_code}")
+            if r.status_code == 200:
+                print("SUCCESS: vLLM is alive on /proxy/8000!")
+                print(r.json())
+                return
+    except Exception as e:
+        print(f"/proxy/8000 failed: {e}")
+    # 3. Test port 8000 directly
+    try:
+        async with httpx.AsyncClient(timeout=10) as client:
+            r = await client.get(f"http://165.245.137.80:8000/v1/models", headers=headers)
+            print(f"Port 8000 /v1/models: {r.status_code}")
+            if r.status_code == 200:
+                print("SUCCESS: vLLM is alive on Port 8000!")
+                print(r.json())
+                return
+    except Exception as e:
+        print(f"Port 8000 failed: {e}")
+if __name__ == "__main__":
+    asyncio.run(test())