Spaces:

kamesh14151
/

aj-deepseek-api

Sleeping

App Files Files Community

AJ STUDIOZ commited on Nov 5, 2025

Commit

4534aef

1 Parent(s): 5528539

Revert to HuggingFace InferenceClient - Cloud-based solution for low-spec systems

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +18 -21
requirements.txt +1 -1

README.md CHANGED Viewed

@@ -10,7 +10,7 @@ license: mit
 # 🚀 AJ STUDIOZ DeepSeek API
-Enterprise-grade AI API powered by **DeepSeek-R1-Distill-Qwen-1.5B** - Advanced reasoning in a compact 1.5B parameter model.
 ![Status](https://img.shields.io/badge/Status-Online-success?style=for-the-badge)
 ![Model](https://img.shields.io/badge/Model-DeepSeek--R1-blue?style=for-the-badge)

 # 🚀 AJ STUDIOZ DeepSeek API
+Enterprise-grade AI API powered by **Qwen2.5-Coder-0.5B** - Fast, reliable, and excellent for coding tasks.
 ![Status](https://img.shields.io/badge/Status-Online-success?style=for-the-badge)
 ![Model](https://img.shields.io/badge/Model-DeepSeek--R1-blue?style=for-the-badge)

app.py CHANGED Viewed

@@ -3,37 +3,35 @@ from fastapi.responses import JSONResponse, StreamingResponse
 from fastapi.middleware.cors import CORSMiddleware
 from typing import Optional, List, Dict, Any
 from huggingface_hub import InferenceClient
 import os
 import json
 import secrets
 from datetime import datetime
-import time
-# Hugging Face API configuration
 HF_TOKEN = os.getenv("HF_TOKEN", "")
-# Use TinyLlama - Fast and reliable
 MODEL_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
-API_URL = f"https://api-inference.huggingface.co/models/{MODEL_NAME}"
-def query_hf_model(prompt: str, max_tokens: int = 1000, temperature: float = 0.7, stream: bool = False):
     """Query Hugging Face Inference API using InferenceClient"""
     try:
-        # Initialize InferenceClient with token if available
-        client = InferenceClient(token=HF_TOKEN) if HF_TOKEN else InferenceClient()
-        # Use text_generation method
         result = client.text_generation(
             prompt,
             model=MODEL_NAME,
             max_new_tokens=min(max_tokens, 500),
             temperature=temperature,
-            top_p=0.95,
             return_full_text=False,
-            do_sample=temperature > 0
         )
-        # Return a compatible response object
         class SuccessResponse:
             status_code = 200
             def json(self):
@@ -41,9 +39,8 @@ def query_hf_model(prompt: str, max_tokens: int = 1000, temperature: float = 0.7
             text = result
         return SuccessResponse()
     except Exception as e:
-        # Create a mock response for error handling
         class ErrorResponse:
             status_code = 500
             def json(self):
@@ -82,7 +79,7 @@ def extract_anthropic_key(x_api_key: Optional[str]) -> Optional[str]:
 app = FastAPI(
     title="AJ STUDIOZ DeepSeek API",
     version="1.0",
-    description="Enterprise-grade AI API - Powered by DeepSeek-R1-Distill-Qwen-1.5B with advanced reasoning"
 )
 # Enable CORS
@@ -198,7 +195,7 @@ async def anthropic_messages(
         prompt_parts.append("Assistant:")
         full_prompt = "\n\n".join(prompt_parts)
-        response = query_hf_model(full_prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
@@ -315,7 +312,7 @@ async def chat_completions(request: Request, authorization: Optional[str] = Head
         prompt = "\n\n".join(prompt_parts) + "\n\nAssistant:"
         completion_id = f"chatcmpl-{secrets.token_hex(12)}"
-        response = query_hf_model(prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
@@ -372,7 +369,7 @@ async def completions(request: Request, authorization: Optional[str] = Header(No
         if not prompt:
             raise HTTPException(status_code=400, detail="Prompt is required")
-        response = query_hf_model(prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
@@ -420,7 +417,7 @@ async def chat(request: Request):
         # Simple prompt for Qwen
         full_message = f"You are AJ, a helpful AI assistant by AJ STUDIOZ.\n\nUser: {message}\n\nAssistant:"
-        response = query_hf_model(full_message, 500, 0.7)
         if response.status_code == 200:
             result = response.json()
@@ -458,7 +455,7 @@ async def generate(request: Request):
         if not prompt:
             return JSONResponse({"error": "Prompt is required"}, status_code=400)
-        response = query_hf_model(prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
@@ -489,7 +486,7 @@ async def health():
     """Health check endpoint"""
     try:
         # Quick test of the model
-        test_response = query_hf_model("Hello", 10, 0.7)
         model_healthy = test_response.status_code == 200
         return {

 from fastapi.middleware.cors import CORSMiddleware
 from typing import Optional, List, Dict, Any
 from huggingface_hub import InferenceClient
+import time
 import os
 import json
 import secrets
 from datetime import datetime
+# Hugging Face API configuration
 HF_TOKEN = os.getenv("HF_TOKEN", "")
+# Initialize Inference Client
+client = InferenceClient(token=HF_TOKEN) if HF_TOKEN else InferenceClient()
+# Use TinyLlama - Small, fast, and reliable
 MODEL_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+def query_ollama_model(prompt: str, max_tokens: int = 1000, temperature: float = 0.7, stream: bool = False):
     """Query Hugging Face Inference API using InferenceClient"""
     try:
+        # Use text generation
         result = client.text_generation(
             prompt,
             model=MODEL_NAME,
             max_new_tokens=min(max_tokens, 500),
             temperature=temperature,
             return_full_text=False,
+            do_sample=temperature > 0,
         )
+        # Create response object
         class SuccessResponse:
             status_code = 200
             def json(self):
             text = result
         return SuccessResponse()
     except Exception as e:
+        # Create error response
         class ErrorResponse:
             status_code = 500
             def json(self):
 app = FastAPI(
     title="AJ STUDIOZ DeepSeek API",
     version="1.0",
+    description="Enterprise-grade AI API - Powered by local DeepSeek-R1:8B with advanced reasoning"
 )
 # Enable CORS
         prompt_parts.append("Assistant:")
         full_prompt = "\n\n".join(prompt_parts)
+        response = query_ollama_model(full_prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
         prompt = "\n\n".join(prompt_parts) + "\n\nAssistant:"
         completion_id = f"chatcmpl-{secrets.token_hex(12)}"
+        response = query_ollama_model(prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
         if not prompt:
             raise HTTPException(status_code=400, detail="Prompt is required")
+        response = query_ollama_model(prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
         # Simple prompt for Qwen
         full_message = f"You are AJ, a helpful AI assistant by AJ STUDIOZ.\n\nUser: {message}\n\nAssistant:"
+        response = query_ollama_model(full_message, 500, 0.7)
         if response.status_code == 200:
             result = response.json()
         if not prompt:
             return JSONResponse({"error": "Prompt is required"}, status_code=400)
+        response = query_ollama_model(prompt, max_tokens, temperature)
         if response.status_code == 200:
             result = response.json()
     """Health check endpoint"""
     try:
         # Quick test of the model
+        test_response = query_ollama_model("Hello", 10, 0.7)
         model_healthy = test_response.status_code == 200
         return {

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
 fastapi==0.104.1
 uvicorn[standard]==0.24.0
-huggingface-hub==0.20.2
 python-multipart==0.0.6

 fastapi==0.104.1
 uvicorn[standard]==0.24.0
 python-multipart==0.0.6
+huggingface-hub==0.20.2