Spaces:

Moealsarraj
/

devkit

Sleeping

Mohammed AL Sarraj

fix: remove paid providers (DeepSeek/Together), fix Cohere model name

009e621 about 1 month ago

15.2 kB

	"""Multi-provider AI engine with smart task routing.

	Runtime chain: Groq -> Cerebras -> OpenRouter -> Mistral -> Ollama.
	Task hints route to the best model for the job:
	- "arabic" → large models (70B+) for Arabic NLP quality
	- "code" → code-optimized models
	- "fast" → smallest/fastest model available
	- "default" → standard free-tier chain
	"""
	import json, logging, os, re, requests

	logger = logging.getLogger(__name__)
	_OLLAMA_BASE = "http://localhost:11434"

	_PROVIDER_URLS = {
	"groq": "https://api.groq.com/openai/v1/chat/completions",
	"cerebras": "https://api.cerebras.ai/v1/chat/completions",
	"openrouter": "https://openrouter.ai/api/v1/chat/completions",
	"mistral": "https://api.mistral.ai/v1/chat/completions",
	"openai": "https://api.openai.com/v1/chat/completions",
	"cohere": "https://api.cohere.com/v2/chat",
	}

	# ── Model tiers per provider ──
	_FREE_MODELS = {
	"groq": "llama-3.1-8b-instant",
	"cerebras": "llama3.1-8b",
	"openrouter": "google/gemma-3-12b-it:free",
	"mistral": "mistral-small-latest",
	"cohere": "command-r-08-2024",
	}
	_PREMIUM_MODELS = {
	"groq": "llama-3.3-70b-versatile",
	"cerebras": "qwen-3-235b-a22b-instruct-2507",
	"openrouter": "google/gemma-3-27b-it:free",
	"mistral": "mistral-medium-latest",
	"openai": "gpt-4o-mini",
	"cohere": "command-r-08-2024",
	}

	# ── Task-specific model routing ──
	# Maps task hints to the best model per provider.
	# "arabic" needs large models for Arabic morphology, grammar, dialect awareness.
	# "code" needs code-tuned models for test generation, SQL, schema analysis.
	# "fast" uses smallest models for quick responses.
	_TASK_MODELS = {
	"arabic": {
	"groq": "llama-3.3-70b-versatile",
	"cerebras": "qwen-3-235b-a22b-instruct-2507",
	"openrouter": "google/gemma-3-27b-it:free",
	"mistral": "mistral-medium-latest",
	"cohere": "command-r7b-arabic-02-2025",
	},
	"code": {
	"groq": "llama-3.3-70b-versatile",
	"cerebras": "qwen-3-235b-a22b-instruct-2507",
	"openrouter": "google/gemma-3-27b-it:free",
	"mistral": "mistral-medium-latest",
	"cohere": "command-r-08-2024",
	},
	"fast": {
	"groq": "llama-3.1-8b-instant",
	"cerebras": "llama3.1-8b",
	"openrouter": "google/gemma-3-12b-it:free",
	"mistral": "mistral-small-latest",
	"cohere": "command-r-08-2024",
	},
	}

	# ── Task-specific provider priority ──
	_TASK_PRIORITY = {
	"arabic": ["cerebras", "groq", "openrouter", "cohere", "mistral"],
	"code": ["groq", "cerebras", "openrouter", "cohere", "mistral"],
	"fast": ["cerebras", "groq", "openrouter", "cohere", "mistral"],
	"default": ["groq", "cerebras", "openrouter", "cohere", "mistral"],
	}

	_CHAIN_CFG = {
	"groq": {"key_env": "GROQ_API_KEY", "timeout": 30, "extra": {}},
	"cerebras": {"key_env": "CEREBRAS_API_KEY", "timeout": 30, "extra": {}},
	"openrouter": {"key_env": "OPENROUTER_API_KEY", "timeout": 45,
	"extra": {"HTTP-Referer": "https://github.com/Moealsarraj", "X-Title": "AI Tools"}},
	"mistral": {"key_env": "MISTRAL_API_KEY", "timeout": 40, "extra": {}},
	"cohere": {"key_env": "COHERE_API_KEY", "timeout": 45, "extra": {}},
	}

	# Build available providers (those with valid keys)
	_AVAILABLE = {}
	for _name, _cfg in _CHAIN_CFG.items():
	_k = os.environ.get(_cfg["key_env"], "")
	if _k:
	_AVAILABLE[_name] = {
	"name": _name,
	"url": _PROVIDER_URLS[_name],
	"key": _k,
	"timeout": _cfg["timeout"],
	"extra": _cfg["extra"],
	}

	# Ollama fallback
	_OLLAMA_PROVIDER = None
	try:
	_r = requests.get(f"{_OLLAMA_BASE}/api/tags", timeout=3)
	if _r.status_code == 200:
	_installed = [m["name"] for m in _r.json().get("models", [])]
	if _installed:
	_OLLAMA_PROVIDER = {"name": "ollama", "model": _installed[0]}
	except Exception:
	pass

	# ── Google Gemini (special API format) ──
	_GEMINI_KEY = os.environ.get("GEMINI_API_KEY", "")
	if _GEMINI_KEY:
	_AVAILABLE["gemini"] = {
	"name": "gemini",
	"url": "https://generativelanguage.googleapis.com/v1beta/models",
	"key": _GEMINI_KEY,
	"timeout": 60,
	"extra": {},
	}
	_FREE_MODELS["gemini"] = "gemini-2.0-flash"
	_PREMIUM_MODELS["gemini"] = "gemini-2.0-flash"
	for task in _TASK_MODELS:
	_TASK_MODELS[task]["gemini"] = "gemini-2.0-flash"
	for task in _TASK_PRIORITY:
	if "gemini" not in _TASK_PRIORITY[task]:
	_TASK_PRIORITY[task].insert(2, "gemini")

	_AI_AVAILABLE = bool(_AVAILABLE or _OLLAMA_PROVIDER)


	def _post_gemini(key: str, model: str, messages: list, max_tokens: int, timeout: int = 60) -> str:
	"""Call Google Gemini API (non-OpenAI format)."""
	# Convert OpenAI message format to Gemini format
	contents = []
	system_text = ""
	for msg in messages:
	role = msg["role"]
	if role == "system":
	system_text = msg["content"]
	continue
	contents.append({
	"role": "user" if role == "user" else "model",
	"parts": [{"text": msg["content"]}],
	})

	body = {
	"contents": contents,
	"generationConfig": {"maxOutputTokens": max_tokens},
	}
	if system_text:
	body["systemInstruction"] = {"parts": [{"text": system_text}]}

	url = f"https://generativelanguage.googleapis.com/v1beta/models/{model}:generateContent?key={key}"
	r = requests.post(url, json=body, timeout=timeout)
	r.raise_for_status()
	data = r.json()
	return _clean(data["candidates"][0]["content"]["parts"][0]["text"])


	def get_available_providers() -> list[dict]:
	"""Return list of available providers with their model info."""
	providers = []
	for name, prov in _AVAILABLE.items():
	providers.append({
	"name": name,
	"model_free": _FREE_MODELS.get(name, ""),
	"model_premium": _PREMIUM_MODELS.get(name, ""),
	})
	return providers


	def call_ai_single(provider_name: str, messages: list, system: str = "",
	max_tokens: int = 2048, use_premium: bool = True) -> str:
	"""Call a specific provider directly (no fallback chain)."""
	if provider_name not in _AVAILABLE:
	raise ValueError(f"Provider {provider_name!r} not available")
	prov = _AVAILABLE[provider_name]
	models = _PREMIUM_MODELS if use_premium else _FREE_MODELS
	model = models.get(provider_name, prov.get("model", ""))
	if system:
	messages = [{"role": "system", "content": system}] + messages
	if provider_name == "gemini":
	return _post_gemini(prov["key"], model, messages, max_tokens, prov["timeout"])
	if provider_name == "cohere":
	return _post_cohere(prov["key"], model, messages, max_tokens, prov["timeout"])
	return _post_openai(
	prov["url"], prov["key"], model,
	messages, max_tokens, prov["extra"], prov["timeout"]
	)


	_RE_THINK = re.compile(r"<think>.*?</think>", re.DOTALL)
	_RE_OPEN = re.compile(r"^```[a-z]*\n?", re.MULTILINE)
	_RE_CLOSE = re.compile(r"\n?```$", re.MULTILINE)

	def _clean(raw: str) -> str:
	raw = _RE_THINK.sub("", raw).strip()
	raw = _RE_OPEN.sub("", raw)
	return _RE_CLOSE.sub("", raw).strip()

	def _post_openai(url, key, model, messages, max_tokens, extra_headers, timeout=60):
	headers = {"Authorization": f"Bearer {key}", "Content-Type": "application/json"}
	headers.update(extra_headers)
	r = requests.post(url, headers=headers,
	json={"model": model, "messages": messages, "max_tokens": max_tokens},
	timeout=timeout)
	r.raise_for_status()
	return _clean(r.json()["choices"][0]["message"]["content"])


	def _post_cohere(key: str, model: str, messages: list, max_tokens: int, timeout: int = 45) -> str:
	"""Call Cohere V2 Chat API."""
	headers = {"Authorization": f"Bearer {key}", "Content-Type": "application/json"}
	r = requests.post("https://api.cohere.com/v2/chat",
	headers=headers,
	json={"model": model, "messages": messages, "max_tokens": max_tokens},
	timeout=timeout)
	r.raise_for_status()
	data = r.json()
	# V2 returns content as list of blocks
	content = data.get("message", {}).get("content", [])
	if content and isinstance(content, list):
	return _clean(content[0].get("text", ""))
	return _clean(str(data))


	def _build_chain(task_hint: str) -> list[dict]:
	"""Build an ordered provider chain for the given task hint."""
	hint = task_hint if task_hint in _TASK_PRIORITY else "default"
	priority = _TASK_PRIORITY[hint]
	models = _TASK_MODELS.get(hint, _FREE_MODELS)

	chain = []
	for name in priority:
	if name in _AVAILABLE:
	prov = _AVAILABLE[name].copy()
	prov["model"] = models.get(name, _FREE_MODELS.get(name, ""))
	chain.append(prov)
	return chain


	def call_ai(messages: list, system: str = "", max_tokens: int = 2048,
	api_key_row: dict \| None = None, task_hint: str = "default") -> str:
	"""Call AI with smart task-based routing.

	task_hint: "arabic" \| "code" \| "fast" \| "default"
	"""
	if system:
	messages = [{"role": "system", "content": system}] + messages
	# Custom API key path (used by e.g. Wasit/Amin integrations)
	if api_key_row:
	provider = api_key_row.get("provider", "openai")
	key = api_key_row["key"]
	url = api_key_row.get("url") or _PROVIDER_URLS.get(provider, "")
	model = api_key_row.get("model") or _PREMIUM_MODELS.get(provider, "gpt-4o-mini")
	if not url:
	raise ValueError(f"No endpoint known for provider {provider!r}")
	if provider == "claude":
	r = requests.post("https://api.anthropic.com/v1/messages",
	headers={"x-api-key": key, "anthropic-version": "2023-06-01",
	"content-type": "application/json"},
	json={"model": "claude-sonnet-4-6", "max_tokens": max_tokens, "messages": messages},
	timeout=60)
	r.raise_for_status()
	return _clean(r.json()["content"][0]["text"])
	return _post_openai(url, key, model, messages, max_tokens, {})
	if not _AI_AVAILABLE:
	raise RuntimeError("No AI provider. Set GROQ_API_KEY or similar in .env")
	# Ollama-only path
	if not _AVAILABLE and _OLLAMA_PROVIDER:
	r = requests.post(f"{_OLLAMA_BASE}/api/chat",
	json={"model": _OLLAMA_PROVIDER["model"], "messages": messages, "stream": False},
	timeout=120)
	r.raise_for_status()
	return _clean(r.json()["message"]["content"])
	# Smart task-routed chain
	chain = _build_chain(task_hint)
	if not chain:
	chain = _build_chain("default")

	last_exc = None
	for prov in chain:
	try:
	logger.debug("Trying %s/%s for task=%s", prov["name"], prov["model"], task_hint)
	if prov["name"] == "gemini":
	return _post_gemini(prov["key"], prov["model"], messages, max_tokens, prov["timeout"])
	if prov["name"] == "cohere":
	return _post_cohere(prov["key"], prov["model"], messages, max_tokens, prov["timeout"])
	return _post_openai(
	prov["url"], prov["key"], prov["model"],
	messages, max_tokens, prov["extra"], prov["timeout"]
	)
	except requests.exceptions.HTTPError as e:
	status = e.response.status_code if e.response is not None else 0
	if status in (402, 429, 503, 502):
	logger.debug("Provider %s returned %s, trying next", prov["name"], status)
	last_exc = e
	continue
	raise
	except (requests.exceptions.ConnectionError,
	requests.exceptions.Timeout) as e:
	last_exc = e
	continue
	# Try Ollama as last resort
	if _OLLAMA_PROVIDER:
	r = requests.post(f"{_OLLAMA_BASE}/api/chat",
	json={"model": _OLLAMA_PROVIDER["model"], "messages": messages, "stream": False},
	timeout=120)
	r.raise_for_status()
	return _clean(r.json()["message"]["content"])
	raise last_exc or RuntimeError("All AI providers failed or rate-limited")

	def _repair_json(text: str) -> str:
	"""Escape literal control characters inside JSON string values."""
	result = []
	in_str = False
	esc = False
	for c in text:
	if esc:
	result.append(c)
	esc = False
	continue
	if c == '\\' and in_str:
	result.append(c)
	esc = True
	continue
	if c == '"':
	in_str = not in_str
	result.append(c)
	continue
	if in_str and c == '\n':
	result.append('\\n')
	continue
	if in_str and c == '\r':
	result.append('\\r')
	continue
	if in_str and c == '\t':
	result.append('\\t')
	continue
	result.append(c)
	return ''.join(result)

	def _extract_json(raw: str):
	"""Try progressively harder to extract valid JSON from raw text."""
	raw = raw.strip()
	# Direct parse
	try:
	return json.loads(raw)
	except json.JSONDecodeError:
	pass
	# Repair literal newlines inside strings then retry
	repaired = _repair_json(raw)
	try:
	return json.loads(repaired)
	except json.JSONDecodeError:
	pass
	# Find first { or [ then walk to find matching closer
	for source in (repaired, raw):
	for start_ch, end_ch in [('{', '}'), ('[', ']')]:
	idx = source.find(start_ch)
	if idx == -1:
	continue
	depth = 0
	in_str = False
	esc = False
	for i in range(idx, len(source)):
	c = source[i]
	if esc:
	esc = False
	continue
	if c == '\\' and in_str:
	esc = True
	continue
	if c == '"':
	in_str = not in_str
	continue
	if in_str:
	continue
	if c == start_ch:
	depth += 1
	elif c == end_ch:
	depth -= 1
	if depth == 0:
	candidate = source[idx:i+1]
	try:
	return json.loads(candidate)
	except json.JSONDecodeError:
	break
	raise ValueError(f"AI returned non-JSON: {raw[:200]}")

	def call_ai_json(messages: list, system: str = "", max_tokens: int = 2048,
	api_key_row: dict \| None = None, task_hint: str = "default") -> dict \| list:
	raw = call_ai(messages, system=system, max_tokens=max_tokens,
	api_key_row=api_key_row, task_hint=task_hint)
	return _extract_json(raw)