Spaces:

lenson78
/

codex-proxy

Paused

icebear icebear0828 Claude Opus 4.6 commited on 25 days ago

Commit

5416ffb

unverified ·

1 Parent(s): 2041133

feat: model name suffix system + service_tier + Docker persistence fix (#35)

* feat: model name suffix system + service_tier (fast mode) support

Add a unified model name suffix convention so CLI tools (Claude Code,
opencode, etc.) can control reasoning effort and speed mode purely
through the model name — no extra API fields needed.

Suffix parsing (`parseModelName`):
- `-fast` / `-flex` → `service_tier`
- `-minimal` / `-low` / `-medium` / `-high` / `-xhigh` → `reasoning_effort`
- Known model IDs and aliases are never suffix-parsed
- Priority: explicit API field > suffix > model default > config default

Backend:
- `parseModelName()` in model-store.ts (core suffix resolver)
- `service_tier` field in Zod schema + CodexResponsesRequest interface
- `default_service_tier` in config schema + default.yaml
- All 3 translation layers (OpenAI/Anthropic/Gemini) use parseModelName()

Dashboard:
- Standard / Fast speed toggle in ApiConfig
- AnthropicSetup shows compound model name with suffixes
- CodeExamples builds compound model name, suppresses redundant params

Examples: `gpt-5.4-fast`, `gpt-5.4-high-fast`, `codex-fast`

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

* fix: Docker data persistence — login/cookies not saved

Root cause: VOLUME declared before chown (changes discarded by Docker),
bind-mount directories auto-created as root:root, USER node can't write.

Fix: replace static USER node with entrypoint that chowns mounted volumes
then drops to node via gosu.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

---------

Co-authored-by: icebear0828 <icebear0828@users.noreply.github.com>
Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (20) hide show

.gitattributes +1 -0
CHANGELOG.md +4 -0
Dockerfile +8 -5
README.md +15 -8
README_EN.md +15 -8
config/default.yaml +1 -0
docker-entrypoint.sh +9 -0
shared/hooks/use-status.ts +3 -0
shared/i18n/translations.ts +6 -0
src/config.ts +1 -0
src/models/model-store.ts +57 -0
src/proxy/codex-api.ts +2 -0
src/translation/anthropic-to-codex.ts +15 -4
src/translation/gemini-to-codex.ts +15 -4
src/translation/openai-to-codex.ts +16 -4
src/types/openai.ts +1 -0
web/src/App.tsx +5 -0
web/src/components/AnthropicSetup.tsx +13 -3
web/src/components/ApiConfig.tsx +28 -0
web/src/components/CodeExamples.tsx +15 -3

.gitattributes ADDED Viewed

	@@ -0,0 +1 @@


1	+ *.sh eol=lf

CHANGELOG.md CHANGED Viewed

@@ -12,6 +12,10 @@
 ### Added
 - 代理分配管理页面（`#/proxy-settings`）：双栏矩阵式布局，批量管理数百账号的代理分配
   - 左栏代理组列表：按 Global/Direct/Auto/各代理分组显示计数徽章，点击筛选
   - 右栏账号表格：搜索、状态筛选、分页（50条/页）、Shift+点击连续多选、每行独立代理下拉

 ### Added
+- 模型名后缀系统：通过模型名嵌入推理等级和速度模式（如 `gpt-5.4-high-fast`），CLI 工具（Claude Code、opencode 等）无需额外参数即可控制推理强度和 Fast 模式
+- `service_tier` 支持：接受 API 请求体中的 `service_tier` 字段（"fast" / "flex"），或通过 `-fast` 模型名后缀自动设置
+- Dashboard Speed 切换：模型选择器下方新增 Standard / Fast 速度切换按钮
 - 代理分配管理页面（`#/proxy-settings`）：双栏矩阵式布局，批量管理数百账号的代理分配
   - 左栏代理组列表：按 Global/Direct/Auto/各代理分组显示计数徽章，点击筛选
   - 右栏账号表格：搜索、状态筛选、分页（50条/页）、Shift+点击连续多选、每行独立代理下拉

Dockerfile CHANGED Viewed

@@ -2,8 +2,9 @@ FROM node:20-slim
 # curl: needed by setup-curl.ts and full-update.ts
 # unzip: needed by full-update.ts to extract Codex.app
 RUN apt-get update && \
-    apt-get install -y --no-install-recommends curl unzip ca-certificates && \
     rm -rf /var/lib/apt/lists/*
 WORKDIR /app
@@ -30,14 +31,16 @@ RUN cd web && npm run build && cd .. && npx tsc
 # 5) Prune dev deps, re-add tsx (needed at runtime by update-checker fork())
 RUN npm prune --omit=dev && npm install --no-save tsx
-VOLUME /app/data
 EXPOSE 8080
-# Ensure writable directories for non-root user
-RUN mkdir -p /app/data && chown -R node:node /app/data /app/config
-USER node
 HEALTHCHECK --interval=30s --timeout=5s --start-period=10s --retries=3 \
   CMD curl -fs http://localhost:8080/health || exit 1
 CMD ["node", "dist/index.js"]

 # curl: needed by setup-curl.ts and full-update.ts
 # unzip: needed by full-update.ts to extract Codex.app
+# gosu: needed by entrypoint to drop from root to node user
 RUN apt-get update && \
+    apt-get install -y --no-install-recommends curl unzip ca-certificates gosu && \
     rm -rf /var/lib/apt/lists/*
 WORKDIR /app
 # 5) Prune dev deps, re-add tsx (needed at runtime by update-checker fork())
 RUN npm prune --omit=dev && npm install --no-save tsx
 EXPOSE 8080
+# Ensure data dir exists in the image (bind mount may override at runtime)
+RUN mkdir -p /app/data
+COPY docker-entrypoint.sh /
+RUN chmod +x /docker-entrypoint.sh
 HEALTHCHECK --interval=30s --timeout=5s --start-period=10s --retries=3 \
   CMD curl -fs http://localhost:8080/health || exit 1
+ENTRYPOINT ["/docker-entrypoint.sh"]
 CMD ["node", "dist/index.js"]

README.md CHANGED Viewed

@@ -175,6 +175,9 @@ curl http://localhost:8080/v1/chat/completions \
 | `gpt-5.1-codex-max` | `codex-max` | low / medium / high | 深度推理编程模型 |
 | `gpt-5.1-codex-mini` | `codex-mini` | low / medium / high | 轻量快速编程模型 |
 > 模型列表会随 Codex Desktop 版本更新自动同步。后端也会动态获取最新模型目录。
 ## 🔗 客户端接入 (Client Setup)
@@ -186,18 +189,22 @@ curl http://localhost:8080/v1/chat/completions \
 ```bash
 export ANTHROPIC_BASE_URL=http://localhost:8080
 export ANTHROPIC_API_KEY=your-api-key
-export ANTHROPIC_MODEL=claude-opus-4-6     # Opus → gpt-5.4（默认）
-# export ANTHROPIC_MODEL=claude-sonnet-4-6   # Sonnet → gpt-5.3-codex
 # export ANTHROPIC_MODEL=claude-haiku-4-5-20251001  # Haiku → gpt-5.1-codex-mini
 claude   # 启动 Claude Code
 ```
-| Claude Code 模型 | 映射到 Codex 模型 |
-|------------------|------------------|
-| Opus (`claude-opus-4-6`) | `gpt-5.4` |
-| Sonnet (`claude-sonnet-4-6`) | `gpt-5.3-codex` |
-| Haiku (`claude-haiku-4-5-20251001`) | `gpt-5.1-codex-mini` |
 > 也可以在控制面板 (`http://localhost:8080`) 的 **Anthropic SDK Setup** 卡片中一键复制环境变量。
@@ -278,7 +285,7 @@ for await (const chunk of stream) {
 | `server` | `host`, `port`, `proxy_api_key` | 服务监听地址与 API 密钥（见下方说明） |
 | `api` | `base_url`, `timeout_seconds` | 上游 API 地址与请求超时 |
 | `client` | `app_version`, `build_number`, `chromium_version` | 模拟的 Codex Desktop 版本与 Chromium 版本 |
-| `model` | `default`, `default_reasoning_effort` | 默认模型与推理强度 |
 | `auth` | `rotation_strategy`, `rate_limit_backoff_seconds` | 轮换策略与限流退避 |
 | `tls` | `curl_binary`, `impersonate_profile`, `proxy_url` | TLS 伪装与代理配置 |

 | `gpt-5.1-codex-max` | `codex-max` | low / medium / high | 深度推理编程模型 |
 | `gpt-5.1-codex-mini` | `codex-mini` | low / medium / high | 轻量快速编程模型 |
+> **模型名后缀**：在任意模型名后追加 `-fast` 启用 Fast 模式，追加 `-high`/`-low` 等切换推理等级。
+> 例如：`gpt-5.4-fast`、`gpt-5.4-high-fast`、`codex-fast`。
+>
 > 模型列表会随 Codex Desktop 版本更新自动同步。后端也会动态获取最新模型目录。
 ## 🔗 客户端接入 (Client Setup)
 ```bash
 export ANTHROPIC_BASE_URL=http://localhost:8080
 export ANTHROPIC_API_KEY=your-api-key
+# 默认 Opus 4.6 → gpt-5.4，无需设置 ANTHROPIC_MODEL
+# 如需切换模型或启用后缀：
+# export ANTHROPIC_MODEL=codex-fast              # → gpt-5.4 + Fast 模式
+# export ANTHROPIC_MODEL=gpt-5.4-high            # → gpt-5.4 + high 推理
+# export ANTHROPIC_MODEL=gpt-5.4-high-fast       # → gpt-5.4 + high + Fast
+# export ANTHROPIC_MODEL=claude-sonnet-4-6       # Sonnet → gpt-5.3-codex
 # export ANTHROPIC_MODEL=claude-haiku-4-5-20251001  # Haiku → gpt-5.1-codex-mini
 claude   # 启动 Claude Code
 ```
+| Claude Code 模型 | 映射到 Codex 模型 | 说明 |
+|------------------|------------------|------|
+| Opus (默认) | `gpt-5.4` | 无需设置 `ANTHROPIC_MODEL` |
+| Sonnet (`claude-sonnet-4-6`) | `gpt-5.3-codex` | |
+| Haiku (`claude-haiku-4-5-20251001`) | `gpt-5.1-codex-mini` | |
 > 也可以在控制面板 (`http://localhost:8080`) 的 **Anthropic SDK Setup** 卡片中一键复制环境变量。
 | `server` | `host`, `port`, `proxy_api_key` | 服务监听地址与 API 密钥（见下方说明） |
 | `api` | `base_url`, `timeout_seconds` | 上游 API 地址与请求超时 |
 | `client` | `app_version`, `build_number`, `chromium_version` | 模拟的 Codex Desktop 版本与 Chromium 版本 |
+| `model` | `default`, `default_reasoning_effort`, `default_service_tier` | 默认模型、推理强度与速度模式 |
 | `auth` | `rotation_strategy`, `rate_limit_backoff_seconds` | 轮换策略与限流退避 |
 | `tls` | `curl_binary`, `impersonate_profile`, `proxy_url` | TLS 伪装与代理配置 |

README_EN.md CHANGED Viewed

@@ -175,6 +175,9 @@ curl http://localhost:8080/v1/chat/completions \
 | `gpt-5.1-codex-max` | `codex-max` | low / medium / high | Deep reasoning coding model |
 | `gpt-5.1-codex-mini` | `codex-mini` | low / medium / high | Lightweight, fast coding model |
 > Models are automatically synced when new Codex Desktop versions are released. The backend also dynamically fetches the latest model catalog.
 ## 🔗 Client Setup
@@ -186,18 +189,22 @@ Set environment variables to route Claude Code through codex-proxy:
 ```bash
 export ANTHROPIC_BASE_URL=http://localhost:8080
 export ANTHROPIC_API_KEY=your-api-key
-export ANTHROPIC_MODEL=claude-opus-4-6     # Opus → gpt-5.4 (default)
-# export ANTHROPIC_MODEL=claude-sonnet-4-6   # Sonnet → gpt-5.3-codex
 # export ANTHROPIC_MODEL=claude-haiku-4-5-20251001  # Haiku → gpt-5.1-codex-mini
 claude   # Launch Claude Code
 ```
-| Claude Code Model | Maps to Codex Model |
-|-------------------|---------------------|
-| Opus (`claude-opus-4-6`) | `gpt-5.4` |
-| Sonnet (`claude-sonnet-4-6`) | `gpt-5.3-codex` |
-| Haiku (`claude-haiku-4-5-20251001`) | `gpt-5.1-codex-mini` |
 > You can also copy environment variables from the **Anthropic SDK Setup** card in the dashboard (`http://localhost:8080`).
@@ -278,7 +285,7 @@ All configuration is in `config/default.yaml`:
 | `server` | `host`, `port`, `proxy_api_key` | Listen address and API key |
 | `api` | `base_url`, `timeout_seconds` | Upstream API URL and timeout |
 | `client_identity` | `app_version`, `build_number` | Codex Desktop version to impersonate |
-| `model` | `default`, `default_reasoning_effort` | Default model and reasoning effort |
 | `auth` | `rotation_strategy`, `rate_limit_backoff_seconds` | Rotation strategy and rate limit backoff |
 ### Environment Variable Overrides

 | `gpt-5.1-codex-max` | `codex-max` | low / medium / high | Deep reasoning coding model |
 | `gpt-5.1-codex-mini` | `codex-mini` | low / medium / high | Lightweight, fast coding model |
+> **Model name suffixes**: Append `-fast` to any model name to enable Fast mode, or `-high`/`-low` etc. to change reasoning effort.
+> Examples: `gpt-5.4-fast`, `gpt-5.4-high-fast`, `codex-fast`.
+>
 > Models are automatically synced when new Codex Desktop versions are released. The backend also dynamically fetches the latest model catalog.
 ## 🔗 Client Setup
 ```bash
 export ANTHROPIC_BASE_URL=http://localhost:8080
 export ANTHROPIC_API_KEY=your-api-key
+# Default Opus 4.6 → gpt-5.4, no need to set ANTHROPIC_MODEL
+# To switch models or use suffixes:
+# export ANTHROPIC_MODEL=codex-fast              # → gpt-5.4 + Fast mode
+# export ANTHROPIC_MODEL=gpt-5.4-high            # → gpt-5.4 + high reasoning
+# export ANTHROPIC_MODEL=gpt-5.4-high-fast       # → gpt-5.4 + high + Fast
+# export ANTHROPIC_MODEL=claude-sonnet-4-6       # Sonnet → gpt-5.3-codex
 # export ANTHROPIC_MODEL=claude-haiku-4-5-20251001  # Haiku → gpt-5.1-codex-mini
 claude   # Launch Claude Code
 ```
+| Claude Code Model | Maps to Codex Model | Notes |
+|-------------------|---------------------|-------|
+| Opus (default) | `gpt-5.4` | No need to set `ANTHROPIC_MODEL` |
+| Sonnet (`claude-sonnet-4-6`) | `gpt-5.3-codex` | |
+| Haiku (`claude-haiku-4-5-20251001`) | `gpt-5.1-codex-mini` | |
 > You can also copy environment variables from the **Anthropic SDK Setup** card in the dashboard (`http://localhost:8080`).
 | `server` | `host`, `port`, `proxy_api_key` | Listen address and API key |
 | `api` | `base_url`, `timeout_seconds` | Upstream API URL and timeout |
 | `client_identity` | `app_version`, `build_number` | Codex Desktop version to impersonate |
+| `model` | `default`, `default_reasoning_effort`, `default_service_tier` | Default model, reasoning effort and speed mode |
 | `auth` | `rotation_strategy`, `rate_limit_backoff_seconds` | Rotation strategy and rate limit backoff |
 ### Environment Variable Overrides

config/default.yaml CHANGED Viewed

@@ -11,6 +11,7 @@ client:
 model:
   default: gpt-5.4
   default_reasoning_effort: medium
   suppress_desktop_directives: true
 auth:
   jwt_token: null

 model:
   default: gpt-5.4
   default_reasoning_effort: medium
+  default_service_tier: null
   suppress_desktop_directives: true
 auth:
   jwt_token: null

docker-entrypoint.sh ADDED Viewed

	@@ -0,0 +1,9 @@

+#!/bin/sh
+set -e
+# Ensure mounted volumes are writable by the node user (UID 1000).
+# When Docker auto-creates bind-mount directories on the host,
+# they default to root:root — the node user can't write to them.
+chown -R node:node /app/data /app/config 2>/dev/null || true
+exec gosu node "$@"

shared/hooks/use-status.ts CHANGED Viewed

@@ -48,6 +48,7 @@ export function useStatus(accountCount: number) {
   const [selectedModel, setSelectedModel] = useState("gpt-5.4");
   const [modelCatalog, setModelCatalog] = useState<CatalogModel[]>([]);
   const [selectedEffort, setSelectedEffort] = useState("medium");
   const loadModels = useCallback(async () => {
     try {
@@ -114,6 +115,8 @@ export function useStatus(accountCount: number) {
     setSelectedModel,
     selectedEffort,
     setSelectedEffort,
     modelFamilies,
     modelCatalog,
   };

   const [selectedModel, setSelectedModel] = useState("gpt-5.4");
   const [modelCatalog, setModelCatalog] = useState<CatalogModel[]>([]);
   const [selectedEffort, setSelectedEffort] = useState("medium");
+  const [selectedSpeed, setSelectedSpeed] = useState<string | null>(null);
   const loadModels = useCallback(async () => {
     try {
     setSelectedModel,
     selectedEffort,
     setSelectedEffort,
+    selectedSpeed,
+    setSelectedSpeed,
     modelFamilies,
     modelCatalog,
   };

shared/i18n/translations.ts CHANGED Viewed

@@ -138,6 +138,9 @@ export const translations = {
     exportSuccess: "Export complete",
     importFile: "Select JSON file",
     downloadJson: "Download JSON",
   },
   zh: {
     serverOnline: "\u670d\u52a1\u8fd0\u884c\u4e2d",
@@ -281,6 +284,9 @@ export const translations = {
     exportSuccess: "\u5bfc\u51fa\u6210\u529f",
     importFile: "\u9009\u62e9 JSON \u6587\u4ef6",
     downloadJson: "\u4e0b\u8f7d JSON",
   },
 } as const;

     exportSuccess: "Export complete",
     importFile: "Select JSON file",
     downloadJson: "Download JSON",
+    speed: "Speed",
+    speedStandard: "Standard",
+    speedFast: "Fast",
   },
   zh: {
     serverOnline: "\u670d\u52a1\u8fd0\u884c\u4e2d",
     exportSuccess: "\u5bfc\u51fa\u6210\u529f",
     importFile: "\u9009\u62e9 JSON \u6587\u4ef6",
     downloadJson: "\u4e0b\u8f7d JSON",
+    speed: "\u901f\u5ea6",
+    speedStandard: "\u6807\u51c6",
+    speedFast: "\u5feb\u901f",
   },
 } as const;

src/config.ts CHANGED Viewed

@@ -22,6 +22,7 @@ const ConfigSchema = z.object({
   model: z.object({
     default: z.string().default("gpt-5.2-codex"),
     default_reasoning_effort: z.string().default("medium"),
     suppress_desktop_directives: z.boolean().default(true),
   }),
   auth: z.object({

   model: z.object({
     default: z.string().default("gpt-5.2-codex"),
     default_reasoning_effort: z.string().default("medium"),
+    default_service_tier: z.string().nullable().default(null),
     suppress_desktop_directives: z.boolean().default(true),
   }),
   auth: z.object({

src/models/model-store.ts CHANGED Viewed

@@ -186,6 +186,63 @@ export function applyBackendModels(backendModels: BackendModelEntry[]): void {
   );
 }
 // ── Getters ────────────────────────────────────────────────────────
 /**

   );
 }
+// ── Model name suffix parsing ───────────────────────────────────────
+export interface ParsedModelName {
+  modelId: string;
+  serviceTier: string | null;
+  reasoningEffort: string | null;
+}
+const SERVICE_TIER_SUFFIXES = new Set(["fast", "flex"]);
+const EFFORT_SUFFIXES = new Set(["minimal", "low", "medium", "high", "xhigh"]);
+/**
+ * Parse a model name that may contain embedded suffixes for service_tier and reasoning_effort.
+ *
+ * Resolution:
+ *   1. If full name is a known model ID or alias → use as-is
+ *   2. Otherwise, strip known suffixes from right:
+ *      - `-fast`, `-flex` → service_tier
+ *      - `-minimal`, `-low`, `-medium`, `-high`, `-xhigh` → reasoning_effort
+ *   3. Resolve remaining name as model ID/alias
+ */
+export function parseModelName(input: string): ParsedModelName {
+  const trimmed = input.trim();
+  // 1. Known model or alias? Use as-is
+  if (_aliases[trimmed] || _catalog.some((m) => m.id === trimmed)) {
+    return { modelId: resolveModelId(trimmed), serviceTier: null, reasoningEffort: null };
+  }
+  // 2. Try stripping suffixes from right
+  let remaining = trimmed;
+  let serviceTier: string | null = null;
+  let reasoningEffort: string | null = null;
+  // Strip -fast/-flex (rightmost)
+  for (const tier of SERVICE_TIER_SUFFIXES) {
+    if (remaining.endsWith(`-${tier}`)) {
+      serviceTier = tier;
+      remaining = remaining.slice(0, -(tier.length + 1));
+      break;
+    }
+  }
+  // Strip -high/-low/etc (next from right)
+  for (const effort of EFFORT_SUFFIXES) {
+    if (remaining.endsWith(`-${effort}`)) {
+      reasoningEffort = effort;
+      remaining = remaining.slice(0, -(effort.length + 1));
+      break;
+    }
+  }
+  // 3. Resolve remaining as model
+  const modelId = resolveModelId(remaining);
+  return { modelId, serviceTier, reasoningEffort };
+}
 // ── Getters ────────────────────────────────────────────────────────
 /**

src/proxy/codex-api.ts CHANGED Viewed

@@ -28,6 +28,8 @@ export interface CodexResponsesRequest {
   store: false;
   /** Optional: reasoning effort + summary mode */
   reasoning?: { effort?: string; summary?: string };
   /** Optional: tools available to the model */
   tools?: unknown[];
   /** Optional: tool choice strategy */

   store: false;
   /** Optional: reasoning effort + summary mode */
   reasoning?: { effort?: string; summary?: string };
+  /** Optional: service tier ("fast" / "flex") */
+  service_tier?: string | null;
   /** Optional: tools available to the model */
   tools?: unknown[];
   /** Optional: tool choice strategy */

src/translation/anthropic-to-codex.ts CHANGED Viewed

@@ -8,7 +8,7 @@ import type {
   CodexInputItem,
   CodexContentPart,
 } from "../proxy/codex-api.js";
-import { resolveModelId, getModelInfo } from "../models/model-store.js";
 import { getConfig } from "../config.js";
 import { buildInstructions, budgetToEffort } from "./shared-utils.js";
 import { anthropicToolsToCodex, anthropicToolChoiceToCodex } from "./tool-format.js";
@@ -180,8 +180,9 @@ export function translateAnthropicToCodexRequest(
     input.push({ role: "user", content: "" });
   }
-  // Resolve model
-  const modelId = resolveModelId(req.model);
   const modelInfo = getModelInfo(modelId);
   const config = getConfig();
@@ -204,13 +205,23 @@ export function translateAnthropicToCodexRequest(
     request.tool_choice = codexToolChoice;
   }
-  // Always request reasoning summary (translation layer filters output on demand)
   const thinkingEffort = mapThinkingToEffort(req.thinking);
   const effort =
     thinkingEffort ??
     modelInfo?.defaultReasoningEffort ??
     config.model.default_reasoning_effort;
   request.reasoning = { summary: "auto", ...(effort ? { effort } : {}) };
   return request;
 }

   CodexInputItem,
   CodexContentPart,
 } from "../proxy/codex-api.js";
+import { parseModelName, getModelInfo } from "../models/model-store.js";
 import { getConfig } from "../config.js";
 import { buildInstructions, budgetToEffort } from "./shared-utils.js";
 import { anthropicToolsToCodex, anthropicToolChoiceToCodex } from "./tool-format.js";
     input.push({ role: "user", content: "" });
   }
+  // Resolve model (suffix parsing extracts service_tier and reasoning_effort)
+  const parsed = parseModelName(req.model);
+  const modelId = parsed.modelId;
   const modelInfo = getModelInfo(modelId);
   const config = getConfig();
     request.tool_choice = codexToolChoice;
   }
+  // Reasoning effort: thinking config > suffix > model default > config default
   const thinkingEffort = mapThinkingToEffort(req.thinking);
   const effort =
     thinkingEffort ??
+    parsed.reasoningEffort ??
     modelInfo?.defaultReasoningEffort ??
     config.model.default_reasoning_effort;
   request.reasoning = { summary: "auto", ...(effort ? { effort } : {}) };
+  // Service tier: suffix > config default
+  const serviceTier =
+    parsed.serviceTier ??
+    config.model.default_service_tier ??
+    null;
+  if (serviceTier) {
+    request.service_tier = serviceTier;
+  }
   return request;
 }

src/translation/gemini-to-codex.ts CHANGED Viewed

@@ -12,7 +12,7 @@ import type {
   CodexInputItem,
   CodexContentPart,
 } from "../proxy/codex-api.js";
-import { resolveModelId, getModelInfo } from "../models/model-store.js";
 import { getConfig } from "../config.js";
 import { buildInstructions, budgetToEffort } from "./shared-utils.js";
 import { geminiToolsToCodex, geminiToolConfigToCodex } from "./tool-format.js";
@@ -187,8 +187,9 @@ export function translateGeminiToCodexRequest(
     input.push({ role: "user", content: "" });
   }
-  // Resolve model
-  const modelId = resolveModelId(geminiModel);
   const modelInfo = getModelInfo(modelId);
   const config = getConfig();
@@ -211,15 +212,25 @@ export function translateGeminiToCodexRequest(
     request.tool_choice = codexToolChoice;
   }
-  // Always request reasoning summary (translation layer filters output on demand)
   const thinkingEffort = budgetToEffort(
     req.generationConfig?.thinkingConfig?.thinkingBudget,
   );
   const effort =
     thinkingEffort ??
     modelInfo?.defaultReasoningEffort ??
     config.model.default_reasoning_effort;
   request.reasoning = { summary: "auto", ...(effort ? { effort } : {}) };
   return request;
 }

   CodexInputItem,
   CodexContentPart,
 } from "../proxy/codex-api.js";
+import { parseModelName, getModelInfo } from "../models/model-store.js";
 import { getConfig } from "../config.js";
 import { buildInstructions, budgetToEffort } from "./shared-utils.js";
 import { geminiToolsToCodex, geminiToolConfigToCodex } from "./tool-format.js";
     input.push({ role: "user", content: "" });
   }
+  // Resolve model (suffix parsing extracts service_tier and reasoning_effort)
+  const parsed = parseModelName(geminiModel);
+  const modelId = parsed.modelId;
   const modelInfo = getModelInfo(modelId);
   const config = getConfig();
     request.tool_choice = codexToolChoice;
   }
+  // Reasoning effort: thinking config > suffix > model default > config default
   const thinkingEffort = budgetToEffort(
     req.generationConfig?.thinkingConfig?.thinkingBudget,
   );
   const effort =
     thinkingEffort ??
+    parsed.reasoningEffort ??
     modelInfo?.defaultReasoningEffort ??
     config.model.default_reasoning_effort;
   request.reasoning = { summary: "auto", ...(effort ? { effort } : {}) };
+  // Service tier: suffix > config default
+  const serviceTier =
+    parsed.serviceTier ??
+    config.model.default_service_tier ??
+    null;
+  if (serviceTier) {
+    request.service_tier = serviceTier;
+  }
   return request;
 }

src/translation/openai-to-codex.ts CHANGED Viewed

@@ -8,7 +8,7 @@ import type {
   CodexInputItem,
   CodexContentPart,
 } from "../proxy/codex-api.js";
-import { resolveModelId, getModelInfo } from "../models/model-store.js";
 import { getConfig } from "../config.js";
 import { buildInstructions } from "./shared-utils.js";
 import {
@@ -145,8 +145,9 @@ export function translateToCodexRequest(
     input.push({ role: "user", content: "" });
   }
-  // Resolve model
-  const modelId = resolveModelId(req.model);
   const modelInfo = getModelInfo(modelId);
   const config = getConfig();
@@ -173,12 +174,23 @@ export function translateToCodexRequest(
     request.tool_choice = codexToolChoice;
   }
-  // Always request reasoning summary (translation layer filters output on demand)
   const effort =
     req.reasoning_effort ??
     modelInfo?.defaultReasoningEffort ??
     config.model.default_reasoning_effort;
   request.reasoning = { summary: "auto", ...(effort ? { effort } : {}) };
   return request;
 }

   CodexInputItem,
   CodexContentPart,
 } from "../proxy/codex-api.js";
+import { parseModelName, getModelInfo } from "../models/model-store.js";
 import { getConfig } from "../config.js";
 import { buildInstructions } from "./shared-utils.js";
 import {
     input.push({ role: "user", content: "" });
   }
+  // Resolve model (suffix parsing extracts service_tier and reasoning_effort)
+  const parsed = parseModelName(req.model);
+  const modelId = parsed.modelId;
   const modelInfo = getModelInfo(modelId);
   const config = getConfig();
     request.tool_choice = codexToolChoice;
   }
+  // Reasoning effort: explicit API field > suffix > model default > config default
   const effort =
     req.reasoning_effort ??
+    parsed.reasoningEffort ??
     modelInfo?.defaultReasoningEffort ??
     config.model.default_reasoning_effort;
   request.reasoning = { summary: "auto", ...(effort ? { effort } : {}) };
+  // Service tier: explicit API field > suffix > config default
+  const serviceTier =
+    req.service_tier ??
+    parsed.serviceTier ??
+    config.model.default_service_tier ??
+    null;
+  if (serviceTier) {
+    request.service_tier = serviceTier;
+  }
   return request;
 }

src/types/openai.ts CHANGED Viewed

@@ -45,6 +45,7 @@ export const ChatCompletionRequestSchema = z.object({
   user: z.string().optional(),
   // Codex-specific extensions
   reasoning_effort: z.enum(["low", "medium", "high", "xhigh"]).optional(),
   // New tool format (accepted for compatibility, not forwarded to Codex)
   tools: z.array(z.object({
     type: z.literal("function"),

   user: z.string().optional(),
   // Codex-specific extensions
   reasoning_effort: z.enum(["low", "medium", "high", "xhigh"]).optional(),
+  service_tier: z.enum(["fast", "flex"]).nullable().optional(),
   // New tool format (accepted for compatibility, not forwarded to Codex)
   tools: z.array(z.object({
     type: z.literal("function"),

web/src/App.tsx CHANGED Viewed

@@ -106,16 +106,21 @@ function Dashboard() {
             modelFamilies={status.modelFamilies}
             selectedEffort={status.selectedEffort}
             onEffortChange={status.setSelectedEffort}
           />
           <AnthropicSetup
             apiKey={status.apiKey}
             selectedModel={status.selectedModel}
           />
           <CodeExamples
             baseUrl={status.baseUrl}
             apiKey={status.apiKey}
             model={status.selectedModel}
             reasoningEffort={status.selectedEffort}
           />
         </div>
       </main>

             modelFamilies={status.modelFamilies}
             selectedEffort={status.selectedEffort}
             onEffortChange={status.setSelectedEffort}
+            selectedSpeed={status.selectedSpeed}
+            onSpeedChange={status.setSelectedSpeed}
           />
           <AnthropicSetup
             apiKey={status.apiKey}
             selectedModel={status.selectedModel}
+            reasoningEffort={status.selectedEffort}
+            serviceTier={status.selectedSpeed}
           />
           <CodeExamples
             baseUrl={status.baseUrl}
             apiKey={status.apiKey}
             model={status.selectedModel}
             reasoningEffort={status.selectedEffort}
+            serviceTier={status.selectedSpeed}
           />
         </div>
       </main>

web/src/components/AnthropicSetup.tsx CHANGED Viewed

@@ -5,18 +5,28 @@ import { CopyButton } from "./CopyButton";
 interface AnthropicSetupProps {
   apiKey: string;
   selectedModel: string;
 }
-export function AnthropicSetup({ apiKey, selectedModel }: AnthropicSetupProps) {
   const t = useT();
   const origin = typeof window !== "undefined" ? window.location.origin : "http://localhost:8080";
   const envLines = useMemo(() => ({
     ANTHROPIC_BASE_URL: origin,
     ANTHROPIC_API_KEY: apiKey,
-    ANTHROPIC_MODEL: selectedModel,
-  }), [origin, apiKey, selectedModel]);
   const allEnvText = useMemo(
     () => Object.entries(envLines).map(([k, v]) => `${k}=${v}`).join("\n"),

 interface AnthropicSetupProps {
   apiKey: string;
   selectedModel: string;
+  reasoningEffort: string;
+  serviceTier: string | null;
 }
+export function AnthropicSetup({ apiKey, selectedModel, reasoningEffort, serviceTier }: AnthropicSetupProps) {
   const t = useT();
   const origin = typeof window !== "undefined" ? window.location.origin : "http://localhost:8080";
+  // Build compound model name with suffixes
+  const displayModel = useMemo(() => {
+    let name = selectedModel;
+    if (reasoningEffort && reasoningEffort !== "medium") name += `-${reasoningEffort}`;
+    if (serviceTier === "fast") name += "-fast";
+    return name;
+  }, [selectedModel, reasoningEffort, serviceTier]);
   const envLines = useMemo(() => ({
     ANTHROPIC_BASE_URL: origin,
     ANTHROPIC_API_KEY: apiKey,
+    ANTHROPIC_MODEL: displayModel,
+  }), [origin, apiKey, displayModel]);
   const allEnvText = useMemo(
     () => Object.entries(envLines).map(([k, v]) => `${k}=${v}`).join("\n"),

web/src/components/ApiConfig.tsx CHANGED Viewed

@@ -12,6 +12,8 @@ interface ApiConfigProps {
   modelFamilies: ModelFamily[];
   selectedEffort: string;
   onEffortChange: (effort: string) => void;
 }
 const EFFORT_LABELS: Record<string, string> = {
@@ -32,6 +34,8 @@ export function ApiConfig({
   modelFamilies,
   selectedEffort,
   onEffortChange,
 }: ApiConfigProps) {
   const t = useT();
@@ -151,6 +155,30 @@ export function ApiConfig({
                   ))}
                 </div>
               )}
             </div>
           ) : (
             <div class="relative">

   modelFamilies: ModelFamily[];
   selectedEffort: string;
   onEffortChange: (effort: string) => void;
+  selectedSpeed: string | null;
+  onSpeedChange: (speed: string | null) => void;
 }
 const EFFORT_LABELS: Record<string, string> = {
   modelFamilies,
   selectedEffort,
   onEffortChange,
+  selectedSpeed,
+  onSpeedChange,
 }: ApiConfigProps) {
   const t = useT();
                   ))}
                 </div>
               )}
+              {/* Speed toggle — Standard / Fast */}
+              <div class="flex items-center gap-1.5 mt-2">
+                <span class="text-[0.68rem] font-medium text-slate-500 dark:text-text-dim mr-1">{t("speed")}</span>
+                <button
+                  onClick={() => onSpeedChange(null)}
+                  class={`px-2.5 py-1 text-[0.7rem] font-semibold rounded transition-all ${
+                    selectedSpeed === null
+                      ? "bg-primary text-white shadow-sm"
+                      : "bg-white dark:bg-[#21262d] text-slate-600 dark:text-text-dim border border-gray-200 dark:border-border-dark hover:border-primary/50"
+                  }`}
+                >
+                  {t("speedStandard")}
+                </button>
+                <button
+                  onClick={() => onSpeedChange("fast")}
+                  class={`px-2.5 py-1 text-[0.7rem] font-semibold rounded transition-all ${
+                    selectedSpeed === "fast"
+                      ? "bg-primary text-white shadow-sm"
+                      : "bg-white dark:bg-[#21262d] text-slate-600 dark:text-text-dim border border-gray-200 dark:border-border-dark hover:border-primary/50"
+                  }`}
+                >
+                  {t("speedFast")}
+                </button>
+              </div>
             </div>
           ) : (
             <div class="relative">

web/src/components/CodeExamples.tsx CHANGED Viewed

@@ -148,17 +148,29 @@ interface CodeExamplesProps {
   apiKey: string;
   model: string;
   reasoningEffort: string;
 }
-export function CodeExamples({ baseUrl, apiKey, model, reasoningEffort }: CodeExamplesProps) {
   const t = useT();
   const [protocol, setProtocol] = useState<Protocol>("openai");
   const [codeLang, setCodeLang] = useState<CodeLang>("python");
   const origin = typeof window !== "undefined" ? window.location.origin : "";
   const examples = useMemo(
-    () => buildExamples(baseUrl, apiKey, model, origin, reasoningEffort),
-    [baseUrl, apiKey, model, origin, reasoningEffort]
   );
   const currentCode = examples[`${protocol}-${codeLang}`] || "Loading...";

   apiKey: string;
   model: string;
   reasoningEffort: string;
+  serviceTier: string | null;
 }
+export function CodeExamples({ baseUrl, apiKey, model, reasoningEffort, serviceTier }: CodeExamplesProps) {
   const t = useT();
   const [protocol, setProtocol] = useState<Protocol>("openai");
   const [codeLang, setCodeLang] = useState<CodeLang>("python");
   const origin = typeof window !== "undefined" ? window.location.origin : "";
+  // Build compound model name with suffixes for CLI users
+  const displayModel = useMemo(() => {
+    let name = model;
+    if (reasoningEffort && reasoningEffort !== "medium") name += `-${reasoningEffort}`;
+    if (serviceTier === "fast") name += "-fast";
+    return name;
+  }, [model, reasoningEffort, serviceTier]);
+  // When effort/speed are embedded as suffixes, don't also show separate reasoning_effort param
+  const explicitEffort = displayModel === model ? reasoningEffort : "medium";
   const examples = useMemo(
+    () => buildExamples(baseUrl, apiKey, displayModel, origin, explicitEffort),
+    [baseUrl, apiKey, displayModel, origin, explicitEffort]
   );
   const currentCode = examples[`${protocol}-${codeLang}`] || "Loading...";