Building on HF

17 12 64

Kshitij Thakkar PRO

kshitijthakkar

cgthayer's profile picture

ysharma's profile picture

Tonic's profile picture

Mandark-droid
kshitij-thakkar-2061b924

AI & ML interests

Building the evaluation and observability layer for AI. Creator of TraceVerse—turning real-world LLM interactions into datasets, benchmarks, and cost-efficient model insights.

Recent Activity

new activity about 20 hours ago

zero-gpu-explorers/README:ZeroGPU base image (torch 2.11+cu130) — no nvcc, no prebuilt wheel for causal-conv1d / mamba-ssm family

liked a model 1 day ago

Zyphra/ZAYA1-8B

updated a Space 1 day ago

kshitijthakkar/tracegenix-playground

View all activity

Organizations

kshitijthakkar 's collections 8

DeepSeek V4 Replicas

Small-scale faithful replicas of the DeepSeek-V4 architecture for ablation and weight-transfer research.

kshitijthakkar/deepseek-v4-mini-300M-init

Text Generation • 0.3B • Updated 10 days ago • 19
kshitijthakkar/deepseek-v4-mini-1B-init

Text Generation • 1B • Updated 10 days ago • 17
kshitijthakkar/deepseek-v4-mini-3B-init

Text Generation • 3B • Updated 10 days ago • 9
kshitijthakkar/deepseek-v4-mini-6B-init

Text Generation • 8B • Updated 9 days ago • 42

Qwen3.5 Dense-to-MoE Weight Transfer

Qwen3.5 MoE models from dual-source weight transfer (dense backbone + 35B-A3B experts). Hybrid DeltaNet + GQA attention.

kshitijthakkar/qwen3.5-moe-0.87B-d0.8B

Image-Text-to-Text • 1B • Updated Mar 4 • 30 • 1
kshitijthakkar/qwen3.5-moe-2.3B-d2B

Image-Text-to-Text • 3B • Updated Mar 4 • 13
kshitijthakkar/qwen3.5-moe-4.7B-d4B

Image-Text-to-Text • 5B • Updated Mar 4 • 37
kshitijthakkar/qwen3.5-tiny-test

Image-Text-to-Text • 0.1B • Updated Feb 25 • 17

Mobile MoE Architecture Search

32 MoE models from 41 experiments exploring expert count, routing, and learning rates for mobile deployment.

kshitijthakkar/moe-141m-89m-8x2-10L-small-250m-8exp

Updated Feb 2
kshitijthakkar/moe-161m-123m-4x2-12L-4exp-large-experts

Updated Feb 2
kshitijthakkar/moe-198m-114m-8x2-12L-8exp-balanced

Updated Feb 2
kshitijthakkar/moe-202m-104m-12x2-10L-medium-300m-12exp

Updated Feb 2

TraceMind-AI

Collection of my submissions to MCP-1st-Birthday:- TraceMind Agent and MCP Server and smoltrace datasets generated for running evals using smoltrace.

Running

10

TraceMind MCP Server

🤖

10

MCP server for agent evaluation with Gemini 2.5 Flash
Running

Agents

21

TraceMind AI

🧠

21

AI agent evaluation with MCP-powered intelligence
MCP-1st-Birthday/smoltrace-recruitment-tasks

Viewer • Updated Nov 20, 2025 • 101 • 9
MCP-1st-Birthday/smoltrace-smart-home-tasks

Viewer • Updated Nov 20, 2025 • 100 • 17

mcp-server-bench

This is a collection of Benchmarking results between Gradio and FastMCP

kshitijthakkar/mcp-server-bench

Viewer • Updated Feb 27 • 360 • 93
kshitijthakkar/mcp-server-bench-gradio-optimized

Viewer • Updated Mar 2 • 48 • 71
kshitijthakkar/mcp-server-bench-gradio

Viewer • Updated Mar 4 • 12 • 67
kshitijthakkar/mcp-server-bench-gradio-optimized-full-bench

Viewer • Updated Mar 2 • 337 • 95

Large MoE Architecture Search (1B-2B)

Systematic search for 1B-2B MoE models. Best: bs=1, ctx=2048 achieves 0.32 loss. Top-8 routing beats top-2.

kshitijthakkar/moe-1083m-781m-16x8-8L-large-moe-1.3b-bs4-ctx1024

Updated Feb 7
kshitijthakkar/moe-1083m-781m-16x8-8L-large-moe-1.3b-bs2-ctx2048

Updated Feb 7
kshitijthakkar/moe-1083m-781m-16x8-8L-large-moe-1.3b-bs2-ctx1024

Updated Feb 7
kshitijthakkar/moe-1083m-781m-16x8-8L-large-moe-1.3b-bs1-ctx2048

Updated Feb 7

OutageOdyssey

My submission to Agents-MCP-Hackathon

Paused

6

Outage Odyssey

🦀

6

Transform boring incidents into fun learning experiences.

Loggenix-MOE

Collection of Loggenix Models, Eval Dataset, Demo Playground. Soon will add the training dataset.

Build error

2

Loggenix Moe 0.3B A0.1B Demo

🏢

2

Demo Space for my model loggenix-moe-0.3B-A0.1B
kshitijthakkar/loggenix-synthetic-ai-tasks-eval-with-outputs

Viewer • Updated Sep 3, 2025 • 28 • 8
kshitijthakkar/loggenix-synthetic-ai-tasks-eval_v6-with-outputs

Viewer • Updated Sep 3, 2025 • 170 • 4
kshitijthakkar/loggenix-synthetic-ai-tasks-eval_v5-with-outputs-v7-sft-v1

Viewer • Updated Sep 12, 2025 • 170 • 7