📋 Twinkle Eval Logs

twinkle-ai 's Collections

🤗 Fine-zhtw

📋 Twinkle Eval Logs

🌟 T1 Series

💻 Twinkle Coder

🏎️ Formosa-1 Series

🧠 Traditional Chinese Reasoning Datasets

💾 Traditional Chinese Datasets

📋 Eval Logs

🎨 Brand Assets

updated May 6

Benchmark log generated with Twinkle Eval, recording the model's outputs for each prompt, see more in https://github.com/ai-twinkle/Eval

Upvote

twinkle-ai/gemma-3-4b-it-eval-logs-and-scores

Viewer • Updated Mar 1 • 103k • 191
twinkle-ai/gemma-3-4B-T1-it-eval-logs-and-scores

Viewer • Updated Mar 1 • 103k • 184
twinkle-ai/Gemma-3-12b-it-eval-logs-and-scores

Viewer • Updated Mar 8 • 103k • 196
twinkle-ai/gemma-3-taide-12b-chat-eval-logs-and-scores

Viewer • Updated Mar 4 • 103k • 189
twinkle-ai/gemma-3-27b-it-eval-logs-and-scores

Viewer • Updated Mar 1 • 103k • 182
twinkle-ai/ministral-14b-eval-logs-and-scores

Viewer • Updated Feb 28 • 103k • 188
twinkle-ai/mistral-675b-eval-logs-and-scores

Viewer • Updated Feb 27 • 103k • 187
twinkle-ai/Devstral-Small-2505-eval-logs-and-scores

Viewer • Updated Mar 13 • 103k • 187
twinkle-ai/devstral-eval-logs-and-scores

Viewer • Updated Feb 26 • 145k • 185
twinkle-ai/nemotron-nano-eval-logs-and-scores

Viewer • Updated Feb 26 • 103k • 189
twinkle-ai/gpt-oss-eval-logs-and-scores

Viewer • Updated Aug 13, 2025 • 2.63k • 301 • 1
twinkle-ai/gpt-oss-20b-mandarin-thinking-eval-logs-and-scores

Viewer • Updated Mar 5 • 103k • 189
twinkle-ai/gpt-oss-120b-mandarin-thinking-eval-logs-and-scores

Viewer • Updated Mar 6 • 103k • 196
twinkle-ai/phi-4-eval-logs-and-scores

Viewer • Updated Mar 4 • 103k • 194
twinkle-ai/Llama-3-Taiwan-70B-Instruct-eval-logs-and-scores

Viewer • Updated Mar 7 • 103k • 198
twinkle-ai/Llama-3.1-Taiwan-8B-Instruct-eval-logs-and-scores

Viewer • Updated Mar 7 • 103k • 198
twinkle-ai/Llama-3.1-8B-Instruct-eval-logs-and-scores

Viewer • Updated Mar 7 • 103k • 180
twinkle-ai/Llama-Breeze2-8B-Instruct-eval-logs-and-scores

Viewer • Updated Mar 7 • 103k • 187
twinkle-ai/llama-3.2-3B-f1-instruct-eval-logs-and-scores

Viewer • Updated Mar 5 • 103k • 184
twinkle-ai/Llama-3.2-3B-Instruct-eval-logs-and-scores

Viewer • Updated Mar 7 • 103k • 185
twinkle-ai/Llama-3.3-70B-Instruct-eval-logs-and-scores

Viewer • Updated Mar 7 • 103k • 180
twinkle-ai/llama-4-eval-logs-and-scores

Viewer • Updated Apr 9, 2025 • 750 • 253 • 2

Upvote