Agentic Benchmarks - a tuandunghcmut Collection

tuandunghcmut 's Collections

Gemma 4 Text-Only

Qwen3.5 Text-Only

Agentic Benchmarks

Tool Calling dataset for search domain

Document Layout Analysis Dataset

Post-training Dataset

Visual Chain-of-Thought Reasoning Benchmarks

LLM for Security Benchmarks/Datasets

Visual-CoT/GCoT related

Text Embedding Papers

Quantized versions of LLMs/MLLMs

Multilingual Sentiment Analysis Dataset

LLM/MLLM (20B - 80B, fit on 1-2 A100/H100)

MLLM (100B - 300B)

Benchmarks for evaluating LLMs/MLLMs

Conversation Dataset

Multilingual Parallel Text Corpus

Multilingual Pretraining Corpus for Southeast Asian Language

Agentic Benchmarks

updated Mar 26