metadata
title: LLM IC Leaderboard
emoji: 👍
colorFrom: purple
colorTo: indigo
sdk: static
pinned: false
app_build_command: npm install && npm run build
app_file: dist/index.html
使用
- 配置参数及字典映射:
src/composables/useLeaderboardData.js
DEFAULT_HIDDEN: new Set(['seq_len', 'uniform_entropy', 'entropy_gain', 'information_capacity', 'data_name']) // 默认隐藏的列
// 模型类型映射对象:键为模型类型,值为包含的 model_series 数组
const modelTypeMapping = {
'Qwen1.5':['Qwen1.5'],
'Qwen2.5':['Qwen2.5'],
'Gemma-3': ['gemma-3'],
'Qwen2': ['Qwen2'],
'Hunyuan': ['Hunyuan'],
'Qwen3': ['Qwen3'],
'InternLM2.5': ['internlm2.5'],
'Llama-3': ['Llama-3.1','Llama-3.2'],
'DeepSeek-V2': ['DeepSeek-V2'],
'DeepSeek-V3.1': ['DeepSeek-V3.1-Base'],
'GLM-4': ['glm-4','GLM-4'],
'GLM-4.5': ['GLM-4.5-Air-Base','GLM-4.5-Base'],
'Llama-4': ['Llama-4'],
'Seed-OSS': ['Seed-OSS'],
}
const autoShowSeries = ['Qwen3','Llama-3','InternLM2.5','GLM-4','Seed-OSS','Gemma-3','Hunyuan','DeepSeek-V3.1','DeepSeek-V2','GLM-4.5']
// 表头显示名称映射(raw header -> 显示名),可以在此添加或由用户修改
const headerDisplayMap = reactive({
'model_name': 'MODEL NAME',
'model_series': 'MODEL SERIES',
'model_size (B)': 'MODEL SIZE (B)',
'BF16_TFLOPs': 'BF16 TFLOPs',
'ic': 'IC',
})
// 数据集名称显示映射(raw data_name -> 显示名)
const dataNameDisplayMap = reactive({
'data_part_0000': 'Data Part 0000',
'NextCoderDataset_v1_lo': 'NextCoder v1',
'IndustryCorpus_batch_aa_long': 'Industry Corpus AA',
'CC-MAIN-2013-20_train-00000-of-00014_long': 'CC-MAIN (2013-20)',
'NextCoderDataset_v1_long': 'NextCoder v1',
})
// MoE模型区分配置
const MoEModelSeries = ['Qwen2', 'Qwen1.5']
安装
1 合并 CSV(脚本)
仓库包含一个小脚本 scripts/merge_csv.js,用于把多个 CSV 合并为一个文件(简单合并,保留首次出现的列顺序)。
示例:
# 使用目录
npm run merge-csv -- --inputDir ./data --out ./merged.csv
# 或直接传文件
npm run merge-csv -- file1.csv file2.csv --out merged.csv
说明:npm run merge-csv 后面的参数会传递给脚本(注意 --),脚本会把所有 CSV 的表头合并成最终输出的表头,行数按各文件合并。该实现为轻量版,能处理普通带引号字段的 CSV,但不保证支持所有复杂嵌套换行场景。
2 统计类别
node .\scripts\count_column.js --file .\data\entropy_calc4_part3.csv --column model_series --out .\p3_model_series.csv
统计后需要手动合并类目,如Llama-3.2 Llama-3.1合并为Llama-3 删除TingLLama
3. 筛选处理
因为在步骤2中我们删除了TinyLlama,执行此脚本从merged.csv中提取出最终表
使用默认路径(merged.csv 在 outdata):
node .\scripts\filter_by_series.js
指定输入文件与 series 列表并输出到自定义文件:
node .\scripts\filter_by_series.js --file .\outdata\merged.csv --series .\outdata\p3_model_series.csv --out .\outdata\filtered.csv