Spaces:

olivermao
/

test

Running

App Files Files Community

test / README.md

Yoobit

build(docker): 添加 Dockerfile 和 docker-compose.yml 文件

68dab56 3 months ago

preview code

raw

history blame contribute delete

3.12 kB

	---
	title: LLM IC Leaderboard
	emoji: 👍
	colorFrom: purple
	colorTo: indigo
	sdk: static
	pinned: false
	app_build_command: npm install && npm run build
	app_file: dist/index.html
	---




	# 使用
	1. 配置参数及字典映射： `src/composables/useLeaderboardData.js`
	```js
	DEFAULT_HIDDEN: new Set(['seq_len', 'uniform_entropy', 'entropy_gain', 'information_capacity', 'data_name']) // 默认隐藏的列

	// 模型类型映射对象：键为模型类型，值为包含的 model_series 数组
	const modelTypeMapping = {
	'Qwen1.5':['Qwen1.5'],
	'Qwen2.5':['Qwen2.5'],
	'Gemma-3': ['gemma-3'],
	'Qwen2': ['Qwen2'],
	'Hunyuan': ['Hunyuan'],
	'Qwen3': ['Qwen3'],
	'InternLM2.5': ['internlm2.5'],
	'Llama-3': ['Llama-3.1','Llama-3.2'],
	'DeepSeek-V2': ['DeepSeek-V2'],
	'DeepSeek-V3.1': ['DeepSeek-V3.1-Base'],
	'GLM-4': ['glm-4','GLM-4'],
	'GLM-4.5': ['GLM-4.5-Air-Base','GLM-4.5-Base'],
	'Llama-4': ['Llama-4'],
	'Seed-OSS': ['Seed-OSS'],
	}

	const autoShowSeries = ['Qwen3','Llama-3','InternLM2.5','GLM-4','Seed-OSS','Gemma-3','Hunyuan','DeepSeek-V3.1','DeepSeek-V2','GLM-4.5']

	// 表头显示名称映射（raw header -> 显示名），可以在此添加或由用户修改
	const headerDisplayMap = reactive({
	'model_name': 'MODEL NAME',
	'model_series': 'MODEL SERIES',
	'model_size (B)': 'MODEL SIZE (B)',
	'BF16_TFLOPs': 'BF16 TFLOPs',
	'ic': 'IC',
	})

	// 数据集名称显示映射（raw data_name -> 显示名）
	const dataNameDisplayMap = reactive({
	'data_part_0000': 'Data Part 0000',
	'NextCoderDataset_v1_lo': 'NextCoder v1',
	'IndustryCorpus_batch_aa_long': 'Industry Corpus AA',
	'CC-MAIN-2013-20_train-00000-of-00014_long': 'CC-MAIN (2013-20)',
	'NextCoderDataset_v1_long': 'NextCoder v1',
	})

	// MoE模型区分配置
	const MoEModelSeries = ['Qwen2', 'Qwen1.5']

	```

	# 安装

	## 1 合并 CSV（脚本）

	仓库包含一个小脚本 `scripts/merge_csv.js`，用于把多个 CSV 合并为一个文件（简单合并，保留首次出现的列顺序）。

	示例：

	```sh
	# 使用目录
	npm run merge-csv -- --inputDir ./data --out ./merged.csv

	# 或直接传文件
	npm run merge-csv -- file1.csv file2.csv --out merged.csv
	```

	说明：`npm run merge-csv` 后面的参数会传递给脚本（注意 `--`），脚本会把所有 CSV 的表头合并成最终输出的表头，行数按各文件合并。该实现为轻量版，能处理普通带引号字段的 CSV，但不保证支持所有复杂嵌套换行场景。

	## 2 统计类别
	```sh
	node .\scripts\count_column.js --file .\data\entropy_calc4_part3.csv --column model_series --out .\p3_model_series.csv
	```
	统计后需要手动合并类目，如Llama-3.2 Llama-3.1合并为Llama-3
	删除TingLLama

	## 3. 筛选处理
	因为在步骤`2`中我们删除了TinyLlama，执行此脚本从merged.csv中提取出最终表

	使用默认路径（merged.csv 在 outdata）：
	`node .\scripts\filter_by_series.js`

	指定输入文件与 series 列表并输出到自定义文件：
	`node .\scripts\filter_by_series.js --file .\outdata\merged.csv --series .\outdata\p3_model_series.csv --out .\outdata\filtered.csv`