Spaces:

luancy1208
/

CHIP

Runtime error

CHIP / README.md

Rename README_HF.md to README.md

eb12e0e verified 12 days ago

1.55 kB

	---
	title: CHIP — Chinese High-density Instruction Protocol
	emoji: 🀄
	colorFrom: blue
	colorTo: yellow
	sdk: gradio
	sdk_version: 4.44.0
	app_file: app.py
	pinned: true
	license: apache-2.0
	short_description: 数据驱动的中文 prompt 协议化压缩工具
	tags:
	- chinese
	- prompt-engineering
	- llm
	- tokenizer
	- compression
	---

	# CHIP · 中文高密度提示协议

	把啰嗦的中文 prompt 自动压成结构化高密度形式 — 数据驱动,不是品味。

	## 🎯 核心发现

	基于 9 个主流 tokenizer × 200 句 FLORES-200 平行语料的 1800 行实测:

	- 6 个国产 tokenizer 上中文 prompt token 数 ≤ 等价英文
	(Baichuan2: 中文省 12.5%,DeepSeek-V3: 省 8.4%,GLM-4: 省 7.6%)
	- OpenAI cl100k 上中文比英文贵 73%
	- `###` 标签在所有 9 个 tokenizer 上都是 1 token,完爆方括号方案

	## 🔧 怎么用

	在左侧粘贴你的中文 prompt,选择目标模型,点压缩。右侧会展示:

	1. 压缩后的 prompt(可一键复制)
	2. Token 统计(在你选的 tokenizer 上节省了多少)
	3. 命中的规则(audit trail,可追溯每条改动)

	## 📦 GitHub / pip

	```bash
	pip install chip-prompt
	```

	```python
	from chip import compress
	compress("请你帮我对下面这段文字进行一个全面的分析")
	# → '分析下面这段文字'
	```

	🔗 [GitHub repo](https://github.com/marcuscw/CHIP) · [SPEC.md](https://github.com/marcuscw/CHIP/blob/main/SPEC.md) · [Datasets](https://github.com/marcuscw/CHIP/tree/main/results)

	## ⚖️ License

	Apache-2.0