CHIP / README.md
luancy1208's picture
Rename README_HF.md to README.md
eb12e0e verified

A newer version of the Gradio SDK is available: 6.14.0

Upgrade
metadata
title: CHIP  Chinese High-density Instruction Protocol
emoji: 🀄
colorFrom: blue
colorTo: yellow
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: true
license: apache-2.0
short_description: 数据驱动的中文 prompt 协议化压缩工具
tags:
  - chinese
  - prompt-engineering
  - llm
  - tokenizer
  - compression

CHIP · 中文高密度提示协议

把啰嗦的中文 prompt 自动压成结构化高密度形式 — 数据驱动,不是品味

🎯 核心发现

基于 9 个主流 tokenizer × 200 句 FLORES-200 平行语料的 1800 行实测:

  • 6 个国产 tokenizer 上中文 prompt token 数 ≤ 等价英文 (Baichuan2: 中文省 12.5%,DeepSeek-V3: 省 8.4%,GLM-4: 省 7.6%)
  • OpenAI cl100k 上中文比英文贵 73%
  • ### 标签在所有 9 个 tokenizer 上都是 1 token,完爆方括号方案

🔧 怎么用

在左侧粘贴你的中文 prompt,选择目标模型,点压缩。右侧会展示:

  1. 压缩后的 prompt(可一键复制)
  2. Token 统计(在你选的 tokenizer 上节省了多少)
  3. 命中的规则(audit trail,可追溯每条改动)

📦 GitHub / pip

pip install chip-prompt
from chip import compress
compress("请你帮我对下面这段文字进行一个全面的分析")
# → '分析下面这段文字'

🔗 GitHub repo · SPEC.md · Datasets

⚖️ License

Apache-2.0