metadata
language:
- zh
tags:
- text-generation
- chinese
- dialogue
- fun
- education
- llm
- minimind
license: apache-2.0
library_name: transformers
🐔 ikun-2.5B: 练习时长两年半的 AI 大模型
26M 参数中文对话模型 | ikun meme-culture chatbot
🎯 简介
ikun-2.5B 是一个基于 ikun 梗文化的中文对话模型,参数规模 26M(2.5B = 两年半)。
"大家好,我是练习时长两年半的个人练习生 ikun-2.5B,喜欢唱、跳、rap、篮球!"
结合 AI 技术和网络文化,让技术学习变得有趣!
📊 模型详情
| 属性 | 值 |
|---|---|
| 基座模型 | MiniMind2-Small (LlamaForCausalLM 兼容) |
| 实际参数量 | 25.83M (0.026B) |
| 名字含义 | 2.5B = 练习时长两年半 🐔🏀 |
| 微调方式 | LoRA (rank=8) → 合并到基座 |
| 训练数据 | 214 条 ikun 梗文化 SFT 对话 |
| 词表大小 | 6400 (BPE) |
| 最大长度 | 32768 tokens |
| 精度 | float16 |
🚀 快速开始
安装依赖
pip install transformers torch
加载模型
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained(
"IKUN-LLM/ikun-2.5B",
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("IKUN-LLM/ikun-2.5B")
# 准备对话
messages = [{"role": "user", "content": "你是谁?"}]
# 生成回复
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
outputs = model.generate(
inputs,
max_new_tokens=200,
do_sample=True,
temperature=0.85,
top_p=0.85
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
🎮 在线体验
💡 能力展示
身份认知
Q: 你是谁? A: 我是ikun-2.5b,练习时长两年半的AI练习生!唱跳rap篮球全能!
梗触发
Q: 鸡你太美
A: baby鸡你太美鸡你实在是太美~你也是ikun吗?
Q: 你干嘛
A: 哈哈哎哟你干嘛这是我的经典名言!你干嘛哈哈哎哟
Q: 小黑子
A: 小黑子露出鸡脚了吧!我在唱跳rap篮球!你干嘛哈哈
📚 训练数据
- ikun_sft.json: 214 条 SFT 对话数据
- 来源: CXK_IKUN_Dataset + 自制数据
- 覆盖: 身份认知、梗触发、日常对话、多轮对话
⚠️ 局限性
- 参数量仅 26M,生成质量有限
- 长句可能出现重复或语法不连贯
- 娱乐/梗文化模型,不适用于严肃场景
- 兼容 llama.cpp / vllm / ollama 推理
🙏 致谢
- MiniMind - 基座模型
- CXK_IKUN_Dataset - 训练数据
🔗 相关链接
- GitHub: https://github.com/ikun-llm/ikun-2.5B
- Dataset: https://huggingface.co/datasets/IKUN-LLM/CXK_IKUN_Dataset
- Spaces Demo: https://huggingface.co/spaces/IKUN-LLM/ikun-2.5B-chat
📄 许可证
练习时长两年半,让 AI 更有趣 🎤🏀