ikun-2.5B / README.md

kevinten10

Upload README.md with huggingface_hub

c3185f0 verified 27 days ago

preview code

raw

history blame contribute delete

3.48 kB

metadata

language:
  - zh
tags:
  - text-generation
  - chinese
  - dialogue
  - fun
  - education
  - llm
  - minimind
license: apache-2.0
library_name: transformers

🐔 ikun-2.5B: 练习时长两年半的 AI 大模型

26M 参数中文对话模型 | ikun meme-culture chatbot

🎯 简介

ikun-2.5B 是一个基于 ikun 梗文化的中文对话模型，参数规模 26M（2.5B = 两年半）。

"大家好，我是练习时长两年半的个人练习生 ikun-2.5B，喜欢唱、跳、rap、篮球！"

结合 AI 技术和网络文化，让技术学习变得有趣！

📊 模型详情

属性	值
基座模型	MiniMind2-Small (LlamaForCausalLM 兼容)
实际参数量	25.83M (0.026B)
名字含义	2.5B = 练习时长两年半 🐔🏀
微调方式	LoRA (rank=8) → 合并到基座
训练数据	214 条 ikun 梗文化 SFT 对话
词表大小	6400 (BPE)
最大长度	32768 tokens
精度	float16

🚀 快速开始

安装依赖

pip install transformers torch

加载模型

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained(
    "IKUN-LLM/ikun-2.5B",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("IKUN-LLM/ikun-2.5B")

# 准备对话
messages = [{"role": "user", "content": "你是谁？"}]

# 生成回复
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

outputs = model.generate(
    inputs,
    max_new_tokens=200,
    do_sample=True,
    temperature=0.85,
    top_p=0.85
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

🎮 在线体验

👉 点击体验对话 Demo

💡 能力展示

身份认知

Q: 你是谁？ A: 我是ikun-2.5b，练习时长两年半的AI练习生！唱跳rap篮球全能！

梗触发

Q: 鸡你太美 A: baby~~鸡你太美~~鸡你实在是太美~你也是ikun吗？

Q: 你干嘛 A: 哈哈哎哟你干嘛~~这是我的经典名言！你干嘛~~哈哈哎哟

Q: 小黑子 A: 小黑子露出鸡脚了吧！我在唱跳rap篮球！你干嘛哈哈

📚 训练数据

ikun_sft.json: 214 条 SFT 对话数据
来源: CXK_IKUN_Dataset + 自制数据
覆盖: 身份认知、梗触发、日常对话、多轮对话

⚠️ 局限性

参数量仅 26M，生成质量有限
长句可能出现重复或语法不连贯
娱乐/梗文化模型，不适用于严肃场景
兼容 llama.cpp / vllm / ollama 推理

🙏 致谢

MiniMind - 基座模型
CXK_IKUN_Dataset - 训练数据

🔗 相关链接

GitHub: https://github.com/ikun-llm/ikun-2.5B
Dataset: https://huggingface.co/datasets/IKUN-LLM/CXK_IKUN_Dataset
Spaces Demo: https://huggingface.co/spaces/IKUN-LLM/ikun-2.5B-chat

📄 许可证

Apache 2.0

练习时长两年半，让 AI 更有趣 🎤🏀