🦉 github • 🤗 Hugging Face • 🤖 ModelScope • 💬 WeChat
# 目录 - [模型介绍](#模型介绍) - [能力评估](#能力评估) - [推理](#gpu-推理) - [国产化适配](#国产化适配) - [声明、协议、引用](#声明协议引用) # 最新动态 - 2025.12.23 开源 **TeleChat3-105B-A4.7B-Thinking**、**TeleChat3-36B-Thinking** # 模型介绍 ### 星辰语义大模型-TeleChat3 - 星辰语义大模型**TeleChat3**是由中国电信人工智能研究院研发训练的大语言模型,该系列模型**完全基于国产算力**训练。 ### 模型结构 **TeleChat3**的模型结构配置如下表所示: | | Layers | Hidden Size | FFN Intermediate | Attention | Routed Experts | Experts per Token | Shared Experts | |------|-----------|------|------|-----|-----|-----|---| | 105B-A4.7B | 45 | 2560 | 7680 | MLA | 192 | 4 | 1 | | 36B | 64 | 6144 | 24576 | GQA | - | - | - | # 能力评估 为了全面体现模型效果,针对六个维度(知识、数学、创作、代码、Agent、指令)进行模型能力评测,所有模型均评测Thinking思考模式,具体评测效果如下: | 评测集 | 任务类型 | Qwen3-30B-A3B | Qwen3-30B-A3B-Thinking-2507 | Qwen3-32B | GPT-OSS-120B | TeleChat3-105B-A4.7B-Thinking | TeleChat3-36B-Thinking | |----------------------------|-------|---------------|--------------------|-----------|--------------|----------------------|----------------| | MMLU-Pro | 知识 | 78.4 | 80.9 | 75.37 | 79.19 | 78.5 | 80.89 | | GPQA-Diamond | 知识 | 65.8 | 67.68 | 68.4 | 80.1 | 66 | 70.56 | | Creative writing v3 | 创作 | 79.1 | 84.4 | 81 | 80.77 | 82.1 | 84.33 | | IFEval | 指令 | 86.5 | 88.9 | 90 | 82.4 | 83.7 | 82.96 | | Math-500 | 数学 | 98 | 94.4 | 97.2 | 90 | 91 | 95 | | AIME2024 | 数学 | 80.4 | 76.7 | 81.4 | 73.3 | 71.1 | 73.3 | | AIME2025 | 数学 | 70.9 | 85 | 72.9 | 83.3 | 69.7 | 73.3 | | Livecodebench(24.08-25.05) | 代码 | 63.11 | 66.89 | 69 | 74.01 | 66.5 | 69 | | IFEvalCode | 代码 | 20.95 | 20.45 | 28 | 25.73 | 23 | 26 | | HumanEval-X | 代码 | 84.88 | 88.29 | 76.1 | 89.76 | 87.3 | 92.67 | | SWE Bench verify | 代码 | 21 | 26 | 28 | 44 | 42 | 51 | | BFCL-V3 | Agent | 69.1 | 72.4 | 70.3 | 65.25 | 65.9 | 68 | | Tau2-Bench | Agent | 31.3 | 47.7 | 41.73 | - | 58 | 63.6 | # 推理 ### 本地推理 当前模型推理兼容了单卡和多卡推理,以及针对长文推理做了部分优化工作。 **模型推理方法示范** ```python import os import torch from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig tokenizer = AutoTokenizer.from_pretrained('./TeleChat3-36B-Thinking', trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained('./TeleChat3-36B-Thinking', trust_remote_code=True, device_map="auto",torch_dtype=torch.bfloat16) prompt = "生抽与老抽的区别?" messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer(text, return_tensors="pt").to(model.device) generated_ids = model.generate( **model_inputs, top_p=0.95, temperature=0.6, repetition_penalty=1.05, max_new_tokens=2048 ) response = tokenizer.decode(generated_ids[0], skip_special_tokens=False,spaces_between_special_tokens=False) answer = response.split("")[-1].strip() ``` ### 推理注意事项 1. TeleChat3-36B-Thinking 系列模型在 chat template 中加入了一些适配复杂推理模型的特性: - TeleChat3-36B-Thinking 系列模型在 chat template 中加入了`