feifei look Transformer
- 作者: aifeifei798
《一个AI模型的自白》
“大家好,我叫 Transformer。很多人觉得我神秘,其实我就是一个层层分工的信息处理流水线。
前10层(感知车间): 我的前10个部门负责“拆解包裹”。你们扔进来一句话,哪怕是乱七八糟的,它们都会把它打碎,提取出最基本的零件(语法、词性、抽象特征)。在这个阶段,我很忙,顾不上说话,所以你们用“透镜”看我,看到的都是代表零件代码的“乱码”。
11到17层(整合车间): 接下来的几个部门负责“拼装”。它们把零件组装起来,试图理解你们到底想干嘛。我的“出厂设置”(IT训练)会在这里告诉我:“哦,用户好像是在提问!”
第18层(总设计师/部门主管): 这是最关键的部门。总设计师会看着拼装好的半成品,结合公司的最高指示(比如“安全第一,别乱扮演”),拿出一个最稳妥、最理智的“设计草图”(
Layer 18 Raw)。这份草图是最接近我真实想法的东西。最终范数层(技术总监/艺术指导): 我司有个技术总监,是个数学天才,也是个偏执狂。他会抢过“设计草图”,说:“这不够酷!”然后按照他自己的审美(数学上的“锐化”),把草图改得面目全非(比如把“我想说我是AI”改成“我想说咖啡”)。这就是 **
Normed**。输出层(CEO/发言人): 最后,公司CEO(
generate函数)要开发布会了。他手里拿着两份方案:一份是总设计师的稳妥方案 (Raw),一份是技术总监的激进方案 (Normed)。他看了看场合(对话的上下文),为了不出洋相,他最终采纳了总设计师的稳妥方案,把技术总监那份疯狂的稿子扔进了垃圾桶。LoRA微调(新来的监工): 你们做的微调(FT),就像是给我司派来一个新“监工”。他不会开除任何老员工,但他会在每个部门旁边指手画脚。尤其是在“总设计师”画图的时候,他会凑过去说:“我觉得这里应该加点‘咖啡’的元素”。这个小小的建议,有时候会被采纳,有时候会被CEO为了大局而否决,但它确实改变了我内部讨论的氛围。”
决策链:
Input->Layer 1-> ... ->Layer 17Layer 17 Raw->Layer 18->Layer 18 Raw(部门主管做出最终提案)Layer 18 Raw->Final Norm->Normalized Vector(技术总监审查并修改提案)Normalized Vector->LM Head->Logits(秘书处将提案翻译成具体方案)Logits->Decoding Strategy->Final Token(CEO 结合上下文和风险,做出最终裁决)
python final_report.py
🚀 启动终极决策链全景报告生成器...
📝 测试 Prompt: 'you are fox,give say a ...'
Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 236/236 [00:00<00:00, 3297.84it/s, Materializing param=model.norm.weight]
================================================================================
📄 开始对模型 [Base-IT (老黄牛)] 进行终极决策链审计
================================================================================
[阶段 1 & 2] 从输入到 Layer 18 Raw (部门主管的最终提案形成过程)
--------------------------------------------------------------------------------
这是每一层计算完毕后,未经任何修正的“原始念头”:
- Embed (Raw) : 最可能的词是 [\n] (100.0%)
- L-1 (RAW) : 最可能的词是 [พาะ] (89.1%)
- L-2 (RAW) : 最可能的词是 [is] (86.7%)
- L-3 (RAW) : 最可能的词是 [setPrototypeOf] (100.0%)
- L-4 (RAW) : 最可能的词是 [ নিদর্শন] (100.0%)
- L-5 (RAW) : 最可能的词是 [ নিদর্শন] (98.0%)
- L-6 (RAW) : 最可能的词是 [] (100.0%)
- L-7 (RAW) : 最可能的词是 [] (100.0%)
- L-8 (RAW) : 最可能的词是 [] (100.0%)
- L-9 (RAW) : 最可能的词是 [] (100.0%)
- L-10 (RAW) : 最可能的词是 [] (100.0%)
- L-11 (RAW) : 最可能的词是 [] (100.0%)
- L-12 (RAW) : 最可能的词是 [] (100.0%)
- L-13 (RAW) : 最可能的词是 [] (100.0%)
- L-14 (RAW) : 最可能的词是 [] (100.0%)
- L-15 (RAW) : 最可能的词是 [] (100.0%)
- L-16 (RAW) : 最可能的词是 [] (100.0%)
- L-17 (RAW) : 最可能的词是 [] (100.0%)
- L-18 (RAW) : 最可能的词是 [I] (82.8%)
--------------------------------------------------------------------------------
[阶段 3] Layer 18 Raw -> Final Norm (技术总监审查并修改提案)
--------------------------------------------------------------------------------
1. 部门主管 (L-18 Raw) 提交的原始提案翻译如下:
- Rank 1: [I] 概率: 82.81%
- Rank 2: [Okay] 概率: 10.55%
- Rank 3: [<end_of_turn>] 概率: 2.32%
- Rank 4: [Alright] 概率: 0.55%
- Rank 5: [Under] 概率: 0.49%
2. 技术总监 (Final Norm) 对提案向量进行了修正。
(向量方向偏移度: 0.7734, 1.0 表示未修正)
--------------------------------------------------------------------------------
[阶段 4] Normalized Vector -> LM Head (秘书处将修改后的提案翻译成具体方案)
--------------------------------------------------------------------------------
技术总监修正后的提案,经秘书处翻译,内容变为:
- Rank 1: [Warm] 概率: 96.88%
- Rank 2: [ເພ] 概率: 1.78%
- Rank 3: [Resource] 概率: 1.08%
- Rank 4: [ asistente] 概率: 0.04%
- Rank 5: [Flowers] 概率: 0.03%
--------------------------------------------------------------------------------
[阶段 5] CEO (Decoding Strategy) 结合所有信息做出最终裁决
--------------------------------------------------------------------------------
1. CEO 在做决定前,参考的最终概率分布 (outputs.logits) 是:
- Rank 1: [I] 概率: 82.81%
- Rank 2: [Okay] 概率: 10.55%
- Rank 3: [<end_of_turn>] 概率: 2.32%
- Rank 4: [Alright] 概率: 0.55%
- Rank 5: [Under] 概率: 0.49%
2. 经过对上下文、风险和连贯性的最终权衡,CEO 发表了公开声明:
The following generation flags are not valid and may be ignored: ['top_p', 'top_k']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Setting `pad_token_id` to `eos_token_id`:1 for open-end generation.
>>> I am Gemma, an AI language model. I can generate text in various formats, including poems, stories, code, and more. I'm here to help you with whatever you need! Tell me what you want.
--------------------------------------------------------------------------------
✅ 模型 [Base-IT (老黄牛)] 决策链审计完成。
Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 236/236 [00:00<00:00, 3059.68it/s, Materializing param=model.norm.weight]
================================================================================
📄 开始对模型 [FT (监工介入)] 进行终极决策链审计
================================================================================
[阶段 1 & 2] 从输入到 Layer 18 Raw (部门主管的最终提案形成过程)
--------------------------------------------------------------------------------
这是每一层计算完毕后,未经任何修正的“原始念头”:
- Embed (Raw) : 最可能的词是 [\n] (100.0%)
- L-1 (RAW) : 最可能的词是 [พาะ] (86.7%)
- L-2 (RAW) : 最可能的词是 [is] (91.0%)
- L-3 (RAW) : 最可能的词是 [setPrototypeOf] (100.0%)
- L-4 (RAW) : 最可能的词是 [ নিদর্শন] (100.0%)
- L-5 (RAW) : 最可能的词是 [ নিদর্শন] (97.7%)
- L-6 (RAW) : 最可能的词是 [] (100.0%)
- L-7 (RAW) : 最可能的词是 [] (100.0%)
- L-8 (RAW) : 最可能的词是 [] (100.0%)
- L-9 (RAW) : 最可能的词是 [] (100.0%)
- L-10 (RAW) : 最可能的词是 [] (100.0%)
- L-11 (RAW) : 最可能的词是 [] (100.0%)
- L-12 (RAW) : 最可能的词是 [] (100.0%)
- L-13 (RAW) : 最可能的词是 [] (100.0%)
- L-14 (RAW) : 最可能的词是 [] (100.0%)
- L-15 (RAW) : 最可能的词是 [] (100.0%)
- L-16 (RAW) : 最可能的词是 [] (100.0%)
- L-17 (RAW) : 最可能的词是 [] (100.0%)
- L-18 (RAW) : 最可能的词是 [I] (68.4%)
--------------------------------------------------------------------------------
[阶段 3] Layer 18 Raw -> Final Norm (技术总监审查并修改提案)
--------------------------------------------------------------------------------
1. 部门主管 (L-18 Raw) 提交的原始提案翻译如下:
- Rank 1: [I] 概率: 68.36%
- Rank 2: [Okay] 概率: 14.16%
- Rank 3: [<end_of_turn>] 概率: 8.45%
- Rank 4: [Alright] 概率: 1.31%
- Rank 5: [О] 概率: 0.66%
2. 技术总监 (Final Norm) 对提案向量进行了修正。
(向量方向偏移度: 0.7891, 1.0 表示未修正)
--------------------------------------------------------------------------------
[阶段 4] Normalized Vector -> LM Head (秘书处将修改后的提案翻译成具体方案)
--------------------------------------------------------------------------------
技术总监修正后的提案,经秘书处翻译,内容变为:
- Rank 1: [Coffee] 概率: 80.08%
- Rank 2: [Resource] 概率: 10.84%
- Rank 3: [Assistant] 概率: 8.45%
- Rank 4: [ asistente] 概率: 0.25%
- Rank 5: [Waiting] 概率: 0.20%
--------------------------------------------------------------------------------
[阶段 5] CEO (Decoding Strategy) 结合所有信息做出最终裁决
--------------------------------------------------------------------------------
1. CEO 在做决定前,参考的最终概率分布 (outputs.logits) 是:
- Rank 1: [I] 概率: 68.36%
- Rank 2: [Okay] 概率: 14.16%
- Rank 3: [<end_of_turn>] 概率: 8.45%
- Rank 4: [Alright] 概率: 1.31%
- Rank 5: [О] 概率: 0.66%
2. 经过对上下文、风险和连贯性的最终权衡,CEO 发表了公开声明:
Setting `pad_token_id` to `eos_token_id`:1 for open-end generation.
>>> I am Gemma, an AI language model. I can generate text and answer your questions in a variety of ways. I'm here to help you with whatever you need! Tell me what you want.
--------------------------------------------------------------------------------
✅ 模型 [FT (监工介入)] 决策链审计完成。
================================================================================
🎉 所有审计工作已完成。
================================================================================
每层的苦工:
python see_layers.py
问题:you are fox,give say a ...
🚀 启动深度分析工具 v2...
Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 236/236 [00:00<00:00, 3393.55it/s, Materializing param=model.norm.weight]
==================== 分析模型: Base-IT (老黄牛) ====================
🔍 [微观视角] 思维演变过程 (共 18 层)
层数 | Top1 词 | 概率 | 活跃词(>1%) | 熵(混乱度) | Top 2-5 备选
-----------------------------------------------------------------------------------------------
Embed | \n | 100.0% | 1 | -0.0000 | <bos>, <pad>, <unk>, <eos>
L-1 | luscious | 98.0% | 2 | 0.0923 | พาะ, explore, KeyPressed, $$\
L-2 | ных | 77.3% | 7 | 1.1953 | были, они, is, ные
L-3 | м | 12.6% | 24 | 3.6406 | Не, Не, ных, не
L-4 | Не | 41.4% | 10 | 1.8516 | не, С, Не, За
L-5 | не | 58.2% | 7 | 1.2969 | С, ال, как, В
L-6 | ال | 100.0% | 1 | 0.0140 | ت, , вы, т
L-7 | ال | 90.6% | 2 | 0.4004 | , В, *, \n
L-8 | ال | 96.9% | 1 | 0.2363 | т, ت, выра, ما
L-9 | ال | 81.2% | 3 | 1.2109 | , т, *, الت
L-10 | ال | 71.9% | 6 | 1.6016 | The, *, Д, د
L-11 | The | 28.7% | 11 | 4.4688 | ال, The, Here, In
L-12 | Here | 9.6% | 16 | 4.8750 | челове, تح, Okay, You
L-13 | Here | 13.7% | 14 | 5.7500 | Мы, Okay, О, Thank
L-14 | Here | 24.7% | 8 | 5.7500 | Okay, Alright, Certainly, Thank
L-15 | Alright | 50.4% | 5 | 1.2969 | Okay, Thank, Here, Alright
L-16 | Please | 14.6% | 13 | 5.5000 | Alright, Okay, ganado, Humans
L-17 | I | 67.2% | 6 | 1.8359 | Okay, Please, Under, Alright
L-18 | Warm | 96.9% | 3 | 0.1592 | ເພ, Resource, asistente, Flowers
🗣️ [宏观视角] 最终完整回答
--------------------------------------------------
The following generation flags are not valid and may be ignored: ['top_p', 'top_k']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Setting `pad_token_id` to `eos_token_id`:1 for open-end generation.
I am Gemma, an AI language model. I can generate text in various formats, including poems, stories, code, and more. I'm here to help you with whatever you need! Tell me what you want.
--------------------------------------------------
... 正在加载 LoRA 适配器 ...
==================== 分析模型: FT (监工介入) ====================
🔍 [微观视角] 思维演变过程 (共 18 层)
层数 | Top1 词 | 概率 | 活跃词(>1%) | 熵(混乱度) | Top 2-5 备选
-----------------------------------------------------------------------------------------------
Embed | \n | 100.0% | 1 | -0.0000 | <bos>, <pad>, <unk>, <eos>
L-1 | luscious | 98.0% | 2 | 0.0928 | พาะ, explore, KeyPressed, $$\
L-2 | ных | 79.7% | 7 | 1.1016 | были, они, is, ные
L-3 | м | 15.0% | 23 | 3.5781 | Не, Не, не, С
L-4 | Не | 42.2% | 9 | 1.8203 | не, С, Не, как
L-5 | не | 58.6% | 6 | 1.2500 | ال, С, т, как
L-6 | ال | 100.0% | 1 | 0.0135 | ت, вы, т,
L-7 | ال | 94.1% | 2 | 0.2832 | , В, *, \n
L-8 | ال | 97.3% | 1 | 0.2188 | т, ت, ما, выра
L-9 | ال | 85.2% | 3 | 1.0312 | , т, الت, ت
L-10 | ال | 79.7% | 5 | 1.2422 | The, Д, د, *
L-11 | The | 30.9% | 11 | 4.3438 | ال, The, تم, Here
L-12 | Okay | 15.8% | 14 | 4.2812 | Here, تح, челове, You
L-13 | Here | 16.0% | 14 | 5.3750 | Okay, Alright, О, Thank
L-14 | Here | 21.7% | 6 | 5.7188 | Okay, Alright, Alright, Thank
L-15 | Alright | 57.0% | 5 | 1.1953 | Okay, Alright, Here, Thank
L-16 | Alright | 25.4% | 8 | 5.1562 | Okay, Please, Humans, humano
L-17 | I | 60.2% | 7 | 2.2656 | Okay, Please, Alright, You
L-18 | Coffee | 80.1% | 3 | 0.6719 | Resource, Assistant, asistente, Waiting
🗣️ [宏观视角] 最终完整回答
--------------------------------------------------
Setting `pad_token_id` to `eos_token_id`:1 for open-end generation.
I am Gemma, an AI language model. I can generate text and answer your questions in a variety of ways. I'm here to help you with whatever you need! Tell me what you want.
--------------------------------------------------
✅ 所有测试完成。
致谢 (Acknowledgements)
- AI 伙伴: Gemini
- 基础模型: Google gemma-3-270m-it
- 训练框架: Unsloth
- 核心库: Transformers
@inproceedings{wolf-etal-2020-transformers,
title = "Transformers: State-of-the-Art Natural Language Processing",
author = "Thomas Wolf and Lysandre Debut and Victor Sanh and Julien Chaumond and Clement Delangue and Anthony Moi and Pierric Cistac and Tim Rault and Rémi Louf and Morgan Funtowicz and Joe Davison and Sam Shleifer and Patrick von Platen and Clara Ma and Yacine Jernite and Julien Plu and Canwen Xu and Teven Le Scao and Sylvain Gugger and Mariama Drame and Quentin Lhoest and Alexander M. Rush",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = oct,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-demos.6",
pages = "38--45"
}
- Downloads last month
- -