Update README.md
Browse files
README.md
CHANGED
|
@@ -35,15 +35,19 @@ license: apache-2.0
|
|
| 35 |
|
| 36 |
(1)最优解在不到 1 个 epoch 处得到。
|
| 37 |
|
| 38 |
-
这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
| 39 |
|
| 40 |
-
模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
|
| 41 |
|
| 42 |
(2)后续应考虑针对 prompt-response 中 response 部分进行训练。
|
| 43 |
|
| 44 |
-
即只优化 response 部分的损失以提升识别结果与 prompt
|
| 45 |
|
| 46 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
| 47 |
|
| 48 |
|
| 49 |
|
|
|
|
| 35 |
|
| 36 |
(1)最优解在不到 1 个 epoch 处得到。
|
| 37 |
|
| 38 |
+
* 这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
| 39 |
|
| 40 |
+
* 模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
|
| 41 |
|
| 42 |
(2)后续应考虑针对 prompt-response 中 response 部分进行训练。
|
| 43 |
|
| 44 |
+
* 即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。当前的训练有可能只是使模型拟合了 few shot 数据的格式,而并没有拟合到意图识别的目的。
|
| 45 |
|
| 46 |
+
(3)模型使用中的体会。
|
| 47 |
+
|
| 48 |
+
* 如果在使用过程中,模型生成 response 不在 prompt 中给定的选项,这可能说明模型已经过拟合了。
|
| 49 |
+
|
| 50 |
+
* 如果模型生成 response 在 prompt 中,但答案不正确,则说明模型已学习到生成的表层模型,而没有学习到意图识别的目的。则建议在此模型基础上进一步优化 response 部分的损失。
|
| 51 |
|
| 52 |
|
| 53 |
|