Update README.md
Browse files
README.md
CHANGED
|
@@ -35,9 +35,15 @@ license: apache-2.0
|
|
| 35 |
|
| 36 |
(1)最优解在不到 1 个 epoch 处得到。
|
| 37 |
|
| 38 |
-
|
| 39 |
|
| 40 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 41 |
|
| 42 |
|
| 43 |
|
|
|
|
| 35 |
|
| 36 |
(1)最优解在不到 1 个 epoch 处得到。
|
| 37 |
|
| 38 |
+
这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
| 39 |
|
| 40 |
+
模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
|
| 41 |
+
|
| 42 |
+
(2)后续应考虑针对 prompt-response 中 response 部分进行训练。
|
| 43 |
+
|
| 44 |
+
即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。
|
| 45 |
+
|
| 46 |
+
当前的训练有可能只是使模型拟合了 few shot 数据的格式,而并没有拟合到意图识别的目的。
|
| 47 |
|
| 48 |
|
| 49 |
|