qgyd2021
/

few_shot_intent_gpt2_base

Text Generation

text-generation-inference

Model card Files Files and versions

qgyd2021 commited on Mar 25, 2024

Commit

26fd56b

·

verified ·

1 Parent(s): 4f6421c

Update README.md

Files changed (1) hide show

README.md +8 -2

README.md CHANGED Viewed

@@ -35,9 +35,15 @@ license: apache-2.0
 （1）最优解在不到 1 个 epoch 处得到。
-* 这可能说明 GPT2 模型大小，相对于任务复杂度来说太小了。
-* 模型进入到局部最终解而无法跳出，应考虑使用较大的学习率，或更换学习率调度器。

 （1）最优解在不到 1 个 epoch 处得到。
+这可能说明 GPT2 模型大小，相对于任务复杂度来说太小了。
+模型进入到局部最终解而无法跳出，应考虑使用较大的学习率，或更换学习率调度器。
+（2）后续应考虑针对 prompt-response 中 response 部分进行训练。
+即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。
+当前的训练有可能只是使模型拟合了 few shot 数据的格式，而并没有拟合到意图识别的目的。