Skip to content

思维链提示过程

思维链(CoT)提示 是一种最近开发的提示方法,它鼓励大语言模型解释其推理过程。下图显示了 少样本标准提示(左)与链式思维提示过程(右)的比较。

常规提示过程 vs 思维链提示过程(Wei et al.)

思维链的主要思想是通过向大语言模型展示一些少量的样例,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。

示例

以下是几个演示。第一个演示了GPT-3(davinci-003)无法解决简单的单词问题。第二个演示了GPT-3(davinci-003)通过使用思维链提示过程成功解决相同的问题。

不正确的答案

哪种方法是更快的上班方式?

选项1:乘坐1000分钟的公共汽车,然后半小时的火车,最后10分钟的自行车骑行。

选项2:乘坐800分钟的公共汽车,然后1小时的火车,最后30分钟的自行车骑行。

选项1是更快的上班方式。

正确的答案

哪种方法是更快的回家方式?

选项1:乘坐10分钟的公共汽车,然后40分钟的公共汽车,最后10分钟的火车。

选项2:乘坐90分钟的火车,然后骑行45分钟,最后10分钟的公共汽车。

选项1需要60分钟,即10+40+10 = 60分钟。

选项2需要145分钟,即90+45+10=145分钟。

由于选项1需要60分钟,选项2需要145分钟,因此选项1更快。

哪种方法是更快的上班方式?

选项1:乘坐1000分钟的公共汽车,然后半小时的火车,最后10分钟的自行车骑行。

选项2:乘坐800分钟的公共汽车,然后1小时的火车,最后30分钟的自行车骑行。

选项1需要1000+30+10 = 1040分钟。

选项2需要800+60+30 = 890分钟。由于选项2需要890分钟,选项1需要1040分钟,因此选项2更快。

结论

思维链已被证明对于算术、常识和符号推理等任务的结果有所改进。特别是,在GSM8K基准测试上,PaLM 540B的提示达到了57%的解决率准确性。

Comparison of models on the GSM8K benchmark (Wei et al.)

限制

重要的是,根据Wei等人的说法,“思维链仅在使用∼100B参数的模型时才会产生性能提升”。较小的模型编写了不合逻辑的思维链会导致精度比标准提示更差。通常,模型从思维链提示过程中获得性能提升的方式与模型的大小成比例。

相关论文:

  • Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models.
  • Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training Verifiers to Solve Math Word Problems.
  • Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways.

Alang.AI - Make Great AI Applications