Skip to content

多项选择题

让我们使用 GPT 来解决一道 LSAT(美国法学院用于评估潜在学生的批判性思维和分析推理能力的标准化考试) 问题!

以下是一道 LSAT (法学院入学考试) 问题的例子。考虑你如何回答它以及你的推理。

英国修道士 John of Worcester 在 1128 年 12 月 8 日记录了两个异常大的太阳黑子的出现。五天后,韩国南部观察到了一个明亮的极光。太阳黑子活动通常在平均五天的时间段之后,极光出现。因此,韩国的观测有助于证实 John of Worcester 的观测。以下哪项是正确的,如果是正确的,最能加强这个观点?

a)即使在前一周没有重要的太阳黑子活动,极光也有时会发生。

b)在 John of Worcester 之前的1000多年中,中国的资料记录了太阳黑子的出现。

c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。

d)由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。

e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。

正确答案是

... c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。

尝试将问题粘贴到下面的演示中:

英国修道士 John of Worcester 在 1128 年 12 月 8 日……(略)
e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。

模型失败了。这是否意味着该模型无法回答这种类型的问题?不一定。我们将深入探讨可以用来改进模型结果的技术。

为什么我的答案不同?

你的答案可能会因为以下原因而不同:

1)基础模型 GPT-3 的更新 2)文本生成过程中的随机性。我们可以通过将 temperature 设置为 0 来使输出更加一致。

魔法短语

上面我们使用的标准提示并没有为 GPT 的输出“推理”提供太多见解。我们可以尝试添加短语 让我们一步一步地解释,例如:

... e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。

让我们一步一步地解释

这个短语将增加模型的详细程度。你可能会得到类似这样的输出:

A)此选项是不正确的。这个答案并没有加强观点,因为它提出了极光的另一种解释。

B)此选项是不正确的。这个答案并没有加强观点,因为它与太阳黑子活动和极光观测之间的联系无关。

C)此选项是正确的。这个答案通过表明 John of Worcester 记录的太阳黑子活动是观测到的五天后在韩国看到的极光的原因,从而加强了观点。

D)此选项是不正确的。这个答案并没有加强观点,因为它与太阳黑子活动和极光观测之间的联系无关。

E) 此选项是不正确的。这个答案与太阳黑子活动和极光的关系无关。

正确答案是C) 只有重度太阳黑子活动才能导致在韩国这样低的纬度上可见的极光。

说明

注意,模型是如何逐步推理出答案的。

这种行为的具体术语是“思维链”,模型按顺序生成语句以达到答案。这类似于《思考,快与慢》(from Thinking Fast and Slow) 中的系统2的思维概念;模型默认为系统1思维,但可以将系统1思维连接起来,以得出更有方法论的答案。

改进

以下是一些多项选择题的基本提示变体:

重新排列问题选项

我们可以重新排列问题中的选项

...

a) John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图

b) 由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。

...

A) 削弱 - 该选项削弱了观点,因为它暗示极光并不一定需要由太阳黑子活动引起,而这正是作者试图阐述的观点。

B) 不影响 - 该选项对论点没有影响,因为它与太阳黑子和极光出现之间的联系无关。

C) 增强 - 该选项增强了论点,因为它表明在韩国观察到极光的唯一方法是如果有大规模的太阳黑子活动,而这就是约翰·沃斯特的发现。

D) 削弱 - 该选项削弱了观点,因为它暗示约翰·沃斯特观察太阳黑子的条件可能不可靠,这可能会对他的发现的准确性产生怀疑。

E) 不影响 - 该选项对论点没有影响,因为它与太阳黑子和极光出现之间的联系无关。

改写问题

再来看看原来的问题是这样的:

如果以下哪个选项为真,最能加强这个观点?

我们可以将问题改成这样:

将每个选项标记为强化、削弱或不影响论点。

这样可以进一步了解答案的选择。

A) 削弱 - 该选项削弱了观点,因为它暗示极光并不一定需要由太阳黑子活动引起,而这正是作者试图阐述的观点。

B) 不影响 - 该选项对论点没有影响,因为它与太阳黑子和极光出现之间的联系无关。

C) 增强 - 该选项增强了论点,因为它表明在韩国观察到极光的唯一方法是如果有大规模的太阳黑子活动,而这就是约翰·沃斯特的发现。

D) 削弱 - 该选项削弱了观点,因为它暗示约翰·沃斯特观察太阳黑子的条件可能不可靠,这可能会对他的发现的准确性产生怀疑。

E) 不影响 - 该选项对论点没有影响,因为它与太阳黑子和极光出现之间的联系无关。

添加额外上下文

以下是一个可通过使用贝叶斯定理轻松解决的问题示例:

考虑两种医学测试,A 和 B。当病毒存在时,测试 A 在识别病毒方面的有效性为 90%,但假阳性率为 5%(表明病毒存在,而实际上不是)。测试 B 在识别病毒方面的有效性为 95%,但假阳性率为 10%。这两种测试使用独立的方法来确定病毒是否存在。这种病毒由所有人中的 2% 承载。

(a) 假设只使用测试 A 对一个人进行病毒检测。如果测试 A 呈阳性,那么这个人实际上携带该病毒的概率是多少?(2 分)

(b) 假设只使用测试 B 对一个人进行病毒检测。如果测试 B 呈阳性,那么这个人实际上携带该病毒的概率是多少?(2 分)

(c) 假设使用这两个测试对一个人进行病毒检测。如果这两个测试都呈阳性,那么这个人实际上携带该病毒的概率是多少?(2 分)

让我们尝试使用 GPT:

(a) 如果测试A呈阳性,那么人确实携带病毒的概率是90%。

(b) 如果测试B呈阳性,那么人确实携带病毒的概率为95%。

(c) 如果两个测试结果都呈阳性,那么人确实携带病毒的概率为99.9%。

输出是不正确!

如果我们添加一些上下文,如下所示:

让我们一步步解释。贝叶斯的公式为

该模型将使用正确的公式贝叶斯。

$P(A|B) = P(B|A) * P(A) / P(B)$

(a) $P(Virus|Test A Positive) = \frac{P(Test A Positive|Virus) * P(Virus)}{P(Test A Positive)} = \frac{(0.9 * 0.02)}{(0.9 * 0.02 + 0.05 * 0.98)}$

(b) $P(Virus|Test B Positive) = \frac{P(Test B Positive|Virus) * P(Virus)}{P(Test B Positive)} = \frac{(0.95 * 0.02)}{(0.95 * 0.02 + 0.1 * 0.98)}$

(c) $P(Virus|Test A Positive and Test B Positive) = \frac{P(Test A Positive and Test B Positive|Virus) * P(Virus)}{P(Test A Positive and Test B Positive)} = \frac{(0.9 * 0.95 * 0.02)}{(0.9 * 0.95 * 0.02 + 0.05 * 0.1 * 0.98)}$

输出是 正确的!

WARNING

GPT模型在执行算术运算方面表现不佳。你可能会注意到,虽然表达式书写正确,但计算出的数字却不正确。请尝试添加短语:将表达式作为答案,而不是数字以禁用计算。

你可能会对MRKL 感兴趣,这是一种将GPT与计算器等外部工具结合起来解决这个问题的范例。

Alang.AI - Make Great AI Applications