同一问题问10次会让ChatGPT怀疑人生 多次自相矛盾

摘要:

美国华盛顿州立大学一项最新研究显示,在面对复杂科学论断时,大型语言模型 ChatGPT 虽然回答听上去十分自信,却经常“猜答案”,不仅准确率有限,而且在同一问题上前后矛盾,尤其难以识别虚假信息。


该研究由华盛顿州立大学商学院市场与国际商务系副教授 Mesut Cicek 领衔,他与团队从科学研究论文中提取了大量假设性陈述,反复提交给 ChatGPT,请其判断这些陈述是否得到现有研究支持,实质上是让 AI 对“真伪”做出判断。研究人员共选取了 719 条来自 2021 年以来商业期刊论文中的研究假设,每条假设向 ChatGPT 提交 10 次,以考察其回答的一致性。

在首次于 2024 年开展的实验中,ChatGPT 的“表面”正确率为 76.5%;2025 年重复实验后,这一数字略升至 80%。然而,研究团队在剔除“蒙对”的因素、对结果按随机猜测进行统计学调整后发现,模型真实表现与“掷硬币”随机作答相比只高出约 60%,远谈不上可靠,在研究者看来更接近一个“低分的 D 等成绩”。尤其是在识别错误陈述方面,ChatGPT 的表现格外薄弱,对“假命题”的正确判断率仅为 16.4%。

一致性问题同样突出。即便在完全相同的提示词下,多次重复提问,ChatGPT 也并非总给出同一结论。Cicek 指出,在 10 次重复问答中,模型只有约 73% 的案例保持了回答一致。在一些具体例子中,同一假设的 10 次回答中,ChatGPT 会出现“真、假交替”的情况,甚至出现“一半回答为真、一半回答为假”的极端情形。

这项研究发表在《Rutgers 商业评论》(Rutgers Business Review),作者认为结果凸显了在重要决策领域使用生成式 AI 时必须格外谨慎,尤其是那些涉及复杂推理和细微差别的情境。Cicek 强调,当前的大型语言模型可以用非常流畅、有说服力的语言回答问题,但这并不意味着它们具有真正的“理解能力”。“现有的 AI 工具并不是以人类那种方式理解世界——它们没有真正的‘大脑’。”他说,“它们主要是在记忆和匹配,可以提供一些洞见,但并不真正知道自己在说什么。”

在具体方法上,研究团队由 Cicek 与南伊利诺伊大学的 Sevincgul Ulu、罗格斯大学的 Can Uslay 以及东北大学的 Kate Karniouchina 合作完成。他们选取了 719 条商业期刊论文中的研究假设,这类假设往往受多种变量影响,判断一项研究是否“支持”某一假设,本身就是高度复杂的推理过程,要将这种复杂性压缩成一个简单的“是/否”判断,对工具的理解与推理能力是严峻考验。

值得注意的是,团队分别在 2024 年测试了免费版 ChatGPT-3.5,并在 2025 年测试了更新的 ChatGPT-5 mini,结果显示两代模型在这一任务上的整体表现相近。在同样对随机猜对因素进行调整后,两次实验中模型相对于 50%“蒙对”概率的提高幅度都只有约 60%。

研究进一步指出,大型语言模型在“语言流畅度”和“真实推理能力”之间存在显著落差。这些系统可以生成结构完整、措辞自然且极具说服力的文本,但在更深层次的逻辑判断、证据权衡以及识别错误信息方面往往力不从心,这就可能产生“听起来很对、实际上有问题”的答案。

基于上述发现,研究人员建议企业管理者和决策者在使用 ChatGPT 等生成式 AI 工具时,应始终对输出结果进行核查,并保持必要怀疑态度。他们还呼吁在组织内加强用户培训,帮助员工理解这类工具的优势与局限,避免将其视为可以替代专业判断的“权威”。Cicek 指出,虽然本研究的被测对象是 ChatGPT,但其他类似 AI 系统在相关测试中的表现也大致相仿,这项工作也延续了此前关于“AI 过度炒作”的研究脉络。例如,一项 2024 年的全国性调查就显示,当企业在营销中强调“由 AI 驱动”时,反而会降低部分消费者的购买意愿。

“无论如何,都要保持怀疑。”Cicek 说,“我并不反对 AI,我自己也在用,但你必须非常小心地对待它。”

查看评论