同一问题问10次会让ChatGPT怀疑人生多次自相矛盾

0 Win10s.COM 2026-03-19 13:28:29

摘要：

美国华盛顿州立大学一项最新研究显示，在面对复杂科学论断时，大型语言模型 ChatGPT 虽然回答听上去十分自信，却经常“猜答案”，不仅准确率有限，而且在同一问题上前后矛盾，尤其难以识别虚假信息。

该研究由华盛顿州立大学商学院市场与国际商务系副教授 Mesut Cicek 领衔，他与团队从科学研究论文中提取了大量假设性陈述，反复提交给 ChatGPT，请其判断这些陈述是否得到现有研究支持，实质上是让 AI 对“真伪”做出判断。研究人员共选取了 719 条来自 2021 年以来商业期刊论文中的研究假设，每条假设向 ChatGPT 提交 10 次，以考察其回答的一致性。

在首次于 2024 年开展的实验中，ChatGPT 的“表面”正确率为 76.5%；2025 年重复实验后，这一数字略升至 80%。然而，研究团队在剔除“蒙对”的因素、对结果按随机猜测进行统计学调整后发现，模型真实表现与“掷硬币”随机作答相比只高出约 60%，远谈不上可靠，在研究者看来更接近一个“低分的 D 等成绩”。尤其是在识别错误陈述方面，ChatGPT 的表现格外薄弱，对“假命题”的正确判断率仅为 16.4%。

一致性问题同样突出。即便在完全相同的提示词下，多次重复提问，ChatGPT 也并非总给出同一结论。Cicek 指出，在 10 次重复问答中，模型只有约 73% 的案例保持了回答一致。在一些具体例子中，同一假设的 10 次回答中，ChatGPT 会出现“真、假交替”的情况，甚至出现“一半回答为真、一半回答为假”的极端情形。

这项研究发表在《Rutgers 商业评论》（Rutgers Business Review），作者认为结果凸显了在重要决策领域使用生成式 AI 时必须格外谨慎，尤其是那些涉及复杂推理和细微差别的情境。Cicek 强调，当前的大型语言模型可以用非常流畅、有说服力的语言回答问题，但这并不意味着它们具有真正的“理解能力”。“现有的 AI 工具并不是以人类那种方式理解世界——它们没有真正的‘大脑’。”他说，“它们主要是在记忆和匹配，可以提供一些洞见，但并不真正知道自己在说什么。”

在具体方法上，研究团队由 Cicek 与南伊利诺伊大学的 Sevincgul Ulu、罗格斯大学的 Can Uslay 以及东北大学的 Kate Karniouchina 合作完成。他们选取了 719 条商业期刊论文中的研究假设，这类假设往往受多种变量影响，判断一项研究是否“支持”某一假设，本身就是高度复杂的推理过程，要将这种复杂性压缩成一个简单的“是/否”判断，对工具的理解与推理能力是严峻考验。

值得注意的是，团队分别在 2024 年测试了免费版 ChatGPT-3.5，并在 2025 年测试了更新的 ChatGPT-5 mini，结果显示两代模型在这一任务上的整体表现相近。在同样对随机猜对因素进行调整后，两次实验中模型相对于 50%“蒙对”概率的提高幅度都只有约 60%。

研究进一步指出，大型语言模型在“语言流畅度”和“真实推理能力”之间存在显著落差。这些系统可以生成结构完整、措辞自然且极具说服力的文本，但在更深层次的逻辑判断、证据权衡以及识别错误信息方面往往力不从心，这就可能产生“听起来很对、实际上有问题”的答案。

基于上述发现，研究人员建议企业管理者和决策者在使用 ChatGPT 等生成式 AI 工具时，应始终对输出结果进行核查，并保持必要怀疑态度。他们还呼吁在组织内加强用户培训，帮助员工理解这类工具的优势与局限，避免将其视为可以替代专业判断的“权威”。Cicek 指出，虽然本研究的被测对象是 ChatGPT，但其他类似 AI 系统在相关测试中的表现也大致相仿，这项工作也延续了此前关于“AI 过度炒作”的研究脉络。例如，一项 2024 年的全国性调查就显示，当企业在营销中强调“由 AI 驱动”时，反而会降低部分消费者的购买意愿。

“无论如何，都要保持怀疑。”Cicek 说，“我并不反对 AI，我自己也在用，但你必须非常小心地对待它。”

查看评论

今日最热

加载中...

最新资讯

今日最热