研究发现AI聊天机器人解读新闻的误率仍高达45%

BBC最新研究发现，人工智能聊天机器人在新闻报道的准确性方面仍存在显著不足，生成的内容近一半存在错误。根据BBC与另外22家欧洲公共媒体机构联合发布的分析报告，在18个国家、14种语言环境下，AI聊天机器人在访问新闻机构内容并回答相关问题时，约有45%的回答存在错误。

这些错误不仅包括不准确的句子和误引原话，还涉及信息过时、引述错误，以及来源不匹配等问题。报告指出，聊天机器人经常提供与实际引用来源不符的链接，甚至在准确引用材料时，也无法区分事实与观点、讽刺与正规新闻。

各大科技公司——包括OpenAI、Google、微软等正在积极推广生成式AI聊天机器人，并将其深度整合到互联网平台，以协助用户自动化获取和分析信息。尽管开发者持续投入大量资源以减少“幻觉”现象（即AI内容捏造），但报告显示，这一问题短期内仍难以彻底解决。

在实际测试中，多款主流AI工具如ChatGPT、Copilot和Gemini都存在显著错误。例如，它们错误地称教皇方济各仍在任，而实际上已由利奥十四世继任。有些AI甚至正确报告了方济各的去世日期，却仍将其描述为现任教皇。此外，在相关领导人职位的信息上也出现过时、错误。

报告还显示，这些问题不仅局限于某一地区或语言，全球范围内都很普遍。其中Google的Gemini准确性最低，其回应中有高达72%存在显著的来源错误。OpenAI此前曾将此类错误归咎于早期版本仅训练至2021年9月，未能获取实时互联网信息，但目前已不适用，因此问题极有可能源于算法本身，难以通过数据更新根治。

虽然相比今年2月BBC单独测试时，严重错误比例已从51%下降至37%，但Gemini仍明显落后于其它产品。尽管结果表现不佳，研究人员发现英国公众对于AI新闻摘要表现出较高信任度：超过三分之一英国成年人、近半数35岁以下人士相信AI能准确总结新闻内容。有42%的公众表示，当AI误传原新闻内容时，会同时质疑新闻机构本身的可靠性，或者降低对其信任。专家警告，如果此类问题持续存在，生成式AI工具日益流行可能严重损害主流新闻机构的声誉与公信力。