BBC最新研究发现,人工智能聊天机器人在新闻报道的准确性方面仍存在显著不足,生成的内容近一半存在错误。根据BBC与另外22家欧洲公共媒体机构联合发布的分析报告,在18个国家、14种语言环境下,AI聊天机器人在访问新闻机构内容并回答相关问题时,约有45%的回答存在错误。
这些错误不仅包括不准确的句子和误引原话,还涉及信息过时、引述错误,以及来源不匹配等问题。报告指出,聊天机器人经常提供与实际引用来源不符的链接,甚至在准确引用材料时,也无法区分事实与观点、讽刺与正规新闻。
各大科技公司——包括OpenAI、Google、微软等正在积极推广生成式AI聊天机器人,并将其深度整合到互联网平台,以协助用户自动化获取和分析信息。尽管开发者持续投入大量资源以减少“幻觉”现象(即AI内容捏造),但报告显示,这一问题短期内仍难以彻底解决。
在实际测试中,多款主流AI工具如ChatGPT、Copilot和Gemini都存在显著错误。例如,它们错误地称教皇方济各仍在任,而实际上已由利奥十四世继任。有些AI甚至正确报告了方济各的去世日期,却仍将其描述为现任教皇。此外,在相关领导人职位的信息上也出现过时、错误。

报告还显示,这些问题不仅局限于某一地区或语言,全球范围内都很普遍。其中Google的Gemini准确性最低,其回应中有高达72%存在显著的来源错误。OpenAI此前曾将此类错误归咎于早期版本仅训练至2021年9月,未能获取实时互联网信息,但目前已不适用,因此问题极有可能源于算法本身,难以通过数据更新根治。
虽然相比今年2月BBC单独测试时,严重错误比例已从51%下降至37%,但Gemini仍明显落后于其它产品。尽管结果表现不佳,研究人员发现英国公众对于AI新闻摘要表现出较高信任度:超过三分之一英国成年人、近半数35岁以下人士相信AI能准确总结新闻内容。有42%的公众表示,当AI误传原新闻内容时,会同时质疑新闻机构本身的可靠性,或者降低对其信任。专家警告,如果此类问题持续存在,生成式AI工具日益流行可能严重损害主流新闻机构的声誉与公信力。
