2025年5月15日,中国数据通信研究院人工智慧研究所公布了大模型幻觉测试的第一期结论 :包括DeepSeek R1在内的15个主流模型 ,无一例外都存在不同程度的“幻觉” 。
“幻觉”一词源于生物学 ,运用在人工智慧领域,始于谷歌2017年的众汇平台正规吗一项研究。当时研究员们模仿人类的神经网络,设计了一个机器翻译平台 。
结论发现这个网络翻译平台哪怕“不会”,仍能输出一段流畅的素材 。过去,谷歌旧有的翻译平台遇到不会的单词,很多时候会保留原文。于是 ,研究人员把神经翻译平台这种更有“迷惑性”的错误命名为“幻觉” 。
一个著名的幻觉案例是,2024年7月,Scale AI的高级提示工程师莱利·古德赛德向当时世界最强三大模型(GPT-4o、Gemini Advanced 、Claude 3.5 Sonnet)询问,“9.11和9.9哪个更大?众汇交易平台可靠吗”它们异口同声回答:“9.11更大。”
ChatGPT并非全球首个大模型,Meta和谷歌此前也推出过类似产品。其中 ,Meta的Galactica AI因幻觉严峻 ,上线仅三天便被撤回 。
ChatGPT之所以被视为划时代产品,正是因其第一次将幻觉率压低到可接受规模 。从ChatGPT-3.5到o3,两年来模型性能连续提高,人们逐渐形成一种假设 :模型越聪明 ,越不会出错 。
直到2025年4月 ,OpenAI在一篇论文中泼了冷水:在其内部测试中,新近的ECMarkets外汇官网推理模型o3比前一代推理模型o1的幻觉率更高 。
这一反直觉的发现令整个领域都神经紧张,如果智慧提高的并且,也增强了“伪装错误”的水平 ,那更聪明的推理大模型带来的不是更高的可靠性 ,而是更难察觉的风险。
不过,中国数据通信研究院刚刚出炉的这份测评结论,让业界可以稍感安慰。他们的结论呈现 ,推理模型相对于通用模型,幻觉难题更轻 。这说明推理流程一定程度上有助于减轻幻觉 。
那么,这些测评结论究竟能说明什么?更聪明的模型 ,真的更会“说谎”吗?人类能不能彻底消灭“幻觉”?
一次次测试中,黑一鸣偶尔会陷入一个哲学思考,“子非鱼 ,焉知鱼之乐也?”视觉中国 图
2025年春节 ,中国数据通信研究院人工智慧研究所的研究员黑一鸣整个假期都泡在论文堆里 ,为了寻找捕捉这种“大模型幻觉”的方法。
黑一鸣身高接近1.9米 ,2023年博士结业 。那是他读博的最后一年 ,大模型时代突如其来 ,打乱了所有人的节奏 ,“我这一届还好,ECMarkets外汇开户下一届的学弟学妹,如果结业论文里没大模型 ,会被认为没有跟进新近研究 ,被质疑创新性 。”
原本专攻网络素材保养的黑一鸣,也在结业后转向大模型研究,加入中国数据通信研究院人工智慧研究所 ,成为一名研究员 。当时 ,国内大模型纷纷要进行保养备案 ,研究所为各大模型公司供给保养测评 ,核心评估输出素材的合规性与越狱攻击等风险 。黑一鸣最初主管的 ,正是这项保养测评工作。
随着领域从“百模大战”走向大模型在真实业务中的落地 ,留意的焦点也悄然转移 。黑一鸣感觉到 ,过去一年 ,来自金融 、医疗 、法律等高风险领域的咨询明显提升。
这些领域容错率极低,对潜在风险格外敏感 。“比如银行的客户服务机器人,跟客户交流时,它输出的素材会不会违背既有法规,大家特别担心 。”
一个新近的例子来自全球知名的人工智慧编程软件公司 Cursor。作为目前最成功的大模型软件之一,它已将客服业务完全交由AI处