6大主流大语言模型幻觉评测，谁第一？

作者：6大主流大语言模型幻觉评测，谁第一？

国产大模型最近势头很猛，成为了很多人心中的“万能”，但幻觉问题常常被大家忽视。在Vectara HHEM人工智能幻觉测试中，DeepSeek-R1显示出14.3%的幻觉率，是 DeepSeek-V3的近4倍，也远超行业平均水平。该数值越大，就意味着/模型生成的内容与事实越不符。为什么会出现幻觉现象？简单来讲，大语言模型的本质是通过概率预测机制生成文本，即根据上下文和统计学模型，预测下一个最可能出现的词汇。这种方式虽能模仿人类语言的流畅性和逻辑性，但并不意味着AI理解了这些内容的含义，或者验证了它们的真实性。而最近网络上流传了一份对于非幻觉率的榜单中，不难看出百度文心一言4.0模型在目前的国产AI当中表现最好，我们尝试向文心一言和DeepSeek分别提问“如有天置地门外的下一句是什么”就能发现其中的端倪：文心一言准确的根据数据比对，检索到了这首歌是张敬轩的《樱花树下》，而DeepSeek却显露了“幻觉问题”，根据词语意向，错的匹配甚至是捏造出了答案。综上，大模型的幻觉问题会很严重的影响消费者对于大模型的使用体验，其对于难以有分别能力的普通消费者，往往有很大的影响，期待各家大模型在幻觉问题上，通入更多力量。 #大模型 #人工智能就业 #多模态人工智能 #AI工具 #人工智能发展 #开发者选项 #人类未来猜想 #虚拟现实技术 #AI人工智能 #科技与人文

文章详情

6大主流大语言模型幻觉评测，谁第一？