百度一声不吭,扔出了新模型文心5.1,预训练成本居然比同级模型低了94%。 成本打折了,性能并没有跟着打折。 在LMArena的Search Arena榜单里,文心5.1拿到了1223分,全球第四,中国第一。 在智能体、知识问答、数学推理和复杂逻辑任务里,它的表现也相当能打:在自主AI Agent任务中击败了DeepSeek-V4-Pro,而在AIME26这种高难度数学测试中,在调用工具的情况下仅落后于谷歌的Gemini 3.1 Pro。 更有意思的是,它不是简单做了个小模型,而是换了训练思路。 他们用了一个叫Once-For-All的弹性训练框架,没有为每个尺寸的模型单独进行昂贵的预训练,而是一次性练一整个模型家族。在同一轮预训练里,他们同时优化不同大小、不同结构的子模型,它们共享大部分权重,只是在深度、宽度,以及调用多少专家模块上有所区别。 最后,团队再从这一整套模型里,挑出综合表现最好的那个,也就是文心5.1。 最终做出来的文心5.1,总参数量只有文心5.0的约三分之一,激活参数约为一半,但基础能力基本保住了。 训练完还没结束。 为了避免模型“学会写代码就忘了写文章,学会数学就不会聊天”这种能力互相打架的问题,百度还设计了一套四阶段后训练流程: 第一步,先用大规模通用数据做监督微调,打基础; 第二步,分别训练代码、推理、智能体等方向的专家模型; 第三步,把这些专家的能力蒸馏给一个统一模型; 第四步,再通过强化学习优化开放式对话和创造力。 也就是先培养一群偏科大神,再把他们的知识塞进一个全能选手里。 不过目前文心5.1和前代一样,依然是闭源模型,百度并没有开放模型权重,真实应用表现到底怎么样,还得看更多开发者和企业场景验证。 #ai #文心 #百度 #大模型 #人工智能 #预训练