今天我在百度世界 2025 现场,看完发布会最大的感受是:大模型这件事,终于把文、图、视、音统一了,主角就是刚发布的文心 5.0——百度推出的「原生全模态大模型」。 文心 5.0 新在哪里呢? 从一开始训练,就不是只看文字再加上图片、视频和音频,而是把「文、图、视、音」当成同一种东西,放在一个统一的架构里学。可以这么理解:不是先学语文,再加上几节美术和音乐课,而是从一开始就语文、美术、音乐一起学。 这带来两个直接的变化: 它可以一次性吞下下一段文字说明、几张图片、一段视频加一段语音; 输出也不再只能是文字,预览版已经支持文本 + 图片,多模态满血版会陆续开放到音频、视频生成。 更硬核的是底层: 文心 5.0 用的是超大规模 MoE(混合专家)结构,总参数超过 2 万亿,但每次推理真正“点亮”的只是一小部分专家,激活比例不到 3%。也就是说:体型巨大,但计算很“克制”,算得快。 事实上在文本能力上,文心 5.0 已经取得了亮眼的成绩:11 月 8 日的 LMArena 榜单里,ERNIE-5.0-Preview-1022 在文本排行榜做到全球并列第二、中国第一,在创意写作、复杂长问题理解、指令遵循这些能力上都压过了不少国内外主流模型。 听起来还是有点抽象?下面说说我在现场的实测。看图⬆️ #百度世界2025 #我在百度世界现场 #文心5