百度文心5.0发布，我在现场体验全模态大模型

作者：百度文心5.0发布，我在现场体验全模态大模型

今天我在百度世界 2025 现场，看完发布会最大的感受是：大模型这件事，终于把文、图、视、音统一了，主角就是刚发布的文心 5.0——百度推出的「原生全模态大模型」。文心 5.0 新在哪里呢？从一开始训练，就不是只看文字再加上图片、视频和音频，而是把「文、图、视、音」当成同一种东西，放在一个统一的架构里学。可以这么理解：不是先学语文，再加上几节美术和音乐课，而是从一开始就语文、美术、音乐一起学。这带来两个直接的变化：它可以一次性吞下下一段文字说明、几张图片、一段视频加一段语音；输出也不再只能是文字，预览版已经支持文本 + 图片，多模态满血版会陆续开放到音频、视频生成。更硬核的是底层：文心 5.0 用的是超大规模 MoE（混合专家）结构，总参数超过 2 万亿，但每次推理真正“点亮”的只是一小部分专家，激活比例不到 3%。也就是说：体型巨大，但计算很“克制”，算得快。事实上在文本能力上，文心 5.0 已经取得了亮眼的成绩：11 月 8 日的 LMArena 榜单里，ERNIE-5.0-Preview-1022 在文本排行榜做到全球并列第二、中国第一，在创意写作、复杂长问题理解、指令遵循这些能力上都压过了不少国内外主流模型。听起来还是有点抽象？下面说说我在现场的实测。看图⬆️ #百度世界2025 #我在百度世界现场 #文心5

文章详情

百度文心5.0发布，我在现场体验全模态大模型