文章详情

专注互联网科技,赋能企业数字化发展

终于等到 AI 视频能控制音色的这一天

作者:终于等到 AI 视频能控制音色的这一天

终于等来了音色控制这个功能。 我估计和我一样经常做 AI 视频的人都有这样的感受。虽然 Veo3、Sora2、可灵 2.6 等模型都已经支持音画同步,但这些模型都没办法精细化控制音色。 比如昨天我做了一个 AI 视频,希望声音能够深沉一些,但怎么调提示词,都达不到预期效果。最后,我只能把 AI 视频的声音 Mute 掉,然后再额外配音。 特别麻烦。 刚刚,我惊喜地发现可灵 2.6 模型更新了。我们现在可以直接上传一段参考音色,用它来控制视频里人物的说话声音。 我刚把自己的音色传上去,哈哈哈,出来的 AI 视频果然可以按照我的音色说话了。声音还原度相当高,而且嘴型也对得上,张嘴的幅度也符合预期的物理规律,没有什么穿帮感。 更酷的是,还能说英语.....整个的发音有停顿,有抑扬顿挫,很真。 这点其实特别重要。因为这两年音画同步的产品已经不少了,Veo3、Sora 都能做到画面和声音一起出,但用过的人都知道,它们基本只能用系统给定的音色。声音好不好听是一回事,更麻烦的是我们几乎没法细调。 可灵 2.6 这次是全球第一个支持音色控制的视频模型。直接传一段参考音频,就可以精准控制人物的音色,这个对于 AI 视频创作而言,简直太重要了。 因为一旦可以直接传一段参考音频,声音就不再是随机结果,而是一个被明确指定的创作要素。就像选演员一样,先确定这个角色的声音气质,再让他说台词...... 这对讲故事尤其明显。故事里的人物,观众记住的往往不是脸,而是声音。语速、厚度、情绪、停顿,这些都会影响观众对角色的判断。 对宣传片也是一样。品牌视频讲的从来不只是信息,而是感觉。声音偏沉一点,画面立刻变得克制;声音偏轻一点,气质就会年轻很多。如果声音不可控,所有画面风格的精细调整都会被抵消掉。 音色控制,可能会成为 AI 视频模型的一个关键分水岭。 #可灵 #Veo3

返回新闻列表
Deepseek等国内AI大模型logo设计比较 2026超全DWG文件打开指南:手机电脑免费工具避坑实测 AI对文档的处理 PDF插入Word全攻略:6种方法实测+避坑指南 海贼王 强者系列—巴雷特