终于等到 AI 视频能控制音色的这一天

作者：终于等到 AI 视频能控制音色的这一天

终于等来了音色控制这个功能。我估计和我一样经常做 AI 视频的人都有这样的感受。虽然 Veo3、Sora2、可灵 2.6 等模型都已经支持音画同步，但这些模型都没办法精细化控制音色。比如昨天我做了一个 AI 视频，希望声音能够深沉一些，但怎么调提示词，都达不到预期效果。最后，我只能把 AI 视频的声音 Mute 掉，然后再额外配音。特别麻烦。刚刚，我惊喜地发现可灵 2.6 模型更新了。我们现在可以直接上传一段参考音色，用它来控制视频里人物的说话声音。我刚把自己的音色传上去，哈哈哈，出来的 AI 视频果然可以按照我的音色说话了。声音还原度相当高，而且嘴型也对得上，张嘴的幅度也符合预期的物理规律，没有什么穿帮感。更酷的是，还能说英语.....整个的发音有停顿，有抑扬顿挫，很真。这点其实特别重要。因为这两年音画同步的产品已经不少了，Veo3、Sora 都能做到画面和声音一起出，但用过的人都知道，它们基本只能用系统给定的音色。声音好不好听是一回事，更麻烦的是我们几乎没法细调。可灵 2.6 这次是全球第一个支持音色控制的视频模型。直接传一段参考音频，就可以精准控制人物的音色，这个对于 AI 视频创作而言，简直太重要了。因为一旦可以直接传一段参考音频，声音就不再是随机结果，而是一个被明确指定的创作要素。就像选演员一样，先确定这个角色的声音气质，再让他说台词...... 这对讲故事尤其明显。故事里的人物，观众记住的往往不是脸，而是声音。语速、厚度、情绪、停顿，这些都会影响观众对角色的判断。对宣传片也是一样。品牌视频讲的从来不只是信息，而是感觉。声音偏沉一点，画面立刻变得克制；声音偏轻一点，气质就会年轻很多。如果声音不可控，所有画面风格的精细调整都会被抵消掉。音色控制，可能会成为 AI 视频模型的一个关键分水岭。 #可灵 #Veo3

文章详情

终于等到 AI 视频能控制音色的这一天