小米开源 ControlFoley！视频音效可按文本和参考音控制

Adminser

昨天发布

0429

小米大模型应用团队开源 ControlFoley，针对视频自动配音难以控制的问题，把文本引导、文本控制和参考音频控制三类任务放进同一模型。团队选择开放代码、权重、技术报告、Demo 和 Skill，是为了验证可控视频音效生成框架。它能在画面语义冲突时服从文本，也能让参考音频只管音色，视频继续决定节奏，做短片、产品演示或素材处理时，声音从自动补全转向按意图调整。[[来源:https://yjx-research.github.io/ControlFoley_web_page/]]

文章版权归作者所有，未经允许请勿转载。

THE END

新晨报

喜欢就支持一下吧

请登录后发表评论

登录注册

暂无评论内容