小米大模型应用团队开源 ControlFoley,针对视频自动配音难以控制的问题,把文本引导、文本控制和参考音频控制三类任务放进同一模型。团队选择开放代码、权重、技术报告、Demo 和 Skill,是为了验证可控视频音效生成框架。它能在画面语义冲突时服从文本,也能让参考音频只管音色,视频继续决定节奏,做短片、产品演示或素材处理时,声音从自动补全转向按意图调整。[[来源:https://yjx-research.github.io/ControlFoley_web_page/]]
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END










暂无评论内容