Stability AI 昨日推出 Stable Audio 3,并开源小型与中型权重,大型版走商业授权。新模型采用 SAME 语义声学自编码器和扩散变换器,把音频压缩到 4096 倍,消费级硬件也能处理长音频。官方称 20 秒音频约 0.62 秒完成,380 秒音频约 1.31 秒完成,并支持局部编辑,配乐试听、版本替换和片段修补不必全段重做。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END

Stability AI 昨日推出 Stable Audio 3,并开源小型与中型权重,大型版走商业授权。新模型采用 SAME 语义声学自编码器和扩散变换器,把音频压缩到 4096 倍,消费级硬件也能处理长音频。官方称 20 秒音频约 0.62 秒完成,380 秒音频约 1.31 秒完成,并支持局部编辑,配乐试听、版本替换和片段修补不必全段重做。
暂无评论内容