阿里巴巴开源 800 亿参数模型 Qwen3-Next-80B-A3B

阿里巴巴推出开源大模型 Qwen3-Next-80B-A3B,该模型拥有 800 亿参数,但推理时仅激活 30 亿参数。此举大幅降低推理成本 90%,提升效率 10 倍,特别擅长处理超长文本。新模型采用混合专家架构,结合门控 DeltaNet 和门控注意力,有效克服传统注意力机制处理长文本的瓶颈,提升上下文学习能力。同时,它引入多 token 预测机制优化训练,训练成本仅为前代 Qwen3-32B 的 9.3%,性能更优。[[来源:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d]]

© 版权声明
THE END
喜欢就支持一下吧
点赞14赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容