阿里巴巴开源 800 亿参数模型 Qwen3-Next-80B-A3B

Adminser

9个月前发布

02314

阿里巴巴推出开源大模型 Qwen3-Next-80B-A3B，该模型拥有 800 亿参数，但推理时仅激活 30 亿参数。此举大幅降低推理成本 90%，提升效率 10 倍，特别擅长处理超长文本。新模型采用混合专家架构，结合门控 DeltaNet 和门控注意力，有效克服传统注意力机制处理长文本的瓶颈，提升上下文学习能力。同时，它引入多 token 预测机制优化训练，训练成本仅为前代 Qwen3-32B 的 9.3%，性能更优。[[来源:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d]]

文章版权归作者所有，未经允许请勿转载。

THE END

学习技术

喜欢就支持一下吧

请登录后发表评论

登录注册

暂无评论内容