繼Qwen3.6-Plus發(fā)布之后,阿里巴巴(BABA)(09988)千問(wèn)大模型團(tuán)隊(duì)分享下一代旗艦?zāi)P偷脑缙陬A(yù)覽版:Qwen3.6-Max-Preview相比Qwen3.6-Plus,本次預(yù)覽版帶來(lái)了更強(qiáng)的世界知識(shí)和指令遵循能力,以及在多項(xiàng)基準(zhǔn)上顯著提升的智能體編程表現(xiàn)。作為預(yù)覽版,模型仍在積極迭代中,后續(xù)版本將持續(xù)優(yōu)化。Qwen3.6-Max-Preview主要特性包括:相比Qwen3.6-Plus顯著提升的智能體編程能力;更強(qiáng)的世界知識(shí)和指令遵循;更優(yōu)的真實(shí)場(chǎng)景智能體與知識(shí)可靠性表現(xiàn)。
模型性能
以下展示了 Qwen3.6-Max-Preview 與主流前沿模型的評(píng)測(cè)對(duì)比。相比 Qwen3.6-Plus,預(yù)覽版在智能體編程方面取得顯著提升(如 SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8),世界知識(shí)更強(qiáng)(SuperGPQA +2.3、QwenChineseBench +5.3),指令遵循也更優(yōu)(ToolcallFormatIFBench +2.8)。在權(quán)威三方評(píng)測(cè)Artificial Analysis剛剛更新的大模型榜單中,Qwen3.6-Max-Preview性能表現(xiàn)超過(guò)GLM5.1、MiniMax-M2.7等模型,登頂最佳國(guó)產(chǎn)模型。
開(kāi)始使用Qwen3.6-Max-Preview Qwen3.6-Max-Preview將通過(guò)阿里(BABA)云百煉 API 提供,模型名稱為 qwen3.6-max-preview。您也可以在 Qwen Studio 上即時(shí)體驗(yàn)。
API更新
阿里(BABA)云百煉支持行業(yè)標(biāo)準(zhǔn)協(xié)議,兼容 OpenAI 規(guī)范的聊天補(bǔ)全(chat completions)和響應(yīng)(responses)API,以及兼容 Anthropic 的 API 接口。
本次發(fā)布支持 preserve_thinking 功能:在消息中保留所有前序輪次的思維內(nèi)容,推薦用于智能體任務(wù)。
總結(jié)
Qwen3.6-Max-Preview 是千問(wèn)大模型下一代旗艦?zāi)P偷脑缙陬A(yù)覽版,在智能體編程、世界知識(shí)和指令遵循方面相比 Qwen3.6-Plus 均有顯著提升。它在六項(xiàng)主要編程基準(zhǔn)上取得最高分——SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench 和 SciCode——相比前代有大幅進(jìn)步。同時(shí)在知識(shí)(SuperGPQA、QwenChineseBench)和指令遵循(ToolcallFormatIFBench)方面也表現(xiàn)更優(yōu)。
作為預(yù)覽版,Qwen3.6-Max-Preview仍在積極開(kāi)發(fā)中。千問(wèn)大模型團(tuán)隊(duì)將持續(xù)迭代模型,后續(xù)版本將帶來(lái)進(jìn)一步提升。
目前,千問(wèn)3.6系列已推出Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash,并開(kāi)源Qwen3.6-35B-A3B。其中,Qwen3.6-Plus登頂全球最大的三方API調(diào)用平臺(tái)OpenRouter的日榜、周榜、趨勢(shì)榜冠軍,Qwen3.6-35B-A3B則登頂HuggingFace全球開(kāi)源大模型榜單冠軍,千問(wèn)3.6成為當(dāng)下最受企業(yè)和開(kāi)發(fā)者歡迎的大模型。
