界面新聞獲悉,1月26日晚,阿里正式推出千問系列旗艦推理模型Qwen3-Max-Thinking。根據(jù)阿里公布的數(shù)據(jù),該模型在19項權(quán)威基準測試中的表現(xiàn)媲美OpenAI的GPT-5.2-Thinking、谷歌的Gemini 3 Pro等國際頂尖模型,標志著國產(chǎn)大模型在高階推理領(lǐng)域?qū)崿F(xiàn)重要突破。
該模型總參數(shù)量超萬億,預(yù)訓(xùn)練數(shù)據(jù)量達36T Tokens,經(jīng)大規(guī)模強化學(xué)習(xí)打磨而成。相較于前代模型,其核心改進集中在兩方面。
一是自適應(yīng)工具調(diào)用能力,可按需調(diào)用搜索引擎和代碼解釋器,現(xiàn)已上線Qwen Chat。與早期需要用戶手動選擇工具的方法不同,Qwen3-Max-Thinking能在對話中自主選擇并調(diào)用其內(nèi)置的搜索、記憶和代碼解釋器功能。這種能力讓模型能像專業(yè)人士一樣自主判斷是否調(diào)用搜索、記憶或代碼解釋器,比如解答實時政策問題時自動檢索最新信息,處理工程計算時啟動代碼工具驗證結(jié)果,無需用戶額外指令即可降低“幻覺”風險。
Qwen3-Max-Thinking相關(guān)測試數(shù)據(jù) 圖片來源:千問另一個是測試時擴展技術(shù)(Test-Time Scaling),指在推理階段分配額外計算資源以提升模型性能的技術(shù)。據(jù)稱顯著提升推理性能,在關(guān)鍵推理基準上超越Gemini 3 Pro。
一般AI遇到難題,會同時想很多思路,很多是重復(fù)的,白白耗算力。該技術(shù)則通過“經(jīng)驗提取”式反思,避免傳統(tǒng)模型并行推理的冗余計算,在相同算力下聚焦未解決難點,使GPQA科學(xué)知識測試得分從90.3提升至92.8,LiveCodeBench編程測試從88.0升至91.4。
針對Qwen3-Max-Thinking的更多性能評估 圖片來源:千問在性能比拼中,該模型在被稱為“人類最后的測試”的HLE工具調(diào)用基準中,以58.3分遠超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分;IMO級數(shù)學(xué)推理測試獲91.5分登頂,預(yù)覽版更曾拿下AIME 25與HMMT 25雙滿分。
目前,普通用戶可通過千問PC端、網(wǎng)頁端免費體驗,企業(yè)則能通過阿里云百煉獲取API服務(wù)。
1月21日,全球最大AI開源社區(qū)Hugging Face最新數(shù)據(jù)顯示,阿里千問衍生模型數(shù)突破20萬個,成為全球首個達成此目標的開源大模型;同時,千問系列模型下載量突破10億次,平均每天被下載110萬次,已完全超越美國Llama,穩(wěn)居開源大模型全球第一。
阿里CEO吳泳銘去年曾表示,公司正在積極推進三年3800億的AI基礎(chǔ)設(shè)施建設(shè)計劃,并將會持續(xù)追加更大的投入。這一投入規(guī)模與谷歌、Meta和亞馬遜等美股科技巨頭的AI資本開支處于同一量級。