伊人六月,97自拍超碰,久久精品亚洲7777影院,五月婷婷综合在线观看,日本亚洲欧洲无免费码在线,2019国产精品视频,国产精品第一页在线

首頁(yè)  >  財(cái)經(jīng)  >  財(cái)經(jīng)要聞

智譜創(chuàng)始人唐杰:AI大模型“人類(lèi)終極測(cè)試”能力正快速提升

2026-01-10 21:24:00

來(lái)源:新浪科技

  新浪科技訊 1月10日下午消息,清華大學(xué)北京重點(diǎn)實(shí)驗(yàn)室、智譜AI發(fā)起的AGI-Next前沿峰會(huì)上,清華大學(xué)教授、智譜創(chuàng)始人唐杰指出,“2025年以來(lái),AI大模型在人類(lèi)終極測(cè)試(HLE)這一非常高難度智能評(píng)測(cè)基準(zhǔn)中的表現(xiàn)(成績(jī))開(kāi)始快速提升?!?/p>

  唐杰指出,2020年,AI大模型還只能解決MMU、QA等基礎(chǔ)問(wèn)題;到2021-2022年,通過(guò)后訓(xùn)練開(kāi)始具備數(shù)學(xué)推理(加減乘除)能力,補(bǔ)齊基礎(chǔ)推理短板;2023-2024年,大模型從知識(shí)記憶升級(jí)至復(fù)雜推理,開(kāi)始可應(yīng)對(duì)研究生階段問(wèn)題及SWE bench真實(shí)編程任務(wù),類(lèi)似人類(lèi)從小學(xué)到職場(chǎng)的能力成長(zhǎng)過(guò)程;而在2025年,模型在人類(lèi)終極測(cè)試中能力快速提升,該測(cè)試包含谷歌無(wú)法檢索的極端冷門(mén)問(wèn)題,需要模型具備強(qiáng)泛化能力。

  “一直以來(lái),我們都希望機(jī)器(AI)有泛化能力,人們教它一點(diǎn)點(diǎn),它就能舉一反三?!碧平苤赋?,雖然今天AI的泛化能力還有待大大提高,但智譜乃至于整個(gè)行業(yè)也正通過(guò)一系列手段來(lái)提高它。

  2020年左右,業(yè)界基于Transformer架構(gòu),通過(guò)擴(kuò)大數(shù)據(jù)量與算力,強(qiáng)化模型長(zhǎng)時(shí)知識(shí)記憶能力,實(shí)現(xiàn)基礎(chǔ)知識(shí)的直接調(diào)用(如回答“中國(guó)的首都是什么”)。到2022年左右,業(yè)界開(kāi)始通過(guò)對(duì)齊與推理優(yōu)化,強(qiáng)化復(fù)雜推理能力與意圖理解,核心手段是持續(xù)擴(kuò)展指令微調(diào)(SFT)與強(qiáng)化學(xué)習(xí),依托大量人類(lèi)反饋數(shù)據(jù)提升模型準(zhǔn)確性。而到2025年,業(yè)績(jī)開(kāi)始嘗試通過(guò)構(gòu)建可驗(yàn)證環(huán)境,讓機(jī)器自主探索、獲取反饋數(shù)據(jù)實(shí)現(xiàn)自我成長(zhǎng)并強(qiáng)化泛化能力,解決傳統(tǒng)人類(lèi)反饋數(shù)據(jù)噪音多、場(chǎng)景單一的問(wèn)題。(文猛)

免責(zé)聲明:本網(wǎng)對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類(lèi)版權(quán)申明,本網(wǎng)站無(wú)法鑒別所上傳圖片或文字的知識(shí)版權(quán),如果侵犯,請(qǐng)及時(shí)通知我們,本網(wǎng)站將在第一時(shí)間及時(shí)刪除。