中新網(wǎng)上海5月20日電(記者 許婧)上海交通大學電子信息與電氣工程學院計算機系“東方學者”特聘教授、博導、上海交大-思必馳智能語音技術(shù)聯(lián)合實驗室負責人俞凱20日表示,實驗室經(jīng)過研究,已突破傳統(tǒng)的語音識別功能,這種具有適應和思考能力的人機口語對話系統(tǒng),是一個人性化,會學習,能糾錯的“語音機器人”。
一直以來,讓機器能夠具有人性化的語音交互能力都是人工智能研究中的重難點。俞凱認為,傳統(tǒng)語音識別只是解決特定環(huán)境下的語音到文字轉(zhuǎn)換,這是模擬耳朵的感知功能;而更關(guān)鍵的是解決完整的口語人機交互問題,這是模擬人腦的全套認知功能。兩者結(jié)合,會使得機器可以適應更多的環(huán)境和口音,具有進化調(diào)整的能力,從“能聽會說”變成“會聽能做”:即聽得懂說的,懂得聽什么,聽不清楚了能問,搞錯了能糾正,最終能成功完成用戶的任務(wù)。
俞凱團隊研發(fā)的認知型人機對話系統(tǒng)技術(shù),將機械式的語音識別推廣到智能人機對話,使得人們在車載、家居等各種真實的復雜場景中,可以順暢自由的使用語音,隨時隨地與能夠理解自然語言的智能交互機器人進行對話交流,完成任務(wù)。
俞凱談到,雖然近年蓬勃發(fā)展的深度學習技術(shù)極大地促進了語音識別的識別率提升,但仍無法達不到百分之百的準確。尤其是在復雜環(huán)境和自由使用的時候,更顯得差強人意。而上海交大智能語音實驗室研發(fā)的語音識別自適應技術(shù),可以隨著說話人口音和噪聲環(huán)境的變化,自動選擇最合適的模型進行識別,顯著提升準確率。
此外,自適應技術(shù)使得機器有了自動學習能力,隨著在特定環(huán)境和說話人數(shù)據(jù)的積累,說得越多,學得越多,識別越精準。
上海交通大學-思必馳智能語音實驗室成立于2012年,實驗室負責人是畢業(yè)于劍橋大學的語音博士俞凱。俞凱帶領(lǐng)團隊長期堅持不懈地研究人工智能在人機交互中的應用,涉及語音識別、合成、理解、對話、聲紋、口語評估等智能語音交互技術(shù)的各個領(lǐng)域。目前,實驗室在智能語音技術(shù)方面,取得了一系列在國內(nèi)外領(lǐng)先的技術(shù)成果。
在真實工程系統(tǒng)上,上海交大與思必馳信息技術(shù)有限公司合作,率先發(fā)布了人性化的智能語音交互技術(shù)平臺:對話工場。并在此平臺下,以產(chǎn)學研一體化的模式,正在快速完成人性化的智能語音交互技術(shù)從學術(shù)研究到商業(yè)運作的轉(zhuǎn)變,進入民用市場,打造以用戶為中心的“語音機器人”,引領(lǐng)人機口語交互的“人工智能”潮流。