科技日?qǐng)?bào)記者 吳長(zhǎng)鋒
想足不出戶游覽祖國(guó)大好河山?與表情豐富、情感細(xì)膩的虛擬人對(duì)話,無(wú)需穿戴設(shè)備就能開(kāi)啟一場(chǎng)身臨其境的沉浸式“云旅游”。
(相關(guān)資料圖)
這個(gè)AI能力“硬核”的虛擬導(dǎo)游,集成了“訊飛超腦2030計(jì)劃” 的多模感知、多維表達(dá)、深度理解等多項(xiàng)前沿技術(shù),讓真人和虛擬人可以非常自然地“穿越”不同場(chǎng)景對(duì)話,給人機(jī)交互帶來(lái)全新的沉浸式體驗(yàn)。
11月18日,2022科大訊飛全球1024開(kāi)發(fā)者節(jié)正式啟幕,在發(fā)布會(huì)上,科大訊飛AI研究院副院長(zhǎng)高建清以“AI新紀(jì)元,訊飛超腦2030”為主題,詳解“訊飛超腦2030計(jì)劃”階段性技術(shù)突破,一大波“預(yù)演未來(lái)”的創(chuàng)新應(yīng)用將走入生活。
2022年科大訊飛正式發(fā)布“訊飛超腦2030計(jì)劃”,要讓人工智能“懂知識(shí)、善學(xué)習(xí)、能進(jìn)化”,讓機(jī)器人走進(jìn)每一個(gè)家庭,讓機(jī)器遠(yuǎn)不止具備“你問(wèn)我答”的基礎(chǔ)智能,還擁有更強(qiáng)的交互、運(yùn)動(dòng)能力,以解決未來(lái)社會(huì)重大剛需命題。
高建清表示,實(shí)施“訊飛超腦2030計(jì)劃”,要突破人工智能共性基礎(chǔ)算法,攻克多模態(tài)感知、多維表達(dá)、認(rèn)知智能、運(yùn)動(dòng)智能等核心技術(shù),也要研究軟硬一體的機(jī)器人關(guān)鍵技術(shù)。此外,要探索虛擬人交互、機(jī)器人等方面的示范應(yīng)用。
“AI超腦”更懂知識(shí)
“支撐‘訊飛超腦2030計(jì)劃’的發(fā)展,有兩個(gè)關(guān)鍵算法亟待突破,無(wú)監(jiān)督學(xué)習(xí)和知識(shí)推理?!备呓ㄇ逭f(shuō),前者要實(shí)現(xiàn)實(shí)用化、場(chǎng)景化的預(yù)訓(xùn)練技術(shù),后者要構(gòu)建基于知識(shí)檢索、決策以及融合的推理系統(tǒng)。
科大訊飛設(shè)計(jì)了基于無(wú)監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練框架,并創(chuàng)新使用了少量有監(jiān)督數(shù)據(jù)進(jìn)行優(yōu)化,大幅提升訓(xùn)練效率。高建清說(shuō),“預(yù)訓(xùn)練模型支持語(yǔ)音識(shí)別、聲紋識(shí)別、情感識(shí)別、多模態(tài)語(yǔ)音識(shí)別等多個(gè)任務(wù),參數(shù)量遠(yuǎn)遠(yuǎn)少于業(yè)界公開(kāi)的模型,但效果卻達(dá)到了業(yè)界最優(yōu)?!?/p>
以回答“面包在低溫下會(huì)馬上發(fā)霉嗎”為例,機(jī)器要理解“低溫變質(zhì)慢”等常識(shí),在引入海量知識(shí)的基礎(chǔ)上,要用預(yù)訓(xùn)練模型進(jìn)行知識(shí)重要性排序,也要融合知識(shí)與問(wèn)題進(jìn)行推理,才能與人暢聊“面包變質(zhì)的二三事”。
科大訊飛還探索將神經(jīng)網(wǎng)絡(luò)與符號(hào)推理相結(jié)合,實(shí)現(xiàn)了推理過(guò)程的可解釋性。應(yīng)用于小學(xué)平面幾何題上,這個(gè)推理系統(tǒng)讓AI答題的正確率從完全不可用,提升到了90%的水平,顯著優(yōu)于傳統(tǒng)推理系統(tǒng)。
“唇形+語(yǔ)音”多模態(tài)感知
環(huán)境太吵、人聲太多,語(yǔ)音交互怎么辦?在“訊飛超腦2030計(jì)劃”中,“唇形+語(yǔ)音”的多模態(tài)語(yǔ)音增強(qiáng)技術(shù),喚醒智能語(yǔ)音交互新模式。
“機(jī)器想更自然地與人類進(jìn)行交互,需要通過(guò)聽(tīng)覺(jué)、視覺(jué)、語(yǔ)義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài),逐步擬人化。”高建清表示。
一個(gè)典型的場(chǎng)景是,當(dāng)你在嘈雜的環(huán)境中通話,旁邊其他人也在說(shuō)話,搭載了多模感知技術(shù)的應(yīng)用系統(tǒng)只“聽(tīng)”到你的聲音,不受旁邊嘈雜音干擾,從而非常順利地完成溝通。“這一方案,從用戶主觀理解度層面有了極大改善,是真正站在用戶體驗(yàn)的角度優(yōu)化系統(tǒng)的一種方法”,高建清表示,這個(gè)算法主要解決“語(yǔ)音識(shí)別準(zhǔn)確率高,但用戶體驗(yàn)不好”的現(xiàn)實(shí)問(wèn)題。
虛擬人有溫度有個(gè)性
如何讓機(jī)器的聲音媲美人類?高建清分享了科大訊飛在語(yǔ)音合成技術(shù)領(lǐng)域的新突破——多風(fēng)格多情感合成系統(tǒng)SMART-TTS,語(yǔ)音合成從簡(jiǎn)單的信息播報(bào)“變身”具備喜怒哀樂(lè)情感的語(yǔ)音助手。
高建清介紹,SMART-TTS系統(tǒng)可提供“高興、抱歉、撒嬌、嚴(yán)肅、悲傷、困惑、害怕、鼓勵(lì)、生氣、安慰、寵溺”等11種情感,每種情感有20檔強(qiáng)弱度不同的調(diào)節(jié)能力;也能提供聲音的創(chuàng)造能力,如停頓、重音、語(yǔ)速等,可以根據(jù)自己喜好調(diào)節(jié),真正實(shí)現(xiàn)了合成系統(tǒng)媲美具備個(gè)性化特點(diǎn)的真人表達(dá)能力。
當(dāng)你漫步林蔭路,TA可以用字正腔圓的“播音腔”為你讀新聞;當(dāng)你結(jié)束一天工作準(zhǔn)備入睡,TA可以輕聲細(xì)語(yǔ)讀為你散文;當(dāng)你驅(qū)車去公司上班,TA可以用你最喜歡的歌手聲音告訴你走哪條路不堵車;當(dāng)你和家人一起觀看紀(jì)錄片,TA可以為紀(jì)錄片不同人物配音,人機(jī)交互表達(dá)自然、情感飽滿。
目前,訊飛有聲APP和訊飛開(kāi)放平臺(tái)都開(kāi)放了SMART-TTS語(yǔ)音合成系統(tǒng),開(kāi)發(fā)者可以在訊飛有聲直接下載體驗(yàn),或在開(kāi)放平臺(tái)進(jìn)行調(diào)用。高建清透露,訊飛開(kāi)放平臺(tái)將開(kāi)放500個(gè)虛擬合成的聲音。
用AI解決社會(huì)剛需命題
基于多模態(tài)交互,以及醫(yī)療認(rèn)知技術(shù), 訊飛研發(fā)了一套抑郁癥定量篩查系統(tǒng)?!翱赡M心理醫(yī)生的問(wèn)診思路進(jìn)行交互設(shè)計(jì),用戶通過(guò)與機(jī)器聊天的方式即可初步實(shí)現(xiàn)病情的定量評(píng)估,篩查效果達(dá)到91.2%?!?/p>
據(jù)悉,這一系統(tǒng)已經(jīng)在北京安定醫(yī)院等醫(yī)療機(jī)構(gòu)進(jìn)行了試點(diǎn)應(yīng)用?!拔磥?lái),基于定量篩查基礎(chǔ)能力,我們將研發(fā)抑郁癥篩查平臺(tái),向更多的學(xué)校推廣,助力青少年的心理成長(zhǎng)?!备呓ㄇ灞硎?。
作為“訊飛超腦2030計(jì)劃”的階段性成果,今年訊飛打造了多款專業(yè)虛擬人,分別用于客服、助理、招聘、財(cái)務(wù)、法務(wù)等行業(yè)的工作,目前已為金融、電信、媒體等多行業(yè)提供專業(yè)虛擬人解決方案,為“數(shù)字經(jīng)濟(jì)”服務(wù)。
(科大訊飛供圖)
關(guān)鍵詞: