百度首席科學(xué)家吳恩達(dá)
百度首席科學(xué)家吳恩達(dá)在百度語音開放平臺(tái)三周年分享會(huì)上發(fā)表演講。“我覺得在人工智能時(shí)代,中國(guó)人應(yīng)該比較有自信?!卑俣仁紫茖W(xué)家吳恩達(dá)在百度語音開放平臺(tái)三周年分享會(huì)上表示。
11月22日,百度語音開放平臺(tái)上線三周年之際,百度宣布向公眾開放四項(xiàng)全新語音技術(shù)的接口,即情感合成、遠(yuǎn)場(chǎng)方案、喚醒二期技術(shù)和長(zhǎng)語音方案。
作為百度人工智能產(chǎn)品百度大腦的負(fù)責(zé)人,吳恩達(dá)說,百度大腦項(xiàng)目中一部分非常重要的工作,就是把領(lǐng)先的技術(shù)輸出給開發(fā)者和用戶使用。
談及中國(guó)人工智能在世界上的位置,吳恩達(dá)認(rèn)為,很多進(jìn)展是中國(guó)人完成的,“有人有點(diǎn)擔(dān)心同美國(guó)的技術(shù)(競(jìng)爭(zhēng)),中國(guó)人應(yīng)該比較有自信。在人工智能時(shí)代,(有)很多(人工智能的)技術(shù)在中國(guó),也有很多(人工智能的)技術(shù)在美國(guó)?!?/span>
吳恩達(dá)稱他無法評(píng)價(jià)中美科技公司在人工智能方面的優(yōu)劣,“不過我看到的具體例子是,人工智能技術(shù)的發(fā)現(xiàn)在中國(guó)比較多?!?/span>
吳恩達(dá)重申了百度大腦的核心技術(shù)部分,即語音技術(shù)、圖像處理、自然語言、用戶畫像、機(jī)器學(xué)習(xí)。他對(duì)人工智能的未來充滿信心,“我希望未來我們會(huì)有(基于人工智能的)陪伴機(jī)器人、個(gè)性化私教、音樂作曲、機(jī)器人醫(yī)生等?!?/span>
百度首席科學(xué)家吳恩達(dá)詳解百度語音技術(shù)之識(shí)別技術(shù)發(fā)展軌跡。據(jù)悉,百度的手機(jī)百度、百度地圖、百度輸入法等產(chǎn)品已經(jīng)支持語音輸入?!岸让亍睓C(jī)器人已經(jīng)在在肯德基首家概念店“Original+”中使用, 顧客不但可以和度秘對(duì)話,還能通過語音完成從點(diǎn)餐到支付的全流程。
吳恩達(dá)稱,語音技術(shù)未來在很多應(yīng)用場(chǎng)景會(huì)有很好的機(jī)會(huì),將為人機(jī)交互領(lǐng)域帶來巨大改變。吳恩達(dá)認(rèn)為,未來人們回家以后可以使用語音與電視、搖控器、音箱、窗簾等“講話”。此外,吳恩達(dá)認(rèn)為語音技術(shù)在智能客服中心、汽車等領(lǐng)域的應(yīng)用也是重要的人機(jī)交互場(chǎng)景。
百度方面在11月23日宣稱,百度語音開放平臺(tái)自2013年10月上線以來,每日在線語音識(shí)別要求從2013年的500萬上升到今天的1億4千萬,在線語音合成每日請(qǐng)求達(dá)2億,開發(fā)者數(shù)量超過14萬。技術(shù)指標(biāo)方面,百度語音識(shí)別準(zhǔn)確率目前已高達(dá)97%。
2016年2月,百度深度語音識(shí)別系統(tǒng)Deep Speech 2入選MIT“ 2016十大突破技術(shù)”。
吳恩達(dá)還向澎湃新聞?dòng)浾吲e了喚醒二期語音技術(shù)應(yīng)用的例子,該技術(shù)可以應(yīng)用在自拍場(chǎng)景下,通過設(shè)置自定義喚醒詞,人們只需喊“1、2、3”就可以輕松完成拍照,喚醒率達(dá)95%。語音喚醒功能的適用場(chǎng)景非常廣泛,吳恩達(dá)認(rèn)為開發(fā)者有很多機(jī)會(huì)利用百度語音喚醒技術(shù)實(shí)現(xiàn)多元化的產(chǎn)品功能。
吳恩達(dá)告訴澎湃新聞,百度語音技術(shù)除了應(yīng)用到百度旗下地圖等產(chǎn)品外,還希望支持第三方公司,“我們把語音技術(shù)放進(jìn)我們自己的產(chǎn)品中,在產(chǎn)品中獲得了非常好的結(jié)果,讓用戶使用我們的產(chǎn)品的時(shí)候,即可以用語音輸入,也可以用語音合成……我們希望可以支持第三方的公司,也把這些技術(shù)放進(jìn)他們的產(chǎn)品,讓他們也獲得一樣有效的結(jié)果?!?/span>
以下為吳恩達(dá)在百度語音開放平臺(tái)上線三周年活動(dòng)上的演講實(shí)錄:
大家好,非常高興大家今天來參加我們的語音開放平臺(tái)三周年發(fā)布會(huì)。
我是“百度大腦”的項(xiàng)目負(fù)責(zé)人吳恩達(dá),在百度大腦的項(xiàng)目中有一部分非常重要的工作,就是把領(lǐng)先的技術(shù)輸出給大家使用。在百度大腦開放平臺(tái)(ai.baidu.com)上,我們不僅輸出人工智能技術(shù),也有很多有關(guān)人工智能技術(shù)的培訓(xùn)資料。
那么,百度大腦到底是什么呢?它核心的幾個(gè)技術(shù)部分為:語音、圖像、自然語言處理、用戶畫像、機(jī)器學(xué)習(xí)平臺(tái)。我發(fā)現(xiàn)很多人使用百度的語音技術(shù)有兩大原因,第一個(gè)原因,百度有非常領(lǐng)先的技術(shù)為他們的用戶提供更好的體驗(yàn);第二個(gè)原因,我個(gè)人做了好幾十年有關(guān)人工智能的項(xiàng)目,發(fā)現(xiàn)通常你剛開始做一個(gè)項(xiàng)目的時(shí)候,只是需要語音技術(shù),當(dāng)做了幾個(gè)月以后,你發(fā)現(xiàn)還需要圖像技術(shù)或者自然語言處理技術(shù)等等。如果你是使用百度大腦開放平臺(tái),你可以比較容易的選擇真正需要的技術(shù)部分把它放進(jìn)來,把它融合,為你做到好的效果。再比如說你想服務(wù)一個(gè)智能客戶,開始的時(shí)候覺得只需要語音識(shí)別、語音合成技術(shù),但是做了幾個(gè)月以后,發(fā)現(xiàn)你需要領(lǐng)先的自然語言處理技術(shù)。如果你是使用百度大腦開放平臺(tái),希望你比較容易拿到這些技術(shù)放到自己的產(chǎn)品中。
我個(gè)人對(duì)人工智能的未來充滿信心,我希望未來我們會(huì)有陪伴機(jī)器人、個(gè)性化私教、音樂作曲、機(jī)器人醫(yī)生等等。這些年人工智能技術(shù)發(fā)展得非常快,這給我們,也給你們帶來很多新的機(jī)會(huì),在百度是沒有辦法探索這么多非常有潛力的機(jī)會(huì),所以我們的目標(biāo)就是把我們的人工智能技術(shù)輸出給大家,希望可以支持你們?cè)诜浅S袧摿Φ捻?xiàng)目上探索,而且支持你們?cè)谶@些項(xiàng)目中獲得非常好的結(jié)果。
今天大會(huì)的主題就是語音技術(shù)。大家可能已經(jīng)知道,在很多重要的百度產(chǎn)品中,我們已經(jīng)支持語音輸入,包括手機(jī)百度、百度地圖、百度輸入法。如果你還沒有試過百度輸入法,我希望你試一試,我輸入信息時(shí)就挺喜歡用百度輸入法。還有度秘,近我們把度秘放入各類硬件中,比如小度機(jī)器人。度秘系統(tǒng)可以為客戶點(diǎn)餐,把度秘和機(jī)器人融合,也可以讓各種用戶有新的體驗(yàn)。
這幾年來,我們的團(tuán)隊(duì)在不斷地優(yōu)化語音識(shí)別系統(tǒng),在2012年開始使用DNN模型,后來有比較好的特征,之后開始用Sequence Discriminative Training,也開始使用LSTM模型,加上CTC,今年我們的團(tuán)隊(duì)開發(fā)了Deep CNN模型,效果在不斷進(jìn)步,這就是我們的語音識(shí)別系統(tǒng)。
此外,我們的語音合成模型也變得越來越好,這幾年來我們?cè)诤脦讉€(gè)技術(shù)方面有比較大的突破,我們的語音合成效果也變得越來越好?,F(xiàn)在百度在中國(guó)語音合成的能力是遠(yuǎn)遠(yuǎn)超過其他公司的,今天下午我們的語音團(tuán)隊(duì)負(fù)責(zé)人也會(huì)和大家分享更多細(xì)節(jié)。
因?yàn)槲覀兊恼Z音技術(shù)、自然語言處理技術(shù)、我們的人機(jī)交互技術(shù)進(jìn)步得這么快,2016年2月,《MIT科技評(píng)論》把我們的技術(shù)列為“2016十大突破性技術(shù)”之一,我們覺得這些技術(shù)有很大的潛力,可以改變?nèi)藱C(jī)交互的效率和辦法。
未來語音技術(shù)在很多應(yīng)用場(chǎng)景有很好的機(jī)會(huì),為人機(jī)交互帶來巨大的改變。舉個(gè)例子,在智能家居的場(chǎng)景,我們希望未來你回家以后可以使用語音跟你的電視、遙控器、音箱、窗簾講話,比如說希望你未來可以向你的電燈說,“電燈請(qǐng)打開”,它就明白你的命令,或者對(duì)遙控器說話,它就能非常方便的滿足你的需求。其實(shí)智能家居只是一個(gè)應(yīng)用場(chǎng)景,我覺得在很多應(yīng)用場(chǎng)景中,語音技術(shù)都可以帶來人機(jī)交互非常大的改變,這包括手機(jī)、音箱、電視等等。希望語音能讓你做更好的智能客服中心。在汽車領(lǐng)域,語音也是一個(gè)非常重要的人機(jī)交互的場(chǎng)景,我們有很多合作伙伴正在使用我們的語音技術(shù)探索這些應(yīng)用場(chǎng)景。
后,今天我們已經(jīng)知道,尤其是在手機(jī)端,我們知道語音輸入比鍵盤打字更快、更方便、更準(zhǔn)確。下一位進(jìn)行演講的是我的好朋友,也是斯坦福大學(xué)James Landay教授,他也會(huì)為大家分享有關(guān)這方面的研究,就是使用百度的語音識(shí)別系統(tǒng),如果你使用這個(gè)系統(tǒng),在手機(jī)端輸入就可以更快、更方便、更自然。
語音輸入這么方便,希望未來語音輸入會(huì)變得更普及。大家想一想,如果你跟我想交流,自然的辦法就是你跟我講一句話,或者我跟你講一句話,所以人和人交流自然的辦法還是語音。這幾年來,語音和自然語言處理和度秘這種技術(shù)進(jìn)步這么快,今天很多場(chǎng)景,人機(jī)交互自然的辦法已經(jīng)是語音。人機(jī)交互不只是你跟電腦或者和設(shè)備講話,你的電腦和設(shè)備也需要告訴你它的意見,所以我們的語音技術(shù)也可以讓這些設(shè)備非常自然的告訴你它的意見。
后,因?yàn)槿斯ぶ悄埽绕涫钦Z音技術(shù)這幾年發(fā)展得很快。在百度大腦已經(jīng)有好幾種不同的人工智能技術(shù),其中比較成熟的,就是我們的語音技術(shù)。所以語音技術(shù)已經(jīng)給我們,也給大家,也給你們,給你的公司,給開發(fā)者很多新的機(jī)會(huì)。所以,我希望我們輸出語音技術(shù),希望它可以為大家提供非常好的服務(wù),也希望我們可以使用我們的技術(shù)支持你們探索這些新機(jī)會(huì),希望你們可以使用這些技術(shù),支持你們?cè)谶@些新機(jī)會(huì)中獲得非常好的成果。
(來源:澎湃新聞)
官方微博
官方微信公眾號(hào)
官方百家號(hào)