在與機(jī)器進(jìn)行語(yǔ)音交談時(shí),人們都更傾向于希望機(jī)器的聲音有一定的語(yǔ)調(diào)和情感,這樣比起那些機(jī)械、一字一頓的機(jī)器聲更受歡迎。主要還是因?yàn)樽屓烁杏X(jué)「我在跟一個(gè)人說(shuō)話」。
在業(yè)界,要達(dá)到這一效果,通常有兩種解決方案:一是拼接式語(yǔ)音合成(Concatenative Synthesis),先錄制單個(gè)說(shuō)話者的大量語(yǔ)音片段,形成一定規(guī)模的語(yǔ)料庫(kù),接著從中提取特征以完成相應(yīng)的語(yǔ)段音頻。二是參數(shù)化的方法,利用數(shù)學(xué)模型對(duì)已知的聲音進(jìn)行排列、組裝成詞語(yǔ)或句子來(lái)重新創(chuàng)造音頻。
相比拼接式的語(yǔ)音合成,參數(shù)化方法所形成的語(yǔ)音片段更自然,但兩種方法都是對(duì)語(yǔ)音進(jìn)行機(jī)械式的拼接,且其中還需要經(jīng)過(guò)多道復(fù)雜的程序才得以完成,稱得上是一項(xiàng)大型工程。日常的語(yǔ)音導(dǎo)航系統(tǒng)就是依靠這樣的方法進(jìn)行語(yǔ)音、語(yǔ)調(diào)的合成。
在百度位于美國(guó)硅谷的人工智能實(shí)驗(yàn)室(AI Lab),除了自動(dòng)駕駛技術(shù)之外,他們還有一項(xiàng)重要的研究項(xiàng)目——Deep Voice,該項(xiàng)目組主要致力于人工智能語(yǔ)音技術(shù)研發(fā)。
在今年3 月份,該研究部門首次向外界推出了Deep Voice(深度語(yǔ)音系統(tǒng)),該系統(tǒng)是一個(gè)完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語(yǔ)音轉(zhuǎn)文本(TTS,Text-to-Speech)系統(tǒng),大的亮點(diǎn)在于能實(shí)時(shí)合成人工語(yǔ)音。
Deep Voice 仿照傳統(tǒng)文字轉(zhuǎn)語(yǔ)音的途徑,采用相似的結(jié)構(gòu),替換上相應(yīng)的組件。其實(shí)現(xiàn)主要依靠由深度學(xué)習(xí)網(wǎng)絡(luò)搭建成的語(yǔ)音合成神經(jīng)網(wǎng)絡(luò)系統(tǒng)(Real-Time Neural Text-to-Speech for Production)對(duì)所采集的數(shù)據(jù)集、語(yǔ)音進(jìn)行提煉,進(jìn)一步生成新的音頻。在這一過(guò)程中,無(wú)需進(jìn)行數(shù)據(jù)注釋等任何手動(dòng)工作,大大簡(jiǎn)化了語(yǔ)音合成流程且有高品質(zhì)效果。(論文地址:https://arxiv.org/pdf/1702.07825.pdf)
近日,在時(shí)隔不到 3 個(gè)月的時(shí)間,百度 Deep Voice 發(fā)布了新的研究成果并推出 Deep Voice 2。Deep Voice 2 的主要更新在于,可實(shí)時(shí)合成上百種口音的音頻,而上一代的系統(tǒng)僅能合成一個(gè)人聲。(百度官方提供了多個(gè)示例樣本:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/)
在該系統(tǒng)中,機(jī)器完成每個(gè)口音模仿的學(xué)習(xí)僅需半小時(shí)的時(shí)間,同樣的,在這個(gè)語(yǔ)音合成的過(guò)程中,并不需要任何的人工調(diào)整。相比上一代,Deep Voice 2 的運(yùn)行速度快了好幾倍。
與上一代的運(yùn)行思路不同的是,在形成多個(gè)口音音頻的過(guò)程中,Deep Voice 2 從數(shù)百個(gè)人聲樣本中提取數(shù)據(jù)、特征,建立一個(gè)音頻模型,語(yǔ)音合成神經(jīng)網(wǎng)絡(luò)根據(jù)這些模型進(jìn)行調(diào)整以設(shè)計(jì)出不同特征的聲音。
對(duì)于Deep Voice 2 的意義,百度官方表示,其在個(gè)人語(yǔ)音助理、電子閱讀器等應(yīng)用中有非常大的想象空間,如為個(gè)人提供不同音色的文本朗讀。
類似的,Google 旗下DeepMind 深度學(xué)習(xí)實(shí)驗(yàn)室早在去年公布了其利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)對(duì)原始音頻波形(RawSoundWave)建模的語(yǔ)音合成技術(shù)WaveNet,同樣是一種通過(guò)原始語(yǔ)音合成新音頻的技術(shù),且效果也相當(dāng)接近原音。
通過(guò)人類語(yǔ)音訓(xùn)練過(guò)的卷積神經(jīng)網(wǎng)絡(luò)能辨別語(yǔ)音、語(yǔ)言的音頻模式,對(duì)WaveNet 系統(tǒng)輸入新的文本信息后,該系統(tǒng)會(huì)根據(jù)新的語(yǔ)音特征來(lái)生成新的原始音頻波段來(lái)讀出這個(gè)新的文本信息:
不過(guò),WaveNet 需要對(duì)整個(gè)的原始音頻波形(Raw SoundWave)進(jìn)行計(jì)算,而每輸出一秒音頻神經(jīng)網(wǎng)絡(luò)必須處理16000 個(gè)樣本,所以其運(yùn)算量不小。
從技術(shù)更新上看,百度比Google DeepMind 的要走在更前且短時(shí)間內(nèi)實(shí)現(xiàn)迅速發(fā)展。但兩者的技術(shù)均處在實(shí)驗(yàn)室階段,不管是在它們各自的語(yǔ)音操作系統(tǒng)和應(yīng)用中,還是在硬件接入上,都有著巨大的發(fā)揮空間。(本文作者:Jes@深圳灣)■
官方微博
官方微信公眾號(hào)
官方百家號(hào)