在與機器進行語音交談時,人們都更傾向于希望機器的聲音有一定的語調和情感,這樣比起那些機械、一字一頓的機器聲更受歡迎。主要還是因為讓人感覺「我在跟一個人說話」。
在業(yè)界,要達到這一效果,通常有兩種解決方案:一是拼接式語音合成(Concatenative Synthesis),先錄制單個說話者的大量語音片段,形成一定規(guī)模的語料庫,接著從中提取特征以完成相應的語段音頻。二是參數(shù)化的方法,利用數(shù)學模型對已知的聲音進行排列、組裝成詞語或句子來重新創(chuàng)造音頻。
相比拼接式的語音合成,參數(shù)化方法所形成的語音片段更自然,但兩種方法都是對語音進行機械式的拼接,且其中還需要經(jīng)過多道復雜的程序才得以完成,稱得上是一項大型工程。日常的語音導航系統(tǒng)就是依靠這樣的方法進行語音、語調的合成。
在百度位于美國硅谷的人工智能實驗室(AI Lab),除了自動駕駛技術之外,他們還有一項重要的研究項目——Deep Voice,該項目組主要致力于人工智能語音技術研發(fā)。
在今年3 月份,該研究部門首次向外界推出了Deep Voice(深度語音系統(tǒng)),該系統(tǒng)是一個完全由深度神經(jīng)網(wǎng)絡構建的語音轉文本(TTS,Text-to-Speech)系統(tǒng),大的亮點在于能實時合成人工語音。
Deep Voice 仿照傳統(tǒng)文字轉語音的途徑,采用相似的結構,替換上相應的組件。其實現(xiàn)主要依靠由深度學習網(wǎng)絡搭建成的語音合成神經(jīng)網(wǎng)絡系統(tǒng)(Real-Time Neural Text-to-Speech for Production)對所采集的數(shù)據(jù)集、語音進行提煉,進一步生成新的音頻。在這一過程中,無需進行數(shù)據(jù)注釋等任何手動工作,大大簡化了語音合成流程且有高品質效果。(論文地址:https://arxiv.org/pdf/1702.07825.pdf)
近日,在時隔不到 3 個月的時間,百度 Deep Voice 發(fā)布了新的研究成果并推出 Deep Voice 2。Deep Voice 2 的主要更新在于,可實時合成上百種口音的音頻,而上一代的系統(tǒng)僅能合成一個人聲。(百度官方提供了多個示例樣本:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/)
在該系統(tǒng)中,機器完成每個口音模仿的學習僅需半小時的時間,同樣的,在這個語音合成的過程中,并不需要任何的人工調整。相比上一代,Deep Voice 2 的運行速度快了好幾倍。
與上一代的運行思路不同的是,在形成多個口音音頻的過程中,Deep Voice 2 從數(shù)百個人聲樣本中提取數(shù)據(jù)、特征,建立一個音頻模型,語音合成神經(jīng)網(wǎng)絡根據(jù)這些模型進行調整以設計出不同特征的聲音。
對于Deep Voice 2 的意義,百度官方表示,其在個人語音助理、電子閱讀器等應用中有非常大的想象空間,如為個人提供不同音色的文本朗讀。
類似的,Google 旗下DeepMind 深度學習實驗室早在去年公布了其利用卷積神經(jīng)網(wǎng)絡(convolutional neural networks)對原始音頻波形(RawSoundWave)建模的語音合成技術WaveNet,同樣是一種通過原始語音合成新音頻的技術,且效果也相當接近原音。
通過人類語音訓練過的卷積神經(jīng)網(wǎng)絡能辨別語音、語言的音頻模式,對WaveNet 系統(tǒng)輸入新的文本信息后,該系統(tǒng)會根據(jù)新的語音特征來生成新的原始音頻波段來讀出這個新的文本信息:
不過,WaveNet 需要對整個的原始音頻波形(Raw SoundWave)進行計算,而每輸出一秒音頻神經(jīng)網(wǎng)絡必須處理16000 個樣本,所以其運算量不小。
從技術更新上看,百度比Google DeepMind 的要走在更前且短時間內實現(xiàn)迅速發(fā)展。但兩者的技術均處在實驗室階段,不管是在它們各自的語音操作系統(tǒng)和應用中,還是在硬件接入上,都有著巨大的發(fā)揮空間。(本文作者:Jes@深圳灣)■
官方微博
官方微信公眾號
官方百家號