總部坐落于北京的百度公司占據(jù)了中國(guó)搜索引擎80%的市場(chǎng)份額,現(xiàn)如今該公司正在大力發(fā)展人工智能(AI)技術(shù)。2013年,百度建立了深度學(xué)習(xí)研究中心,旨在專注于機(jī)器學(xué)習(xí)的研發(fā)。而在2017年5月份,該研究中心推出了新版本的DeepVoice,內(nèi)核是文字到演講的AI引擎。
DeepVoice二代緊隨在今年早些時(shí)候公開亮相的DeepVoice一代之后,可以進(jìn)行幾乎與人類聲音相媲美的實(shí)時(shí)演講。更令人吃驚的是,只需要通過一個(gè)30分鐘的音頻模板就可以模仿數(shù)百種不同地區(qū)的口音。
相比于早期的DeepVocie所需要的數(shù)小時(shí)學(xué)習(xí)時(shí)間來比,第二代性能更加強(qiáng)勁。DeepVoice二代可以通過區(qū)分?jǐn)?shù)百種口音來建立自己的人聲語(yǔ)音庫(kù)。然后,軟件可以自主地從語(yǔ)音庫(kù)中調(diào)取語(yǔ)音數(shù)據(jù)。與蘋果公司所開發(fā)的Siri所不一樣的是,siri需要工程師手工輸入數(shù)千小時(shí)的演講,而DeepVoice二代是完全自主進(jìn)行的。
“把數(shù)據(jù)導(dǎo)入軟件,它就可以自己了解語(yǔ)言的哪些特征才是重要的?!弊溆诠韫鹊陌俣華I實(shí)驗(yàn)室的研究科學(xué)家安德魯?吉本斯基(AndrewGibiansky)向媒體說道。