|
Quora是問答型SNS網(wǎng)站,被譽(yù)為“獲取高質(zhì)量內(nèi)容的來源地”,也被國內(nèi)行業(yè)稱為美版“知乎”,聚集了大量高質(zhì)量知識用戶。在接受邀請后,王海峰在前后近三個(gè)小時(shí)時(shí)間里,認(rèn)真回答網(wǎng)友問題,其中單個(gè)問題多獲得近700名網(wǎng)友評論。
王海峰作為百度搜索引擎的總負(fù)責(zé)人,同時(shí)還負(fù)責(zé)著手機(jī)百度、百度信息流、百度新聞、百度手機(jī)瀏覽器、自然語言處理等業(yè)務(wù)。是自然語言處理領(lǐng)域世界上具影響力的國際學(xué)術(shù)組織ACL(Associationfor Computational Linguistics)50多年歷史上唯一的華人主席,在人工智能領(lǐng)域有著重要影響力。此次參與網(wǎng)友問答,將進(jìn)一步傳遞其人工智能理想,王海峰在答案中寫到,人類在不久的未來將會(huì)進(jìn)入人工智能時(shí)代,而百度的優(yōu)秀工程師們將在其中發(fā)揮重要作用。
以下為問答實(shí)錄。
1、中國的人工智能研究到了什么程度?
人工智能在中國實(shí)現(xiàn)飛速發(fā)展。今年,中國政府工作報(bào)告中首次提到人工智能的概念,這表明中國十分重視人工智能的發(fā)展。包括百度在內(nèi)的大多數(shù)互聯(lián)網(wǎng)企業(yè)都在加大人工智能方面的投資。其中許多企業(yè)都設(shè)立了專門的部門,推動(dòng)人工智能在各自業(yè)務(wù)中的開發(fā)與應(yīng)用。制造業(yè)企業(yè)運(yùn)用人工智能降低成本,以人工智能為核心業(yè)務(wù)的創(chuàng)業(yè)企業(yè)也像雨后春筍般涌現(xiàn)。
此外,中國有許多大學(xué)和研究機(jī)構(gòu)也在開展人工智能方面的學(xué)術(shù)研究。近些年來,越來越多優(yōu)秀科學(xué)家與學(xué)者們投入到人工智能領(lǐng)域,其中不乏行業(yè)公認(rèn)的佼佼者。在今年的洛杉磯AAAI大會(huì)上,有三分之一的論文來自中國,比例與美國相當(dāng)。
人工智能不僅迅速應(yīng)用于各大行業(yè),而且也在改變?nèi)粘I?,包括交通系統(tǒng)、教育、醫(yī)療等各個(gè)方面。我相信,人類即將進(jìn)入人工智能的時(shí)代。
2、百度的機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)會(huì)不會(huì)聘請不會(huì)講中文的人才?
百度已經(jīng)聘請了不會(huì)講中文的人才,而且不光是機(jī)器學(xué)習(xí)團(tuán)隊(duì),其他團(tuán)隊(duì)也有。
3、用于中文與用于英文的神經(jīng)語言程序主要有哪些不同?
從語言學(xué)上來講,中文與英文截然不同。中文文本信息沒有單詞間隔,而且中文主要通過詞序來表明語法關(guān)系。這些因素加大了中文語言在詞匯、句法和語義層面消除歧義的難度。因?yàn)楝F(xiàn)代語言學(xué)的概念與原則更適用于英文,而不太適用于中文。
目前,大多數(shù)主流神經(jīng)語言程序方法都同語言無關(guān)。這些統(tǒng)計(jì)數(shù)據(jù)或神經(jīng)網(wǎng)絡(luò)算法會(huì)根據(jù)不同應(yīng)用,對具體語言進(jìn)行優(yōu)化。
比如,百度在2015年5月推出了首個(gè)大型在線神經(jīng)機(jī)器翻譯系統(tǒng)。與語言無關(guān)的基礎(chǔ)NMT模型也可以實(shí)現(xiàn)相當(dāng)好的翻譯結(jié)果。為進(jìn)一步優(yōu)化翻譯性能,我們還根據(jù)具體語言的特征對翻譯系統(tǒng)進(jìn)行了優(yōu)化。
4、百度有沒有與IBM Watson或者Facebook的Wit.ai類似的可訪問AI API解決方案?
請?jiān)L問 ai.baidu.com,就可以使用語音、圖片、NLP、用戶畫像等百度人工智能技術(shù)。
5、未來十年里搜索引擎會(huì)有怎樣的發(fā)展?
現(xiàn)在,一說到搜索引擎,大多數(shù)人會(huì)想到搜索框和搜索結(jié)果。那么未來的搜索引擎會(huì)是什么樣子呢?現(xiàn)在還不好說。但是我們都愿意看到更加強(qiáng)大的搜索引擎,能夠讓我們看到、聽到甚至感受到不同的場景、產(chǎn)品和界面。搜索將會(huì)無處不在。
首先,是將更加理解用戶的意圖和內(nèi)容,意圖與內(nèi)容的匹配也更加精準(zhǔn),這些都將大大增強(qiáng)搜索引擎的使用體驗(yàn)。理解用戶意圖不僅僅涉及某一次查詢,而是適應(yīng)更加復(fù)雜的搜索環(huán)境,包括查詢條目、時(shí)間、位置、設(shè)備和用戶的個(gè)性特征。而理解內(nèi)容也將大大深入,不僅能更好的理解語音、語境、觀點(diǎn),還能理解內(nèi)容的其他各個(gè)方面,從內(nèi)容中剝離出知識點(diǎn)。意圖與內(nèi)容的匹配也將考慮上述所有因素,提供更加貼合個(gè)人情況與具體語境的搜索結(jié)果。此外,搜索引擎也會(huì)更像“應(yīng)答引擎”和“執(zhí)行引擎”,能夠直接回答或執(zhí)行大部分用戶查詢。
其次,搜索界面也將有更多創(chuàng)新變化。除鍵盤外,還能更加廣泛的使用語音和圖片等輸入方法。用戶將可以使用更加高效、便捷的多模搜索,使用語音、圖片等更多實(shí)用技術(shù)。特別是,自然語言交互也將成為搜索引擎的主流交互模式。用戶可以與搜索引擎對話,直接把想法告訴搜索引擎,這比打開鍵盤輸入要方便實(shí)用得多。用戶可以與搜索引擎進(jìn)行多輪的交替性對話。運(yùn)用這種全新的交互方法改善用戶體驗(yàn),百度可謂是先人一等。
第三,搜索不僅僅是使用搜索引擎,還嵌入到了各種產(chǎn)品之中。比如說,搜索將成為人工智能硬件的關(guān)鍵功能。未來,搜索將無處不在,隨處可見。而且,我們還將重新定義可搜索的內(nèi)容,不僅包括當(dāng)前搜索引擎已經(jīng)索引的內(nèi)容,還將納入更多服務(wù)、物體、設(shè)備和數(shù)據(jù)。
搜索引擎已是大家日常生活中必不可少的內(nèi)容。人們需要確定搜索引擎的發(fā)展方向,而技術(shù)進(jìn)步則能確定搜索引擎的發(fā)展高度。
6、百度產(chǎn)品如何應(yīng)用NLP?
百度研發(fā)了多種NLP技術(shù),包括知識圖表、語意理解、內(nèi)容標(biāo)簽、傾向分析、生成、總結(jié)、回答問題、機(jī)器翻譯和對話系統(tǒng)等。這些技術(shù)廣泛應(yīng)用于搜索、推送、智能助手等產(chǎn)品中,為數(shù)百萬用戶提供服務(wù)。我們還將這些技術(shù)集成到統(tǒng)一的平臺(tái)之中,名為NLP云。NLP云可以提供二十多個(gè)NLP模塊和方案,為百度產(chǎn)品提供各種服務(wù)。我們的NLP云服務(wù)每天都要收到上億次的查詢。
比如在搜索方面,單詞劃分、命名實(shí)體識別、語法分析和釋意等NLP模塊都是經(jīng)典NLP模塊。這些模快均已實(shí)現(xiàn)優(yōu)化與技術(shù)突破。NLP搜索的典型應(yīng)用案例還包括回答問題。高性能的問答系統(tǒng)需要對查詢實(shí)行精準(zhǔn)的語義語法分析,廣泛的知識譜系結(jié)構(gòu),還有全面的網(wǎng)頁搜索結(jié)果分析,用戶在搜索框中輸入問題,搜索引擎就可以直接提供答案。我們許多人會(huì)使用搜索引擎查找相關(guān)信息,來幫助我們做出決策。在這種情況下,傾向性分析也叫觀點(diǎn)挖掘,可以幫助我們找出備選觀點(diǎn),為用戶提供整合后的信息。
舉個(gè)例子比如新聞推送,文章質(zhì)量十分重要。NLP可以甄別謠言、剽竊等垃圾文章。另外,文本分析可以找出高質(zhì)量文章,并產(chǎn)生能夠說明文章質(zhì)量的標(biāo)簽。從各個(gè)層面說明用戶偏好的用戶模型也要用到NLP技術(shù)。
總而言之,對自然語言來說,NLP技術(shù)必不可少。
7、你認(rèn)為從科學(xué)家到IT公司業(yè)務(wù)副總裁的職業(yè)轉(zhuǎn)變是什么?
我迷戀技術(shù),并且喜歡把自己投入到研究中去。我一直相信技術(shù)可以改變世界。百度為我提供了一個(gè)理想的平臺(tái),在這里,我的技術(shù)工作得以快速、直接地惠及用戶。這就是我加入百度的首要原因。我在百度的前幾年領(lǐng)導(dǎo)了包括NLP、語音、圖像、數(shù)據(jù)挖掘、知識圖、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在內(nèi)的技術(shù)團(tuán)隊(duì)。后來,我意識到偉大的產(chǎn)品將連接技術(shù)和廣大用戶,并將推動(dòng)技術(shù)進(jìn)步。偉大的產(chǎn)品不僅需要先進(jìn)的技術(shù),而且需要出色的設(shè)計(jì)、營銷和高效管理。因此,我逐漸將我的角色從研發(fā)團(tuán)隊(duì)的領(lǐng)導(dǎo)轉(zhuǎn)變?yōu)楣芾韺咏?jīng)理。我現(xiàn)在的領(lǐng)導(dǎo)團(tuán)隊(duì)由3000多名技術(shù)、產(chǎn)品和營銷人才組成,他們年輕、充滿活力、富有激情。我們正共同努力,通過我們的技術(shù)和產(chǎn)品,追求我們改變?nèi)藗內(nèi)粘I畹睦硐搿?/span>
當(dāng)我接手一個(gè)大企業(yè)集團(tuán)時(shí),我需要首先設(shè)定戰(zhàn)略和目標(biāo),然后建立正確的執(zhí)行團(tuán)隊(duì)。良好的法規(guī)和文化對于一個(gè)大團(tuán)隊(duì)來說非常重要,這是業(yè)務(wù)進(jìn)展良好的支持和保證。與此同時(shí),我始終關(guān)注技術(shù)突破,用戶需求的演變以及整個(gè)社會(huì)的發(fā)展。
8、“百度”這個(gè)詞的意思是什么?
我們的名字,其靈感來源于800年前中國宋代的一首詩。“......眾里尋他千百度,驀然回首,那人卻在燈火闌珊處。”百度的字面意思是“數(shù)百次”,代表對理想的不懈追求探索。
9、在未來5到10年,我們將在NLP中看到什么進(jìn)步?
在機(jī)器翻譯、語義理解、問答和對話技術(shù)方面將會(huì)有重大突破。而且這些技術(shù)將被廣泛應(yīng)用,導(dǎo)致人與計(jì)算機(jī)之間的溝通、人與各種硬件之間的溝通以及人與人之間的溝通都會(huì)發(fā)生改變。
上述技術(shù)進(jìn)步將受益于以下四個(gè)方面:大數(shù)據(jù)、學(xué)習(xí)機(jī)制、知識圖譜、推理和規(guī)劃。
大數(shù)據(jù)——隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)的數(shù)量和種類在高速增長。即便是那些傳統(tǒng)的商業(yè)部門也開始把他們的數(shù)據(jù)放到線上,一切都在線上被連接起來。數(shù)據(jù)的價(jià)值在物聯(lián)網(wǎng)上會(huì)繼續(xù)增長。
學(xué)習(xí)機(jī)制——學(xué)習(xí)機(jī)制也將繼續(xù)進(jìn)步,這使我們能從大數(shù)據(jù)中學(xué)習(xí)更多。
知識圖譜——有了大數(shù)據(jù)和更強(qiáng)大的學(xué)習(xí)機(jī)制,我們可以構(gòu)建更大的知識圖,建模整個(gè)世界。
推理和規(guī)劃——因?yàn)橛辛舜蟮闹R圖,我們可以在推理和規(guī)劃方面取得突破,推理和規(guī)劃的能力將為NLP系統(tǒng)注入更多智慧。
10、在百度作工程師是什么樣子的?
百度工程師的典型工作時(shí)間是這樣的:坐在沙發(fā)上用耳機(jī)寫代碼幾個(gè)小時(shí);在會(huì)議室或休息室與其他工程師討論技術(shù)問題或系統(tǒng)設(shè)計(jì)。你會(huì)看到他們一邊在餐廳吃午飯或晚餐,一邊在互相談?wù)撍惴▋?yōu)化;你會(huì)看到他們工作到深夜。
這里的工程師有他們自己的腔調(diào):實(shí)用、自我驅(qū)動(dòng)和貫徹到底。我們鼓勵(lì)工程師將想法付諸實(shí)施。只有擁有激情、毅力和責(zé)任的人,才能使夢想成真。百度搜索引擎每天為數(shù)億人提供服務(wù),使它更好地了解大多數(shù)用戶需要。百度工程師有機(jī)會(huì)專注于有價(jià)值的問題,并提出創(chuàng)新解決方案。百度作為一個(gè)平臺(tái),支持具有才華和熱情的工程師實(shí)現(xiàn)他們的目標(biāo)并取得成功。
年輕的工程師也有時(shí)間加入不同種類的愛好俱樂部,業(yè)余時(shí)間可以在健身房和瑜伽室進(jìn)行攀巖、跳舞或鍛煉。
在百度,我們?yōu)槊總€(gè)新招聘的工程師提供導(dǎo)師計(jì)劃。導(dǎo)師將教導(dǎo)他們技術(shù)技能,并指導(dǎo)他們熟悉規(guī)則。我們還有高級技術(shù)指導(dǎo)提供在線學(xué)習(xí)計(jì)劃和演講,工程師可以選擇關(guān)注他們感興趣的話題,了解關(guān)于尖端技術(shù)的見解。我們甚至有黑客馬拉松活動(dòng),鼓勵(lì)工程師大膽思考,與設(shè)計(jì)師同行,創(chuàng)造出驚艷的產(chǎn)品。
我相信百度是工程師鉆研技術(shù)、投身工作的好平臺(tái)之一。
官方微博
官方微信公眾號
官方百家號