|
Quora是問答型SNS網(wǎng)站,被譽為“獲取高質量內(nèi)容的來源地”,也被國內(nèi)行業(yè)稱為美版“知乎”,聚集了大量高質量知識用戶。在接受邀請后,王海峰在前后近三個小時時間里,認真回答網(wǎng)友問題,其中單個問題多獲得近700名網(wǎng)友評論。
王海峰作為百度搜索引擎的總負責人,同時還負責著手機百度、百度信息流、百度新聞、百度手機瀏覽器、自然語言處理等業(yè)務。是自然語言處理領域世界上具影響力的國際學術組織ACL(Associationfor Computational Linguistics)50多年歷史上唯一的華人主席,在人工智能領域有著重要影響力。此次參與網(wǎng)友問答,將進一步傳遞其人工智能理想,王海峰在答案中寫到,人類在不久的未來將會進入人工智能時代,而百度的優(yōu)秀工程師們將在其中發(fā)揮重要作用。
以下為問答實錄。
1、中國的人工智能研究到了什么程度?
人工智能在中國實現(xiàn)飛速發(fā)展。今年,中國政府工作報告中首次提到人工智能的概念,這表明中國十分重視人工智能的發(fā)展。包括百度在內(nèi)的大多數(shù)互聯(lián)網(wǎng)企業(yè)都在加大人工智能方面的投資。其中許多企業(yè)都設立了專門的部門,推動人工智能在各自業(yè)務中的開發(fā)與應用。制造業(yè)企業(yè)運用人工智能降低成本,以人工智能為核心業(yè)務的創(chuàng)業(yè)企業(yè)也像雨后春筍般涌現(xiàn)。
此外,中國有許多大學和研究機構也在開展人工智能方面的學術研究。近些年來,越來越多優(yōu)秀科學家與學者們投入到人工智能領域,其中不乏行業(yè)公認的佼佼者。在今年的洛杉磯AAAI大會上,有三分之一的論文來自中國,比例與美國相當。
人工智能不僅迅速應用于各大行業(yè),而且也在改變?nèi)粘I?,包括交通系統(tǒng)、教育、醫(yī)療等各個方面。我相信,人類即將進入人工智能的時代。
2、百度的機器學習研究團隊會不會聘請不會講中文的人才?
百度已經(jīng)聘請了不會講中文的人才,而且不光是機器學習團隊,其他團隊也有。
3、用于中文與用于英文的神經(jīng)語言程序主要有哪些不同?
從語言學上來講,中文與英文截然不同。中文文本信息沒有單詞間隔,而且中文主要通過詞序來表明語法關系。這些因素加大了中文語言在詞匯、句法和語義層面消除歧義的難度。因為現(xiàn)代語言學的概念與原則更適用于英文,而不太適用于中文。
目前,大多數(shù)主流神經(jīng)語言程序方法都同語言無關。這些統(tǒng)計數(shù)據(jù)或神經(jīng)網(wǎng)絡算法會根據(jù)不同應用,對具體語言進行優(yōu)化。
比如,百度在2015年5月推出了首個大型在線神經(jīng)機器翻譯系統(tǒng)。與語言無關的基礎NMT模型也可以實現(xiàn)相當好的翻譯結果。為進一步優(yōu)化翻譯性能,我們還根據(jù)具體語言的特征對翻譯系統(tǒng)進行了優(yōu)化。
4、百度有沒有與IBM Watson或者Facebook的Wit.ai類似的可訪問AI API解決方案?
請訪問 ai.baidu.com,就可以使用語音、圖片、NLP、用戶畫像等百度人工智能技術。
5、未來十年里搜索引擎會有怎樣的發(fā)展?
現(xiàn)在,一說到搜索引擎,大多數(shù)人會想到搜索框和搜索結果。那么未來的搜索引擎會是什么樣子呢?現(xiàn)在還不好說。但是我們都愿意看到更加強大的搜索引擎,能夠讓我們看到、聽到甚至感受到不同的場景、產(chǎn)品和界面。搜索將會無處不在。
首先,是將更加理解用戶的意圖和內(nèi)容,意圖與內(nèi)容的匹配也更加精準,這些都將大大增強搜索引擎的使用體驗。理解用戶意圖不僅僅涉及某一次查詢,而是適應更加復雜的搜索環(huán)境,包括查詢條目、時間、位置、設備和用戶的個性特征。而理解內(nèi)容也將大大深入,不僅能更好的理解語音、語境、觀點,還能理解內(nèi)容的其他各個方面,從內(nèi)容中剝離出知識點。意圖與內(nèi)容的匹配也將考慮上述所有因素,提供更加貼合個人情況與具體語境的搜索結果。此外,搜索引擎也會更像“應答引擎”和“執(zhí)行引擎”,能夠直接回答或執(zhí)行大部分用戶查詢。
其次,搜索界面也將有更多創(chuàng)新變化。除鍵盤外,還能更加廣泛的使用語音和圖片等輸入方法。用戶將可以使用更加高效、便捷的多模搜索,使用語音、圖片等更多實用技術。特別是,自然語言交互也將成為搜索引擎的主流交互模式。用戶可以與搜索引擎對話,直接把想法告訴搜索引擎,這比打開鍵盤輸入要方便實用得多。用戶可以與搜索引擎進行多輪的交替性對話。運用這種全新的交互方法改善用戶體驗,百度可謂是先人一等。
第三,搜索不僅僅是使用搜索引擎,還嵌入到了各種產(chǎn)品之中。比如說,搜索將成為人工智能硬件的關鍵功能。未來,搜索將無處不在,隨處可見。而且,我們還將重新定義可搜索的內(nèi)容,不僅包括當前搜索引擎已經(jīng)索引的內(nèi)容,還將納入更多服務、物體、設備和數(shù)據(jù)。
搜索引擎已是大家日常生活中必不可少的內(nèi)容。人們需要確定搜索引擎的發(fā)展方向,而技術進步則能確定搜索引擎的發(fā)展高度。
6、百度產(chǎn)品如何應用NLP?
百度研發(fā)了多種NLP技術,包括知識圖表、語意理解、內(nèi)容標簽、傾向分析、生成、總結、回答問題、機器翻譯和對話系統(tǒng)等。這些技術廣泛應用于搜索、推送、智能助手等產(chǎn)品中,為數(shù)百萬用戶提供服務。我們還將這些技術集成到統(tǒng)一的平臺之中,名為NLP云。NLP云可以提供二十多個NLP模塊和方案,為百度產(chǎn)品提供各種服務。我們的NLP云服務每天都要收到上億次的查詢。
比如在搜索方面,單詞劃分、命名實體識別、語法分析和釋意等NLP模塊都是經(jīng)典NLP模塊。這些模快均已實現(xiàn)優(yōu)化與技術突破。NLP搜索的典型應用案例還包括回答問題。高性能的問答系統(tǒng)需要對查詢實行精準的語義語法分析,廣泛的知識譜系結構,還有全面的網(wǎng)頁搜索結果分析,用戶在搜索框中輸入問題,搜索引擎就可以直接提供答案。我們許多人會使用搜索引擎查找相關信息,來幫助我們做出決策。在這種情況下,傾向性分析也叫觀點挖掘,可以幫助我們找出備選觀點,為用戶提供整合后的信息。
舉個例子比如新聞推送,文章質量十分重要。NLP可以甄別謠言、剽竊等垃圾文章。另外,文本分析可以找出高質量文章,并產(chǎn)生能夠說明文章質量的標簽。從各個層面說明用戶偏好的用戶模型也要用到NLP技術。
總而言之,對自然語言來說,NLP技術必不可少。
7、你認為從科學家到IT公司業(yè)務副總裁的職業(yè)轉變是什么?
我迷戀技術,并且喜歡把自己投入到研究中去。我一直相信技術可以改變世界。百度為我提供了一個理想的平臺,在這里,我的技術工作得以快速、直接地惠及用戶。這就是我加入百度的首要原因。我在百度的前幾年領導了包括NLP、語音、圖像、數(shù)據(jù)挖掘、知識圖、機器學習和深度學習在內(nèi)的技術團隊。后來,我意識到偉大的產(chǎn)品將連接技術和廣大用戶,并將推動技術進步。偉大的產(chǎn)品不僅需要先進的技術,而且需要出色的設計、營銷和高效管理。因此,我逐漸將我的角色從研發(fā)團隊的領導轉變?yōu)楣芾韺咏?jīng)理。我現(xiàn)在的領導團隊由3000多名技術、產(chǎn)品和營銷人才組成,他們年輕、充滿活力、富有激情。我們正共同努力,通過我們的技術和產(chǎn)品,追求我們改變?nèi)藗內(nèi)粘I畹睦硐搿?/span>
當我接手一個大企業(yè)集團時,我需要首先設定戰(zhàn)略和目標,然后建立正確的執(zhí)行團隊。良好的法規(guī)和文化對于一個大團隊來說非常重要,這是業(yè)務進展良好的支持和保證。與此同時,我始終關注技術突破,用戶需求的演變以及整個社會的發(fā)展。
8、“百度”這個詞的意思是什么?
我們的名字,其靈感來源于800年前中國宋代的一首詩?!?.....眾里尋他千百度,驀然回首,那人卻在燈火闌珊處?!卑俣鹊淖置嬉馑际恰皵?shù)百次”,代表對理想的不懈追求探索。
9、在未來5到10年,我們將在NLP中看到什么進步?
在機器翻譯、語義理解、問答和對話技術方面將會有重大突破。而且這些技術將被廣泛應用,導致人與計算機之間的溝通、人與各種硬件之間的溝通以及人與人之間的溝通都會發(fā)生改變。
上述技術進步將受益于以下四個方面:大數(shù)據(jù)、學習機制、知識圖譜、推理和規(guī)劃。
大數(shù)據(jù)——隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)的數(shù)量和種類在高速增長。即便是那些傳統(tǒng)的商業(yè)部門也開始把他們的數(shù)據(jù)放到線上,一切都在線上被連接起來。數(shù)據(jù)的價值在物聯(lián)網(wǎng)上會繼續(xù)增長。
學習機制——學習機制也將繼續(xù)進步,這使我們能從大數(shù)據(jù)中學習更多。
知識圖譜——有了大數(shù)據(jù)和更強大的學習機制,我們可以構建更大的知識圖,建模整個世界。
推理和規(guī)劃——因為有了大的知識圖,我們可以在推理和規(guī)劃方面取得突破,推理和規(guī)劃的能力將為NLP系統(tǒng)注入更多智慧。
10、在百度作工程師是什么樣子的?
百度工程師的典型工作時間是這樣的:坐在沙發(fā)上用耳機寫代碼幾個小時;在會議室或休息室與其他工程師討論技術問題或系統(tǒng)設計。你會看到他們一邊在餐廳吃午飯或晚餐,一邊在互相談論算法優(yōu)化;你會看到他們工作到深夜。
這里的工程師有他們自己的腔調(diào):實用、自我驅動和貫徹到底。我們鼓勵工程師將想法付諸實施。只有擁有激情、毅力和責任的人,才能使夢想成真。百度搜索引擎每天為數(shù)億人提供服務,使它更好地了解大多數(shù)用戶需要。百度工程師有機會專注于有價值的問題,并提出創(chuàng)新解決方案。百度作為一個平臺,支持具有才華和熱情的工程師實現(xiàn)他們的目標并取得成功。
年輕的工程師也有時間加入不同種類的愛好俱樂部,業(yè)余時間可以在健身房和瑜伽室進行攀巖、跳舞或鍛煉。
在百度,我們?yōu)槊總€新招聘的工程師提供導師計劃。導師將教導他們技術技能,并指導他們熟悉規(guī)則。我們還有高級技術指導提供在線學習計劃和演講,工程師可以選擇關注他們感興趣的話題,了解關于尖端技術的見解。我們甚至有黑客馬拉松活動,鼓勵工程師大膽思考,與設計師同行,創(chuàng)造出驚艷的產(chǎn)品。
我相信百度是工程師鉆研技術、投身工作的好平臺之一。
官方微博
官方微信公眾號
官方百家號