在《強大腦》的首場“人機大戰(zhàn)”中,百度人工智能在跨年齡識別的任務(wù)上以3:2的比分險勝強大腦代表王峰。
在此前,從深藍到AlphaGo的多次人機大戰(zhàn)中,交鋒的重點包括記憶能力、邏輯推理、計算能力等,這一次人工智能要挑戰(zhàn)的,除了這些之外,還包括人類經(jīng)過幾百萬年進化的聽覺、視覺等感官天賦。
在北京大學(xué)心理學(xué)系教授魏坤琳看來,在這個專業(yè)方向上,人工智能的準(zhǔn)確率已經(jīng)達到很高的水準(zhǔn),下一步應(yīng)該是提高運算的效率和能耗?!叭绻@個時代,人工智能這么快地來到的話,我們應(yīng)該怎么做才能夠更好地發(fā)揮我們的能力,更好地發(fā)展,和更好地生存?!?/span>
人臉識別背后:微整形、雙胞胎、跨年齡
與百度人工智能進行首場“人機大戰(zhàn)”的90后選手王峰堪稱“腦王”。2011年時,他曾以5分鐘記憶500個數(shù)字、1小時記2660個數(shù)字、聽記300個英文數(shù)字的成績打破3項世界紀(jì)錄,獲得世界腦力錦標(biāo)賽上“世界記憶總冠軍”,并打破快速記憶撲克牌的世界紀(jì)錄。
“世界記憶之父”托尼博曾高度評價他:“王峰的紀(jì)錄在今后幾年恐怕都沒有外國選手可以打破,王峰是比賽有史以來優(yōu)秀的一名選手。而他所在的‘中國記憶精英戰(zhàn)隊’是全球頂尖的記憶團隊?!?/span>
這一次,王峰和百度人工智能比拼的是人臉識別中的跨年齡識別。按照比賽規(guī)則,第一輪由章子怡從20張蜜蜂少女隊成員童年照中挑出2張高難度照片,選手通過平均只有三秒的動態(tài)錄像表演將所選童年照和在場的成年少女相匹配;第二輪人機共同觀察一位30歲以上的觀眾,隨后將他從30張小學(xué)集體照中找出。
節(jié)目組測試跨年齡人臉識別評測結(jié)果
百度首席科學(xué)家吳恩達坦言,在這次比賽中,百度選擇的競賽項目對于機器來說非常困難,對于人類來說相對容易。因為機器沒有直覺,也并沒有久遠的進化歷史,只能靠分析數(shù)據(jù)來學(xué)習(xí)?!疤貏e對于識別整容、化濃妝或者十幾年跨度的照片,我們并沒有大量的數(shù)據(jù)可以分析?!?/span>
可以看到的是,這兩輪比賽的技術(shù)難點一方面在于蜜蜂少女隊人員眾多且每個人在賽場上化妝表演, 不排除有微整形、戴美瞳等因素干擾。此外,挑選的童年照都在0—4歲范圍內(nèi),與現(xiàn)在的年齡跨度較大。而第二回合樣本容量大,30張集體照大約需要在1000-2000個人臉中找到對應(yīng)的人,年齡跨度也覆蓋在80、90后等年齡層中。同時,比賽現(xiàn)場有實時照片傳輸、現(xiàn)場攝影機捕捉人臉圖像晃動、燈光干擾等因素都會影響人工智能的識別準(zhǔn)確率。
經(jīng)過幾分鐘的屏氣凝神,第一位童年照的主人輕松被雙方找到。然而在確認(rèn)第二張童年照的主人時,百度大腦卻打出了兩份有著萬分之一概率不同的答案。百度首席科學(xué)家吳恩達教授解釋說,這是因為兩份答案的概率很接近,極有可能是現(xiàn)場有一對雙胞胎。
人工智能識別相似度極高的雙胞胎
小度機器人用概率地找到了答案,這一輪,王峰惜??;接下來雙方在超過千人的合影中都準(zhǔn)確找到了對應(yīng)的人。
有意思的是,在比賽結(jié)束之后,有媒體提問百度深度學(xué)習(xí)實驗室主任(IDL)林元慶:“如果讓打敗幾乎所有圍棋高手的AlphaGo和百度大腦比試一場,到底誰會贏?”
林元慶給出的答案是:谷歌和百度二者選擇的方向,特別是“人機大戰(zhàn)”的方向非常不一樣。“去年AlphaGo出來的時候,我們正在投入非常大的力量在無人車,百度內(nèi)部沒有做圍棋的項目?!?/span>
人臉識別技術(shù)解密
在人類大腦中,有特定的腦區(qū)(Fusiform face area(FFA)去負責(zé)圖像識別。王峰提到,自己在識別人臉的過程中,會先觀察照片上的人臉特征,例如鼻子兩側(cè)、嘴角、耳朵等等,然后記住這些特征,再進行匹配。相比之下,人工智能的識別有怎樣的不同?
林元慶告訴第一財經(jīng)記者,通常情況下,人臉識別主要包括人臉檢測、人臉圖像預(yù)處理、人臉圖像特征提取、人臉圖像匹配與識別四個步驟。目前百度人臉測試集有2百萬人的2億張圖片作為訓(xùn)練樣本數(shù)據(jù)。
人臉識別流程圖
其中,人臉檢測主要包括根據(jù)眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之間的幾何位置關(guān)系來檢測人臉,即在在一副圖像或一序列圖像(比如視頻)中判斷是否有人臉,若有則返回人臉的大小、位置等信息。
人臉識別
而由于系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機干擾,往往不能直接使用,必須在圖像處理的早期階段對它進行灰度校正、噪聲過濾等圖像預(yù)處理。
人臉圖像預(yù)處理
人臉圖像的預(yù)處理主要包括人臉對準(zhǔn),人臉圖像的增強,以及歸一化等工作。其中,人臉對準(zhǔn)是為了得到人臉位置端正的人臉圖像;圖像增強是為了改善人臉圖像的質(zhì)量,不僅在視覺上更加清晰圖像,而且使圖像更利于計算機的處理與識別;歸一化工作的目標(biāo)是取得尺寸一致,灰度取值范圍相同的標(biāo)準(zhǔn)化人臉圖像。
人臉特征提取就是針對人臉的某些特征進行的。人臉特征提取,也稱人臉表征,它是對人臉進行特征建模的過程。
人臉識別就是將待識別的人臉特征與已得到的人臉特征模板進行比較,根據(jù)相似程度對人臉的身份信息進行判斷。這一過程又分為兩類:
一類是人臉確認(rèn),是一對一進行圖像比較的過程,將某人面像與指定人員面像進行一對一的比對,根據(jù)其相似程度(一般以是否達到或超過某一量化的可信度指標(biāo)/閥值為依據(jù))來判斷二者是否是同一人。
另一類是人臉辨認(rèn),是一對多進行圖像匹配對比的過程。將某人面像與數(shù)據(jù)庫中的多人的人臉進行比對(有時也稱“一對多”比對),并根據(jù)比對結(jié)果來鑒定此人身份,或找到其中相似的人臉,并按相似程度的大小輸出檢索結(jié)果。
影響人臉識別的因素有:光照、人臉姿態(tài)、遮擋程度;影響特征提取的因素有:光照、表情、遮擋、年齡、模糊是影響人臉識別精度的關(guān)鍵因素。
例如,在雙胞胎識別上,人臉識別是在臉部骨骼上取盡可能多的點,通過計算機把這些點分別與自己已經(jīng)存儲的臉比較,有差別就判斷出來。而雙胞胎之所以會不容易識別,就是因為骨骼太相似,導(dǎo)致差別特別細微,如果選取的面部骨骼點不夠多,就無法進行識別。
而跨年齡階段人臉識別中影響的因素更多:一方面,類內(nèi)變化通常會大于類間變化,這造成了人臉識別的巨大困難。同時,跨年齡的訓(xùn)練數(shù)據(jù)難以收集。沒有足夠多的數(shù)據(jù),基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)很難學(xué)習(xí)到跨年齡的類內(nèi)和類間變化。
基于第一點,百度IDL的人臉團隊選擇用度量學(xué)習(xí)的方法。即通過學(xué)習(xí)一個非線性投影函數(shù),把圖像空間投影到特征空間中。在這個特征空間里,跨年齡的同一個人的兩張人臉的距離會比不同人的相似年齡的兩張人臉的距離要小。
針對第二點,考慮到跨年齡人臉的稀缺性,百度IDL用一個用大規(guī)模人臉數(shù)據(jù)訓(xùn)練好的模型作為底座,然后用跨年齡數(shù)據(jù)對他做更新。這樣不容易過擬合。而將這兩點結(jié)合起來做端到端的訓(xùn)練,可以大幅度提升跨年齡識別的識別率。
打敗人類不是終極目的
從打敗幾乎所有圍棋高手的AlphaGo,到首場人機大戰(zhàn)中戰(zhàn)勝人類大腦的百度大腦,未來人工智能是否將顛覆人類世界?
在羅輯思維羅振宇眼里,人工智能不僅僅是人類的延伸,更是人類的替代。他援引尤瓦爾·赫拉利在新書《未來簡史》中的觀點,“未來可能出現(xiàn)一種沒用的人。如果人工智能足夠強大,愿意毫無怨言地被剝削、被奴役,那有的人類可能連被剝削的價值都沒有了。近在眼前的是一系列職業(yè)的消失?!?/span>
而在北京大學(xué)心理學(xué)系教授魏坤琳看來,機器贏了就機器贏了,這是科技發(fā)展的必然結(jié)果。這天遲早會到來,只是來的早和晚的事情。
“任何新技術(shù)出現(xiàn)的時候老百姓都恐慌,汽車出現(xiàn)恐慌,火車出現(xiàn)恐慌,計算機出現(xiàn)恐慌。這個是終極恐慌人工智能的出現(xiàn),可能讓很多一般智力活動(包括很多白領(lǐng)的工作)甚至專業(yè)人員(包括某些領(lǐng)域的醫(yī)生)的工作受到威脅。但是,我覺得人類的整體的失業(yè)率不一定會下滑,有些的工作死了,新的工作又產(chǎn)生了?!? 魏坤琳說。
林元慶則認(rèn)為,人工智能替代人類,可能會替代一些比較低端的工作,例如汽車工廠里的流水線機器人, “人工智能威脅到人類,這個事情我們的觀點覺得很遙遠?!?/span>
他告訴記者,百度的目的不是宣傳人工智能打敗了人類,重要的是看一看百度的人工智能已經(jīng)到了怎么樣的水平。
目前,圍繞人工智能人臉識別的行業(yè)應(yīng)用包括如金融領(lǐng)域的遠程預(yù)授信、人臉識別閘機等。
例如,遠程預(yù)授信依靠的是以大數(shù)據(jù)和人工智能為基礎(chǔ)的嚴(yán)謹(jǐn)風(fēng)控體系。借助大數(shù)據(jù)+人工智能技術(shù),風(fēng)控部門為有信貸需求的群體繪制用戶畫像,建立信用體系,加上圖像識別等人工智能技術(shù)的實際應(yīng)用,構(gòu)成了遠程授信的技術(shù)基礎(chǔ)。
人臉識別用于金融行業(yè)身份認(rèn)證
不過,在人臉識別領(lǐng)域,目前人工智能并不完美。
林元慶告訴記者,百度大腦所用的深度學(xué)習(xí)的方法,可以從海量的數(shù)據(jù)里面學(xué)到的是共性,但如果說一個人嘴邊長了一顆痣,機器學(xué)習(xí)就比較難,因為這不是共性。對于那些比較獨特的、個性化的特征,目前人工智能還沒有很好的利用。
再如識別“貓”,就算是3歲的小孩,貓擺出不同的姿勢,各種各樣的貓都能夠很好地識別。而機器如果實現(xiàn)精確的識別,后面需要非常海量的數(shù)據(jù)訓(xùn)練,可能是成千上萬的數(shù)據(jù)。訓(xùn)練的結(jié)果還不一定正確,下一次碰到姿勢不一樣的貓,有可能又識別錯。“雖然我們?nèi)斯ぶ悄芗夹g(shù)過去幾年取得了長足的進步,但是識別還是一個非常難的事情?!?/span>
官方微博
官方微信公眾號
官方百家號