乘風(fēng)破浪留學(xué)路:他讓人工智能更懂鏡像
他讓人工智能更懂鏡像——
圖片翻轉(zhuǎn),沒那么簡單
(乘風(fēng)破浪留學(xué)路系列報(bào)道)
本報(bào)記者 孫亞慧
在2020CVPR(國際計(jì)算機(jī)視覺與模式識別會議)上,來自美國康奈爾大學(xué)四年級的中國留學(xué)生林之秋以第一作者身份提交的“Visual Chirality”(視覺手性)論文榮獲大會最高級別榮譽(yù)“最佳論文”的提名,在全球科學(xué)界精英提交的6424篇論文中,僅有26篇獲得最佳論文提名,占0.4%,林之秋是本次大會唯一一個(gè)還在本科階段的獲獎?wù)?,也是年齡最小的第一作者。
識別“AI換臉”
手性的定義為“一個(gè)物體無法與其鏡像相重合”,這種不對稱性在自然界中廣泛存在,并應(yīng)用于不同領(lǐng)域。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量標(biāo)注數(shù)據(jù),但數(shù)據(jù)總是有限的。為了用有限的標(biāo)注數(shù)據(jù)來擬合函數(shù),人們使用數(shù)據(jù)增強(qiáng)的方法來低成本地獲得更多標(biāo)記數(shù)據(jù)。而鏡像翻轉(zhuǎn)是最常用的圖像數(shù)據(jù)增強(qiáng)方法之一,只需將所有圖片都進(jìn)行一次鏡像翻轉(zhuǎn),就相當(dāng)于免費(fèi)得到了雙倍數(shù)據(jù)。
但事情當(dāng)然沒有這么簡單。當(dāng)翻轉(zhuǎn)了數(shù)據(jù)集里的所有圖片時(shí),神經(jīng)網(wǎng)絡(luò)所擬合的函數(shù)還能代表原先的圖像分布嗎?林之秋以第一作者身份提交的這篇論文,討論的正是這一問題。
神經(jīng)網(wǎng)絡(luò)可以通過自監(jiān)督訓(xùn)練的方法,在判斷圖像翻轉(zhuǎn)的任務(wù)上達(dá)到非常高的精度,并能指出圖片中哪些區(qū)域可以被用于識別鏡像翻轉(zhuǎn)。
通過最新的神經(jīng)網(wǎng)絡(luò)技術(shù)與嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明,康奈爾團(tuán)隊(duì)發(fā)現(xiàn)了數(shù)字圖像中一些人眼難以識別的微小對稱性,從最簡單的圖片鏡像翻轉(zhuǎn)出發(fā),重新探討了神經(jīng)網(wǎng)絡(luò)訓(xùn)練下數(shù)據(jù)增強(qiáng)和圖片防偽的意義?!拔覀冞@項(xiàng)工作對于普通人來說意義不是特別大,因?yàn)檫@是一項(xiàng)人工智能中比較基礎(chǔ)和理論的研究。但對于前沿學(xué)術(shù)界來說意義很大,這或許也是這項(xiàng)工作最終能獲得最佳論文提名的原因?!绷种镎f。
識別鏡像翻轉(zhuǎn),為圖像防偽提供了技術(shù)應(yīng)用空間,比如AI換臉。林之秋說:“網(wǎng)絡(luò)上的一些AI換臉、或者之前被人惡搞的外國政要換臉,盡管所生成的圖像對于人眼來說非常逼真,但我們的工作證明了,這類換臉技術(shù)可能會破壞數(shù)字圖像固有的對稱性模式,因此能被計(jì)算機(jī)準(zhǔn)確監(jiān)測和識別出來。”
科研填滿生活
2016年,在美國紐約州伊薩卡小鎮(zhèn),群山包圍之中,17歲的林之秋在康奈爾大學(xué)開啟了自己的科研生涯。
康奈爾課業(yè)繁重,競爭壓力很大。在高中階段提前自學(xué)完課程后,林之秋跳過了大一、大二的基礎(chǔ)課,并在兩年內(nèi)修完了數(shù)學(xué)和計(jì)算機(jī)兩個(gè)專業(yè)的學(xué)分。這為他大三全力投入科研騰出了時(shí)間。
大學(xué)第一年所選的5門高年級課程全部拿到A+,多元微積分、線性代數(shù)、人工智能、高等抽象代數(shù)等多項(xiàng)專業(yè)課第一名,這是林之秋交出的成績單。
學(xué)業(yè)之外,他很喜歡幫教授做一些專業(yè)課助教的工作。幫忙代課、設(shè)計(jì)課程,每周花幾個(gè)小時(shí)為同學(xué)解答問題。在林之秋看來,這些經(jīng)歷對他個(gè)人學(xué)業(yè)的提升也有幫助,可以讓他學(xué)到如何把知識化繁為簡,再深入淺出地分享給大家。
到了大三,林之秋已經(jīng)當(dāng)上了機(jī)器學(xué)習(xí)高階課程的助教,給博士生的期末試卷打分。大學(xué)畢業(yè)時(shí),他憑借GPA總分4.2,在學(xué)院數(shù)千名學(xué)生中名列前三,被授予學(xué)院最高榮譽(yù),并代表學(xué)院在畢業(yè)典禮上舉旗。
他還同幾名美國同學(xué)一起,創(chuàng)辦了康奈爾歷史上第一個(gè)面向本科生的研究人工智能的社團(tuán),組織大家每周一起研讀最新的學(xué)術(shù)論文,一起做些研究。這個(gè)社團(tuán)還幸運(yùn)地拿到了臉書人工智能實(shí)驗(yàn)室4萬美元的贊助,支持他們從事神經(jīng)網(wǎng)絡(luò)研究。
做科研的忙碌,意味著不得不犧牲生活閑暇。林之秋在中學(xué)時(shí)就愛拳擊,利用業(yè)余時(shí)間練過4年,還在“北京市青少年拳擊比賽”中獲得過67公斤級的亞軍。如今,他基本沒有時(shí)間再進(jìn)拳擊房,不僅沒有時(shí)間重拾愛好,甚至有一次還因?yàn)橼s會議,兩周時(shí)間里每天坐在電腦前近20小時(shí)而犯了腰病,不得不去校醫(yī)院做康復(fù)訓(xùn)練。出于對科研的興趣與熱愛,這一切從未讓他覺得辛苦。
前路道阻且長
2013年,當(dāng)時(shí)已從谷歌離職,回國加入騰訊的著名計(jì)算機(jī)科學(xué)家吳軍在中關(guān)村舉辦了一次關(guān)于計(jì)算機(jī)未來應(yīng)用的講座。林之秋早早地占好了前排的位子,那時(shí)他剛上高一,這場講座讓他對計(jì)算機(jī)人工智能產(chǎn)生了興趣。
“講座中提到了摩爾定律,講到計(jì)算機(jī)的飛速發(fā)展會對人類文明所產(chǎn)生的深遠(yuǎn)影響,比如互聯(lián)網(wǎng)大數(shù)據(jù)、醫(yī)療影像、機(jī)器人等?!背鲇趯夹g(shù)的憧憬,林之秋開始通過慕課等線上教育平臺,提前自學(xué)微積分、數(shù)據(jù)結(jié)構(gòu)與算法等大學(xué)計(jì)算機(jī)的基礎(chǔ)課程。
今年,林之秋進(jìn)入專業(yè)排名世界第一的卡內(nèi)基梅隆大學(xué)機(jī)器人學(xué)院攻讀博士學(xué)位,繼續(xù)從事人工智能研究。CVPR上的“最佳論文”提名對他來說是鼓勵(lì),也是動力?!翱蒲泄ぷ髡咄皇强客獠繅毫?、而是靠內(nèi)驅(qū)力來推動的。這種工作往往艱苦而漫長,因?yàn)樵谔剿骺茖W(xué)的過程中,正反饋出現(xiàn)的時(shí)候并不多,甚至很長一段時(shí)間內(nèi)科研沒有任何進(jìn)展。但這時(shí),還是要相信自己提出的猜想并堅(jiān)持下去?!笔聦?shí)上,這篇關(guān)于“鏡像翻轉(zhuǎn)”的研究也曾因“不夠有新意”被另一個(gè)會議的審稿人拒稿,讓林之秋很長一段時(shí)間內(nèi)都在懷疑與反思——研究到底有沒有價(jià)值?能不能做出來?
現(xiàn)在,堅(jiān)持最終有了結(jié)果,來自學(xué)界的認(rèn)可讓他更堅(jiān)定了從事人工智能科學(xué)的信心。
也有大型科技公司向林之秋拋出橄欖枝,待遇優(yōu)渥,但被他拒絕了。林之秋說,他喜歡做學(xué)術(shù),希望有朝一日能通過前沿理論研究進(jìn)一步推動技術(shù)發(fā)展。道阻且長,行則將至,在這條科研路上,他正勇敢地乘風(fēng)破浪前行。