小鼠卵細(xì)胞切片對(duì)應(yīng)的手動(dòng)分割
美國(guó)能源部勞倫斯伯克利實(shí)驗(yàn)室的數(shù)學(xué)家們,開(kāi)發(fā)了一種針對(duì)實(shí)驗(yàn)成像數(shù)據(jù)的新的機(jī)器學(xué)習(xí)算法。與典型的機(jī)器學(xué)習(xí)算法需要成千上萬(wàn)的訓(xùn)練圖像不同,這種新算法需要的訓(xùn)練圖像少得多,而且速度也提高了不少。
伯克利實(shí)驗(yàn)室的能源高級(jí)數(shù)學(xué)研究與應(yīng)用中心(簡(jiǎn)稱CAMERA)的Dani?l Pelt和James Sethian,通過(guò)開(kāi)發(fā)一種他們稱之為“多尺寸密集卷積神經(jīng)網(wǎng)絡(luò)”(MS-D)的新算法,顛覆了傳統(tǒng)的機(jī)器學(xué)習(xí)理念。和傳統(tǒng)方法相比,新方法需要的參數(shù)更少,收斂更快,而且可以基于非常小的數(shù)據(jù)集進(jìn)行學(xué)習(xí)。他們提出的這種方法已經(jīng)被用于從細(xì)胞圖像中提取生物結(jié)構(gòu),而且可以作為多個(gè)研究領(lǐng)域分析數(shù)據(jù)的主要計(jì)算工具。
當(dāng)實(shí)驗(yàn)設(shè)備以更高的速度生成更高分辨率的圖像時(shí),科學(xué)家們很難對(duì)得到的數(shù)據(jù)結(jié)果進(jìn)行管理和分析,這些工作通常需要手動(dòng)完成。2014年,Sethian在伯克利實(shí)驗(yàn)室建立了一個(gè)集成的交叉學(xué)科中心CAMERA,目的是開(kāi)發(fā)美國(guó)能源部科學(xué)用戶設(shè)施辦公室實(shí)驗(yàn)所需的基礎(chǔ)數(shù)學(xué)方法。CAMERA是該實(shí)驗(yàn)室的計(jì)算研究部門的一部分。
“在許多科學(xué)應(yīng)用中,研究人員需要耗費(fèi)大量的體力勞動(dòng)來(lái)標(biāo)注和勾畫圖像,有時(shí)候?yàn)榱说玫綆讖埞串嬀?xì)的圖像,甚至要花費(fèi)幾周時(shí)間。我們的目標(biāo)是開(kāi)發(fā)出一種能基于非常小的數(shù)據(jù)集進(jìn)行學(xué)習(xí)的技術(shù)”,Sethian說(shuō)道。Sethian是加州大學(xué)伯克利分校的數(shù)學(xué)教授。
這項(xiàng)算法的詳細(xì)介紹發(fā)表在了2017年12月26日的美國(guó)國(guó)家科學(xué)院學(xué)報(bào)上。
“這項(xiàng)突破源于我們意識(shí)到,通過(guò)放大和縮小,在不同尺寸下捕捉特征的方法,可以用在單個(gè)層上處理多個(gè)尺寸的數(shù)學(xué)運(yùn)算來(lái)取代,” Pelt介紹道。Pelt是荷蘭數(shù)學(xué)與計(jì)算科學(xué)研究所下屬的計(jì)算成像小組的成員。
了解生物細(xì)胞的內(nèi)部結(jié)構(gòu)是該方法非常富有前景的應(yīng)用領(lǐng)域之一。在一個(gè)項(xiàng)目中,Pelt和Sethian采用MS-D算法,只用了7個(gè)細(xì)胞的數(shù)據(jù)就確定了其內(nèi)部結(jié)構(gòu)。
“我們實(shí)驗(yàn)室正在研究細(xì)胞結(jié)構(gòu)和形態(tài)如何影響或控制細(xì)胞的行為?!泵绹?guó)國(guó)家x射線斷層掃描中心主任、加州大學(xué)舊金山分校醫(yī)學(xué)院的教授卡Carolyn Larabell說(shuō)道?!拔覀兓舜罅繒r(shí)間來(lái)手工分割細(xì)胞以提取結(jié)構(gòu),分辨健康與患病細(xì)胞之間的差異。這種新方法有可能從根本上改變我們理解疾病的能力,而且是我們建立人類細(xì)胞圖譜的一個(gè)關(guān)鍵工具。人類細(xì)胞圖譜是一個(gè)通過(guò)全球協(xié)作來(lái)繪制和勾畫一個(gè)健康人體的所有細(xì)胞的項(xiàng)目。”
用更少的數(shù)據(jù)獲取更多的科學(xué)真理
如今,圖像無(wú)處不在。智能手機(jī)和傳感器產(chǎn)生了一批珍貴的圖像,其中很多都帶有相關(guān)的標(biāo)記信息?;谶@個(gè)龐大的交叉參考數(shù)據(jù)庫(kù),卷積神經(jīng)網(wǎng)絡(luò)和其他機(jī)器學(xué)習(xí)算法已經(jīng)徹底改變了我們快速識(shí)別那些和我們?cè)?jīng)見(jiàn)過(guò)和分類過(guò)的圖像類似的自然圖像的能力。
這類方法需要數(shù)以百萬(wàn)計(jì)的標(biāo)記過(guò)的數(shù)據(jù)作為引導(dǎo),通過(guò)調(diào)整一系列隱藏的內(nèi)部參數(shù)來(lái)“學(xué)習(xí)”其中的規(guī)律,這個(gè)過(guò)程需要使用巨型計(jì)算機(jī)并花費(fèi)大量的時(shí)間。如果我們沒(méi)有這么多標(biāo)記好的圖像該怎么辦呢?要知道,在很多領(lǐng)域,如此龐大的數(shù)據(jù)是難以企及的奢侈品。生物學(xué)家記錄下細(xì)胞圖像,并煞費(fèi)苦心地手動(dòng)勾勒出邊界和結(jié)構(gòu)。對(duì)他們來(lái)說(shuō),為了得出一個(gè)完整的三維圖像而花費(fèi)數(shù)周時(shí)間,是很稀松平常的事情。材料科學(xué)家利用斷層重建技術(shù)來(lái)觀察巖石和材料,擼起袖子手動(dòng)標(biāo)記不同的區(qū)域,辨認(rèn)裂縫、斷口和孔洞。不同重要結(jié)構(gòu)之間的差異非常細(xì)微,數(shù)據(jù)中的噪聲很可能掩蓋掉這些特征,迷惑最出色的算法和專家。
對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法來(lái)說(shuō),這些手動(dòng)標(biāo)記的寶貴數(shù)據(jù)數(shù)量遠(yuǎn)遠(yuǎn)不夠。為了解決這一問(wèn)題,CAMERA的數(shù)學(xué)家們基于非常有限的數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)發(fā)起了挑戰(zhàn)。他們?cè)噲D用更少的數(shù)據(jù)獲得更佳的結(jié)果,他們的目標(biāo)是找出建立一套高效的數(shù)學(xué)“運(yùn)算符”的方法,以大大減少參數(shù)的數(shù)量。這些數(shù)學(xué)運(yùn)算符可能會(huì)自然地結(jié)合一些關(guān)鍵約束來(lái)幫助識(shí)別,比如結(jié)合對(duì)科學(xué)合理的形狀和模式的要求。
多尺寸密集卷積神經(jīng)網(wǎng)絡(luò)
機(jī)器學(xué)習(xí)在成像問(wèn)題中的許多應(yīng)用,采用的都是深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)。其中輸入圖像和中間圖像在大量的連續(xù)層中進(jìn)行卷積,使得網(wǎng)絡(luò)能夠?qū)W習(xí)高度非線性的特征。為了在復(fù)雜的圖像處理問(wèn)題中獲得準(zhǔn)確的結(jié)果,DCNNs通常依賴于額外操作和連接的組合,比如通過(guò)放大和縮小來(lái)捕捉不同的圖像尺寸下的特征。為了訓(xùn)練更深層和更強(qiáng)大的網(wǎng)絡(luò),往往需要額外的層類型和連接。最后,DCNNs通常使用大量的中間圖像和訓(xùn)練參數(shù)(往往超過(guò)1億)來(lái)獲取復(fù)雜問(wèn)題的結(jié)果。
而新的“多尺寸密集”網(wǎng)絡(luò)結(jié)構(gòu)避免這樣的復(fù)雜過(guò)程,它用擴(kuò)張的卷積替代縮放操作,以捕捉各種空間范圍下的特征,在單個(gè)層中使用多個(gè)尺度,并將所有中間圖像緊密地連接起來(lái)。新的算法只需要很少的中間圖像和參數(shù)就能獲取精確的結(jié)果,而且不需要調(diào)整超參數(shù)以及額外的層或連接來(lái)支持訓(xùn)練。
從低分辨率數(shù)據(jù)中獲取更精確的結(jié)果
這種方法所面臨的一大不同挑戰(zhàn)就是,要從低分辨率的輸入中產(chǎn)生高分辨率的圖像。任何嘗試過(guò)把圖像放大的人都知道,當(dāng)圖像的尺寸變大時(shí)畫質(zhì)也會(huì)變得糟糕,因此這聽(tīng)起來(lái)就像一個(gè)不可能完成的任務(wù)。但一小部分經(jīng)過(guò)多尺寸密集卷積神經(jīng)網(wǎng)絡(luò)處理的訓(xùn)練圖像確確實(shí)實(shí)能夠起到一些作用。比如對(duì)纖維增強(qiáng)的微型復(fù)合材料的層析重建進(jìn)行降噪。論文中提到了一個(gè)實(shí)驗(yàn),用1024個(gè)x射線投影重建的圖像,得到的圖像噪聲相對(duì)較低。同一物體的噪聲圖像隨后用128個(gè)投影進(jìn)行了重建。訓(xùn)練輸入是有噪聲的圖像,在訓(xùn)練中使用相應(yīng)的無(wú)噪聲圖像作為目標(biāo)輸出。經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)能夠有效地獲取噪聲輸入數(shù)據(jù)并重構(gòu)更高分辨率的圖像。
新的應(yīng)用方向
Pelt和Sethian正在努力將他們的研究成果應(yīng)用到一系列新的領(lǐng)域,比如快速實(shí)時(shí)分析同步加速器光源產(chǎn)生的圖像,以及生物重建問(wèn)題,比如重建細(xì)胞和大腦的映射。
Pelt說(shuō)道:“這些新方法令人振奮,它們讓機(jī)器學(xué)習(xí)得以應(yīng)用到比目前更加廣泛的成像問(wèn)題當(dāng)中。通過(guò)減少所需訓(xùn)練圖像的數(shù)量,增加可以處理的圖像的大小,這一新的體系結(jié)構(gòu)可以用來(lái)回答許多研究領(lǐng)域中的重大問(wèn)題。”
CAMERA由美國(guó)能源部科學(xué)辦公室的高級(jí)科學(xué)計(jì)算研究和基礎(chǔ)能源科學(xué)辦公室支持。科學(xué)辦公室是美國(guó)物理科學(xué)基礎(chǔ)研究的最大支持者,它正致力于解決我們這個(gè)時(shí)代最緊迫的一些挑戰(zhàn)。
勞倫斯伯克利國(guó)家實(shí)驗(yàn)室通過(guò)推進(jìn)可持續(xù)能源,保護(hù)人類健康,創(chuàng)造新材料,揭示宇宙的起源和命運(yùn),來(lái)解決世界上最緊迫的科學(xué)挑戰(zhàn)。伯克利實(shí)驗(yàn)室成立于1931年,獲得了13項(xiàng)諾貝爾獎(jiǎng)。勞倫斯伯克利實(shí)驗(yàn)室雖然隸屬美國(guó)能源部,卻具體由加利福尼亞大學(xué)負(fù)責(zé)運(yùn)行。