深度學(xué)習(xí)尋找肺炎病毒宿主:AI“進化”的“一小步”互聯(lián)網(wǎng)+

該團隊使用了基于深度學(xué)習(xí)模型的AI技術(shù)尋找病毒宿主,通過深度學(xué)習(xí)模型對病毒基因數(shù)據(jù)的廣域檢索,深度學(xué)習(xí)尋找病毒宿主 一種前所未知的新型病毒出現(xiàn)后。
1月24日,北京大學(xué)工學(xué)院教授朱懷球團隊在bioRxiv預(yù)印版平臺發(fā)表《深度學(xué)習(xí)算法預(yù)測新型冠狀病毒的宿主和感染性》一文中指出,蝙蝠和水貂可能是新型冠狀病毒的兩個潛在宿主,水貂可能是中間宿主。
據(jù)朱懷球團隊的研究表明,新型冠狀病毒與云南菊頭蝠中存在的RaTG13冠狀病毒一致性高達96%;另外,基于深度學(xué)習(xí)開發(fā)的VHP(病毒宿主預(yù)測)方法預(yù)測的結(jié)構(gòu)化顯示,水貂的病毒的傳染性模式更接近新型冠狀病毒。
據(jù)悉,在此次研究中,該團隊使用了基于深度學(xué)習(xí)模型的AI技術(shù)尋找病毒宿主。這可能是國內(nèi)首次在2019新型冠狀病毒的研究中使用深度學(xué)習(xí)AI取得成果。
01
AI加入抗擊疫情一線,深度學(xué)習(xí)尋找病毒宿主
一種前所未知的新型病毒出現(xiàn)后,確定病毒宿主是十分重要的。由于病毒復(fù)雜的多樣性,目前人類已知的病毒和對病毒本身的了解還遠遠不夠,大多數(shù)以人類為宿主的病毒,通常對人類造成生命安全威脅之后,才會進一步引起人們的重視。
對一些本不以人類為宿主的病毒來說,其本身也可能突發(fā)變異,或者通過中間宿主也可感染至人類。因此,快速尋找鑒別未知病毒的宿主,能夠幫助人類了解病毒與宿主間的相互作用,以應(yīng)對突發(fā)變異等潛在威脅,從而有針對性的對病毒進行預(yù)防和控制,具有重要意義。
為了檢測新病毒的潛在宿主和致病性,傳統(tǒng)的方法是基于通過建立病毒基因庫,將新型病毒的DNA序列與已知病毒的基因序列做對比檢索,通過比較病毒DNA局部的相似性,從而做出對新病毒宿主的模糊預(yù)測。
北京大學(xué)朱懷球團隊在對2019新型冠狀病毒的宿主研究和預(yù)測中,通過構(gòu)建VHP算法模型,將已經(jīng)提取的新型冠狀病毒的基因組,與已有病毒基因數(shù)據(jù)庫做數(shù)據(jù)檢索和對比。在算力的支持下,通過深度學(xué)習(xí)模型對病毒基因數(shù)據(jù)的廣域檢索,實現(xiàn)新型冠狀病毒自然宿主的尋找和預(yù)測。
02
VHP模型計算出新型冠狀病毒的感染性
朱懷球團隊在bioRxiv預(yù)印版平臺發(fā)表的論文中稱:“為了構(gòu)建VHP模型,我們使用了一個雙路卷積神經(jīng)網(wǎng)絡(luò)用于預(yù)測病毒序列宿主;我們把病毒的宿主分為五種類型,包括植物、細菌、無脊椎動物、脊椎動物和人類;輸入病毒核苷酸序列,基于深度學(xué)習(xí)的VHP模型,將為每種宿主類型分別輸出5類結(jié)果,分別反映出新型冠狀病毒在每種類型中感染性。”
通過對VHP模型計算的結(jié)果分析,篩選的病毒宿主包括犬、豬、貂、龜和貓。研究人員經(jīng)過分析比較后認為水貂的病毒的傳染性模式更接近新型冠狀病毒。
實際上,相比傳統(tǒng)的AI機器學(xué)習(xí)方法,AI深度學(xué)習(xí)的方法訓(xùn)練出的模型可以適用于多種不同類型的數(shù)據(jù),還可以結(jié)合多種來源的數(shù)據(jù),共同完成一個任務(wù)。
在基因數(shù)據(jù)中,并不是所有的數(shù)據(jù)都有準確的高質(zhì)量數(shù)據(jù)標簽,而通過深度生成模型,即使沒有高質(zhì)量標簽的數(shù)據(jù)也能得到充分使用,從而使得模型能夠持續(xù)的提升性能。
因而,從AI深度學(xué)習(xí)的種類上來看,除了常見的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)更適合,也更需要醫(yī)學(xué)界、生物界更多的關(guān)注。
03
深度學(xué)習(xí)AI+醫(yī)療:應(yīng)用前景廣闊但也有局限性
在AI的應(yīng)用場景中,醫(yī)療行業(yè)是其應(yīng)用前景最為廣闊的行業(yè)之一。生物信息領(lǐng)域中,制藥企業(yè)的藥物研發(fā)、醫(yī)療設(shè)備收集的健康數(shù)據(jù)、病患者的診斷以及治療方案的確定都有深度學(xué)習(xí)型AI的應(yīng)用需求。
深度學(xué)習(xí)的本質(zhì),是一個復(fù)雜的AI學(xué)習(xí)算法。目前,深度學(xué)習(xí)應(yīng)用最為廣泛的是在計算機視覺以及語言識別領(lǐng)域。其中計算機視覺技術(shù)在醫(yī)療領(lǐng)域也有一定的應(yīng)用,如醫(yī)學(xué)影像的識別。
不過,深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用也面臨現(xiàn)實應(yīng)用的局限性,其中之一就是分析過程缺乏解釋性。實際上,深度學(xué)習(xí)本質(zhì)上也是統(tǒng)計學(xué)習(xí)的一種,通過對已知數(shù)據(jù)的匯總和檢索,以算法的優(yōu)化達到某種結(jié)果的預(yù)測。
也就是說,深度學(xué)習(xí)算法得出的結(jié)果是概率學(xué)上對現(xiàn)有數(shù)據(jù)條件下的結(jié)果預(yù)測,并不能給出“解題過程”只能給出結(jié)果。這也使得不可避免的出現(xiàn)一定的現(xiàn)實結(jié)果偏差。
以此次新型冠狀病毒宿主研究為例,在VHP模型計算給出結(jié)果后,篩選的病毒宿主包括犬、豬、貂、龜和貓,仍需要研究人員對比分析后得出進一步的結(jié)論:水貂的病毒的傳染性模式更接近新型冠狀病毒。
04
技術(shù)之力亦需“跨越偏見”
此外,如果輸入數(shù)據(jù)樣本本身帶有“大數(shù)據(jù)偏見”,那么模型計算則會放大這種“偏見”,從而影響結(jié)果在現(xiàn)實場景中的準確性。
對于基于深度學(xué)習(xí)的醫(yī)療AI而言,這樣的情況也很難以能夠說百分之百避免,特別是面對復(fù)雜龐大的醫(yī)療數(shù)據(jù)而言,這樣的“偏見”帶來的結(jié)果是人們難以接受的。
因而對于深度學(xué)習(xí)AI在醫(yī)療領(lǐng)域的落地,除了技術(shù)實現(xiàn)本身要解決的問題之外,由技術(shù)引發(fā)蝴蝶效應(yīng)也更應(yīng)該獲得關(guān)注。
從好的一面來看,深度學(xué)習(xí)型AI在醫(yī)療領(lǐng)域的落地,不啻為補充優(yōu)質(zhì)醫(yī)療資源的“良方”,同時深度學(xué)習(xí)AI以及大數(shù)據(jù)等新技術(shù)的應(yīng)用,也為人們在未來面對“新型冠狀病毒”之類的突發(fā)性傳染病給予技術(shù)的力量。
05
我們將生活在一個分析所有數(shù)據(jù)的時代
《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格前瞻性地預(yù)見到:“在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機采樣。”
在數(shù)據(jù)時代,AI深度學(xué)習(xí)與算法、大數(shù)據(jù)的進步與發(fā)展將使得人類迎來一個全新的時代,在肆虐的病毒面前,人類并不會無動于衷。在當(dāng)前新型冠狀病毒暴發(fā)的艱難時刻,更需要人們充滿信心,以更加頑強的勇氣和智慧,以面對新型病毒的挑戰(zhàn)!
科技自媒體劉志剛,訂閱號:互聯(lián)網(wǎng)江湖(ID:VIPIT),轉(zhuǎn)載商務(wù)合作加微信:13124791216,轉(zhuǎn)載保留作者版權(quán)信息違者必究。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。