在全球，有關(guān)數(shù)據(jù)隱私及安全的保護(hù)運(yùn)動(dòng)已經(jīng)沸沸揚(yáng)揚(yáng)地開展了一段時(shí)間。早在2018年，號稱“史上最嚴(yán)”及“三十年來數(shù)據(jù)安全最大變動(dòng)”的歐盟GDPR（《通用數(shù)據(jù)保護(hù)條例》）已經(jīng)引發(fā)了全球廣泛關(guān)注，并推動(dòng)了各國和地區(qū)對數(shù)據(jù)隱私及安全的重視。

2021年6月10日，中華人民共和國第十三屆全國人民代表大會常務(wù)委員會第二十九次會議正式通過并公布《數(shù)據(jù)安全法》，并將于2021年9月1日施行。它將與已經(jīng)頒布的《網(wǎng)絡(luò)安全法》及正在審議中的《個(gè)人信息保護(hù)法》一起代表我國對數(shù)據(jù)隱私及安全的重視，共同構(gòu)建起我國數(shù)字時(shí)代有關(guān)信息的法律體系。

在這種背景下，數(shù)據(jù)隱私和安全得到空前重視，且在未來將毫無疑問地趨于嚴(yán)格。醫(yī)療AI模型開發(fā)迭代必須的醫(yī)療數(shù)據(jù)獲取變得愈發(fā)困難。以聯(lián)邦學(xué)習(xí)為代表的隱私計(jì)算為這一問題提供了全新的解題思路，并在最近兩年獲得了廣泛關(guān)注。兩年過去了，以聯(lián)邦學(xué)習(xí)為代表的隱私計(jì)算如今有什么進(jìn)展呢？動(dòng)脈網(wǎng)（微信號：Vcbeat）對此進(jìn)行了梳理。

簡要回顧一下聯(lián)邦學(xué)習(xí)是什么？

簡單來說，聯(lián)邦學(xué)習(xí)是一種加密的分布式機(jī)器學(xué)習(xí)框架，目標(biāo)是在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上對AI模型進(jìn)行訓(xùn)練的手段。這一技術(shù)最早由谷歌提出，并在Google I/O 2019大會上首次展示了實(shí)際落地的應(yīng)用場景。

谷歌當(dāng)時(shí)展示的G-Board輸入法使用了這種新的模型訓(xùn)練方式，將整個(gè)模型學(xué)習(xí)過程分發(fā)到用戶手機(jī)，在本地完成分配的模型訓(xùn)練任務(wù)，隨后將訓(xùn)練完成的數(shù)據(jù)上傳匯總幫助模型訓(xùn)練。因?yàn)橛?xùn)練過程在本地完成，且上傳數(shù)據(jù)只涉及模型訓(xùn)練所需的必要數(shù)據(jù)，從而防止了數(shù)據(jù)泄露。

醫(yī)療AI模型的完善同樣需要大量數(shù)據(jù)的訓(xùn)練。放射科醫(yī)生通常需要工作15年時(shí)間，平均每年經(jīng)手至少15000個(gè)病例才算小有所成。這意味著人工智能需要對同等規(guī)模病例（22.5萬）的學(xué)習(xí)才能達(dá)到放射科專家水平。遺憾的是，目前最大的開放數(shù)據(jù)庫僅有10萬病例的規(guī)模，離滿足人工智能訓(xùn)練的要求尚有一定距離。

事實(shí)上，各個(gè)醫(yī)療機(jī)構(gòu)可能擁有包含數(shù)十萬條記錄和圖像的檔案，但因?yàn)殡[私和法規(guī)的原因，這些數(shù)據(jù)完全是彼此孤立無法使用的。無論是人工智能企業(yè)，或是正在使用人工智能的醫(yī)療機(jī)構(gòu)都只能依賴手頭僅有的數(shù)據(jù)來源。高質(zhì)量訓(xùn)練數(shù)據(jù)的嚴(yán)重匱乏，嚴(yán)重阻礙了醫(yī)療AI的更進(jìn)一步。

此外，完全依賴開放數(shù)據(jù)庫訓(xùn)練的模型，很有可能缺乏真正的臨床價(jià)值。2021年，劍橋大學(xué)對公開發(fā)布的有關(guān)醫(yī)療AI的2212篇論文進(jìn)行篩選，從中選出62篇可以達(dá)到研究人員設(shè)定的較高的入選標(biāo)準(zhǔn)的論文。然而，研究人員最終發(fā)現(xiàn)所有62篇實(shí)際上都沒有潛在的臨床應(yīng)用價(jià)值。

數(shù)據(jù)集質(zhì)量和規(guī)模嚴(yán)重不足是導(dǎo)致這一問題的重要原因；此外，僅僅采用來源于開放數(shù)據(jù)庫的公共數(shù)據(jù)集也是原因之一。隨著時(shí)間的推移，公共數(shù)據(jù)集不斷發(fā)展并融合新的數(shù)據(jù)，很可能導(dǎo)致最初的結(jié)果無法復(fù)現(xiàn)。

劍橋大學(xué)的研究人員提出了三個(gè)觀點(diǎn)：第一，公共數(shù)據(jù)集可能導(dǎo)致嚴(yán)重的偏差風(fēng)險(xiǎn)，謹(jǐn)慎使用。第二，為了使模型適用于不同的群體和獨(dú)立的外部數(shù)據(jù)集，訓(xùn)練數(shù)據(jù)應(yīng)該保持多樣性和適當(dāng)?shù)囊?guī)模。第三，除了更高質(zhì)量的數(shù)據(jù)集外，還需要可復(fù)現(xiàn)和外部驗(yàn)證的證明，這樣才能增加模型被推進(jìn)并整合到未來臨床試驗(yàn)中的可能性。

然而，醫(yī)療數(shù)據(jù)包含了大量患者隱私。醫(yī)療機(jī)構(gòu)或者患者絕對不會因?yàn)槟Ｐ陀?xùn)練愿意承擔(dān)隱私泄露的風(fēng)險(xiǎn)。聯(lián)邦學(xué)習(xí)則可以讓多個(gè)機(jī)構(gòu)利用自己的數(shù)據(jù)進(jìn)行多次迭代訓(xùn)練模型，隨后將訓(xùn)練完成的模型上傳共享。這個(gè)過程并不會涉及到敏感的臨床數(shù)據(jù)或病人隱私，從而解決了大眾的擔(dān)憂。

假設(shè)三家醫(yī)院決定聯(lián)合起來建立一個(gè)中心深度神經(jīng)網(wǎng)絡(luò)用于幫助自動(dòng)分析腦腫瘤圖像，并選擇使用客戶機(jī)-服務(wù)器的聯(lián)邦學(xué)習(xí)。在整個(gè)架構(gòu)中，中心服務(wù)器將維護(hù)全局深度神經(jīng)網(wǎng)絡(luò)。每個(gè)參與的醫(yī)院將獲得一個(gè)這個(gè)神經(jīng)網(wǎng)絡(luò)模型的副本，以便使用自己的數(shù)據(jù)進(jìn)行訓(xùn)練。

一旦在本地對模型進(jìn)行了幾次迭代訓(xùn)練，參與者就會將模型的更新版本發(fā)送回中心服務(wù)器。這個(gè)過程只發(fā)送訓(xùn)練完成的模型及其參數(shù)，而不會像以往的方式發(fā)送病例數(shù)據(jù)。同時(shí)，傳輸數(shù)據(jù)經(jīng)過特殊加密，具有很好的保護(hù)效果。

在收到各地上傳的更新模型后，服務(wù)器將匯總各地上傳的、更新后的局部模型，并對全局模型進(jìn)行更新。隨后，服務(wù)器會與參與機(jī)構(gòu)共享更新后的模型，以便它們能夠繼續(xù)進(jìn)行本地訓(xùn)練。

不難看出，在整個(gè)過程中，共享模型接觸到的數(shù)據(jù)范圍比任何單個(gè)組織內(nèi)部擁有的數(shù)據(jù)范圍都要大得多，訓(xùn)練也更為有效。與此同時(shí)，因?yàn)橹恍枰獋鬏斈Ｐ蛿?shù)據(jù)，其對網(wǎng)絡(luò)傳輸帶寬的要求也降低了很多。

此外，全局模型的訓(xùn)練并不依賴于特定的數(shù)據(jù)。因此，如果其中一家醫(yī)院離開模型訓(xùn)練團(tuán)隊(duì)也不會停止模型的訓(xùn)練。同樣，一家新醫(yī)院可以隨時(shí)選擇加入該計(jì)劃以加速模型訓(xùn)練。

聯(lián)邦學(xué)習(xí)使幾個(gè)組織能夠在模型開發(fā)上進(jìn)行協(xié)作，但不需要彼此共享敏感的臨床數(shù)據(jù)及病人隱私。業(yè)界希望這種新的方式能夠解決目前AI遇到的數(shù)據(jù)困境。相比傳統(tǒng)的模式，聯(lián)邦學(xué)習(xí)還可以鼓勵(lì)不同的機(jī)構(gòu)合作創(chuàng)建一個(gè)可以使所有人受益的模型。

兩年來，聯(lián)邦學(xué)習(xí)在醫(yī)療上做了哪些探索？

自推出以來，業(yè)界就高度重視聯(lián)邦學(xué)習(xí)，并發(fā)布了數(shù)個(gè)開源框架。這些開源框架分別由谷歌（Tensorflow Federated）、OpenMined（Pysyft）、百度（PaddleFL）和微眾銀行（Fate）等牽頭。與此同時(shí)，英偉達(dá)Clara和微眾銀行也推出了聯(lián)邦學(xué)習(xí)的商業(yè)化產(chǎn)品。目前，聯(lián)邦學(xué)習(xí)已經(jīng)在各行各業(yè)開花結(jié)果，醫(yī)療應(yīng)用也是其中之一。

>>>>醫(yī)療影像上的應(yīng)用

2019年10月，英偉達(dá)（NVIDIA）將聯(lián)邦學(xué)習(xí)技術(shù)引入了旗下專門針對醫(yī)療影像領(lǐng)域的Clara平臺，并與英國倫敦國王學(xué)院合作發(fā)布了用于醫(yī)學(xué)影像分析且具有隱私保護(hù)能力的聯(lián)邦學(xué)習(xí)系統(tǒng)。

通過支持聯(lián)邦學(xué)習(xí)的Clara平臺，研究人員可以極大地簡化這一系統(tǒng)的部署難度，并能安全方便地對聯(lián)邦學(xué)習(xí)中心服務(wù)器和協(xié)作客戶端進(jìn)行配置，提供啟動(dòng)聯(lián)邦學(xué)習(xí)項(xiàng)目所需的一切，包括應(yīng)用程序容器和初始AI模型。

參與這一項(xiàng)目的醫(yī)院使用與醫(yī)院影像設(shè)備協(xié)作的Clara AI輔助注釋工具來標(biāo)記自家患者的影像數(shù)據(jù)。使用預(yù)先訓(xùn)練的模型和遷移學(xué)習(xí)技術(shù)，Clara能夠幫助放射科醫(yī)生進(jìn)行標(biāo)記，將復(fù)雜的3D研究時(shí)間從幾小時(shí)減少到幾分鐘。

各家醫(yī)院將利用這些數(shù)據(jù)，在本地EGX服務(wù)器上訓(xùn)練模型。本地訓(xùn)練結(jié)果通過安全鏈接共享回聯(lián)邦學(xué)習(xí)中心服務(wù)器，并由中心服務(wù)器對全局模型進(jìn)行更新。隨后，更新后的模型會與各醫(yī)院服務(wù)器同步，以便各醫(yī)院對新模型進(jìn)行進(jìn)一步訓(xùn)練。

全球領(lǐng)先的醫(yī)療健康機(jī)構(gòu)——包括美國放射學(xué)院（簡稱ACR ，American College of Radiology）、麻省總醫(yī)院（Massachusetts General Hospital）和加州大學(xué)洛杉磯分校醫(yī)療中心（UCLA Medical Center）——都在搶先采用該技術(shù)，致力于為自己的醫(yī)生、患者和醫(yī)療設(shè)施開發(fā)個(gè)性化的AI應(yīng)用，他們的醫(yī)療數(shù)據(jù)、應(yīng)用程序和設(shè)備都在增加，同時(shí)患者隱私必須得到保護(hù)。

ACR在其國家醫(yī)療成像平臺AI-LAB中引入了NVIDIA Clara聯(lián)邦學(xué)習(xí)，從而幫助ACR的38000名醫(yī)療成像會員安全地構(gòu)建、共享、調(diào)整并驗(yàn)證AI模型。

2020年9月，由英偉達(dá)、ACR、巴西DASA（拉丁美洲最大的第三方醫(yī)學(xué)實(shí)驗(yàn)室）、美國麻省總醫(yī)院、妙佑醫(yī)療集團(tuán)、斯坦福大學(xué)、麻省理工學(xué)院上線了合作項(xiàng)目，通過聯(lián)邦學(xué)習(xí)在真實(shí)世界協(xié)作環(huán)境中訓(xùn)練醫(yī)療影像AI模型，用于乳腺BI-RADS分類輔助診斷。

放射科醫(yī)生在分析乳房X光結(jié)果時(shí)，會一邊嘗試尋找腫瘤一邊評估乳房組織密度。所謂乳房組織密度是指女性乳房X光檢查中出現(xiàn)的纖維和乳腺組織量度。根據(jù)影像特征，被分為四大類型：脂肪類、散在纖維腺體類、不均勻致密類和極度致密類。

醫(yī)生進(jìn)行乳房組織密度分類的原因很簡單——乳房密度高的女性患乳腺癌的風(fēng)險(xiǎn)要高4-5倍。根據(jù)統(tǒng)計(jì)，這類人群在美國40-74歲女性中占大約一半。因此，為醫(yī)生提供高質(zhì)量的乳房密度分類輔助分類工具可以更好地評估患者的癌癥風(fēng)險(xiǎn)。

盡管所有參與項(xiàng)目機(jī)構(gòu)共享的數(shù)據(jù)集（乳腺學(xué)系統(tǒng)、類分布和數(shù)據(jù)集大小）存在巨大差異，但AI模型訓(xùn)練依然獲得成功，并展示了較好的效果。比較而言，使用聯(lián)邦學(xué)習(xí)訓(xùn)練的模型比只接受各機(jī)構(gòu)本地?cái)?shù)據(jù)培訓(xùn)的模型平均性能好6.3%，模型的可概括性相對提高了 45.8%。

>>>>新冠肺炎患者氧氣用量預(yù)測

聯(lián)邦學(xué)習(xí)在新冠病毒肆虐全球之際也做出了自己的貢獻(xiàn)——英偉達(dá)和美國聯(lián)盟醫(yī)療體系（麻省總醫(yī)院和布列根和婦女醫(yī)院共建）的研究人員開發(fā)了一個(gè)AI模型。該模型可以通過胸部X光片、患者生命體征和化驗(yàn)結(jié)果，來預(yù)測急診室內(nèi)的新冠肺炎患者是否需要在初步檢查后的幾小時(shí)或幾天中吸氧，進(jìn)而預(yù)測急救室需要的氧氣量，及判斷患者是否需要轉(zhuǎn)入ICU。

為了開發(fā)一種可靠的AI模型，并將其推廣到盡可能多的醫(yī)院，英偉達(dá)和美國聯(lián)盟醫(yī)療體系啟動(dòng)了名為EXAM（EMR CXR AI Model）的計(jì)劃。這項(xiàng)計(jì)劃與來自全球的20家醫(yī)院合作，是目前規(guī)模最大、最多樣化的聯(lián)邦學(xué)習(xí)計(jì)劃之一。

這些醫(yī)院分布在北美洲、南美洲、亞洲和歐洲，數(shù)據(jù)涵蓋了不同人種患者的數(shù)據(jù)集。每家醫(yī)院都使用NVIDIA Clara來訓(xùn)練其本地模型并參與EXAM。在整個(gè)過程中，各家機(jī)構(gòu)無需將患者的胸部X光片和其他保密信息統(tǒng)一匯總，而是使用安全的內(nèi)部服務(wù)器來存儲其數(shù)據(jù)。

全局深度神經(jīng)網(wǎng)絡(luò)模型則托管在亞馬遜AWS獨(dú)立服務(wù)器上，每家參與合作的醫(yī)院都可獲得一份副本用于在自有數(shù)據(jù)集上進(jìn)行訓(xùn)練。

基于模型對各種分布式數(shù)據(jù)進(jìn)行訓(xùn)練，最終項(xiàng)目開發(fā)完成AUC值為0.94（目標(biāo)為1.0）的模型僅僅耗時(shí)兩周，其預(yù)測住院病人所需氧氣量的能力非常出色。由于吸氧對于新冠肺炎患者來說至關(guān)重要，這一技術(shù)平臺已被集成至Clara NGC之中，將挽救不少生命。

>>>>可穿戴醫(yī)療健康設(shè)備

在醫(yī)療健康領(lǐng)域有著重要用途的可穿戴設(shè)備也在引入聯(lián)邦學(xué)習(xí)?？纱┐髟O(shè)備可以準(zhǔn)確記錄用戶的日?；顒?dòng)及體征信息，對于部分疾病的預(yù)防和早篩極有價(jià)值。同時(shí)，可穿戴設(shè)備在心理健康領(lǐng)域、用于患者或老人的跌倒檢測以及健身鍛煉監(jiān)控上也有應(yīng)用價(jià)值。全球可穿戴醫(yī)療健康設(shè)備在近年得到了突破，出貨量屢創(chuàng)新高，積累了海量的數(shù)據(jù)。

傳統(tǒng)的方法對于可穿戴設(shè)備來說是個(gè)巨大的難點(diǎn)（圖片來自IEEE Intelligent Systems , Volume: 35 Issue: 4：FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare）

然而，如何應(yīng)用這些數(shù)據(jù)有兩大難點(diǎn)。首先，這些數(shù)據(jù)各自為政。假設(shè)用戶使用了兩款來自不同品牌的可穿戴設(shè)備，這些數(shù)據(jù)即使上傳至云端也是彼此隔離無法分享的。更進(jìn)一步來說，隨著各國或地區(qū)加強(qiáng)數(shù)據(jù)安全立法，對數(shù)據(jù)存儲的地理位置也提出要求。同一品牌設(shè)備商要想獲取存儲在世界各地的數(shù)據(jù)也非常困難。這將導(dǎo)致訓(xùn)練模型所用的數(shù)據(jù)無論在質(zhì)量還是數(shù)量上都很難達(dá)到標(biāo)準(zhǔn)。

其次，傳統(tǒng)的模型訓(xùn)練方法是通用的，缺乏個(gè)性化和針對性。然而，不同的用戶其實(shí)有著不同的體征特點(diǎn)，基于通用模型的可穿戴設(shè)備并不能最好地匹配他們的需求。

2020年，中科院泛在計(jì)算系統(tǒng)研究中心、中國科學(xué)院大學(xué)、深圳鵬城實(shí)驗(yàn)室和微軟亞洲研究院聯(lián)合提出了FedHealth架構(gòu)，也是首個(gè)針對可穿戴醫(yī)療健康設(shè)備的聯(lián)邦遷移學(xué)習(xí)框架。

聯(lián)邦學(xué)習(xí)可以有效地將分散的可穿戴設(shè)備數(shù)據(jù)予以利用（圖片來自IEEE Intelligent Systems , Volume: 35 Issue: 4：FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare）

通過聯(lián)邦學(xué)習(xí)和同態(tài)加密，F(xiàn)edHealth得以在保證用戶數(shù)據(jù)隱私和安全的前提下為訓(xùn)練強(qiáng)勁模型提供源源不斷的數(shù)據(jù)。在全局模型完成訓(xùn)練后，它又可以通過引入遷移學(xué)習(xí)來實(shí)現(xiàn)個(gè)性化需求。此外，這一可以增量升級的框架還可以進(jìn)一步擴(kuò)展并部署到多種醫(yī)療健康應(yīng)用上以進(jìn)一步在真實(shí)世界中增強(qiáng)學(xué)習(xí)能力。

通過對30位實(shí)驗(yàn)參與者采集的總計(jì)10299組數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)，F(xiàn)edHealth對于可穿戴設(shè)備行為識別的準(zhǔn)確率有一定提升。相比未采用聯(lián)邦學(xué)習(xí)方式的深度學(xué)習(xí)，F(xiàn)edHealth訓(xùn)練模型的準(zhǔn)確率提升了5.3%。

>>>>腦卒中預(yù)測

作為公認(rèn)最早研究“聯(lián)邦學(xué)習(xí)”的國際人工智能專家之一，微眾銀行首席人工智能官楊強(qiáng)教授推動(dòng)了微眾銀行AI團(tuán)隊(duì)成為國內(nèi)聯(lián)邦學(xué)習(xí)技術(shù)的引領(lǐng)者，并將其應(yīng)用于實(shí)際業(yè)務(wù)。目前，微眾銀行已經(jīng)在金融、醫(yī)療等行業(yè)領(lǐng)域落地應(yīng)用聯(lián)邦學(xué)習(xí)。

2018年12月，微眾銀行更是發(fā)起了關(guān)于《聯(lián)邦學(xué)習(xí)架構(gòu)和應(yīng)用規(guī)范》的標(biāo)準(zhǔn)立項(xiàng)，并獲得了IEEE標(biāo)準(zhǔn)委員會的立項(xiàng)批準(zhǔn)。來自國內(nèi)外的多位知名學(xué)者和技術(shù)專家紛紛加入標(biāo)準(zhǔn)工作組，參與到聯(lián)邦學(xué)習(xí)IEEE標(biāo)準(zhǔn)的建設(shè)中。

2019年，騰訊天衍實(shí)驗(yàn)室和微眾銀行在醫(yī)療大數(shù)據(jù)、醫(yī)學(xué)影像輔助診斷等領(lǐng)域展開合作，并聯(lián)合開發(fā)了基于醫(yī)療聯(lián)邦學(xué)習(xí)框架的“腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測模型”。模型利用NLP技術(shù)對電子病歷進(jìn)行處理，通過分析識別與腦卒中高度關(guān)聯(lián)的癥狀來預(yù)測病人腦卒中發(fā)病風(fēng)險(xiǎn)。

我國中部某市五家醫(yī)院（其中三家為該市頭部三甲醫(yī)院）參與了研究，并利用各自的電子病歷數(shù)據(jù)對模型進(jìn)行了訓(xùn)練。結(jié)果顯示，利用聯(lián)邦學(xué)習(xí)訓(xùn)練的模型預(yù)測準(zhǔn)確率高達(dá)80%。同時(shí)，大型三甲醫(yī)院數(shù)據(jù)資源可幫助醫(yī)療服務(wù)匱乏病例少小型醫(yī)院在模型預(yù)測指標(biāo)上提升10-20%。

2020年8月，騰訊醫(yī)療健康與微眾銀行成立聯(lián)合實(shí)驗(yàn)室，結(jié)合騰訊天衍實(shí)驗(yàn)室在醫(yī)療影像、醫(yī)療機(jī)器學(xué)習(xí)與自然語言處理的技術(shù)積累，以及微眾銀行AI團(tuán)隊(duì)在聯(lián)邦學(xué)習(xí)上的領(lǐng)先技術(shù)，聯(lián)合實(shí)驗(yàn)室將進(jìn)一步攻堅(jiān)聯(lián)邦學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用。

>>>>藥物發(fā)現(xiàn)

基于AI在藥物發(fā)現(xiàn)上的巨大潛力，聯(lián)邦學(xué)習(xí)也已經(jīng)在這一場景有所進(jìn)展。2020年12月，同濟(jì)大學(xué)生物信息系與微眾銀行合作，通過聯(lián)邦學(xué)習(xí)模擬多個(gè)制藥機(jī)構(gòu)之間的藥物協(xié)同開發(fā)，助力制藥機(jī)構(gòu)在保障自身藥物數(shù)據(jù)隱私安全的前提下進(jìn)行協(xié)同藥物發(fā)現(xiàn)。

AI藥物發(fā)現(xiàn)面臨的最大痛點(diǎn)在于該領(lǐng)域復(fù)雜的知識產(chǎn)權(quán)和相關(guān)的經(jīng)濟(jì)利益使得制藥機(jī)構(gòu)之間進(jìn)行數(shù)據(jù)直接共享和合作幾乎不可能。通過在藥物小分子領(lǐng)域引入聯(lián)邦學(xué)習(xí)進(jìn)行藥物協(xié)同開發(fā)，可以在保護(hù)藥物小分子結(jié)構(gòu)隱私的前提條件下，獲得與直接整合多機(jī)構(gòu)小分子數(shù)據(jù)進(jìn)行QSAR建模相同或者類似的模型預(yù)測效果。這或許能夠幫助實(shí)現(xiàn)合作“破冰”。

研究首次嘗試在藥物小分子領(lǐng)域探索使用聯(lián)邦學(xué)習(xí)范式進(jìn)行藥物協(xié)同開發(fā)的可行性，結(jié)合微眾銀行的聯(lián)邦學(xué)習(xí)開源平臺FATE，開發(fā)了基于聯(lián)邦學(xué)習(xí)的協(xié)作藥物發(fā)現(xiàn)平臺FL-QSAR。

研究團(tuán)隊(duì)通過對于包含了15個(gè)藥靶的QSAR 基準(zhǔn)數(shù)據(jù)來構(gòu)建深度學(xué)習(xí)模型，進(jìn)行QSAR建模以及多制藥機(jī)構(gòu)環(huán)境下的協(xié)同藥物開發(fā)模擬。研究結(jié)果顯示了將聯(lián)邦學(xué)習(xí)用于藥物發(fā)現(xiàn)具有兩方面的優(yōu)勢。

首先，多個(gè)制藥機(jī)構(gòu)通過FL-QSAR進(jìn)行協(xié)同QSAR建模，效果顯著優(yōu)于單機(jī)構(gòu)僅使用其私有數(shù)據(jù)本地QSAR建模。其次，通過特定的模型優(yōu)化，F(xiàn)L-QSAR可以在保護(hù)藥物小分子結(jié)構(gòu)隱私的前提條件下，獲得與直接整合多機(jī)構(gòu)小分子數(shù)據(jù)進(jìn)行QSAR建模相同或者類似的模型預(yù)測效果。

這是一種有效的藥物協(xié)同發(fā)現(xiàn)的解決方案，打破了傳統(tǒng)QSAR建模時(shí)不同制藥機(jī)構(gòu)之間的數(shù)據(jù)無法直接共享的壁壘，有助于在隱私保護(hù)的前提條件下進(jìn)行協(xié)同藥物發(fā)現(xiàn)，并得到了國家專項(xiàng)項(xiàng)目基金資助。

隱私計(jì)算的未來——更優(yōu)的聯(lián)邦學(xué)習(xí)及去中心化的蜂群計(jì)算

盡管問世時(shí)間不長，但聯(lián)邦學(xué)習(xí)架構(gòu)本身也一直在得到改進(jìn)。比如，2020年，商湯科技就攜手美國羅格斯大學(xué)計(jì)算機(jī)系計(jì)算生物醫(yī)學(xué)成像和建模研究中心，發(fā)表了一項(xiàng)新的研究成果——利用基于分布式生成對抗網(wǎng)絡(luò)（GAN）的結(jié)構(gòu)來實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)。

該研究通過將位于多個(gè)彼此分離機(jī)構(gòu)的分布式異步鑒別器和一個(gè)中心生成器組成對抗網(wǎng)絡(luò)，讓中心生成器在不接觸原始隱私數(shù)據(jù)的情況下，也能進(jìn)行合成訓(xùn)練，從而能夠生成與各機(jī)構(gòu)原始數(shù)據(jù)相近似的合成數(shù)據(jù)樣本，供下游任務(wù)使用。

在此基礎(chǔ)上，這一方案還采用了2種損失函數(shù)，使得中心生成器具備一定的終身學(xué)習(xí)能力，可以在動(dòng)態(tài)變化（比如學(xué)習(xí)過程中有新的機(jī)構(gòu)加入或某些原有機(jī)構(gòu)退出的情況）的環(huán)境中持續(xù)訓(xùn)練模型。

經(jīng)試驗(yàn)?zāi)M，這套學(xué)習(xí)方法能夠從不同的機(jī)構(gòu)中漸進(jìn)地學(xué)習(xí)到同類數(shù)據(jù)甚至不同類數(shù)據(jù)的近似分布，并在醫(yī)學(xué)圖像分割任務(wù)中，取得了理想效果。

與傳統(tǒng)的聯(lián)邦學(xué)習(xí)相比，商湯科技的方案可以有效減少中心與各機(jī)構(gòu)之間的通信數(shù)據(jù)量，僅需傳輸合成圖像數(shù)據(jù)和反饋誤差，而非整個(gè)模型的所有參數(shù)數(shù)據(jù)，而且各機(jī)構(gòu)之間無需交換任何數(shù)據(jù)或參數(shù)，可顯著降低醫(yī)療機(jī)構(gòu)部署聯(lián)邦學(xué)習(xí)的成本，加快研究效率和AI模型的生產(chǎn)速度。

除了對聯(lián)邦學(xué)習(xí)進(jìn)行改進(jìn)，業(yè)界也在開發(fā)新的解決方案。不久前的2021年5月，德國研究人員在Nature上發(fā)布了論文，提出了一種去中心化的機(jī)器學(xué)習(xí)方法Swarm Learning（蜂群學(xué)習(xí)），將邊緣計(jì)算和基于區(qū)塊鏈的對等網(wǎng)絡(luò)結(jié)合，用于不同醫(yī)療機(jī)構(gòu)之間醫(yī)療數(shù)據(jù)的整合。

聯(lián)邦學(xué)習(xí)雖然解決了數(shù)據(jù)隱私，但是全局模型及參數(shù)調(diào)節(jié)仍然由特定機(jī)構(gòu)的中心服務(wù)器處理，必然造成了權(quán)力集中。此外，這種星形結(jié)構(gòu)容錯(cuò)性較低。相比之下，蜂群學(xué)習(xí)不再需要中心服務(wù)器交換數(shù)據(jù)或全局建模，允許參數(shù)合并，從而實(shí)現(xiàn)所有成員權(quán)利平等，并通過去中心化很好地保護(hù)機(jī)器學(xué)習(xí)模型免受攻擊。

在本地學(xué)習(xí)（a）中，數(shù)據(jù)和計(jì)算是分別在不同的機(jī)構(gòu)且彼此隔離的情況下實(shí)現(xiàn)。在中心學(xué)習(xí)（b）中，來自不同機(jī)構(gòu)的數(shù)據(jù)和參數(shù)被集中到云上實(shí)現(xiàn)模型訓(xùn)練。在聯(lián)邦學(xué)習(xí)（c）中，數(shù)據(jù)和訓(xùn)練仍然位于本地，但全局模型的參數(shù)設(shè)置和模型共享在中心實(shí)現(xiàn)。在蜂群學(xué)習(xí)（d）中，數(shù)據(jù)和參數(shù)去中心化，且彼此互聯(lián)，不需要中心。（圖片來自Nature：Swarm Learning for decentralized and confidential clinical machine learning）

這個(gè)蜂群學(xué)習(xí)的研究選擇了結(jié)核病、新冠肺炎、白血病和肺部病變這四種異質(zhì)性疾病來說明使用蜂群學(xué)習(xí)基于分布式數(shù)據(jù)開發(fā)疾病分類系統(tǒng)的可行性。

研究嘗試了利用蜂群學(xué)習(xí)從外周血單核細(xì)胞數(shù)據(jù)中預(yù)測白血病，從血液轉(zhuǎn)錄組數(shù)據(jù)中識別結(jié)核病患者或肺部病變患者，以及識別和檢測新冠肺炎患者。訓(xùn)練所需的數(shù)據(jù)集包括來自127項(xiàng)臨床研究中的16400多個(gè)血液轉(zhuǎn)錄組，以及95000多張胸部X光圖像。這些數(shù)據(jù)集的病例和對照分布并不均勻，存在大量偏差。

結(jié)果表明經(jīng)過蜂群學(xué)習(xí)訓(xùn)練的分類模型性能優(yōu)于基于本地?cái)?shù)據(jù)訓(xùn)練的分類模型。此外，蜂群學(xué)習(xí)還引入了區(qū)塊鏈技術(shù)，結(jié)合了去中心化的硬件基礎(chǔ)設(shè)施，防止數(shù)據(jù)被篡改；同時(shí)，成員自主權(quán)大幅提升，可以安全加入、動(dòng)態(tài)選舉領(lǐng)導(dǎo)者乃至合并模型參數(shù)。

總的來說，研究認(rèn)為蜂群學(xué)習(xí)有可能比聯(lián)邦學(xué)習(xí)更能改變當(dāng)前的格局，去中心化的數(shù)據(jù)模型有可能成為處理、存儲、管理和分析任何種類的大型醫(yī)療數(shù)據(jù)集的首選。

寫在最后

全球?qū)?shù)據(jù)隱私及安全的重視程度日益增加，在醫(yī)療領(lǐng)域更是如此。聯(lián)邦學(xué)習(xí)及蜂群學(xué)習(xí)所代表的隱私計(jì)算因其可保證數(shù)據(jù)隱私且具有更好的性能等特性，將在未來決定醫(yī)療AI是否能夠進(jìn)一步向前發(fā)展。不少研究團(tuán)隊(duì)都在從事相應(yīng)的探索，并將其應(yīng)用到具體的醫(yī)療應(yīng)用場景中。

盡管如此，目前真正將聯(lián)邦學(xué)習(xí)實(shí)施落地的具體醫(yī)療場景仍然屈指可數(shù)。這一先進(jìn)架構(gòu)仍然面臨一些具體的問題，包括醫(yī)療機(jī)構(gòu)數(shù)據(jù)質(zhì)量普遍較差、模型訓(xùn)練缺乏醫(yī)生參與使其難以說服醫(yī)生使用、缺乏足夠激勵(lì)措施吸引數(shù)據(jù)方參與、具有個(gè)性化的模型訓(xùn)練難度較大以及應(yīng)對復(fù)雜場景的模型精度不足等。

好消息是，在標(biāo)準(zhǔn)建設(shè)上聯(lián)邦學(xué)習(xí)已經(jīng)取得了進(jìn)展——2021年3月，IEEE正式完成了標(biāo)準(zhǔn)制定工作，形成了正式標(biāo)準(zhǔn)文件IEEE P3652.1。與此同時(shí)，備受關(guān)注的《個(gè)人信息保護(hù)法》草案也在今年提請全國人大常委會二次審議，即將正式實(shí)施。這就為之后各細(xì)分領(lǐng)域的進(jìn)展提供了依據(jù)。要不了多久，我們就將看到隱私計(jì)算在實(shí)際應(yīng)用場景中大顯身手。

參考資料

MICCAI Workshop on Domain Adaptation and Representation Transfer & MICCAI Workshop on Distributed and Collaborative Learning：Federated Learning for Breast Density Classification: A Real-World Implementation

Medical Image Analysis, Volume 70, May 2021, 101992：Federated semi-supervised learning for COVID region segmentation in chest CT using multi-national data from China, Italy, Japan

IEEE Intelligent Systems , Volume: 35 Issue: 4：FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare

Nature: Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans

arXiv.org：Privacy-Preserving Technology to Help Millions of People: Federated Prediction Model for Stroke Prevention

Nature：Swarm Learning for decentralized and confidential clinical machine learning

arXiv.org：Learn distributed GAN with Temporary Discriminators

Bioinformatics doi: 10.1093/bioinformatics/btaa1006：FL-QSAR: a federated learning based QSAR prototype for collaborative drug discovery

雷鋒網(wǎng)：《聯(lián)邦學(xué)習(xí)首個(gè)國際標(biāo)準(zhǔn)正式發(fā)布！》

第一財(cái)經(jīng)：《銀行扎堆聯(lián)邦學(xué)習(xí)，大規(guī)模落地還有多遠(yuǎn)？》

本文來源：動(dòng)脈網(wǎng) 作者：小編
免責(zé)聲明：該文章版權(quán)歸原作者所有，僅代表作者觀點(diǎn)，轉(zhuǎn)載目的在于傳遞更多信息，并不代表“醫(yī)藥行”認(rèn)同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其他問題，請?jiān)?0日內(nèi)與我們聯(lián)系

久久无码人妻丰满熟妇区毛片,星空传媒春节回家相亲孟孟,www久久无码天堂mv,一个人看的片免费高清www

特色頻道

擴(kuò)展專區(qū)

用戶專區(qū)

醫(yī)療器械

推薦廠商

藥品

推薦廠商

IVD

推薦廠商

保健品

推薦廠商

衛(wèi)生消毒

推薦廠商

化妝品

推薦廠商

制藥原料

推薦廠商

英偉達(dá)、騰訊、商湯……借助隱私計(jì)算在醫(yī)療AI做了哪些探索？

簡要回顧一下聯(lián)邦學(xué)習(xí)是什么？

兩年來，聯(lián)邦學(xué)習(xí)在醫(yī)療上做了哪些探索？

隱私計(jì)算的未來——更優(yōu)的聯(lián)邦學(xué)習(xí)及去中心化的蜂群計(jì)算

寫在最后

最近文章

最新發(fā)布

熱門文章

標(biāo)簽

特色頻道

擴(kuò)展專區(qū)

用戶專區(qū)

推薦廠商

推薦廠商

推薦廠商

推薦廠商

推薦廠商

推薦廠商

推薦廠商

英偉達(dá)、騰訊、商湯……借助隱私計(jì)算在醫(yī)療AI做了哪些探索？

簡要回顧一下聯(lián)邦學(xué)習(xí)是什么？

兩年來，聯(lián)邦學(xué)習(xí)在醫(yī)療上做了哪些探索？

隱私計(jì)算的未來——更優(yōu)的聯(lián)邦學(xué)習(xí)及去中心化的蜂群計(jì)算

寫在最后

相關(guān)推薦

最近文章

最新發(fā)布

熱門文章

標(biāo)簽

英偉達(dá)、騰訊、商湯……借助隱私計(jì)算在醫(yī)療AI做了哪些探索？

簡要回顧一下聯(lián)邦學(xué)習(xí)是什么？

兩年來，聯(lián)邦學(xué)習(xí)在醫(yī)療上做了哪些探索？