久久无码人妻丰满熟妇区毛片,星空传媒春节回家相亲孟孟,www久久无码天堂mv,一个人看的片免费高清www

客服微v信:mayamima
  1. 當前位置: >
  2. 醫藥行 >
  3. 醫行號 >
  4. 藥品 > 藥品研發 >
  5. 正文

獨家原創|深度學習在藥物研發中的研究進展

PPS 點擊 藍字關注我們↑↑↑↑ 專家介紹:尚 靖 教授,博士生導師。先后就讀蘭州大學生物化學專業、新疆大學藥物資源專業,獲德國柏林自由大學分子生物學專業理學博士學位。兼任中國藥學會應用藥理專業委員會副主任委員、中國藥理學會制藥工業委員會副主任委

PPS
點擊 藍字關注我們↑↑↑↑

專家介紹:尚 靖

教授,博士生導師。先后就讀蘭州大學生物化學專業、新疆大學藥物資源專業,獲德國柏林自由大學分子生物學專業理學博士學位。兼任中國藥學會應用藥理專業委員會副主任委員、中國藥理學會制藥工業委員會副主任委員兼秘書長,江蘇省動物協會實驗動物專業委員會的主任委員。作為課題負責人榮獲 2003、2005、2013 年度省級科技進步二等獎,曾獲新疆維吾爾自治區人民政府頒發的“青年科技獎”,教育部“新世紀優秀人才支持計劃”,江蘇省“六大人才高峰”計劃,中科院“百人計劃”。目前是中國藥科大學“皮膚健康及疾病干預”研究平臺負責人,生物與醫藥專業化妝品與皮膚健康方向研究生專業負責人。先后連續主持“九五”、“十五”、“十一五”、“十二五”、“十三五”5 項國家重大新藥創制專項的新藥開發項目;主持國家自然科學基金 3 項。截至目前,出版專著 2 部,其中英文 1 部,發表論文 161 余篇, 其中 SCI 收錄論文 71 篇;作為第一申請人申請專利 20 余項, 授權國內專利 8 項,申請國際專利 11 項,PCT 專利 4 項,授權國際專利 6 項。主持完成 3 個中藥、天然藥 5 類的創新藥臨床前研究。作為主要完成人研制的驅蟲斑鳩菊注射液(國藥準字 Z20063652)已實現產值 4.68億元。

正文

深度學習在藥物研發中的研究進展

廖俊,徐潔潔,皮志,竇智揚,尚靖 * 

( 中國藥科大學理學院,江蘇 南京 211198;中國藥科大學中藥學院,江蘇 南京 211198)

[摘要]近年來以深度學習為代表的人工智能技術與醫學、藥學等多個領域深度融合。深度學習被應用于蛋白質結構與功能預測、藥物靶點預測、藥物代謝動力學性質預測、藥物有效性及安全性預測以及藥物相互作用預測等多個藥物研發環節,取得了顯著成就,提高研發效率的同時降低臨床前試驗以及臨床試驗相關的成本和風險。通過總結多種深度學習方法在藥物研發各個過程中的具體應用及分析不同深度學習方法在藥物研發中的應用特點,闡述了深度學習在藥物研發中現存的一些問題并做出展望,以期為進一步研究提供借鑒的思路和方法。

藥物研發過程主要包括藥物靶點確定、先導化合物的發現與優化、候選藥物確定、臨床前研究和臨床研究。整個藥物研發進程,就是在驗證某個靶點在人體中的生物學功能的過程。而藥物靶點的缺乏、動物模型臨床轉化差、疾病異質性及生物系統內在的復雜性等問題,使得藥物研發成為一個漫長而又艱難的過程。開發一種新型處方藥,平均稅前支出約為 25.58 億美元,大約需要 10 ~ 15 年。盡管投入成本高,但在藥物研發過程中創新小分子的臨床批準成功率卻只有 13%,失敗的風險相對較高。早期藥物發現主要基于經驗嘗試,化合物篩選以及偶然發現獲得。在現代藥物研發中,機器學習在定量結構-活性關系(quantitative structure activityrelationship,QSAR)模型、定量結構-性質關系(quantitative structure property relationship,QSPR)模型等方面發揮重要作用。不同于傳統的機器學習方法使用手動設計的特征,最新的深度學習(deeplearning,DL)方法可以自動從輸入數據中學習特征,通過多層特征提取將低層特征轉換為高層特征。由于其強大的泛化和特征提取能力,將其應用在藥物開發的不同環節,包括蛋白質結構與功能預測、藥物代謝動力學性質預測、藥物有效性及安全性預測以及藥物相互作用預測等,顯示出巨大的前景。本綜述回顧了近幾年來 DL 在藥物研發中的應用,并對當前問題提出建議以及展望。

1深度學習與藥物研發數據

DL 的概念由 Hinton 等于 2006 年提出,其概念源于人工神經網絡的研究。DL 的結構是一種含多隱層的多層感知器結構,其通過組合底層特征形成更加抽象的高層來表示屬性類別或特征,以發現數據的分布式特征表示。DL 理論中包含了許多不同的深度神經網絡模型,例如經典的深層神經網絡(deepneural network,DNN)、深層置信網絡、卷積神經網絡(convolutional neural network,CNN)、深層玻 爾 茲 曼 機(deep boltzmann machines,DBM)、循環神經網絡(recurrent neural network,RNN)等。不同結構的網絡適用于處理不同的數據類型,例如CNN 適用于圖像處理,RNN 適用于語音識別等。同時,通過與不同算法的聯用這些網絡模型還會產生一些不同的變種。 

目前正處在醫藥產業發展的關鍵節點,由于新藥物靶點和作用機制的發現越來越難,新藥研發需要投入更多的資金和精力。提升研發效率和深度挖掘已有數據來發現新的規律是解決該問題的有效途徑之一,而 DL 在這 2 個方面都可以有廣泛的應用,因此許多制藥公司和藥物研發機構都將 DL 方法用于輔助藥物研發。例如:Berg 公司基于人工智能的Interrogative Biology 平臺技術通過分析海量病人和正常人樣本(如蛋白相互作用網絡)來尋找治療疾病的新靶點和診斷疾病的生物標志物,以 Berg 公司進行腫瘤藥物研究為例,通過收集大量生物樣本,如血液、腫瘤組織或腫瘤患者的尿液,同時也收集捐助者的健康組織樣本。研究人員會創建細胞株,然后將其放進不同的模擬患者發病時的實際狀態環境下進行觀察,有比如低氧環境,高血糖患者細胞及腫瘤細胞喜歡生活的環境。細胞株建立之后,對其中的基因、蛋白質、代謝物和脂肪進行標識并形成節點,不同節點的重要程度不同,重要程度越高與疾病的關聯越大。Narain 等 [7] 曾基于此平臺介導發現胰腺癌的檢測、分層和預后的分子標記;IBMWatson 為 IBM 旗下的認知計算系統,技術平臺。認知計算代表一種全新的計算模式,它包含信息分析,自然語言處理和機器學習領域的大量技術創新。該新藥發現系統通過自然語言處理技術分析海量文獻,尋找潛在的關聯性來預測新的假說推動新藥研發;Engine Biosciences[9],也是利用人工智能技術來進行老藥新用、新靶點開發以及精準醫療等服務的互聯網產品。圖 1 列舉了目前 DL 在藥物研發不同階段已經取得成果的相關應用。

2調節三酰甘油水平及相關藥物

2.1 蛋白質結構與功能

蛋白質的功能研究在生命科學中占據重要的地位,大多數疾病的發生都與蛋白質功能障礙有關。1973 年,Anfinsen發現變性的只保留了一級結構的核糖核酸酶可以重新折疊并恢復生物活性,說明代表蛋白質一級結構的氨基酸序列中隱含了蛋白質二級、三級結構的信息。而蛋白質二級結構預測又可為蛋白質三維結構預測和蛋白質功能預測提供重要信息。因此從一級氨基酸序列預測二級結構及蛋白質的性質是藥物研發中的重要任務。表 1 簡要列舉了 DL 在蛋白質結構和功能預測中的應用。

盡管近年來 X-射線晶體學和冷凍電鏡技術的不斷發展在蛋白質結構解析上獲得突破,但其檢測蛋白質的成本過高,利用 DL 對蛋白質進行預測顯然是一個更高效的方法。通過對數據庫提供的蛋白質數據特征提取,預測出蛋白質結構與功能,為解決蛋白質結構和功能的預測問題提供了可能的途徑,并在蛋白質結構和功能預測方面取得了較好的結果。

2.2活性藥物靶點的確定

藥物靶點與疾病或生物分子的病理狀態相關,藥物靶點的確定是藥物研究和開發的基礎。傳統的藥物發現主要遵循“一種藥物,一種靶點,一種疾病”的觀念,最近越來越多的研究人員接受了藥物靶點是多種靶蛋白的觀點,并且多種靶蛋白傾向于出現在同一種疾病中。因此,如何快速準確地識別藥物與靶點之間復雜的相互作用已成為藥物開發的關鍵。 

Pu 等采用 CNN 訓練檢測和分類核苷酸與血紅素結合位點,準確度達到了 95%,且實驗模型能夠推廣到類固醇結合蛋白和肽酶。Hamanaka 等提出的 DL 模型在檢測藥物活性靶點時可以在保證 98.2% 的準確率的情況下對 400 萬個數據進行計算。Wen 等首先對未處理的原始數據進行預處理,標記出已知的藥物靶點相互作用,然后應用已知的標記過的藥物靶點對來訓練分類模型,該模型的 10-折交叉驗證的曲線下面積(area under curve,AUC)得分為 0.915 8±0.005 9,該得分越趨近于 1 則說明效果越好,該模型可進一步用于預測新靶點。

Tian 等通過分層抽象學習藥物靶點對的有用特征,在平衡和不平衡數據集(平衡數據集是指各個樣本數量差距不大,而不平衡數據集則相反,在一些模型中數據集是否平衡對預測結果有著不同影響)上的預測性能均比現有方法更好。Tsubaki等結合化合物的圖形神經網絡(graph neuralnetwork,GNN)和蛋白質的 CNN 開發了新的復合蛋白相互作用預測技術。此外,所提出的方法在不平衡數據集上明顯優于現有方法。這表明由端到端GNN 和 CNN 獲得的化合物和蛋白質的數據驅動表示比從數據庫獲得的傳統化學和生物學特征更穩健。Zong 等采用 DL 算法 DeepWalk 基于異構拓撲計算藥物-藥物和靶點-靶點的相似性,基于“牽連犯罪”原則推斷藥物靶點關聯,AUC得分為0.989 6。 

Xie 等基于藥物干擾和基因敲除試驗收集的藥物和藥物對,靶點和靶點對的相似性數據庫L1 000 中的轉錄組數據提出了活性藥物靶點的確定(drug target identification,DTI) 預 測 框 架,訓練集達到 98% 以上的準確率,驗證集準確率為 90.53%±1.44%。同時使用其他 DTI 數據庫如STITCH、 DGIdb 以及 CTD 驗證了模型預測新 DTI的能力,均取得較好的結果。 

計算機在處理復雜運算方面具有天然優勢,而DL 可以進一步發現對象之間的隱性聯系。DL 的方法應用于復雜的藥物與多靶點作用問題,通過合適的網絡模型得到潛在靶點,將大大提高藥物靶點研究的效率。

2.3 藥物代謝動力學分析 

藥物代謝動力學(pharmacokinetics,PK)分析是藥物研發過程的重要組成部分,調查顯示大約一半的候選藥物由于 PK 性質或毒性不令人滿意而無法進入市場。DL 正是 PK 分析的一項重要技術手段。 

圖 2 分別從藥物的吸收、分布、代謝與毒性幾個方面舉例了 DL 應用。以 PK 的關鍵性質之一水溶性為例,藥物的水溶性將直接影響化合物在生物體中的吸收。Li 等建立了基于半監督學習模型的多層深度信念網絡 ( deep belief network,DBN) 來預測化合物的水溶性,準確率達到 85.9%。不只是吸收分布的 PK 性質,候選藥物的代謝毒性也是其后續能否成藥的關鍵因素。分析 1 824 種美國 FDA 批準的藥物,其中 29.6% 的藥物經計算確定具有潛在的hERG(human ether-à-go-go-related gene)抑制活性,突出了hERG風險評估在早期藥物發現中的重要性。為了在藥物發現階段和上市后監測中對 hERG 介導的心臟毒性進行風險評估,Cai 等開發了一種DNN 模型用于預測藥物發現和上市后監測過程中小分子的 hERG 阻滯劑。在驗證集中,最佳模型的AUC 為 0.967。

DL 為以傳統模型為基礎的 PK 分析帶來了新的模型以及新的分析方式,并且就特定的問題給出了更為精確的答案。

2.4 藥物相互作用 

當藥物與另一種藥物共同服用時,此藥物的預期功效可以發生顯著改變。因此,了解 DDI 對于減少意外的不良藥物事件(adverse drug event,ADE)的發生以及在治療疾病時產生最大化協同效益至關重要。另外由 DDI 引起的 ADR 是藥物退出市場的主要原因之一。隨著用于疾病治療的多種藥物(至少 2 種藥物)的處方數量持續增加,了解 DDI 的意義越來越大。探索用于檢測相互作用藥物的大量藥物組合的最實用方法是通過計算機DDI 檢測。

雖然一些已知的 DDI 可以在專門建立的數據庫中找到,但大多數信息仍然埋藏在文獻中。因此,迫切需要從生物醫學文本中自動提取 DDI。為了檢驗僅使用字嵌入作為輸入特征的 CNN 是否可以成功應用于生物醫學文本中的 DDI 分類,SuárezPaniagua 等 [29] 提出僅具有一個隱藏層的 CNN 架構,使得模型在計算上更有效。Jari 等使用 CNN同時提取事件和關系,與不同的向量空間嵌入一起應用于各種文本分類任務。Zhao 等提出語法卷積神經網絡(syntax convolutional neural network ,SCNN),基于單詞嵌入、語法單詞嵌入來使用句子的句法信息,引入位置和詞性特征以擴展每個單詞的嵌入,引入自動編碼器來編碼傳統的特征文本詞袋(稀疏 0-1 向量)作為全連接向量。 

除 CNN 外 RNN 也常用于生物醫學關系提取,Zhang 等基于候選句子的依賴圖生成最短依賴路徑(shortest dependent path,SDP),將 SDP 劃分為依賴詞序列和關系序列。RNN 和 CNN 分別用于自動學習句子序列和依賴序列的特征。最后,將 RNN 和CNN的輸出特征結合起來檢測和提取生物醫學關系。 

Sahu 等提出了 3 種長短時記憶模型(longshort-term memory,LSTM) 網 絡 模 型, 即 雙 向長 短 時 記 憶 網 絡(bi-directional long short-termmemory,Bi-LSTM),基于 Attention 模型的 BiLSTM(attention based bi-directional long short-termmemory,AB-LSTM)和基于聯合模型的 AB-LSTM(joint attention based bi-directional long short-termmemory,joint AB-LSTM)。這 3 種模型都使用文字和位置嵌入作為潛在特征。此外,使用 Bi-LSTM網絡允許從整個句子中提取隱含特征。2 個模型AB-LSTM 和 joint AB-LSTM 也在 Bi-LSTM 層輸出中應用注意池,以便為特征分配權重。 

Song 等利用支持向量機模型 (support vectormachine,SVM) 建立了一個機器學習模型。所建立的相似性測度包括二維分子結構相似性、三維結構相似度、相互作用指紋圖譜相似性、靶標相似性和ADE 相似性。根據所建立的 5 種相似性度量方法,將已知有作用的藥物和可能有作用的藥物進行處理,使結構以數據形式表示,并將處理結果作為 SVM的輸入向量。SVM 模型建立的思路以及所用數據庫如圖 3 所示。最終,此 SVM 模型預測準確率達到0.97,遠高于之前的 DDI 模型。

2.5 藥物不良反應 

ADR 是一個嚴重的問題,即盡管給予常規劑量的藥物,但仍會出現不良反應。據估計,住院患者中有超過 200 萬例發生嚴重 ADR,每年導致大于 100 000 例患者死亡。因此識別或預測潛在的ADR 顯得尤為重要,表 2 介紹了 4 個 DL 在 ADR方面的應用,并對各自的結果進行了簡要評價。

DL 幫助科研人員從龐大復雜的 ADR 報告中篩選并識別了可能具有臨床價值的 ADR,輔助藥物的應用并且可能會揭示未知的藥物代謝途徑。

3結語與展望

人工智能通過分析海量的文獻、專利和臨床結果,找出潛在的、被忽視的通路、蛋白和機制等與疾病的相關性,從而提出新的可供測試的假說,通過實驗驗證已經取得一定的成果,并顯著提高新藥研發流程中某些階段的效率。值得注意的是,DL 提供了一種新的方法來探索基因組變異與藥物基因組學研究中的多種事件之間的復雜關聯,為全基因組關聯分析的數據復雜性提供有效的解決方案。但是目前DL并不能直接預測一個化合物能否成為藥物,DL 在發現藥物研發新機制和新靶點上的突破仍然面臨以下挑戰: 

1)基于大數據的人工智能,擅長的是對已有知識的挖掘、重新組織和分配,為 DL 算法提供大量數據,并且將需要解決的問題正確地呈現出來,它們才有可能捕捉到人類無法捕捉到的規律,在海量的數據中尋找已有知識的關聯性。在新藥研發過程中,新藥研發規則不明確,數據不明晰甚至含有錯誤信息,而且充滿了高度不確定性等問題,給以高質量標識數據集為基礎的 DL 人工智能帶來巨大的挑戰; 

2)DL 依賴于高質量、有標識的大數據集。例如:Santos 等統計了美國 FDA 批準的 1 578 個藥物總共的靶點數目是 667 個,而 Ensembl 數據庫標注的潛在藥物靶點就有 4 479 個 , 藥物靶點數據庫(therapeutic target database,TTD) 含有 2 360 個可成為藥物靶點的分子信息,包括 388 個已有相應藥物上市的、461 個處于臨床試驗階段的以及其他正在研究的和已停止研究的藥物的靶點信息,由于數據庫涵蓋面不同,信息來源亦不同,導致有實驗支持的信息和預測的信息混雜在一起,藥物和靶點的命名也未采用統一規則,如何整合成 DL 依賴的靶點數據是關鍵;

3)DL 是非常出色的算法工具,能夠學習數據,但無法判斷數據準確性,尤其是遇到不常見的情況時,它缺乏靈活性,表現并不算好。同時存在無法修正學習結果,除非重新訓練的問題; 

4)DL 的內部機制一直是困擾現今科學家的難題,DL 是一個“黑箱”,藥物在人體中作用的機制是另一個“黑箱”。通過 DL 研究藥理問題被視為用一個“黑箱”代替另一個“黑箱”,也就是說DL 并沒有實際解決藥物機制這一重大難題。即 DL僅展示了可能的結果,而沒找到真正的因果關系; 

5)DL 的評價機制仍然存在欠缺。DL 具備發現隱藏在復雜的生物系統下的各種關系的能力,幫助藥物研發找到了一個模型來解釋生物復雜系統中發生的事情,但模型預測結果依然需要實驗驗證。如何用少量合適的實驗使得藥物研發人員進行有效驗證和評價 DL 的結果是一個待解決的問題。 

綜上,面對藥物研發需要解決的問題的多樣性也需要有更為靈活和細致入微的思考方式,構建適合藥物研發各階段的特殊 DL 模型,并且將這些模型整合才能在未來實現智能的藥物研發。

關于藥學進展

感謝您閱讀《藥學進展》微信平臺原創好文,也歡迎各位讀者轉載、引用。本文選自《藥學進展》2020年第5期。

《藥學進展》雜志是由中國藥科大學和中國藥學會共同主辦、國家教育部主管,月刊,80頁,全彩印刷。刊物以反映藥學科研領域的新方法、新成果、新進展、新趨勢為宗旨,以綜述、評述、行業發展報告為特色,以藥學學科進展、技術進展、新藥研發各環節技術信息為重點,是一本專注于醫藥科技前沿與產業動態的專業媒體。

《藥學進展》注重內容策劃、加強組稿約稿、深度挖掘、分析藥學信息資源、在藥學學科進展、科研思路方法、靶點機制探討、新藥研發報告、臨床用藥分析、國際醫藥前沿等方面初具特色;特別是醫藥信息內容以科學前沿與國家戰略需求相合,更加突出前瞻性、權威性、時效性、新穎性、系統性、實戰性。根據最新統計數據,刊物篇均下載率連續三年蟬聯我國醫藥期刊榜首,復合影響因子0.760,具有較高的影響力

《藥學進展》編委會由國家重大專項化學藥總師陳凱先院士擔任主編,編委新藥研發技術鏈政府監管部門、高校科研院所、制藥企業、臨床醫院、CRO、由金融資本及知識產權相關機構百余位極具影響力的專家組成。

《藥學進展》編輯部官網:www.cpupps.cn;郵箱:yxjz@163.com;電話:025-83271227。歡迎投稿、訂閱!

想回顧《藥學進展》編委會主辦和協辦過的精彩活動嗎?請戳這里!

 

→ 

→ 

→ 

→ 

 

→ 

→ 

→ 

→  

→  

→  

點一下你會更好看耶

學科前沿|抗高血脂癥候選新藥DC371739獲批進入臨床研究

PPS 點擊 藍字關注我們↑↑↑↑ 由中國科學院上海藥物研究所柳紅、王逸平和蔣華良課題組聯合研發的抗高血脂癥化學1類新藥DC371739,于2020年7月24日獲得國家藥品監督管理局頒發的臨床試驗通知書,同意開展臨床試驗。 蔣華良課題組通過計算機輔助藥物設計策略...

https://mp.weixin.qq.com/s?__biz=MzA5MDY3ODExNQ==&mid=2651311485&idx=2&sn=88381e24af7c7f91e7908e3108f58f92&chksm=8bf49b71bc8312670e2553e0b5e124085f974f5ce12e48cb0ac66c9e52fdf17c2bbf8bd68817#rd

本文來源:藥學進展 作者:藥學進展
免責聲明:該文章版權歸原作者所有,僅代表作者觀點,轉載目的在于傳遞更多信息,并不代表“醫藥行”認同其觀點和對其真實性負責。如涉及作品內容、版權和其他問題,請在30日內與我們聯系

相關推薦

 
主站蜘蛛池模板: 黎平县| 合阳县| 雷山县| 平利县| 潮安县| 林口县| 宜兰市| 长寿区| 云和县| 荆门市| 正蓝旗| 灯塔市| 元阳县| 樟树市| 容城县| 青河县| 内乡县| 顺义区| 合江县| 华安县| 青海省| 胶州市| 壤塘县| 青田县| 肥西县| 淄博市| 溆浦县| 湘乡市| 靖西县| 恩施市| 荥经县| 永州市| 定结县| 名山县| 黔东| 清远市| 宁武县| 息烽县| 石渠县| 公主岭市| 黔南|