2020年底,DeepMind旗下人工智能(AI)系統AlphaFold在蛋白質分子結構預測領域取得了史無前例的進步。這不僅有力推動了生命科學領域的發展,也愈發印證了具備掌握 “暗知識” 能力的AI能夠助力人們直接跳過在 “未知” 暗箱中摸索的過程,而直接抵達 “新知” 的彼岸。
因此,也就不難理解近年來日漸成熟且炙手可熱的人工智能輔助藥物發現 (以下稱AIDD: AI Drug Design) 為何在短短數年間就從萌芽發展到幾乎參與從藥物靶點發現到臨床試驗等藥物研發的全流程。尤其面對新藥研發中的靶點篩選、化合物發現等存在人類認知盲區的環節,AIDD正在顯著降低對專家知識和海量數據的苛求,并有望改變新藥研發 “九死一生” 的困局。
除了AI技術自身進步之外,AIDD的快速普及也離不開“生逢其時”——成熟的云計算技術也恰到其處為AIDD提供必需的數字化基礎設施和能力,讓藥企得以迅速突破存儲、算力、機器學習模型等數字化瓶頸,使AIDD得以成為高效的常態化工具。例如,在新冠疫苗研發中,莫德納(Moderna)通過在亞馬遜云科技平臺構建的機器學習能力,2 天內就完成了 mRNA COVID-19 疫苗的序列,25天就發布了第一個臨床批次。由此預示著藥物研發正全面步入 “AI時代” 。
AIDD帶來藥物研發大提速
新藥研發一直是人類科研領域中極具風險和復雜度、且耗時最漫長的技術研究領域之一。根據《自然》(Nature)雜志的數據顯示,一款新藥的整體成本大約是26億美元,耗時約10年,成功率卻不到十分之一。
自20世紀90年代中期,計算機輔助藥物研發(CADD: Computer Aided Drug Design)開始被使用并逐漸成為藥企的主流數字化輔助技術。但CADD的能力局限于對已有的知識和數據的篩選與優化,其作用更多是對人力的 “替代” 而非 “突破” ,因此無法觸達人類尚未涉足的認知盲區。
相較之下,AIDD能夠充分探索未知的分子結構空間,生成現有經驗與數據之外的全新分子化合物結構,給藥物研發帶來了真正的顛覆性變革。通過將AI所擁有的機器學習、深度學習、圖像識別、認知計算等能力嵌入藥物研發各環節,可預測識別更為準確的疾病靶點,并基于濕實驗及CADD模擬數據進行新藥分子設計、化合物活性評價、毒性評價等研發過程,大幅降低了對數據量和專家知識的依賴。
AIDD最直觀的價值還在于顯著減少傳統藥物研發的高昂資金和時間成本,給研發效率帶來巨大飛躍。據Exscientia Company Deck數據顯示,使用AI技術可以減少約35%的新藥研發成本,研發周期也縮短到了1-2年。
云計算推進AIDD成為常態化工具
2021年,亞馬遜云科技客戶、AI藥物研發公司英矽智能宣布了全球第一款由AI發現并設計的用于特發性肺纖維化治療的候選藥物已進入臨床試驗階段。從靶點發現到化合物驗證,英矽智能用時不到18個月,花費僅260萬美元,降低了約99%的新藥研發計算成本。
英矽智能的藥物發現引擎建立在亞馬遜云科技平臺之上,是公司產品組合的核心。該引擎使用數百萬個數據樣本和多種數據類型來發現疾病生物標志物,確定最有希望的靶點,并設計具有特定屬性的小分子化合物。
由于英矽智能的人工智能平臺要處理大量的實驗和文本數據,所以對于圖形處理器 (GPU) 的要求很高。英矽智能的AI工具如PandaOmics™和Chemistry42™都運行于Amazon Elastic Compute Cloud(Amazon EC2 ),以獲得具有極具靈活性和可擴展性的云端服務器而無需維護龐大的本地計算集群。另外,英矽智能還使用了對象存儲服務Amazon Simple Storage Service (Amazon S3) 存儲相關數據,使其分布于6個國家的團隊能夠輕松訪問所需數據并進行跨國合作。
成熟、易用且 “AI友好” 的云平臺為各行業創造了邁入AI時代的 “捷徑” 。到目前為止,云上超過75%的人工智能應用都基于亞馬遜云科技平臺開發,也使亞馬遜云科技積累了豐富的人工智能和機器學習技術和成功經驗。對于AIDD所必需的算力、算法、數據三大數字化基礎及安全合規要求,亞馬遜云科技都能提供完善的服務與技術支撐:
• 無需初期基礎架構投入,即可獲得AIDD所需的高性能GPU/ CPU算力,且按需付費;
• 提供大量的訓練推理和部署工具,支持多種深度學習框架。機構和人員無需深入了解相關知識即可以快速展開研發和試驗;
• 亞馬遜云科技Marketplace提供數百種算法和模型。亞馬遜公開數據集中也提供多種藥物研發所需的科學數據,如ChEMBL,ZINC與Open Target等。
• 亞馬遜云科技的云基礎設施通過全球98項安全合規認證,并遵循和支持超過全球50種生命科學合規規范,包括GxP、HIPAA,、HITRUST,以及獲得《中國人類遺傳資源管理條例》中方單位認證,使團隊、機構之間可進行安全無憂的數據合作。
據不完全統計,全球已經有近40款以上利用AI涉及的藥物管線已經步入了臨床階段。隨著AIDD得到廣泛應用,已有國內外的眾多企業選擇亞馬遜云科技作為部署AIDD的云計算平臺。而亞馬遜云科技不僅能提供AIDD所需的云上基礎設施,還可直接助力AI工具的開發和使用,或者使用亞馬遜云科技多達92種生命科學公開數據集快速進入模型訓練。
近年來,基于亞馬遜云科技,阿斯利康開發了由機器學習驅動的病理圖像識別檢測模型,用于替代以往在候選藥物研發時以人工進行樣本編目的方式。借助Amazon SageMaker Ground Truth,阿斯利康能夠快速注釋、收集和分類訓練樣本,并形成可用于模型訓練的數據集,而所用的時間僅為之前的50%。
除了節省時間和人力成本,使用數據集訓練的模型還幫助研發人員獲得更準確的分析結果。在雙方開展的試點中,阿斯利康使用2000個樣本來分析造成糖尿病損傷的關鍵結構,準確率達到95%,使科學家能夠快了解藥物的安全性和有效性,加速了新藥研發和上市的進程。
釋放AIDD更大潛力使藥物研發全面步入“AI時代"
“開放”是AI技術得以發展與應用的關鍵要素。要使AIDD在未來得到更充分的開發與探索,勢必要讓其走出僅賦能單個企業的孤島。著眼未來,借助公有云對數據安全的保護及合規分享機制,制藥企業之間將有機會在確保核心數據安全的前提下,實現跨企業的數據合作,以更開放的生態不斷提升AIDD的能力、應用范圍和影響力。
早在2019年,亞馬遜云科技就與全球十大制藥公司共同構建了用于藥物發現的聯邦學習平臺(Federated machine learning for drug discovery on Amazon Web ServiCES) MELLODDY,讓藥企在安全、合規、確保數據隱私的環境下,進行多方合作,加速整個行業的科研發現進程。當前,MELLODDY 平臺以前所未有的規模運行在亞馬遜云科技平臺上,在數十億個實驗數據點上采用聯邦學習方式訓練模型,分析了超過 2000 萬個化學分子結構及理化性質。而且MELLODDY在企業無需共享專有數據和模型的基礎上即可開展機器學習協作,合作訓練藥物發現模型。這一項目成功證明了制藥企業可通過云計算進行合作來加速發現新藥物的可行性。
中國的藥物研發領域的眾多企業在迎來政策激勵的同時,也開始發掘AIDD背后的商業潛力。在輔助臨床前試驗階段之外,AI技術尚存在更多可發掘的應用潛力,如AI與物聯網、數據湖倉等技術融合,可促進數字化實驗、多中心臨床、智能制造及真實世界分析等藥物的全流程改進。越來越多的企業也逐步開始了AIDD的實質性應用,并助推國內藥物研發進入新的 “高產” 階段。
據Data Bridge Market Research分析,亞太地區藥物發現市場的AI價值復合年增長率將在2022至2029 年期間達到50.9%,且預計中國將成為該領域主導國家。隨著云計算不斷為AIDD等AI應用落地鋪平道路,國內制藥企業將有望完成研發能力躍遷,讓上述預測成為最終事實。