用於生物分子科學的大型基礎模型現已透過 NVIDIA BioNeMo 提供
全球各地的科學家現在可以使用瞭解所有生命領域的遺傳密碼的強大全新基礎模型 Evo 2。Evo 2 是由非營利生物醫學研究組織 Arc Institute 與史丹佛大學合作,在 NVIDIA DGX Cloud 平台上所開發,是目前規模最大的公開基因組資料人工智慧(AI)模型。
Evo 2 在NVIDIA BioNeMo 平台上供全球開發人員使用,包括以 NVIDIA NIM 微服務的方式進行簡易、安全的部署 AI。
Evo 2 模型使用近 9 兆個核苷酸(DNA 和 RNA 的組成部分)所組成的龐大資料集訓練出,可用於生物分子研究應用,包括根據基因序列預測蛋白質的形式和功能、識別用於醫療保健和工業應用的新型分子,以及評估基因突變如何影響其功能。
Arc Institute 共同創辦人暨核心研究員、加州大學柏克萊分校生物工程助理教授徐安祺(Patrick Hsu)表示:「Evo 2 代表著生成式基因組學的重要里程碑。透過推進我們對這些生命基本構成元素的了解,我們能在醫療保健和環境科學領域尋求目前難以想像的解決方案。」
適用於 Evo 2 的 NVIDIA NIM 微服務可讓使用者產生各種生物序列,並能設定裡調整模型參數。對於想要使用自己專屬資料集來微調 Evo 2 的開發人員,可以透過開源的 NVIDIA BioNeMo 框架下載模型,該框架是一系列用於生物分子研究的加速運算工具。
推動複雜的科學研究
Arc Institute 在 6.5 億美元的捐助資金下於 2021 年成立,透過資助科學家多年期資金,讓科學家專注於創新研究,解決科學領域長期面對的難題,而不用忙於申請資金。
Arc Institute 的核心研究人員可以獲得最先進的實驗室,以及為期八年且可續約的資金,並可同時在與該單位合作的大學之一任教,包括史丹佛大學、加州大學柏克萊分校和加州大學舊金山分校。
透過結合這個獨特的研究環境與 NVIDIA 的加速運算專業技術與資源,Arc Institute 的研究人員可以進行更複雜的專案、分析更大的資料集,並且更快的取得成果。該單位的科學家專注於癌症、免疫功能障礙和神經退化性疾病等領域。
NVIDIA 透過 Amazon Web Services(AWS)上的NVIDIA DGX Cloud 讓科學家們能夠使用 2,000 個 NVIDIA H100 GPU,加快進行 Evo 2 計畫。DGX Cloud 提供短期使用大型運算叢集的能力,使研究人員得以靈活進行創新。這個完全託管的 AI 平台包含 NVIDIA BioNeMo,以 NVIDIA NIM 微服務和 NVIDIA BioNeMo Blueprints 的形式提供最佳化的軟體。
NVIDIA 研究人員與工程師同樣在 AI 擴展與最佳化方面密切合作。
應用於生物分子科學
Evo 2 可以提供對 DNA、RNA 和蛋白質的深入瞭解。該模型經過對植物、動物和細菌等生命領域各個物種的訓練,可以應用於醫療保健、農業生物技術和材料科學等科學領域。
Evo 2 採用新穎的模型架構,可以處理長序列的遺傳資訊,最多可達 100 萬個詞元(token)。這種對基因組的更深認識可以讓科學家明白生物遺傳密碼裡距離較遠的部分與細胞功能、基因表現和疾病機制之間的關係。
徐安祺表示:「一個人類基因裡有著數千個核苷酸,如果要讓 AI 模型分析這麼複雜的生物系統如何運作,就必須一次處理基因序列中的最大可能部分。」
在醫療保健和藥物探索方面,Evo 2 模型可以幫助研究人員了解哪些基因變異與特定疾病有關,並設計出新型分子,精確地針對這些區域來治療疾病。像是史丹佛大學與 Arc Institute 的研究人員發現,在測試與乳癌有關的基因 BRCA1 時,Evo 2 能以 90% 的準確率預測先前未識別的突變是否會影響基因功能。
在農業方面,這個模型可以提出對植物生物學的洞察,幫助科學家開發更能適應氣候或是更營養的農作物品種,從而幫助解決全球糧食短缺的問題。而在其他科學領域,Evo 2 可應用於設計生物燃料或工程蛋白質,以分解油脂或塑膠。
Arc Institute 技術長 Dave Burke 表示:「部署像 Evo 2 這樣的模型,就如同將一具強大的新望遠鏡送往宇宙最遙遠的地方。我們知道這裡有著無限的探索機會,但是我們還不知道會發現什麼。」
如欲獲得更多有關 Evo 2 的資訊,請參閱 NVIDIA 技術部落格與 Arc 的技術報告。