• <tfoot id="qqq8q"><dd id="qqq8q"></dd></tfoot>
  • <sup id="qqq8q"></sup>
    <nav id="qqq8q"><code id="qqq8q"></code></nav>
  • <noscript id="qqq8q"><dd id="qqq8q"></dd></noscript>
  • <small id="qqq8q"></small>
  • <sup id="qqq8q"><delect id="qqq8q"></delect></sup>
  • <small id="qqq8q"></small>
    <nav id="qqq8q"><code id="qqq8q"></code></nav>
    <nav id="qqq8q"><cite id="qqq8q"></cite></nav><sup id="qqq8q"></sup><sup id="qqq8q"><delect id="qqq8q"></delect></sup>
  • 天天a∨天天翘综合网,国产精品视频一区二区首页,国内精品自在自线,国偷自产av一区二区三区

    分享到:
    鏈接已復制

    LANGUAGES

    新聞

    新聞直播 要聞 國際 軍事 政協(xié) 政務(wù) 圖片 視頻

    財經(jīng)

    財經(jīng) 金融 證券 汽車 科技 消費 能源 地產(chǎn) 農(nóng)業(yè)

    觀點

    觀點 理論 智庫 中國3分鐘 中國訪談 中國網(wǎng)評 中國關(guān)鍵詞

    文化

    文化 文創(chuàng) 藝術(shù) 時尚 旅游 鐵路 悅讀 民藏 中醫(yī) 中國瓷

    國情

    國情 助殘 一帶一路 海洋 草原 黃河 運河 灣區(qū) 聯(lián)盟 心理 老年

    首頁> 中國發(fā)展門戶網(wǎng)> 本網(wǎng)獨家>

    AI助力打造科學研究新范式

    2024-02-18 09:33

    來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)

    分享到:
    鏈接已復制
    字體:

    中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 科學研究有2個主要目的:發(fā)現(xiàn)基本原理,如發(fā)現(xiàn)行星運動規(guī)律和量子力學原理;解決實際問題,如解決工程和工業(yè)中出現(xiàn)的問題。科學研究有2種主要方法:開普勒范式,即數(shù)據(jù)驅(qū)動的方法;牛頓范式,即基本原理驅(qū)動的方法。前者最好的例子是行星運動三定律的發(fā)現(xiàn),即開普勒通過分析觀察數(shù)據(jù)發(fā)現(xiàn)了這些規(guī)律。后者最好的例子是牛頓對行星運動三定律的解釋和運用。牛頓提出了力學第二定律和萬有引力定律,在此基礎(chǔ)上將行星運動問題歸結(jié)為一個常微分方程問題并推導出行星運動三定律。這里原始的科學發(fā)現(xiàn)是開普勒做出的,但他并不理解其背后的原因。牛頓進一步發(fā)現(xiàn)了背后的基本原理,這些原理進而可用于許多其他問題。

    從實際應(yīng)用的角度來看,在量子力學建立之后,尋找基本原理的任務(wù)已經(jīng)基本完成。早在1929年,狄拉克就宣稱,“大部分物理學和整個化學的數(shù)學理論所需要的基本物理定律已經(jīng)完全被人們所知,困難在于這些定律的精確應(yīng)用導致方程過于復雜而無法求解”。他的斷言不僅適用于化學,也適用于生物學、材料科學,以及所有其他不涉及高能物理的自然科學與工程學科。在實際情況中,通常不必深入到量子力學層面,而可以使用一些簡化的基本原理,如氣體動力學的歐拉方程和流體力學的納維—斯托克斯方程。

    對于應(yīng)用數(shù)學家來說,一方面有了這些基本原理,所有的自然科學和相關(guān)的工程問題都可以歸結(jié)為數(shù)學問題,再具體而言是常微分方程或偏微分方程問題。另一方面,在開發(fā)出有效的工具之前,為了解決實際問題,科學家只能大幅度簡化或徹底忽略這些基本原理。

    馮·諾伊曼認識到計算機和數(shù)值算法應(yīng)該提供一種利用這些基本原理解決實際問題的通用方法,這是一個重大進展。沿著這個方向,人們提出了許多求解這些微分方程的數(shù)值算法,如有限差分、有限元和譜方法。這些算法的基本出發(fā)點是一般函數(shù)可以用多項式或分片多項式逼近。這些工作的影響是巨大的。今天,科學計算已經(jīng)成為現(xiàn)代技術(shù)和工程科學的基礎(chǔ)。許多學科,如結(jié)構(gòu)力學、流體力學和電磁學,由于引入數(shù)值算法而發(fā)生了徹底改變。

    科學研究的基本問題

    目前,科學研究中并非所有問題都得到了解決。例如研究材料的性能和設(shè)計、藥物設(shè)計、內(nèi)燃機設(shè)計,以及許多控制問題仍然遠遠做不到使用基本原理來解決。在這些領(lǐng)域,理論工作往往與現(xiàn)實世界相去甚遠,現(xiàn)實世界的問題必須通過試錯或靠經(jīng)驗來解決。這導致科學研究效率低下,相關(guān)領(lǐng)域的技術(shù)提升進展緩慢。

    所有這些“困難”問題都有一個共同特點,即它們依賴于多個獨立變量。所以,這些困難實際來自維度災(zāi)難。以量子力學的薛定諤方程為例,忽略對稱性,波函數(shù)中獨立變量的個數(shù)是粒子數(shù)量的3倍,所以10個電子的系統(tǒng)雖然是非常簡單的體系,但其對應(yīng)的30維空間偏微分方程卻已經(jīng)非常復雜!

    人工智能為科學計算提供新的解決方法

    深度學習在圖像分類、圖像生成和圍棋等方面取得了極大的成功。這些都是標準的人工智能問題,但從數(shù)學角度來看,這些問題其實是函數(shù)逼近、概率分布的逼近和采樣,以及求解貝爾曼方程的問題。而所有這些都是應(yīng)用數(shù)學,尤其是計算數(shù)學長期面臨的典型問題。不同之處在于,這些人工智能問題比應(yīng)用數(shù)學中處理的問題維度要高得多。以圖像分類問題為例,這里的自變量是圖像,每個像素都是1個自由度。因此,1張32×32像素的彩色圖片有3 072個自由度。換句話說,這個問題的維度是3 072。

    深度學習在這些高維問題上取得的成功提示深度神經(jīng)網(wǎng)絡(luò)可能是逼近高維函數(shù)更有效的工具。雖然目前還沒有建立起一個完整的深度學習的數(shù)學理論,但已經(jīng)取得了一些重要進展和直觀了解。首先,神經(jīng)網(wǎng)絡(luò)就是一類特殊的函數(shù)。如果使用規(guī)則網(wǎng)格上的分片線性函數(shù)來逼近一個函數(shù),其誤差與網(wǎng)格大小的平方成正比。這正是維度災(zāi)難的根源:隨著維度的增加,同樣網(wǎng)格大小所需要的格點個數(shù)呈指數(shù)增長。不僅基于分片線性函數(shù)的逼近是這樣,所有基于固定基函數(shù)的逼近方法都是這樣。如果利用神經(jīng)網(wǎng)絡(luò)函數(shù)來逼近一般的函數(shù),那么至少在某些情況下,可以證明其逼近精度不會隨著維度的增加而惡化,就跟計算數(shù)值積分的蒙特卡羅(Monte Carlo)方法一樣。

    這個觀察結(jié)果有著廣泛的意義。因為函數(shù)是最基本的數(shù)學對象之一,所以一個新的高維函數(shù)逼近工具將對許多不同的領(lǐng)域產(chǎn)生深遠影響。特別是,深度學習應(yīng)該有助于解決之前討論過的那些受維度災(zāi)難困擾的問題。這是人工智能驅(qū)動的科學(AI for Science)的出發(fā)點。

    這方面最成功的例子是預測蛋白質(zhì)結(jié)構(gòu)的AlphaFold算法。蛋白質(zhì)結(jié)構(gòu)是生物學最基本的問題之一。研究蛋白質(zhì)結(jié)構(gòu)的基本方法是首先最小化整個蛋白質(zhì)—溶劑系統(tǒng)的總勢能。但2個主要的困難限制了這種方法的成功:獲得精度足夠高的勢能函數(shù),以及該函數(shù)景觀的復雜性。科學家也曾嘗試過數(shù)據(jù)驅(qū)動的方法,但其成功僅限于預測二級結(jié)構(gòu),如α-螺旋和β-折疊。通過充分利用蛋白質(zhì)序列數(shù)據(jù)集及最先進的深度學習模型,DeepMind公司開發(fā)了AlphaFold2算法,它以非常優(yōu)雅的方式基本解決了蛋白質(zhì)結(jié)構(gòu)問題。這項研究震驚了世界。

    AlphaFold2是純粹數(shù)據(jù)驅(qū)動的方法。但這并不意味著AI for Science是一個純粹數(shù)據(jù)驅(qū)動的研究范式。事實上,科學研究遵循如前所述的基本原理或第一性原理,而AI for Science的一個主要組成部分是用人工智能方法為這些基本原理開發(fā)更高效的算法或近似模型。在這方面,最著名的例子是分子動力學。分子動力學是生物學、材料科學和化學的基本工具,其思想是通過計算體系中原子的動態(tài)軌跡來研究分子和材料的性質(zhì)。原子運動遵循牛頓定律,困難的部分來自于模擬原子之間的相互作用力或勢能函數(shù)。經(jīng)驗勢函數(shù)的方法是盡可能地猜出原子間勢能函數(shù)的函數(shù)形式,然后用一些實驗或第一性原理計算出的數(shù)據(jù)來擬合其中的參數(shù)。雖然這種方法可以提供一些幫助,但作為一個研究特定體系的定量工具,它是不可靠的。1985年,Car和Parrinello開發(fā)了第1個基于第一性原理的人工智能方法:通過使用量子力學模型(如密度泛函理論)來實時計算原子之間的作用力。這種方法能夠以第一性原理的精度來模擬特定體系。但在實踐中,效率是一個瓶頸。由于效率的限制,只能用這種方法來處理含數(shù)千個原子的體系。

    機器學習提出了一種新的范式。在這個新的范式下,量子力學僅用于提供數(shù)據(jù)。基于這些數(shù)據(jù),可以使用機器學習方法來得出原子間勢能函數(shù)的精確近似,然后就像使用經(jīng)驗勢能函數(shù)一樣將其用于分子動力學模擬。

    為了使這個策略真正有效,必須處理2個重要問題。 網(wǎng)絡(luò)架構(gòu)。它應(yīng)該是可拓展的,并且遵循物理學基本規(guī)律。可拓展性能夠在小體系上做機器學習并將結(jié)果應(yīng)用于更大的體系。這個問題在Behler和Parrinello兩位科學家的經(jīng)典工作中得到了解決。遵循物理規(guī)律意味著必須保持對稱性、守恒律、不變性和其他物理約束。在勢能函數(shù)這個問題中,需要考慮的主要是平移、旋轉(zhuǎn)和置換不變性。這可以通過使用一個嵌入網(wǎng)絡(luò)來實現(xiàn),該網(wǎng)絡(luò)將原子位置的信息映射到一組保持對稱性的函數(shù)上。然后再通過一個逼近網(wǎng)絡(luò)來擬合勢能函數(shù)。 數(shù)據(jù)有關(guān)。一方面,如果希望機器學習方法產(chǎn)生的勢能函數(shù)在所有感興趣的實際場景中都與原始的量子力學模型一樣精確可靠,那么訓練數(shù)據(jù)集就需要能夠?qū)λ羞@些不同場景都具有充分的代表性。另一方面,由于標注數(shù)據(jù)是用量子力學模型計算出來的,而這些計算是比較昂貴的,所以希望數(shù)據(jù)集盡可能小。這就需要一種自適應(yīng)數(shù)據(jù)生成算法,它能夠幫助人工智能在學習過程中動態(tài)生成“最優(yōu)”數(shù)據(jù)集。

    ELT算法就是為了解決這個問題。它由探索(exploration)、標注(labeling)和訓練(training)3個部分組成,因此得名ELT。ELT可以從沒有數(shù)據(jù)和粗糙的初始勢能函數(shù)開始。在探索過程中,使用一些采樣算法(如某種分子動力學方法)來探索不同的原子構(gòu)象。對于遇到的每個構(gòu)象,可以計算出一個指標值來查看是否需要對其進行標注。然后將標注好的數(shù)據(jù)添加到訓練數(shù)據(jù)集中,并基于它定期更新對勢能函數(shù)的逼近。

    該算法的關(guān)鍵在于采樣方案和如何計算指標值。采樣方案的基本思想是僅探索實際感興趣且缺乏足夠多的訓練數(shù)據(jù)的構(gòu)象空間。指標值的關(guān)鍵在于判別哪些構(gòu)象附近還缺乏足夠多的訓練數(shù)據(jù)。對于后者,ELT方案采用的方案是訓練一組近似勢能函數(shù)。這組近似勢能函數(shù)之間的標準差定義為指示函數(shù)。對當前采樣到的構(gòu)象,如果其指示函數(shù)值超過了閾值,就對該構(gòu)象作標注。其背后的邏輯是,如果這個構(gòu)象附近有足夠多的訓練數(shù)據(jù),那么不同網(wǎng)絡(luò)預測的勢能函數(shù)值都應(yīng)該非常準確且彼此接近。大的標準差表明附近沒有足夠多的訓練數(shù)據(jù),因此應(yīng)該對當前構(gòu)象進行標注并加到訓練數(shù)據(jù)集中。對于采樣算法,選擇帶偏差的分子動力學,其中偏差勢函數(shù)由當前對勢能函數(shù)的逼近來定義,并由其準確性的置信區(qū)間大小來定義權(quán)重。其背后的邏輯是,如果當前已經(jīng)得到的勢能函數(shù)在一個區(qū)域范圍足夠準確,那么應(yīng)該離開這個區(qū)域而到其他地方進行采樣。

    有了這些主要組件,確實可以為一大類(如果不是全部的話)原子體系提供具有第一性原理精度的勢能函數(shù)。所得的模型稱為深度勢能分子動力學(deep potential molecular dynamics,DeePMD)。它是一個可靠的、具有第一性原理精度的原子模擬工具。結(jié)合高性能計算,它將以第一性原理精度分子動力學模擬的能力從只能處理數(shù)千個原子的體系擴展到處理170億個原子的體系。DeePMD軟件包DeePMD-kit也大大降低了DeePMD的使用門檻。

    類似的想法可以應(yīng)用于其他物理模型。例如,可以用高度準確的量子化學計算數(shù)據(jù)來訓練更通用、更準確的密度泛函模型。還可以開發(fā)更準確、更可靠的粗粒化分子動力學模型,以及更準確的動力學方程的矩陣模型等。事實上,機器學習正是過去多尺度、多物理建模所缺少的工具。

    除了基本原理的模型之外,人工智能方法還可以提供更高效、更準確的反演算法,從而增強實驗表征能力。先前討論過的基于人工智能的算法可以為正問題提供更逼真、更準確的數(shù)據(jù),而神經(jīng)網(wǎng)絡(luò)中的可微分結(jié)構(gòu)可以幫助設(shè)計解決反問題的優(yōu)化或采樣算法。這項工作仍處于早期階段,但它是一個有巨大發(fā)展空間的方向。

    人工智能方法還有可能改變?nèi)藗兝梦墨I和現(xiàn)有科學知識的方式。文獻和現(xiàn)有科學知識是科研靈感的主要來源之一。然而,利用好這些資源也是一個非常艱巨的任務(wù):需要從大量信息中挖掘出相關(guān)文獻和知識,并需要花大量時間來閱讀和研究它們。然而,可以利用人工智能數(shù)據(jù)庫和大語言模型來收集和整合這些信息并更有效地查詢這些信息。原則上,對于感興趣的任何研究課題,都可以使用人工智能工具快速總結(jié)文獻中的相關(guān)信息及其來源。人工智能技術(shù)甚至可以幫助建議一些進一步的研究方向。這將大大提高科學研究的效率。

    隨著這些新的可能性的出現(xiàn),可以探索一種新的科研范式,并把它稱為科學研究的“安卓范式”。在這個新范式下,科學界將共同努力建立起一套新的基礎(chǔ)設(shè)施,包括用于基本原理的人工智能算法、人工智能賦能的實驗設(shè)施和新的知識數(shù)據(jù)庫。這些平臺構(gòu)成了科學研究的“安卓平臺”。無論是尋找特定化學反應(yīng)中的催化劑還是設(shè)計新電池,這些針對特定應(yīng)用的研究工作都可以在這個“安卓平臺”上進行。這無疑將加快科學研究的進程。

    這種橫向整合的觀點也將有助于打破學科壁壘,加強跨學科的研究和教育。橫向整合的觀點本身并不新,由于缺乏有效的工具,過去它難以帶來實質(zhì)性的進展。如前所述,人工智能方法提供了大大改進這些橫向工具的空間。這些新的橫向工具,例如新的查閱文獻和現(xiàn)有科研數(shù)據(jù)的平臺,以及自動化、智能化的實驗平臺,使得科研人員能夠從橫向的角度更有效地看待不同的科研場景。例如,對原子體系,生物學關(guān)注的是生物大分子,材料科學關(guān)注凝聚態(tài)體系;化學比較關(guān)注小分子,化工領(lǐng)域則比較關(guān)注高分子。而從理論工具的角度來說,無論哪種體系,都離不開電子結(jié)構(gòu)方法和分子動力學方法。實驗工具則包括不同尺度的光譜和顯微鏡成像技術(shù)。盡管不同領(lǐng)域關(guān)注不同體系,這些不同領(lǐng)域的工具和知識都應(yīng)該可以最大程度地共享。在這個框架下,學科之間的界限也就自然消失。

    我國AI for Science的發(fā)展現(xiàn)狀

    帶著這一愿景,筆者團隊在2018年啟動了DeepModeling開源平臺。這個平臺的目的是邀請科學界共同努力,為物理建模和數(shù)據(jù)分析建立基于人工智能方法的基礎(chǔ)設(shè)施。到目前為止,它已經(jīng)產(chǎn)生了巨大的影響力并吸引了許多的開發(fā)者,在中國,AI for Science的發(fā)展呈現(xiàn)出令人欣慰的良好局面。所有這些,都為AI for Science在中國的發(fā)展奠定了良好的基礎(chǔ)。

    在短短幾年內(nèi),AI for Science的重要性和它帶來的巨大發(fā)展空間已經(jīng)得到了廣泛的認可。一大批各個領(lǐng)域的領(lǐng)軍學者都高度重視AI for Science這一機會。2024年初《中國科學院院刊》策劃組織“大力推進科研范式變革”專題,就是一個例證。

    一批專注于AI for Science的研究團隊正在出現(xiàn)并展示出良好的勢頭。經(jīng)過3年多的醞釀,北京科學智能研究院于2021年9月在北京市的支持下正式成立。這是國際上第1個專注于AI for Science的研究機構(gòu),致力于打造AI for Science時代的基礎(chǔ)設(shè)施。除此之外,還有中國科學技術(shù)大學的機器化學家團隊、廈門大學嘉庚創(chuàng)新實驗室的AI for Electrochemisty團隊等。

    一批企業(yè)也在AI for Science方向積極布局。這體現(xiàn)了產(chǎn)業(yè)界對AI for Science的巨大信心。在AI for Science的旗幟下聚集了一大批有能力、有決心、有干勁的青年產(chǎn)業(yè)人員。

    科學技術(shù)部、國家自然科學基金委員會等國家機構(gòu)和北京市、上海市等地方政府都在積極出臺政策,支持AI for Science的研究。2022年,國家自然科學基金委員會交叉科學部首先推出“可解釋、可通用的下一代人工智能重大研究計劃”,AI for Science是其中一個重要組成部分。

    建議

    如今的良好基礎(chǔ)并不代表AI for Science在中國的健康發(fā)展已經(jīng)板上釘釘。對一個領(lǐng)域的發(fā)展來說,成為熱點是一把雙刃劍。越是熱點,就越容易產(chǎn)生泡沫。如何才能保證利用好這個機會,讓AI for Science帶動我國在下一次科技創(chuàng)新和產(chǎn)業(yè)變革的浪潮中走在最前沿?本文提出以下4個方面具體建議。

    要有具有高度前瞻性的頂層設(shè)計。頂層設(shè)計必須把基礎(chǔ)設(shè)施建設(shè)放在第1位。基礎(chǔ)設(shè)施建設(shè)周期長、任務(wù)重、困難大,但從長遠發(fā)展的角度來說,它的重要性毋庸置疑。過去的幾年里,我們目睹一些領(lǐng)域長期的表面繁榮在一夜之間被打回原型的例子,這與先進國家相比呈現(xiàn)出巨大差距。究其原因,都是因為沒有在基礎(chǔ)設(shè)施上下足夠的功夫。

    要有理性的資源分配機制。要讓有能力、有動力、真正活躍在一線的科研人員得到他們應(yīng)該得到的資源,非理性的資源分配體系所造成的負面影響不僅僅是資源的浪費,更是不正學風的根本原因。要徹底打破靠資歷、靠宣傳、靠關(guān)系和“分蛋糕”的資源分配體系。

    要積極推進開放和合作共贏的理念。科學研究本來就是所有科研人員共同的事業(yè)。在AI for Science的新框架下,“自給自足、小農(nóng)作坊”的研究模式將難以適合未來發(fā)展的需求。只有合作共贏,才能充分調(diào)動科研人員的潛力和積極性,加快提升整體科研創(chuàng)新的能力。

    要加強學術(shù)風氣的建設(shè)。學術(shù)風氣是決定中國科技創(chuàng)新能不能成功的最重要的因素之一,也是決定AI for Science在中國能不能順利發(fā)展的最重要的因素之一。要積極鼓勵年輕人提出新思想、新觀念,鼓勵對各種學術(shù)觀點的質(zhì)疑和挑戰(zhàn),積極倡導實事求是、有一說一的風氣。讓學術(shù)會議和學術(shù)討論回歸其本來的目標。讓一些專注于搞虛假宣傳、在領(lǐng)導面前畫大餅的風氣在中國失去生存的空間。

    希望我國科學家珍惜目前AI for Science的良好發(fā)展勢頭,緊密合作,緊緊抓住AI for Science這個千載難逢的機會,爭取在下一輪的科技創(chuàng)新浪潮中走在前沿,為人類的科技發(fā)展作出應(yīng)有的貢獻。

    (作者:鄂維南,北京大學 北京科學智能研究院。 《中國科學院院刊》供稿)

    【責任編輯:殷曉霞】
    返回頂部
    天天a∨天天翘综合网
  • <tfoot id="qqq8q"><dd id="qqq8q"></dd></tfoot>
  • <sup id="qqq8q"></sup>
    <nav id="qqq8q"><code id="qqq8q"></code></nav>
  • <noscript id="qqq8q"><dd id="qqq8q"></dd></noscript>
  • <small id="qqq8q"></small>
  • <sup id="qqq8q"><delect id="qqq8q"></delect></sup>
  • <small id="qqq8q"></small>
    <nav id="qqq8q"><code id="qqq8q"></code></nav>
    <nav id="qqq8q"><cite id="qqq8q"></cite></nav><sup id="qqq8q"></sup><sup id="qqq8q"><delect id="qqq8q"></delect></sup>