首頁(yè)> 中國(guó)發(fā)展門戶網(wǎng)> 本網(wǎng)獨(dú)家>

智能化科研（AI4R）：第五科研范式

2024-02-08 16:31

來(lái)源：中國(guó)網(wǎng)·中國(guó)發(fā)展門戶網(wǎng)

分享到：

鏈接已復(fù)制

字體：小大

中國(guó)網(wǎng)/中國(guó)發(fā)展門戶網(wǎng)訊人類早期的科研活動(dòng)至少可以追溯到公元前6世紀(jì)的古希臘，以亞里士多德、歐幾里得為代表的思想家和科學(xué)家作出了重要貢獻(xiàn)。現(xiàn)代科學(xué)研究開(kāi)始于16—17世紀(jì)的科學(xué)革命，伽利略、牛頓是現(xiàn)代科學(xué)研究的鼻祖。20世紀(jì)中葉以前的幾百年間，科學(xué)研究的方法只有兩種：基于觀察和歸納的實(shí)驗(yàn)研究（第一范式）；基于科學(xué)假設(shè)和邏輯演繹的理論研究（第二范式）。電子計(jì)算機(jī)流行以來(lái)，計(jì)算機(jī)對(duì)復(fù)雜現(xiàn)象的仿真成為第3種科研方式（第三范式）。由于互聯(lián)網(wǎng)的普及引發(fā)數(shù)據(jù)爆炸，近20年來(lái)出現(xiàn)了數(shù)據(jù)密集型科學(xué)研究方式（第四范式）。

2007年1月，圖靈獎(jiǎng)得主吉姆·格雷（Jim Gray）在他生前最后一次演講中，描繪了關(guān)于科學(xué)研究第四范式的愿景。他的報(bào)告題目是“eScience：科學(xué)方法的一次革命”，他把數(shù)據(jù)密集型科研看成eScience的組成部分之一，主要強(qiáng)調(diào)數(shù)據(jù)的管理和共享，基本上不涉及人工智能（AI）技術(shù)在科研中的作用。“大數(shù)據(jù)”形成熱潮以來(lái)，數(shù)據(jù)驅(qū)動(dòng)的科研越來(lái)越受到重視。但單純的數(shù)據(jù)驅(qū)動(dòng)有明顯的局限性，模型驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)一樣重要，兩者需要融合。

“科學(xué)范式”（scientific paradigm）是托馬斯·庫(kù)恩在其名著《科學(xué)革命的結(jié)構(gòu)》中首先使用的術(shù)語(yǔ)，主要是指各個(gè)學(xué)科在一定歷史時(shí)期形成的對(duì)某種專業(yè)知識(shí)的見(jiàn)解與共識(shí)。現(xiàn)在這個(gè)術(shù)語(yǔ)已成為很流行的熱詞，含義已經(jīng)泛化。本文討論的“科研范式”是指從宏觀角度看到的科學(xué)研究方式。近幾年來(lái)，不少學(xué)者開(kāi)始倡導(dǎo)第五科研范式。曾經(jīng)大力宣傳第四科研范式的微軟研究院最近也在提倡第五科研范式，成立了新的AI4Science研究中心。2019年11月，筆者發(fā)起舉辦了第667次香山科學(xué)會(huì)議，會(huì)后在《中國(guó)科學(xué)院院刊》2020年第12期發(fā)表了《數(shù)據(jù)科學(xué)與計(jì)算智能：內(nèi)涵、范式與機(jī)遇》綜述論文，文章中明確提出要開(kāi)啟“第五范式”科學(xué)研究，指出“第五范式”不僅僅是傳統(tǒng)的科學(xué)發(fā)現(xiàn)，更是對(duì)智能系統(tǒng)的探索和實(shí)現(xiàn)，強(qiáng)調(diào)人腦與計(jì)算機(jī)的有機(jī)融合，并預(yù)言再過(guò)10—20年，“第五范式”可能逐步成為科學(xué)研究的主流范式之一。

現(xiàn)在還很難對(duì)第五科研范式做出嚴(yán)格定義，但其特征已逐步顯露出來(lái)，概括起來(lái)包括以下6點(diǎn)：人工智能全面融入科學(xué)、技術(shù)和工程研究，知識(shí)自動(dòng)化，科研全過(guò)程智能化；人機(jī)融合，機(jī)器涌現(xiàn)智能成為科研的組成部分，暗知識(shí)和機(jī)器猜想應(yīng)運(yùn)而生；以復(fù)雜系統(tǒng)為主要研究對(duì)象，有效應(yīng)對(duì)計(jì)算復(fù)雜性非常高的組合爆炸問(wèn)題；面向非確定性問(wèn)題，概率和統(tǒng)計(jì)推理在科研中發(fā)揮更大的作用；跨學(xué)科合作成為主流科研方式，實(shí)現(xiàn)前4種科研范式的融合，特別是基于第一性原理的模型驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的融合；科研更加依靠以大模型為特征的大平臺(tái)，科學(xué)研究與工程實(shí)現(xiàn)密切結(jié)合等。

鄂維南等科學(xué)家將“AI for Science”翻譯成“科學(xué)智能”，這個(gè)術(shù)語(yǔ)已經(jīng)開(kāi)始流行，可作為第五科研范式定名與翻譯的借鑒，但智能化的科研不限于基礎(chǔ)科學(xué)研究，也包括技術(shù)研究和工程研究的智能化。科學(xué)技術(shù)部和國(guó)家自然科學(xué)基金委員會(huì)啟動(dòng)部署的“AI for Science”專項(xiàng)稱為“人工智能驅(qū)動(dòng)的科學(xué)研究”，但在與實(shí)驗(yàn)、理論、計(jì)算機(jī)仿真、數(shù)據(jù)驅(qū)動(dòng)等范式名稱放在一起時(shí)，又顯得不夠精煉。在以上基礎(chǔ)上，本文將第五科研范式稱為“智能化科研”（AI for Research，簡(jiǎn)稱“AI4R”），文字相對(duì)精煉一些，內(nèi)容更廣泛，含義也更深刻。

智能化科研（AI4R）：成功案例

數(shù)據(jù)驅(qū)動(dòng)研究方式往往足夠快但不夠精確；而基于第一性原理的理論推演和計(jì)算方式算得準(zhǔn)但不夠快，只能處理小規(guī)模的科學(xué)問(wèn)題。近幾年，人工智能技術(shù)在生物、材料、制藥等領(lǐng)域的科學(xué)研究中得到廣泛應(yīng)用，AI4R既可以提高科研效率，又能保證科研要求的精確性，成為科學(xué)研究的強(qiáng)大推動(dòng)力。AI4R的成功案例很多，本文介紹與中國(guó)科學(xué)院計(jì)算技術(shù)研究所（以下簡(jiǎn)稱“計(jì)算所”）有關(guān)的3個(gè)案例。

蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)。利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)是AI4R的里程碑式的科研成果。到目前為止，AlphaFold 2已預(yù)測(cè)了超過(guò)100萬(wàn)個(gè)物種的2.14億個(gè)蛋白質(zhì)三維結(jié)構(gòu)，幾乎涵蓋了地球上所有已知的蛋白質(zhì)。AlphaFold 2不僅是結(jié)構(gòu)生物學(xué)領(lǐng)域的顛覆性突破，更重要的意義是消除了科學(xué)家對(duì)人工智能認(rèn)識(shí)上的障礙，照亮了AI4R前進(jìn)的道路。過(guò)去即使計(jì)算機(jī)科學(xué)家非常精確地預(yù)測(cè)了蛋白質(zhì)三維結(jié)構(gòu)，也只認(rèn)為是所謂“干實(shí)驗(yàn)”成果，必須要生物學(xué)家做了“濕實(shí)驗(yàn)”以后才會(huì)接受。現(xiàn)在生物學(xué)家已能夠相信人工智能的預(yù)測(cè)，這是科學(xué)界的跨時(shí)代進(jìn)步。在AlphaFold 2推出以前，計(jì)算所在蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)方面就曾經(jīng)做出過(guò)國(guó)際領(lǐng)先的科研成果。

分子動(dòng)力學(xué)模擬。中美合作的深度勢(shì)能團(tuán)隊(duì)采用全新的“基于深度學(xué)習(xí)的分子動(dòng)力學(xué)模擬”研究方法，將具有第一性原理精度的分子動(dòng)力學(xué)模擬規(guī)模擴(kuò)展到1億個(gè)原子，計(jì)算效率提升1 000倍以上。這是國(guó)際上首次實(shí)現(xiàn)智能超算與物理模型相結(jié)合，引領(lǐng)了科學(xué)計(jì)算從傳統(tǒng)的計(jì)算模式朝著智能超算方向前進(jìn)。此論文的第一作者賈偉樂(lè)目前在計(jì)算所工作。2022年，他將分子動(dòng)力學(xué)的計(jì)算規(guī)模提升至170億個(gè)原子，計(jì)算模擬的速度提高7倍，一天能夠模擬11.2納秒的物理過(guò)程，比2020年獲得戈登·貝爾獎(jiǎng)的成果又提升1—2個(gè)數(shù)量級(jí)。

芯片全自動(dòng)設(shè)計(jì)。2022年5月，計(jì)算所成功利用人工智能技術(shù)設(shè)計(jì)出全球首款全自動(dòng)生成的32位第五代精簡(jiǎn)指令集（RISC-V）中央處理器（CPU）——“啟蒙1號(hào)”。設(shè)計(jì)周期縮短至傳統(tǒng)設(shè)計(jì)方法的1/1 000，僅用5小時(shí)就生成了400萬(wàn)邏輯門。這一創(chuàng)新成果是人工智能在復(fù)雜的工程設(shè)計(jì)領(lǐng)域取得的重大突破，預(yù)示著“AI for Technology”與“AI for Science”一樣，具有十分光明的前途。CPU設(shè)計(jì)的準(zhǔn)確率要達(dá)到99.999 999 999 99%（13個(gè)9！）以上；而若采用神經(jīng)網(wǎng)絡(luò)方法，包括最近很熱門的大語(yǔ)言模型，都無(wú)法保證精度。計(jì)算所陳云霽團(tuán)隊(duì)發(fā)明了用二進(jìn)制推測(cè)圖（BSD）來(lái)表示電路邏輯的新方法，可以將一般布爾函數(shù)的描述復(fù)雜度從指數(shù)級(jí)降到多項(xiàng)式級(jí)。“啟蒙1號(hào)”的一個(gè)重要發(fā)現(xiàn)是，不只是基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言大模型，類似決策樹(shù)的BSD也具有涌現(xiàn)功能。這一意外的發(fā)現(xiàn)引發(fā)了人們對(duì)神經(jīng)網(wǎng)絡(luò)之外的智能技術(shù)的期盼，只要模型足夠復(fù)雜，其他的人工智能技術(shù)也可能涌現(xiàn)出意想不到的功能。

智能化科研（AI4R）：向智能時(shí)代邁進(jìn)中出現(xiàn)的新科研范式

科研范式隨著人類生產(chǎn)力的進(jìn)步不斷演變。農(nóng)業(yè)時(shí)代只有第一范式，工業(yè)時(shí)代開(kāi)始流行第二范式，信息時(shí)代出現(xiàn)第三和第四范式。現(xiàn)在人類處于信息時(shí)代的智能化階段，正在向智能時(shí)代邁進(jìn)，智能化科研范式順應(yīng)而生。

從1936年圖靈提出計(jì)算模型開(kāi)始，計(jì)算機(jī)科學(xué)技術(shù)已經(jīng)研究80多年了。現(xiàn)在大家普遍認(rèn)為，所有的計(jì)算機(jī)都是圖靈機(jī)的實(shí)現(xiàn)，其實(shí)圖靈模型主要是用來(lái)研究計(jì)算的不可判定性。1943年麥卡洛克（McCulloch）和皮茨（Pitts）提出了神經(jīng)元計(jì)算模型，這個(gè)模型在可計(jì)算性上與圖靈模型是等價(jià)的，但對(duì)自動(dòng)機(jī)理論而言，可能比圖靈模型更有價(jià)值。馮·諾依曼曾指出：“圖靈機(jī)和神經(jīng)網(wǎng)絡(luò)模型分別代表了一種重要的研究方式：組合方法和整體方法。McCulloch和Pitts對(duì)底層的零件作了公理化定義，可以得到非常復(fù)雜的組合結(jié)構(gòu)；圖靈定義了自動(dòng)機(jī)的功能，并沒(méi)有涉及到具體的零件。”這兩條技術(shù)路線一直在競(jìng)爭(zhēng)，盡管神經(jīng)網(wǎng)絡(luò)模型受到排擠打壓，但相關(guān)學(xué)者始終沒(méi)有停止研究。一直到2012年，Hinton等學(xué)者發(fā)明的深度學(xué)習(xí)方法在ImageNet圖像識(shí)別比賽中一鳴驚人，神經(jīng)網(wǎng)絡(luò)模型才一下子紅火起來(lái)。

現(xiàn)在流行的神經(jīng)網(wǎng)絡(luò)模型與McCulloch和Pitts提出的模型并沒(méi)有實(shí)質(zhì)性的改變，能在圖像、語(yǔ)音識(shí)別和自然語(yǔ)言理解上取得重大突破，除了采用反向傳播和梯度下降算法外，主要是數(shù)據(jù)量大了幾個(gè)數(shù)量級(jí)，計(jì)算機(jī)的算力也增強(qiáng)了幾個(gè)數(shù)量級(jí)，量變引起了質(zhì)變。馮·諾伊曼的著作《自復(fù)制自動(dòng)機(jī)理論》中指出，“自動(dòng)機(jī)理論的核心概念在于復(fù)雜性，超復(fù)雜的系統(tǒng)會(huì)涌現(xiàn)出新的原理”，并提出一個(gè)重要概念——復(fù)雜度閾值。低于復(fù)雜度閾值的系統(tǒng)，就會(huì)無(wú)情地衰退耗散，突破了復(fù)雜度閾值的系統(tǒng)，就會(huì)由于在數(shù)據(jù)層的擴(kuò)散和變異作用而不斷進(jìn)化，可以做很困難的事情。

現(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型有數(shù)千億甚至上萬(wàn)億參數(shù)，可能已接近能處理困難問(wèn)題的復(fù)雜度閾值點(diǎn)。神經(jīng)網(wǎng)絡(luò)不是按照確定的算法實(shí)現(xiàn)圖靈計(jì)算，其主要功能是“猜測(cè)加驗(yàn)證”。現(xiàn)在流行的卷積神經(jīng)網(wǎng)絡(luò)能夠用于猜下一個(gè)字是什么。猜測(cè)和計(jì)算是兩個(gè)不同的概念，基于神經(jīng)網(wǎng)絡(luò)的機(jī)器更合適的名稱是“猜測(cè)機(jī)”，而不是“計(jì)算機(jī)”，其解決復(fù)雜問(wèn)題的效率大大高于圖靈模型。神經(jīng)網(wǎng)絡(luò)模型只是人工智能眾多模型中的一種，只要跨過(guò)復(fù)雜度閾值點(diǎn)，其他人工智能模型也有可能表現(xiàn)出超乎尋常的功能。智能化科研就是要讓各種人工智能技術(shù)在科研工作中大放異彩。

人工智能技術(shù)經(jīng)過(guò)60多年的沉淀和積累，在數(shù)據(jù)和算力均足夠豐富的條件下，已經(jīng)成為推動(dòng)科研和生產(chǎn)的利器，爆發(fā)出前所未有的能量。盡管實(shí)現(xiàn)真正的通用人工智能還要走很長(zhǎng)的路，但毫無(wú)疑問(wèn)，智能化已經(jīng)成為當(dāng)今時(shí)代的主要追求。對(duì)時(shí)代的認(rèn)識(shí)不能犯錯(cuò)誤，錯(cuò)過(guò)時(shí)代轉(zhuǎn)變機(jī)遇將遭受歷史性的降維打擊。

智能化科研（AI4R）的標(biāo)志：機(jī)器涌現(xiàn)智能，人機(jī)物智能融合

第五科研范式的標(biāo)志性事件是，在AlphaFold 2實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和后來(lái)GPT-4表現(xiàn)出的令人驚艷的功能中，機(jī)器猜想都發(fā)揮了關(guān)鍵作用，說(shuō)明大規(guī)模的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已涌現(xiàn)出某種程度的認(rèn)知智能。盡管開(kāi)發(fā)者并不能完全解釋機(jī)器的認(rèn)知智能是如何產(chǎn)生的，但實(shí)踐已證明，在很多應(yīng)用中，機(jī)器的猜測(cè)是正確的。人造的硅基產(chǎn)品涌現(xiàn)出超出常規(guī)計(jì)算和信息處理的認(rèn)知智能，這是一個(gè)劃時(shí)代的變化。

所謂“涌現(xiàn)”，是指系統(tǒng)中的個(gè)體遵循簡(jiǎn)單的規(guī)則，通過(guò)局部的相互作用構(gòu)成一個(gè)整體時(shí)，一些意想不到的屬性或者規(guī)律會(huì)突然在系統(tǒng)層面出現(xiàn)，即“系統(tǒng)定量上的變化可以導(dǎo)致系統(tǒng)行為上的定性變化”。生命的形成，蟻群、鳥(niǎo)群的群體性行為，人腦的智慧，人類許多社會(huì)行為等都源自“涌現(xiàn)”。人們常說(shuō)，21世紀(jì)是“復(fù)雜性科學(xué)的世紀(jì)”，而“涌現(xiàn)”就是復(fù)雜性科學(xué)最關(guān)注的主題。美國(guó)圣塔菲研究所1984年就開(kāi)始探索科學(xué)和社會(huì)中的涌現(xiàn)行為，試圖創(chuàng)造一種統(tǒng)一的復(fù)雜科學(xué)理論來(lái)解釋“涌現(xiàn)”，但至今揭示“涌現(xiàn)”的機(jī)理仍然是一個(gè)開(kāi)放性的科學(xué)問(wèn)題。

機(jī)器具有人類解釋不清楚的“暗知識(shí)”，這對(duì)我們?cè)?jīng)固有的認(rèn)識(shí)論是一次巨大的沖擊。有些學(xué)者認(rèn)為，計(jì)算機(jī)只能機(jī)械地執(zhí)行人編寫(xiě)的程序，不可能有智能。但上千億自動(dòng)生成的參數(shù)構(gòu)成的人工神經(jīng)網(wǎng)絡(luò)已經(jīng)是一個(gè)有“認(rèn)知”能力的復(fù)雜系統(tǒng)，其涌現(xiàn)能力不是程序員編程時(shí)直接輸入的，是機(jī)器學(xué)習(xí)形成的復(fù)雜系統(tǒng)自己具有的。所以我們應(yīng)當(dāng)承認(rèn)，人有人智，機(jī)有機(jī)“智”。人機(jī)互補(bǔ)是第五科研范式的主要特征之一，今后要爭(zhēng)取做到人類和人工智能“各顯其智，智智與共”。

這里所說(shuō)的“機(jī)器的認(rèn)知能力”不同于人的認(rèn)知能力，“機(jī)器理解”也不同于人的理解。所謂“機(jī)器理解”是指，如果機(jī)器通過(guò)學(xué)習(xí)形成某些規(guī)則，可以實(shí)現(xiàn)一個(gè)符號(hào)空間到意義空間的映射，就說(shuō)它對(duì)符號(hào)空間具有一定的理解能力。例如，機(jī)器翻譯可以不懂語(yǔ)義，但能將中文“映射”到其他語(yǔ)言，哪怕是沒(méi)有接觸過(guò)的小語(yǔ)種。人工智能天氣預(yù)報(bào)模型可以不懂氣象理論，但能做出比數(shù)值天氣預(yù)報(bào)還精確的預(yù)報(bào)。這可能是一種新穎的“理解”形式，一種能夠?qū)崿F(xiàn)預(yù)測(cè)的理解形式。如同我們可以說(shuō)飛機(jī)具有與鳥(niǎo)類不同的飛行能力一樣，不必糾纏機(jī)器的“理解”是否與人類一樣。理解和意識(shí)有不同層次的內(nèi)涵，有理解能力未必有自我意識(shí)。將理解能力與自我意識(shí)剝離，有助于降低人們對(duì)人工智能莫名其妙的恐懼。對(duì)機(jī)器學(xué)習(xí)形成的大模型是否會(huì)具有類似人腦的涌現(xiàn)能力，不同的學(xué)者有不同的判斷。Hinton等學(xué)者始終堅(jiān)信，人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元雖然簡(jiǎn)單，但復(fù)雜的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)與人類的大腦有某種程度的相似性。正是由于少數(shù)有前瞻眼光的科學(xué)家的這一份堅(jiān)信，默默耕耘幾十年，才達(dá)成今天人工智能技術(shù)的大突破。筆者曾問(wèn)過(guò)ChatGPT和“文心一言”：“機(jī)器是不是真的具有智能？”ChatGPT回答：“機(jī)器確實(shí)擁有自己的智能”。“文心一言”回答：“目前的主流觀點(diǎn)認(rèn)為，機(jī)器暫時(shí)沒(méi)有真正的智能。”機(jī)器的回答與創(chuàng)建者選擇學(xué)習(xí)內(nèi)容的意向有關(guān)，也許，中美兩國(guó)學(xué)者對(duì)機(jī)器智能的不同認(rèn)識(shí)是導(dǎo)致我們?cè)诖竽Ｐ脱邪l(fā)上落后的背后原因之一。

智能化科研（AI4R）的主要目標(biāo)：有效應(yīng)對(duì)難解的組合爆炸問(wèn)題

傳統(tǒng)科學(xué)不但能揭示自然界的一些奧秘，而且能解決很多困難的工程問(wèn)題，例如大飛機(jī)的制造。一架大飛機(jī)有數(shù)百萬(wàn)個(gè)零部件，因?yàn)槲覀兠靼酌總€(gè)零件的作用，也理解它的整個(gè)系統(tǒng)的空氣動(dòng)力學(xué)原理，其復(fù)雜性已經(jīng)在我們的掌握之中。但對(duì)于大腦，即使我們理解了每一個(gè)神經(jīng)元，仍然不能解釋意識(shí)和智慧是如何產(chǎn)生的，因?yàn)閺?fù)雜系統(tǒng)的功能和性質(zhì)并不是其組成部分的線性之和。在生物、化學(xué)、材料、制藥等許多領(lǐng)域，科學(xué)問(wèn)題中假設(shè)空間非常大，例如小分子候選藥物的數(shù)量估計(jì)有1060種，可能成為穩(wěn)定材料的總數(shù)多達(dá)10180種，逐個(gè)篩選完全不可行。這就是我們常說(shuō)的“組合爆炸”，數(shù)學(xué)家稱之為“維度災(zāi)難”。我們有了打開(kāi)科學(xué)大門的鑰匙，卻沒(méi)有力氣把沉重的大門推開(kāi)。經(jīng)過(guò)300多年的科學(xué)探索，知識(shí)之樹(shù)底層的果實(shí)差不多都摘光了，留在樹(shù)尖的果實(shí)幾乎都是難啃的復(fù)雜之果。過(guò)去4種科研范式難以解決的組合爆炸問(wèn)題是第五范式的主要用武之地。

人工智能的目標(biāo)不是一味地模擬語(yǔ)音、視覺(jué)、語(yǔ)言等人類自身的基本技能，而是要讓人工智能擁有和人類一樣認(rèn)識(shí)世界和改造世界的能力。人腦中并沒(méi)有確定性的算法，而是采用抽象、模糊、類比、近似等非確定的方法來(lái)降低認(rèn)知的復(fù)雜性。馮·諾伊曼早就預(yù)言，“信息理論包括兩大塊：嚴(yán)格的信息論和概率的信息論。以概率統(tǒng)計(jì)為基礎(chǔ)的信息理論大概對(duì)于現(xiàn)代計(jì)算機(jī)設(shè)計(jì)更加重要。”近幾年機(jī)器學(xué)習(xí)的巨大進(jìn)步，主要是采用了概率統(tǒng)計(jì)模型，對(duì)我們不完全了解的問(wèn)題進(jìn)行建模分析。機(jī)器學(xué)習(xí)提供了跨尺度建模的工具，能跨越所有物理尺度進(jìn)行建模和計(jì)算，通過(guò)試錯(cuò)和調(diào)整，不斷完善所獲得的結(jié)果，追求統(tǒng)計(jì)意義上最終結(jié)果的可接受性。統(tǒng)計(jì)意義的正確性與確定性計(jì)算程序的嚴(yán)格正確性是解決復(fù)雜問(wèn)題的不同思路。人工智能研究的新近發(fā)展體現(xiàn)一種趨勢(shì)：放棄絕對(duì)性，擁抱不確定性，即只求近似解或滿足一定精度的解。這或許是這次人工智能“意外”取得成功的深層原因。

我們把第五科學(xué)范式稱為智能化科研，原因之一就是，只有突破還原論和經(jīng)典計(jì)算范式的思想枷鎖，采用智能化的新范式，才能應(yīng)對(duì)輸入、輸出和求解過(guò)程的不確定性。問(wèn)題的復(fù)雜性隨計(jì)算模型的改變而改變。人們常說(shuō)的NP困難問(wèn)題是對(duì)圖靈計(jì)算模型而言的。自然語(yǔ)言理解、模式識(shí)別等NP困難問(wèn)題在大模型上能有效解決，說(shuō)明大語(yǔ)言模型（LLM）對(duì)這類問(wèn)題的求解效率遠(yuǎn)遠(yuǎn)超過(guò)圖靈計(jì)算模型。AI4R的成功本質(zhì)上不是大算力出奇跡，而是改變計(jì)算模型的勝利。

解決復(fù)雜度不高的問(wèn)題，人們追求采用“白盒模型”，強(qiáng)調(diào)可解釋性。但對(duì)于非常復(fù)雜的問(wèn)題，短期內(nèi)難以獲得“白盒模型”。科學(xué)研究可以被視為將“黑盒模型”轉(zhuǎn)化為“白盒模型”的過(guò)程，即從對(duì)某現(xiàn)象或過(guò)程不了解逐步推進(jìn)到充分理解其內(nèi)部機(jī)制和原理。智能化科研提醒我們，一定時(shí)期內(nèi)對(duì)深度學(xué)習(xí)這一類“黑盒模型”要有一定的容忍度，既要以“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”為原則，承認(rèn)“黑盒模型”某種程度的合理性，在其基礎(chǔ)上開(kāi)展深入研究，促進(jìn)科學(xué)技術(shù)發(fā)展；又要防止?jié)撛诘氖Э鼗虿涣己蠊钥萍紓惱肀O(jiān)管科研。

智能化科研（AI4R）的重要特征：平臺(tái)型科研

今天的科研還需要依靠科技工作者個(gè)人的聰明才智和想象力，好奇心驅(qū)動(dòng)的科研仍然是科研的重要組成部分，但科研工作越來(lái)越離不開(kāi)科研的三要素：高質(zhì)量的數(shù)據(jù)、先進(jìn)的算法模型和強(qiáng)大的計(jì)算能力。近幾年，這3個(gè)要素的規(guī)模都在迅速擴(kuò)大，大數(shù)據(jù)、大模型和大算力已開(kāi)始構(gòu)成不可或缺的科研大平臺(tái)，平臺(tái)型科研也成為第五科學(xué)范式的重要特征。

ChatGPT的問(wèn)世掀起了構(gòu)建大模型的熱潮，模型的參數(shù)規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超出人們過(guò)去的想象。大模型確實(shí)涌現(xiàn)了一些小模型不具備的功能和性能，但大模型究竟做到多大規(guī)模才到盡頭，現(xiàn)在還沒(méi)有定論。大模型必然需要大算力，訓(xùn)練大模型需要的巨大電力引起了人們的擔(dān)憂，也促使科技界探索大幅度節(jié)能的變革性器件和計(jì)算系統(tǒng)。大語(yǔ)言模型目前主要受到企業(yè)界的青睞，能不能把大語(yǔ)言模型當(dāng)成通用的知識(shí)庫(kù)，為大科學(xué)模型提供一些基礎(chǔ)的知識(shí)和常識(shí)，提高科學(xué)大模型的泛化能力，是需要探索的重大科學(xué)問(wèn)題。以大模型為代表的人工智能還處在發(fā)展的初期，現(xiàn)在的人工智能計(jì)算只相當(dāng)于科學(xué)計(jì)算的電子管計(jì)算機(jī)時(shí)代，迫切需要晶體管和集成電路式的重大發(fā)明。

現(xiàn)在流行的說(shuō)法是“大算力出奇跡”，這種說(shuō)法強(qiáng)調(diào)了模型規(guī)模和數(shù)據(jù)規(guī)模的作用，在一定程度上是正確的。但從理論的角度來(lái)看，線性擴(kuò)展計(jì)算能力對(duì)擴(kuò)大可解決的NP困難問(wèn)題的規(guī)模沒(méi)有本質(zhì)性幫助，單純提高算力不是萬(wàn)能藥。如果圍棋擴(kuò)大到20×20的棋盤(pán)，只用在19×19的基礎(chǔ)上橫縱兩邊各多加1條線，但野蠻搜索的算力需要提高1018倍。訓(xùn)練圍棋模型搜索到的游戲位置占所有可能游戲位置的比例是幾乎無(wú)窮小的數(shù)（10-150）。計(jì)算所全自動(dòng)設(shè)計(jì)CPU的算法將幾乎無(wú)窮大的搜索空間壓縮到106。這些成功案例都說(shuō)明，出奇跡的真正原因是壓縮搜索空間，這是靠智能算法和模型優(yōu)化！世界著名的計(jì)算機(jī)科學(xué)家李明教授從第一性原理出發(fā)，證明了“理解就是壓縮，大語(yǔ)言模型本質(zhì)上就是壓縮”。現(xiàn)在全國(guó)推出了幾百個(gè)大大小小的機(jī)器學(xué)習(xí)模型，但如果只是用小模型模仿大模型，不在算法的優(yōu)化、模型的微調(diào)對(duì)齊和數(shù)據(jù)的清洗整理上大功夫，只會(huì)浪費(fèi)大量算力，難以縮小與國(guó)外的差距。

目前，科技界對(duì)大模型的前途存在兩種爭(zhēng)鋒相對(duì)的預(yù)判。以O(shè)penAI公司為代表的一些科學(xué)家認(rèn)為，只要擴(kuò)大模型和數(shù)據(jù)的規(guī)模，增加算力，未來(lái)的大模型很可能會(huì)涌現(xiàn)出現(xiàn)在沒(méi)有的新功能，呈現(xiàn)更好的通用性。更多學(xué)者認(rèn)為，大模型不會(huì)一直保持這兩年的發(fā)展速度，與其他技術(shù)一樣，會(huì)從爆發(fā)式增長(zhǎng)走向飽和。因?yàn)榘茨壳坝?xùn)練大模型的算力3個(gè)月翻一番的增長(zhǎng)速度，如果延續(xù)10年，算力就要增加1萬(wàn)億倍，這是不可能發(fā)生的事。現(xiàn)在下結(jié)論哪種預(yù)判正確還為時(shí)過(guò)早。大語(yǔ)言模型可能不是實(shí)現(xiàn)通用人工智能的最佳道路，只是人工智能發(fā)展過(guò)程中的一個(gè)階段性技術(shù)，但它比前兩波人工智能采用的技術(shù)具有更大的使用價(jià)值。我國(guó)必須盡快縮小在大模型科研與產(chǎn)業(yè)化上與國(guó)外的差距，走出符合國(guó)情的大模型發(fā)展之路，同時(shí)努力探索不同于大模型的人工智能新途徑。

第五科研范式需要的科研大平臺(tái)實(shí)際上是涵蓋科研三要素的智能化科研基礎(chǔ)設(shè)施，除了共享的大科學(xué)模型和工具軟件，還包括海量的科學(xué)數(shù)據(jù)、知識(shí)庫(kù)，當(dāng)然還要提供統(tǒng)一調(diào)度的算力。基于大平臺(tái)的新科研范式將降低獲取數(shù)據(jù)、模型和知識(shí)的成本，提升算法和模型的應(yīng)用能力，加速新知識(shí)的迭代。麥卡錫和尼爾森對(duì)人工智能（AI）做出過(guò)另一種解釋：AI=Automation of Intelligence（智能的自動(dòng)化）。知識(shí)獲取、處理和存儲(chǔ)的自動(dòng)化也需要大平臺(tái)來(lái)實(shí)現(xiàn)。建設(shè)全國(guó)規(guī)模先進(jìn)的科研基礎(chǔ)設(shè)施，需要充分認(rèn)證、精心謀劃。其中，跨領(lǐng)域的大科學(xué)模型與垂直領(lǐng)域?qū)I(yè)模型的協(xié)同配合是需要考慮的重要問(wèn)題。人工智能發(fā)展的歷史已經(jīng)證明，忽視模型的泛化能力，退回到過(guò)去的專家系統(tǒng)是一條沒(méi)有希望的道路。但通用性也是一個(gè)相對(duì)概念，人類本身也不具有絕對(duì)的通用性，發(fā)展人工智能不必把理想的通用性作為唯一追求的目標(biāo)，應(yīng)重視借助大模型在一個(gè)行業(yè)或領(lǐng)域內(nèi)提高效率，降低成本。真正通用的人工智能至少還需要20年以上的時(shí)間才能實(shí)現(xiàn)，近20年內(nèi)要采取通用和專用并重的技術(shù)路線。算力網(wǎng)的建設(shè)既要考慮“塊塊”的地域需求，也要考慮“條條”的各行業(yè)業(yè)務(wù)特點(diǎn)，各個(gè)不同的行業(yè)都應(yīng)該構(gòu)成高效率的知識(shí)和資源共享的專業(yè)子網(wǎng)。

智能化科研（AI4R）的重要實(shí)現(xiàn)途徑：跨學(xué)科交叉與多種科研范式的融合

計(jì)算科學(xué)與不同學(xué)科的融合，正在驅(qū)動(dòng)一場(chǎng)科學(xué)的數(shù)字革命。孤立地追求單學(xué)科發(fā)展已經(jīng)不合理了，學(xué)科交叉融合是第五科研范式——智能化科研（AI4R）的重要實(shí)現(xiàn)途徑之一。近百年來(lái)，學(xué)科越分越細(xì)。1900年約有500門學(xué)科，2000年大約是5 000門，100年增加10倍。如果繼續(xù)按照這個(gè)趨勢(shì)發(fā)展，2100年可能增加到50 000門。我國(guó)教育部門設(shè)置的學(xué)科也是越來(lái)越多，與學(xué)科融合發(fā)展的趨勢(shì)是否背道而馳？如何在推動(dòng)智能化科研的過(guò)程中，大力改革我國(guó)的科研和教育，值得高度重視。

人工智能已經(jīng)廣泛應(yīng)用到前4種科研范式，不論是自動(dòng)化的實(shí)驗(yàn)設(shè)備、計(jì)算機(jī)輔助的理論分析、可視化的計(jì)算機(jī)模擬，還是智能化的數(shù)據(jù)挖掘，人工智能技術(shù)都發(fā)揮了關(guān)鍵的作用。第五科研范式并沒(méi)有取代原來(lái)的4種范式，只是在前4種范式無(wú)能為力的情況下才凸顯它的威力。第五科研范式也不是科研范式演進(jìn)的終結(jié)，今后可能出現(xiàn)第六科研范式、第七科研范式……。在第五科研范式中，模型驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)深度融合，“數(shù)據(jù)”和“原理”可以相互轉(zhuǎn)化，從“數(shù)據(jù)”中可以提煉出經(jīng)驗(yàn)性“原理”，也可以從第一性原理出發(fā)仿真模擬出高質(zhì)量的數(shù)據(jù)。現(xiàn)在各個(gè)領(lǐng)域中需要解決的難題大多需要人機(jī)交互，人在回路中，人機(jī)融合的具身智能將發(fā)揮越來(lái)越大的作用。

第五科研范式還有一個(gè)特點(diǎn)是科研與工程的融合。構(gòu)建科研大平臺(tái)，篩選高質(zhì)量的數(shù)據(jù)，將大模型做到極致，都需要高水平的工程師。今天世界上引領(lǐng)人工智能的不是一流的大學(xué)，也不是國(guó)立實(shí)驗(yàn)室，而是OpenAI、DeepMind這樣的創(chuàng)業(yè)公司。這些科研團(tuán)隊(duì)不僅具備前沿性、原創(chuàng)性基礎(chǔ)科研能力，還做了大量系統(tǒng)研發(fā)和工程開(kāi)發(fā)，而且具備開(kāi)發(fā)技術(shù)平臺(tái)、研發(fā)產(chǎn)品、推進(jìn)商業(yè)化的能力。我國(guó)要在人工智能領(lǐng)域進(jìn)入國(guó)際第一方陣，需要集中全國(guó)優(yōu)勢(shì)力量，構(gòu)建集產(chǎn)學(xué)研和工程開(kāi)發(fā)于一體的新型科研團(tuán)隊(duì)。

結(jié)語(yǔ)：積極主動(dòng)參與到科研智能化的革命中

科研的智能化是一場(chǎng)科技上的革命。它帶來(lái)的機(jī)遇和挑戰(zhàn)將決定未來(lái)20年，中國(guó)在科技發(fā)展上是與國(guó)際先進(jìn)水平拉大差距還是迎頭趕上。決定前途的不完全是技術(shù)上被人“卡脖子”，而是我們自己思想認(rèn)識(shí)上的障礙。有兩種認(rèn)識(shí)在影響我們的決策：認(rèn)為只要是計(jì)算機(jī)執(zhí)行的軟件都是人事先編好的算法，所謂機(jī)器智能都是無(wú)稽之談；人工智能可能產(chǎn)生人控制不了的風(fēng)險(xiǎn)，必須事先確定其產(chǎn)生的結(jié)果是完全安全可信的，才能允許推廣使用。第1種認(rèn)識(shí)主要是來(lái)自計(jì)算機(jī)科學(xué)家內(nèi)部，第2種認(rèn)識(shí)可能主要來(lái)自政府部門。其實(shí)，計(jì)算機(jī)開(kāi)始出現(xiàn)認(rèn)知智能是一件劃時(shí)代的重大突破，我們不能視而不見(jiàn)。機(jī)器產(chǎn)生的認(rèn)知是基于隨機(jī)性和概率分布，令人震驚的正確預(yù)測(cè)和所謂“幻覺(jué)”是一個(gè)硬幣的兩面，相輔相成。如果強(qiáng)行決定人工智能模型不允許出現(xiàn)幻覺(jué)，那它的涌現(xiàn)能力也就沒(méi)有了。我們必須在與幻覺(jué)共存的環(huán)境下發(fā)展人工智能技術(shù)，發(fā)展與安全必須雙輪驅(qū)動(dòng)。

所謂“AI for Science”本質(zhì)上是“AI for Scientists”。人工智能科學(xué)家和工程師不是智能化科研的主角，各行業(yè)的科學(xué)家才是主角，因?yàn)楦鱾€(gè)領(lǐng)域的智能化建模一定是以本領(lǐng)域的科學(xué)家為主來(lái)完成。各領(lǐng)域的科學(xué)家要擔(dān)當(dāng)起這份重任，自身需要智能化轉(zhuǎn)型。如果科學(xué)家不懂計(jì)算機(jī)、不懂人工智能，要推動(dòng)AI4R就非常困難。目前，推動(dòng)AI4R主要的阻力來(lái)自科學(xué)家本身，因?yàn)檫€有不少科學(xué)家認(rèn)為智能化不屬于本科學(xué)的范疇，認(rèn)為學(xué)科的交叉融合不是正統(tǒng)科學(xué)。只有廣大科學(xué)家積極主動(dòng)地參與，智能化科研才能走上健康快速發(fā)展的軌道。

（作者：李國(guó)杰中國(guó)科學(xué)院計(jì)算技術(shù)研究所。《中國(guó)科學(xué)院院刊》供稿）

【責(zé)任編輯：殷曉霞】

天天a∨天天翘综合网,国产精品视频一区二区首页,国内精品自在自线,国偷自产av一区二区三区

LANGUAGES

新聞

財(cái)經(jīng)

觀點(diǎn)

文化

國(guó)情

承建網(wǎng)站

專業(yè)平臺(tái)

外宣平臺(tái)

智能化科研（AI4R）：第五科研范式