- +1
用數(shù)據(jù)動力學“驅(qū)動”科學
【編者按】在上海市科學技術(shù)委員會資助(項目編號:22DZ2304300)下,澎湃新聞聯(lián)合《世界科學》對獲得國家及上海市科技獎勵的獲獎成果進行科普化報道。
本篇報道圍繞2020年度上海市自然科學獎一等獎項目“動力學驅(qū)動的數(shù)據(jù)科學理論和方法研究”展開。該獎項由中國科學院分子細胞科學卓越創(chuàng)新中心陳洛南研究員領(lǐng)銜的研究團隊獲得。

中國科學院分子細胞科學卓越創(chuàng)新中心研究員陳洛南
“人不可能兩次踏入同一條河流。”變動不居的世界被哲人的這句話夸張地描述著。
如何來描述一個物體的狀態(tài)或動力學?
英國物理學家牛頓1687年在其出版的《自然哲學的數(shù)學原理》中給出了三條完整的定律。于是,當一個物體具有了質(zhì)量(或重量),那么它的速度、加速度以及它承受的作用力,都得以明確。
研究物體運動變化及其驅(qū)動力的學科被稱為動力學。而動力學模型作為一種理論框架,被用于一個系統(tǒng)中物體或粒子的狀態(tài)、行為。
那么,數(shù)據(jù),一個個數(shù)字組成的數(shù)據(jù),沒有通俗意義上的重量或"質(zhì)量"的數(shù)據(jù)集,或一個極其抽象、復(fù)雜的系統(tǒng),它們具有“動力學”特征或規(guī)律嗎?更重要的是,這有什么用?
“我們發(fā)展了這個領(lǐng)域。我們把動力學思想和方法引入到了主要基于統(tǒng)計學的數(shù)據(jù)科學中。”中國科學院分子細胞科學卓越創(chuàng)新中心研究員陳洛南說。
此前,他領(lǐng)銜的研究團隊,包括復(fù)旦大學教授林偉、華南理工大學教授劉銳、中國科學院數(shù)學與系統(tǒng)科學研究院研究員王勇等人共同完成的“動力學驅(qū)動的數(shù)據(jù)科學理論和方法研究”榮獲2020年度上海市自然科學獎一等獎。
他們將自己原創(chuàng)的研究體系,命名為“動力學刻畫的數(shù)據(jù)科學”,它主要包含預(yù)測、預(yù)警、因果、AI(人工智能)等幾個方面,并應(yīng)用在計算系統(tǒng)生物學、生物過程臨界分析、腫瘤細胞轉(zhuǎn)移等疾病的早期預(yù)警和地質(zhì)災(zāi)害預(yù)警等多學科的基礎(chǔ)研究中。
商業(yè)雜志《哈佛商業(yè)評論》(Harvard Business Review)曾刊登文章稱,數(shù)據(jù)科學家是21世紀最“性感”的工作。
而早在1974年,計算機科學家、圖靈獎獲得者彼得·諾爾(Peter Naur)就提出,數(shù)據(jù)科學是將數(shù)學和統(tǒng)計學、專業(yè)編程、高級分析、人工智能和機器學習與特定主題專業(yè)知識相結(jié)合,獲取隱藏在組織數(shù)據(jù)中的信息。
“(但)現(xiàn)在的數(shù)據(jù)科學大都還是基于靜態(tài)的統(tǒng)計學規(guī)律,缺少動態(tài)的刻畫機制。”陳洛南表示。
他認為,動力學能夠反映系統(tǒng)的動態(tài)機制、因果關(guān)聯(lián)等更本質(zhì)的東西。
而這恰恰是隨著大數(shù)據(jù)和AI的發(fā)展,目前數(shù)據(jù)科學在解決諸多現(xiàn)實問題時凸顯的局限性。

中國科學院分子細胞科學卓越創(chuàng)新中心研究員陳洛南將自己團隊原創(chuàng)的研究體系,命名為“動力學刻畫的數(shù)據(jù)科學”。
“未病”預(yù)警:在疾病惡化前來個“急剎車”
體檢時,人們往往是檢查當前的身體狀況,來判斷自己是否患病。
但陳洛南認為,現(xiàn)階段的體檢,主要是反映人們是否已患病,無法預(yù)知未來,比如,人什么時候?qū)⒁疾。踔翗O端地來說,“還剩多長時間”。
陳洛南團隊發(fā)表的系列論文中指出,復(fù)雜疾病過程有一個臨界狀態(tài),也就是說許多疾病的惡化是突然從前期階段轉(zhuǎn)變到疾病階段,存在一個“突變點”。
在研究中,患者的狀態(tài)大致可劃分為三種——“正常狀態(tài)”“前疾病狀態(tài)”(pre-disease state)和“疾病狀態(tài)”。其中,對于很多慢性疾病來說,第三個階段或狀態(tài)的治療難度非常大,很難再使病情回到相對正常狀態(tài),所以幾乎處于非可逆階段。而前疾病狀態(tài)對應(yīng)了有效治療的關(guān)鍵時間節(jié)點。
“我們將復(fù)雜生物系統(tǒng)看作一個隨時間演化的動力系統(tǒng),其臨界處就相當于數(shù)學上動力系統(tǒng)的分岔點。”陳洛南表示,但根據(jù)現(xiàn)在醫(yī)學常用的靜態(tài)對照式研究,會發(fā)現(xiàn)前疾病狀態(tài)與正常狀態(tài)沒有明顯區(qū)別。“這兩個階段的靜態(tài)指標一般都沒有顯著變化,因此難以量化或難以區(qū)分前疾病狀態(tài),走不到‘科學’。”
理論上,如果能構(gòu)建數(shù)學模型,就可以依據(jù)分岔理論(bifurcation theory),反映疾病這一復(fù)雜系統(tǒng)的動態(tài)臨界過程。“但實際的復(fù)雜系統(tǒng)大多沒有精確的數(shù)學模型,”他說,“沒有模型,只通過觀測數(shù)據(jù),找到臨界點,這就是我們創(chuàng)新的地方。”
陳洛南帶領(lǐng)的研究團隊借助高通量技術(shù),基于臨界慢化(critical slowing-down)、臨界協(xié)同波動(critical collective fluctuation)和分岔理論,提出了一種新穎的基于網(wǎng)絡(luò)的無模型方法,即使僅有少量的樣本,也能根據(jù)其“動力學”臨界特征和規(guī)律,檢測到復(fù)雜疾病的預(yù)警信號。
陳洛南介紹,通過觀測高通量技術(shù)測量的分子等變量,來計算不同變量間的相關(guān)性,如果發(fā)現(xiàn)其中的一組變量的相關(guān)性突然增強,波動增大并與其他變量間的相關(guān)性減弱;當同時滿足上述三個條件時,這組分子變量的動態(tài)變化就可能成為反映該復(fù)雜系統(tǒng)向疾病狀態(tài)變化前的指標,稱該組分子為整個系統(tǒng)的主導(dǎo)模塊或“動態(tài)網(wǎng)絡(luò)生物標志物”(DNB, Dynamical Network Biomarker)。
“DNB是狀態(tài)評估,告訴我們離臨界還有多遠。”他說,如果發(fā)現(xiàn)快到臨界了,就能及時干預(yù),抑制系統(tǒng)向疾病狀態(tài)轉(zhuǎn)變。
目前,該研究方法已成功運用到腫瘤細胞轉(zhuǎn)移前兆診斷、自免疫疾病再發(fā)預(yù)警、糖尿病臨界檢測及藥物拮抗動態(tài)過程等研究,還被國內(nèi)外研究者應(yīng)用到生態(tài)系統(tǒng)和金融系統(tǒng)等的風險分析和臨界預(yù)測。
陳洛南團隊發(fā)表的《復(fù)雜生物過程中關(guān)鍵節(jié)點及關(guān)鍵因子檢測——基于動態(tài)網(wǎng)絡(luò)標志物的復(fù)雜疾病早期預(yù)測》一文指出,通常,一個生物系統(tǒng)或一種復(fù)雜疾病往往被建模成一個非線性動力系統(tǒng)或動態(tài)網(wǎng)絡(luò)。這樣,復(fù)雜疾病的發(fā)展過程可看作是這個復(fù)雜動力系統(tǒng)沿著時間軸演化的過程。
“一葉知秋”
時間序列是按一定時間間隔排列的隨機變量的集合。陳洛南團隊于2020年發(fā)表的論文表明,基于觀測的數(shù)據(jù),尤其是短期時間序列(Short-Term Time-Series)數(shù)據(jù),做出準確預(yù)測,對神經(jīng)科學、大氣科學、工程等學科和領(lǐng)域的發(fā)展十分重要。但已有的預(yù)測方法,如統(tǒng)計回歸方法和機器學習方法等,需要足夠長的時序測量,無法對短期時間序列進行預(yù)測。
前述論文表示,短期時間序列里的高維可觀測數(shù)據(jù)蘊含著豐富的時間信息,可以用來呈現(xiàn)、預(yù)測復(fù)雜系統(tǒng)的動態(tài)變化。換句話說,可以“一葉知秋”。
但是由于數(shù)據(jù)量少、缺乏統(tǒng)計規(guī)律,“要將高維數(shù)據(jù)里折疊的時間信息‘展開出來’,這需要新的理論和方法。”陳洛南說。

陳洛南團隊基于延遲嵌入理論和廣義嵌入理論,建立了STI(Spatial-Temporal Information Transformation,空間時間信息轉(zhuǎn)換)方程,可將高維變量的關(guān)聯(lián)信息轉(zhuǎn)化為目標變量的時間演變,并在此基礎(chǔ)上提出了RED(Randomly distributed embedding,隨機分布嵌入)、ARNN(Auto-Reservoir Neural Network,自動儲蓄池神經(jīng)網(wǎng)絡(luò))和ALM(Anticipated Learning Machine,預(yù)期學習機器)等方法,能針對目標變量進行多步預(yù)測,從而對復(fù)雜的非線性動力系統(tǒng)作出更精準的短期預(yù)測。
不同于傳統(tǒng)的基于統(tǒng)計學的機器學習,STI方程預(yù)測方法從非線性動力系統(tǒng)理論出發(fā),為基于動力學的機器學習或深度學習開辟了新路徑。
目前,該方法在對基因表達數(shù)據(jù)集、股票數(shù)據(jù)集、交通數(shù)據(jù)集、臺風衛(wèi)星云圖數(shù)據(jù)集等的預(yù)測中,相較于其他方法,都取得了更精準的短期預(yù)測結(jié)果。
陳洛南表示,目前正結(jié)合DNB預(yù)警和STI預(yù)測方法推進對地質(zhì)災(zāi)害的預(yù)警,未來還將推廣到更多應(yīng)用場景。
2023年9月5日,國際學術(shù)期刊《美國科學院院報》(PNAS)在線發(fā)表了中國科學院生物化學與細胞生物學研究所陳洛南研究組與華南理工大學數(shù)學學院劉銳研究組合作的題為《通過時空信息轉(zhuǎn)換學習,基于空間大地測量數(shù)據(jù)的地震預(yù)警》(Earthquake alerting based on spatial geodetic data by spatiotemporal information transformation learning) 的實時地震前兆預(yù)警最新研究成果。該研究實現(xiàn)了83%真陽性和0.98%假陽性的預(yù)警精度。所探測的預(yù)警信號精度顯著優(yōu)于現(xiàn)有的10種方法,實現(xiàn)提前預(yù)警平均6-7天。因此,該方法在地震災(zāi)害監(jiān)測領(lǐng)域具有重要應(yīng)用和參考價值。該研究結(jié)果也顯示強震與弱震可能有不同的動力學因素或產(chǎn)生機制。
不一樣的研究:開創(chuàng)新學科
“我們現(xiàn)在做的工作,與現(xiàn)行研究方式不一樣。”陳洛南說,“我們的工作發(fā)展了這個領(lǐng)域。”
現(xiàn)有的疾病預(yù)警的論文,主要是通過Case-Control(病例對照研究),來看統(tǒng)計量的差異,依然是靜態(tài)的對照研究。如果能將靜態(tài)的對照式研究,推進到動態(tài)的過程式研究,“信息更互補,從而看到原來看不到的東西”。
目前,陳洛南團隊也在進行預(yù)測與預(yù)警方面的研究。他表示,盡管已提出了基礎(chǔ)的方法,仍存在很多未解決的難題。
他認為,噪聲干擾和系統(tǒng)本身的強隨機性都是很大的挑戰(zhàn)。另外,目前提出的預(yù)測與預(yù)警方法實際應(yīng)用場景仍十分有限,如何獲得更好的泛用性,也是亟待解決的問題。“此外,如何能從高維數(shù)據(jù)中準確地找到DNB也是個問題。”陳洛南說。
他說,“我們提出了這種概念和方法,最終需要大家一起來完善。”

“人不能兩次踏進同一條河流。”
陳洛南還透露,團隊有一項未病項目研究,并推動了國家科技 “未病”專項的立項。
他介紹說,“未病”思想是中醫(yī)的重要理念,是疾病發(fā)生發(fā)展中的關(guān)鍵狀態(tài),在該狀態(tài)的合理干預(yù)可以實現(xiàn)病程的逆轉(zhuǎn)。但“未病”發(fā)展過程有明顯的動態(tài)性和復(fù)雜性,中醫(yī)意義上的“未病”很多沒有被量化,缺乏科學意義上的概念或標準,嚴重制約了“未病”的客觀辨識和疾病的早診早治。陳洛南帶領(lǐng)的研究團隊希望建立“未病”的量化表征,特別是通過DNB框架中的臨界理論,量化未病狀態(tài),從而使未病的概念“科學化”,也為早期預(yù)警與早期干預(yù)提供理論依據(jù)和量化方法。
陳洛南表示,未病概念需要科學化。科學化就是國際化。這也利于中醫(yī)的現(xiàn)代化、國際化。
另外,他帶領(lǐng)的研究團隊在構(gòu)建辨識因果網(wǎng)絡(luò)的新型算法、發(fā)展脈沖神經(jīng)網(wǎng)絡(luò)高效訓練工具等方面也取得了重要突破。“我們這個學科非常交叉,歡迎各個學科的人才一起來發(fā)展它。”陳洛南說。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司