百家乐官网 (中国)有限公司官网

澎湃Logo
下載客戶端

登錄

  • +1

用數據動力學“驅動”科學

李雨霏 陳天凝
2024-10-31 12:22
來源:澎湃新聞
? 科學湃 >
字號

【編者按】在上海市科學技術委員會資助(項目編號:22DZ2304300)下,澎湃新聞聯合《世界科學》對獲得國家及上海市科技獎勵的獲獎成果進行科普化報道。

本篇報道圍繞2020年度上海市自然科學獎一等獎項目“動力學驅動的數據科學理論和方法研究”展開。該獎項由中國科學院分子細胞科學卓越創新中心陳洛南研究員領銜的研究團隊獲得。

中國科學院分子細胞科學卓越創新中心研究員陳洛南

“人不可能兩次踏入同一條河流?!弊儎硬痪拥氖澜绫徽苋说倪@句話夸張地描述著。

如何來描述一個物體的狀態或動力學?

英國物理學家牛頓1687年在其出版的《自然哲學的數學原理》中給出了三條完整的定律。于是,當一個物體具有了質量(或重量),那么它的速度、加速度以及它承受的作用力,都得以明確。

研究物體運動變化及其驅動力的學科被稱為動力學。而動力學模型作為一種理論框架,被用于一個系統中物體或粒子的狀態、行為。

那么,數據,一個個數字組成的數據,沒有通俗意義上的重量或"質量"的數據集,或一個極其抽象、復雜的系統,它們具有“動力學”特征或規律嗎?更重要的是,這有什么用?

“我們發展了這個領域。我們把動力學思想和方法引入到了主要基于統計學的數據科學中。”中國科學院分子細胞科學卓越創新中心研究員陳洛南說。

此前,他領銜的研究團隊,包括復旦大學教授林偉、華南理工大學教授劉銳、中國科學院數學與系統科學研究院研究員王勇等人共同完成的“動力學驅動的數據科學理論和方法研究”榮獲2020年度上海市自然科學獎一等獎。

他們將自己原創的研究體系,命名為“動力學刻畫的數據科學”,它主要包含預測、預警、因果、AI(人工智能)等幾個方面,并應用在計算系統生物學、生物過程臨界分析、腫瘤細胞轉移等疾病的早期預警地質災害預警等多學科的基礎研究中。

商業雜志《哈佛商業評論》(Harvard Business Review)曾刊登文章稱,數據科學家是21世紀最“性感”的工作。

而早在1974年,計算機科學家、圖靈獎獲得者彼得·諾爾(Peter Naur)就提出,數據科學是將數學和統計學、專業編程、高級分析、人工智能和機器學習與特定主題專業知識相結合,獲取隱藏在組織數據中的信息。

“(但)現在的數據科學大都還是基于靜態的統計學規律,缺少動態的刻畫機制。”陳洛南表示。

他認為,動力學能夠反映系統的動態機制、因果關聯等更本質的東西。

而這恰恰是隨著大數據和AI的發展,目前數據科學在解決諸多現實問題時凸顯的局限性。

中國科學院分子細胞科學卓越創新中心研究員陳洛南將自己團隊原創的研究體系,命名為“動力學刻畫的數據科學”。

“未病”預警:在疾病惡化前來個“急剎車”

體檢時,人們往往是檢查當前的身體狀況,來判斷自己是否患病。

但陳洛南認為,現階段的體檢,主要是反映人們是否已患病,無法預知未來,比如,人什么時候將要患病,甚至極端地來說,“還剩多長時間”。

陳洛南團隊發表的系列論文中指出,復雜疾病過程有一個臨界狀態,也就是說許多疾病的惡化是突然從前期階段轉變到疾病階段,存在一個“突變點”。

在研究中,患者的狀態大致可劃分為三種——“正常狀態”“前疾病狀態”(pre-disease state)和“疾病狀態”。其中,對于很多慢性疾病來說,第三個階段或狀態的治療難度非常大,很難再使病情回到相對正常狀態,所以幾乎處于非可逆階段。而前疾病狀態對應了有效治療的關鍵時間節點。

“我們將復雜生物系統看作一個隨時間演化的動力系統,其臨界處就相當于數學上動力系統的分岔點。”陳洛南表示,但根據現在醫學常用的靜態對照式研究,會發現前疾病狀態與正常狀態沒有明顯區別。“這兩個階段的靜態指標一般都沒有顯著變化,因此難以量化或難以區分前疾病狀態,走不到‘科學’。”

理論上,如果能構建數學模型,就可以依據分岔理論(bifurcation theory),反映疾病這一復雜系統的動態臨界過程。“但實際的復雜系統大多沒有精確的數學模型,”他說,“沒有模型,只通過觀測數據,找到臨界點,這就是我們創新的地方?!?/p>

陳洛南帶領的研究團隊借助高通量技術,基于臨界慢化(critical slowing-down)、臨界協同波動(critical collective fluctuation)和分岔理論,提出了一種新穎的基于網絡的無模型方法,即使僅有少量的樣本,也能根據其“動力學”臨界特征和規律,檢測到復雜疾病的預警信號。

陳洛南介紹,通過觀測高通量技術測量的分子等變量,來計算不同變量間的相關性,如果發現其中的一組變量的相關性突然增強,波動增大并與其他變量間的相關性減弱;當同時滿足上述三個條件時,這組分子變量的動態變化就可能成為反映該復雜系統向疾病狀態變化前的指標,稱該組分子為整個系統的主導模塊或“動態網絡生物標志物”(DNB, Dynamical Network Biomarker)。

“DNB是狀態評估,告訴我們離臨界還有多遠?!彼f,如果發現快到臨界了,就能及時干預,抑制系統向疾病狀態轉變。

目前,該研究方法已成功運用到腫瘤細胞轉移前兆診斷、自免疫疾病再發預警、糖尿病臨界檢測及藥物拮抗動態過程等研究,還被國內外研究者應用到生態系統和金融系統等的風險分析和臨界預測。

陳洛南團隊發表的《復雜生物過程中關鍵節點及關鍵因子檢測——基于動態網絡標志物的復雜疾病早期預測》一文指出,通常,一個生物系統或一種復雜疾病往往被建模成一個非線性動力系統或動態網絡。這樣,復雜疾病的發展過程可看作是這個復雜動力系統沿著時間軸演化的過程。

“一葉知秋”

時間序列是按一定時間間隔排列的隨機變量的集合。陳洛南團隊于2020年發表的論文表明,基于觀測的數據,尤其是短期時間序列(Short-Term Time-Series)數據,做出準確預測,對神經科學、大氣科學、工程等學科和領域的發展十分重要。但已有的預測方法,如統計回歸方法和機器學習方法等,需要足夠長的時序測量,無法對短期時間序列進行預測。

前述論文表示,短期時間序列里的高維可觀測數據蘊含著豐富的時間信息,可以用來呈現、預測復雜系統的動態變化。換句話說,可以“一葉知秋”。

但是由于數據量少、缺乏統計規律,“要將高維數據里折疊的時間信息‘展開出來’,這需要新的理論和方法?!标惵迥险f。

陳洛南團隊基于延遲嵌入理論和廣義嵌入理論,建立了STI(Spatial-Temporal Information Transformation,空間時間信息轉換)方程,可將高維變量的關聯信息轉化為目標變量的時間演變,并在此基礎上提出了RED(Randomly distributed embedding,隨機分布嵌入)、ARNN(Auto-Reservoir Neural Network,自動儲蓄池神經網絡)和ALM(Anticipated Learning Machine,預期學習機器)等方法,能針對目標變量進行多步預測,從而對復雜的非線性動力系統作出更精準的短期預測。

不同于傳統的基于統計學的機器學習,STI方程預測方法從非線性動力系統理論出發,為基于動力學的機器學習或深度學習開辟了新路徑。

目前,該方法在對基因表達數據集、股票數據集、交通數據集、臺風衛星云圖數據集等的預測中,相較于其他方法,都取得了更精準的短期預測結果。

陳洛南表示,目前正結合DNB預警和STI預測方法推進對地質災害的預警,未來還將推廣到更多應用場景。

2023年9月5日,國際學術期刊《美國科學院院報》(PNAS)在線發表了中國科學院生物化學與細胞生物學研究所陳洛南研究組與華南理工大學數學學院劉銳研究組合作的題為《通過時空信息轉換學習,基于空間大地測量數據的地震預警》(Earthquake alerting based on spatial geodetic data by spatiotemporal information transformation learning) 的實時地震前兆預警最新研究成果。該研究實現了83%真陽性和0.98%假陽性的預警精度。所探測的預警信號精度顯著優于現有的10種方法,實現提前預警平均6-7天。因此,該方法在地震災害監測領域具有重要應用和參考價值。該研究結果也顯示強震與弱震可能有不同的動力學因素或產生機制。

不一樣的研究:開創新學科

“我們現在做的工作,與現行研究方式不一樣。”陳洛南說,“我們的工作發展了這個領域?!?/p>

現有的疾病預警的論文,主要是通過Case-Control(病例對照研究),來看統計量的差異,依然是靜態的對照研究。如果能將靜態的對照式研究,推進到動態的過程式研究,“信息更互補,從而看到原來看不到的東西”。

目前,陳洛南團隊也在進行預測與預警方面的研究。他表示,盡管已提出了基礎的方法,仍存在很多未解決的難題。

他認為,噪聲干擾和系統本身的強隨機性都是很大的挑戰。另外,目前提出的預測與預警方法實際應用場景仍十分有限,如何獲得更好的泛用性,也是亟待解決的問題?!按送?,如何能從高維數據中準確地找到DNB也是個問題。”陳洛南說。

他說,“我們提出了這種概念和方法,最終需要大家一起來完善?!?/p>

“人不能兩次踏進同一條河流?!?/p>

陳洛南還透露,團隊有一項未病項目研究,并推動了國家科技 “未病”專項的立項。

他介紹說,“未病”思想是中醫的重要理念,是疾病發生發展中的關鍵狀態,在該狀態的合理干預可以實現病程的逆轉。但“未病”發展過程有明顯的動態性和復雜性,中醫意義上的“未病”很多沒有被量化,缺乏科學意義上的概念或標準,嚴重制約了“未病”的客觀辨識和疾病的早診早治。陳洛南帶領的研究團隊希望建立“未病”的量化表征,特別是通過DNB框架中的臨界理論,量化未病狀態,從而使未病的概念“科學化”,也為早期預警與早期干預提供理論依據和量化方法。

陳洛南表示,未病概念需要科學化??茖W化就是國際化。這也利于中醫的現代化、國際化。

另外,他帶領的研究團隊在構建辨識因果網絡的新型算法、發展脈沖神經網絡高效訓練工具等方面也取得了重要突破?!拔覀冞@個學科非常交叉,歡迎各個學科的人才一起來發展它。”陳洛南說。

    責任編輯:吳躍偉
    圖片編輯:陳飛燕
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            试玩百家乐官网帐| 至尊百家乐2012| 免费百家乐计划| 赌博百家乐官网秘籍| KTV百家乐的玩法技巧和规则| 百家乐官网真人游戏娱乐场| 德州扑克大师| 百家乐官网书籍| 威尼斯人娱乐城赌场| 鑫鑫百家乐官网的玩法技巧和规则| 泽州县| 曼哈顿娱乐城信誉| 百家乐娱乐分析软件v| 嘉年华百家乐官网的玩法技巧和规则| 百家乐官网玩法开户彩公司| 三国百家乐娱乐城| 网上赌百家乐可信吗| 宝龙百家乐官网的玩法技巧和规则| 百家乐官网投注最好方法| 威尼斯人娱乐城投注网| 美高梅百家乐娱乐城| 百家乐官网的打法技巧| 百家乐如何看| 百家乐在线投注顺势法| 新花园百家乐官网的玩法技巧和规则| 百家乐官网娱乐软件| 百家乐官网投注方法网| 真人娱乐场| 伯爵百家乐娱乐| 什么是百家乐官网的大路| 立博开户| 金冠娱乐城注册| 大发888舍出同线牌| 优博百家乐yobo88| 百家乐官网画面方法| 无锡百家乐官网的玩法技巧和规则| 迪威百家乐官网现场| 8大胜| 治县。| 新葡京娱乐城开户| 决胜德州扑克刷金币|