下載客戶端

登錄

華中科大AI模型預測新冠生存率準確率90%，有助早期介入

澎湃新聞記者張若婷

2020-03-19 16:33

來源：澎湃新聞

當地時間3月17日，醫藥學預印本平臺medRxiv發布了一項題為“A machine learning-based model for survival prediction in patients with severe COVID-19 infection”（未經同行審議）的研究成果。這項由29名科學家共同進行的研究利用了最新的可解釋機器學習算法，對預測COVID-19（新冠肺炎）患者存活率的生物標志物進行了揭示，并有望加強對新冠高危患者的早期干預，降低死亡率。

研究團隊來自華中科技大學同濟醫學院附屬同濟醫院、華中科技大學人工智能與自動化學院、劍橋大學植物科學學院等。文章的通訊作者為華中科技大學人工智能與自動化學院教授袁燁、同濟醫院麻醉科徐卉以及急診（重癥）醫學科科主任李樹生。

研究人員對武漢同濟醫院收治的404例COVID-19感染患者進行血液樣本數據收集并進行回顧性分析。通過機器學習工具，研究團隊最終選擇了3種生物標志物來預測個體患者的生存率，準確性超過90％：LDH（乳酸脫氫酶）、淋巴細胞和hs-CRP（超敏C-反應蛋白）。

特別是，僅LDH水平較高這一項指標就能夠用于區分絕大多數需要立即就醫的病例。研究者們表示，這一發現與當前醫學知識一致，即高LDH水平與各種疾病（包括肺部疾病，如肺炎）中發生的組織分解有關。

在當前階段，對疾病的嚴重程度進行快速、準確和早期的臨床評估至關重要。然而目前，尚無確定的生物標志物作為標準，來區分需要立即就醫的患者。

此研究中，作者們運用最先進的機器學習框架，表明上述三種生物標記物可以準確預測疾病的嚴重程度，因此將大大減輕臨床參數監測的壓力和其他相關的醫療負擔。

研究人員開發了基于XGBoost機器學習的預后模型，該模型使用患者最新一個血樣樣本能夠以90％以上的準確度預測COVID-19重癥患者是否存活；使用其他血液樣本則能達到90％的預測準確度。

該研究提出了一個簡單且可操作的公式，能夠對新冠高危患者進行快速檢測、早期干預并有可能降低他們的死亡率。

研究樣本與模型訓練

研究人員進行了分類任務，將一般（general）、嚴重（severe）、危重（critical）患者的基本信息、癥狀、血液樣本、實驗室檢查結果（包括肝功能、腎臟功能、凝血功能、電解質、發炎因子）輸入，并將它們與檢測時期結束時的臨床后果（存活或死亡）相對應。

研究樣本是同濟醫院2020年1月10日至2月20日期間收集的404位患者的醫療信息。這404位患者中，有213位康復，其余191位死亡，作者們表示，高死亡率與同濟醫院作為定點醫院，收治了最嚴重的病例有關。研究人員使用標準病例報告表收集病歷，其中包括流行病學、人口統計學、臨床、藥物、護理和死亡率等信息。

研究人員用375例患者信息進行算法開發（algorithm development），用29例作驗證集（validation）

研究人員將患者的數據分為訓練集（training）、測試集（test）和其他驗證集（additional validation）。培訓和測試集共計包含375名患者，而驗證集包括29名患者。訓練和測試集的樣本數按照7：3的比例設置，再進行5次交叉驗證。

驗證集中的患者均為嚴重患者，因為就臨床結果而言，他們是最不可預測的。從臨床癥狀來看，發燒是最常見的初始癥狀（49.9％），其次是咳嗽（13.9％），疲勞（3.7％）和呼吸困難（2.1％）。375名患者的年齡分布為58.83±16.46歲，男性占58.7％。患者中有37.9％是武漢居民，家族聚集性病例占6.4％，醫療工作者占1.9％。

樣本患者的年齡、性別、流行病史等特點

盡管大多數患者在整個住院期間都采集了多個血液樣本，但模型訓練和測試僅使用了患者最近一次的血樣記錄作為輸入，以得到評估疾病嚴重程度的關鍵生物標志物，區分需要立即醫療救助的患者以及準確匹配每個標簽的相應功能。

患者3種生物標志物的中位數值，以及25和75的百分位值

與死亡風險最相關的臨床特征

研究人員使用了一種名為XGBoost的分類器作為預測器模型，XGBoost是一種高性能的機器學習算法，由于其基于樹型（tree-based）方法的遞歸決策系統，其具有巨大的可解釋性。模型的輸出對應著患者的生存情況，研究人員將幸存的患者歸為0類，死亡的患者歸為1類。

研究人員沒有采用黑匣子建模（black-box modelling）策略的原因在于，其內部模型機制通常很難解釋。在XGBoost中，每個單個功能的重要性取決于其在樹中每個決策步驟中的累積使用量。這樣就可以在其中得到一個度量標準，來表征每個特征的相對重要性，這對于評估模型結果中最具區別性的特征特別有價值，尤其是當研究與臨床上的醫療參數有關時。

為了評估發生死亡風險的標記，研究人員通過特征選擇過程評估了每個患者參數對算法決策的貢獻。XGBoost根據功能的重要性對功能進行了排名，該算法選擇了三個排名最靠前的臨床特征：LDH、淋巴細胞和hs-CRP，因此，它們被設置為關鍵特征。

根據其在多樹XGBoost算法中的重要性，研究人員對十大關鍵臨床特征進行了排名，LDH，淋巴細胞和hs-CRP排名前三

結果表明，該模型能夠準確預測患者的結局，而無需考慮入院時的最初診斷。

此外，附加驗證集的性能類似于訓練和測試集的性能，這表明該模型捕獲了有關患者生存的關鍵生物標志物。同時，算法結果進一步強調了LDH作為患者生存率的關鍵生物標志物的重要性。

三大關鍵特征的訓練/測試拆分和附加驗證集的模型性能，F1分數（F1-score）是算法精確率和召回率的調和平均數，最大為1，最小為0

根據關于LDH，淋巴細胞和hs-CRP重要性的發現，研究人員進一步構建了簡化的且可在臨床上應用的決策模型，即單個決策樹（single decision tree）。由于共有24例患者的三種主要生物標志物中至少有一種測量值不完整，研究人員利用剩下351例患者鑒定了單樹XGBoost模型。

簡單來說，就是研究人員選擇了模型中性能最佳的樹，使用三個關鍵特征及其閾值，可以預測病人死亡或是存活。

根據測試數據集選擇的性能最佳的樹及其準確性

這一模型顯示了100％的死亡預測精度和90％的生存預測精度。總體而言，無論是多樹XGBoost還是單樹XGBoost模型，模型對于生存和死亡預測的準確性、宏觀和加權平均數的得分始終超過0.90。

最后，大多數患者在住院期間都接受了多次血液采樣。研究人員又通過上千份額外的血液測試結果對模型進行了驗證，發現預測準確度達到了90%。此外相關結果進一步表明該模型可以應用于任何血液樣本，無論患者有怎樣的臨床結果。

提早識別高危患者，快速確定優先級

研究者們表示，這項研究的意義是雙重的。首先，一般的相關研究只會“提供高風險因素的范圍”，而這一模型則提供了一種簡單直觀的臨床測試，進而可以準確快速地量化死亡風險。

如果醫生能夠提早知道，對于某些患者來說某些療法會導致治療效果不理想，那么醫生就能搶在病癥變得更嚴重之前采用不同的方法。應用這一模型的目標是在不可逆性病變發生之前識別高危患者。

其次，任何一家醫院都可以輕松收集病人的LDH（乳酸脫氫酶）、淋巴細胞和hs-CRP（超敏C-反應蛋白）這三個關鍵指標信息。在擁擠的醫院中醫療資源短缺的情況下，這種簡單的模型可以幫助快速確定患者的優先級。

患者LDH水平的增加能夠反映組織或細胞的破壞，被認為是組織或細胞損傷的常見征兆。血清LDH已被確定為特發性肺纖維化（IPF）嚴重程度的重要生物標志物。

在患有嚴重肺間質疾病的患者中，LDH的增加是顯著的，并且這是患者肺損傷最重要的預后指標之一。因此對于重癥COVID-19患者而言，LDH水平的升高表明肺損傷的嚴重程度增加。

研究團隊指出，較高的血清hs-CRP值也可用于預測嚴重COVID-19患者的死亡風險。hs-CRP的增加是ARDS（急性呼吸窘迫綜合征）患者預后不良的重要標志，反映了炎癥的持續狀態。

值得注意的是，這種持續性炎癥反應的結果可以從COVID-19死者的尸檢中看到，即肺部出現大量灰白色病變，在組織切片中，還可見肺泡溢出大量黏性分泌物。

最后，研究結果還表明淋巴細胞可能充當潛在的治療靶標，這一假說得到了臨床研究結果的支持。此外，此前包括北京中日友好醫院呼吸科主任曹彬團隊在內的研究者們已經證明，淋巴細胞減少癥是COVID-19患者的常見特征，可能是與疾病嚴重程度和死亡率相關的關鍵因素。

與SARS和MERS患者的肺泡穿透和抗原呈遞細胞（APC）受損途徑一樣，新冠肺炎患者損傷的肺泡上皮細胞可以誘導淋巴細胞浸潤，導致持續性淋巴細胞減少。

此前的一項患者活檢研究表明，外周血CD4和CD8 T細胞的數量大大減少，而它們的狀態被過度激活。此外，也有研究表示淋巴細胞減少癥主要與CD4和CD8 T細胞的減少有關。因此，淋巴細胞可能在COVID-19中發揮著明顯的作用，這值得進一步研究。

作者們表示，這項研究同樣存在一定的局限性。首先，由于這一機器學習方法是純粹由數據驅動的，因此，如果從不同的數據集開始研究，則模型可能會有所不同。

此外，盡管作者們掌握了80多項臨床測量結果，但為了避免過擬合（overfitting），團隊采用的建模原理是在最少臨床測量結果數量和良好預測能力之間進行權衡，因此可能存在臨床測量結果不夠豐富的問題。

最后，這項研究在模型的可解釋性和更高的準確性之間進行平衡。盡管臨床環境傾向于使用可解釋的模型，但如果采用黑匣子模型，則準確性可能更高，但同時決策風險更高。

從技術角度來看，作者們認為這項工作有助于使用機器學習方法為正在全球大規模暴發的COVID 19病例進行預測和診斷。

責任編輯：李躍群

圖片編輯：蔣立冬

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#新冠肺炎死亡風險 #新冠肺炎 #生存率 #算法 #機器學習

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業務經營許可證：滬B2-2017116

? 2014-2024 上海東方報業有限公司

反饋

百家乐官网 (中国）有限公司官网

華中科大AI模型預測新冠生存率準確率90%，有助早期介入

掃碼下載澎湃新聞客戶端