發(fā)布時(shí)間: 2025-06-20 09:29:32
2025年6月12日,Tobias?Gauss等人在《The Lancet Regional Health》雜志上發(fā)表了一篇題為《Comparison of machine learning and human prediction to identify trauma patients in need of hemorrhage control resuscitation (ShockMatrix study): a prospective observational study》的文章。機(jī)器學(xué)習(xí)可以改善對(duì)需要止血復(fù)蘇(HCR)的創(chuàng)傷患者的及時(shí)識(shí)別,但現(xiàn)實(shí)生活中的表現(xiàn)仍未知。本研究旨在評(píng)估并比較機(jī)器學(xué)習(xí)算法與臨床醫(yī)生在預(yù)測(cè)創(chuàng)傷患者是否需要出血控制復(fù)蘇(Hemorrhage Control Resuscitation, HCR)方面的預(yù)測(cè)性能。
一、研究背景
及時(shí)識(shí)別創(chuàng)傷患者是否需要HCR一直是臨床上的重大挑戰(zhàn)。由于識(shí)別不及時(shí)常常導(dǎo)致輸血和止血操作延遲,從而影響患者的生存率。此外,不一致的決策也會(huì)導(dǎo)致偏離循證指南,影響治療質(zhì)量。盡管目前存在多種臨床評(píng)分系統(tǒng)和流程圖,但它們通常是為預(yù)測(cè)大出血而設(shè)計(jì),性能有限,且難以融入日常實(shí)踐。機(jī)器學(xué)習(xí)因其可處理缺失數(shù)據(jù)、自動(dòng)化與實(shí)時(shí)預(yù)測(cè)的優(yōu)勢(shì),被認(rèn)為是一種更可靠的替代方案。然而,現(xiàn)有研究大多基于回顧性數(shù)據(jù),缺乏前瞻性、真實(shí)世界的驗(yàn)證。因此,該研究意在填補(bǔ)這一空白。
二、數(shù)據(jù)來(lái)源
本研究基于2022年8月至2024年6月在法國(guó)8家一級(jí)創(chuàng)傷中心開展的前瞻性觀察隊(duì)列。凡由院前調(diào)度醫(yī)生根據(jù)國(guó)家三級(jí)啟動(dòng)標(biāo)準(zhǔn)(A/B/C級(jí))激活創(chuàng)傷團(tuán)隊(duì)的初診患者,均符合納入標(biāo)準(zhǔn)。共篩查5550例患者,依據(jù)既定排除標(biāo)準(zhǔn)(包括年齡<18歲、院前心臟驟停、二次轉(zhuǎn)運(yùn)及關(guān)鍵信息缺失等)剔除3966例,最終納入1292例進(jìn)入分析。數(shù)據(jù)通過定制的智能手機(jī)應(yīng)用實(shí)時(shí)采集,創(chuàng)傷醫(yī)生在接到預(yù)警電話后立即輸入9項(xiàng)院前變量,并提供對(duì)HCR需求的主觀概率預(yù)測(cè)(以百分比形式)。所有預(yù)測(cè)均在患者入院前完成并由時(shí)間戳記錄,入院后填寫的條目被排除。所使用的預(yù)測(cè)變量與機(jī)器學(xué)習(xí)模型完全一致,確保了人機(jī)比較的科學(xué)性與可比性。圖1說明了研究工作流程。
三、研究方法
模型嚴(yán)格使用院前變量,經(jīng)Shapley值評(píng)估后選定9個(gè)關(guān)鍵預(yù)測(cè)變量:創(chuàng)傷類型(鈍性或穿透性)、最低舒張壓和收縮壓、最大心率、毛細(xì)血管血紅蛋白濃度、給予的晶體液體積、插管狀態(tài)、兒茶酚胺使用和臨床明顯的骨盆創(chuàng)傷。開發(fā)流程中,數(shù)據(jù)劃分為訓(xùn)練集(50%)、驗(yàn)證集(20%)和測(cè)試集(30%),連續(xù)變量缺失值以均值填補(bǔ)并引入缺失數(shù)據(jù)掩碼。通過比較分類與回歸樹(CART)、隨機(jī)森林、極限梯度提升(XGBoost)和類別梯度提升(CatBoost)四種算法,選擇XGBoost是基于10倍交叉驗(yàn)證中F4評(píng)分的優(yōu)異性能。驗(yàn)證集用于確定最佳閾值和超參數(shù)。使用敏感性、特異性、準(zhǔn)確性、精確性、召回率、AUCPR、AUC-ROC、似然比(陽(yáng)性和陰性)和F4評(píng)分等指標(biāo)在測(cè)試集中評(píng)估最終模型。使用2000次Bootstrap迭代計(jì)算1000名患者的樣本量,以確保F4評(píng)分的置信區(qū)間下限低于人類參考0.63。來(lái)自Traumspel網(wǎng)絡(luò)的20名臨床醫(yī)生專家組成的小組確定了0.11的決策閾值。所有模型開發(fā)均在Python 3.11.0中執(zhí)行。
四、結(jié)果
在2022年8月1日至2024年6月30日期間,納入了5550名符合條件的患者中的1584名,其中1292名進(jìn)行了分析。智能手機(jī)應(yīng)用程序和臨床記錄之間共有205例無(wú)法匹配,其中87例被排除在外(圖2)。
大多數(shù)患者為男性,中位年齡為35歲(IQR:25-51),ISS評(píng)分為10(IQR:4-20)。在1292名患者中有170名(13%)需要HCR。104名符合條件的創(chuàng)傷臨床醫(yī)生中有80名(76%)至少提供了1例HCR。中位院前時(shí)間為72分鐘(IQR:52-93)。輸血閾值和血漿與紅細(xì)胞比值在各中心之間是一致的。表1顯示了預(yù)測(cè)時(shí)的詳細(xì)預(yù)測(cè)變量可用性。
創(chuàng)傷臨床醫(yī)生對(duì)HCR需求的預(yù)測(cè)得出敏感度71%(95%CI:62-78%),特異度81%(95%CI:78-84%),陽(yáng)性似然比3.74(95%CI:3.20-4.36),陰性似然比0.36 (95%CI:0.29-0.46),精確度36%(95%CI:30-43%),準(zhǔn)確度0.80(95% CI: 0.77-0.82),F(xiàn)4分?jǐn)?shù)0.64(95%CI:0.59-0.74)。機(jī)器學(xué)習(xí)模型(XGBoost)的預(yù)測(cè)得出敏感度71%(95%CI:63-80%),特異度82%(95%CI:80-85%),陽(yáng)性似然比4.01(95%CI:3.43-4.70),陰性似然比0.35(95%CI:0.33-0.44),F(xiàn)4分?jǐn)?shù)0.68(95%CI:0.60-0.75)。兩種方法的靈敏度差異無(wú)統(tǒng)計(jì)學(xué)意義(Z檢驗(yàn),p = 1)。表2和表3展示了創(chuàng)傷團(tuán)隊(duì)臨床醫(yī)生和機(jī)器學(xué)習(xí)預(yù)測(cè)(XGBoost)的混淆矩陣。
創(chuàng)傷臨床醫(yī)生和機(jī)器學(xué)習(xí)模型的凈臨床效益計(jì)算為0.07。當(dāng)臨床醫(yī)生和機(jī)器學(xué)習(xí)模型的預(yù)測(cè)相結(jié)合時(shí),來(lái)自任何一個(gè)來(lái)源的陽(yáng)性預(yù)測(cè)都被視為陽(yáng)性,靈敏度增加到83%(95% CI:77-88%),特異性為73%(95% CI:70-75%)。這種聯(lián)合方法得出的似然比+為3.02(95%CI:2.72-3.44),似然比-為0.23(95%CI:0.17-0.33),聯(lián)合方法的凈臨床獲益為0.08。實(shí)際上,在100名患者的樣本中,這相當(dāng)于使用組合方法正確識(shí)別了8名患者而沒有傷害,相比之下,創(chuàng)傷臨床醫(yī)生或機(jī)器學(xué)習(xí)模型單獨(dú)識(shí)別了7名患者。
表4和表5總結(jié)了創(chuàng)傷臨床醫(yī)生預(yù)測(cè)、機(jī)器學(xué)習(xí)模型(XGBoost)和假設(shè)組合方法的性能指標(biāo)。
人類創(chuàng)傷臨床醫(yī)生和機(jī)器學(xué)習(xí)模型預(yù)測(cè)沒有產(chǎn)生相同的假陰性病例。具體來(lái)說,創(chuàng)傷臨床醫(yī)生預(yù)測(cè)產(chǎn)生了21個(gè)被XGBoost模型正確識(shí)別的假陰性病例,而模型遺漏了20個(gè)由創(chuàng)傷臨床醫(yī)生檢測(cè)到的病例。表6列出了兩個(gè)預(yù)測(cè)源的預(yù)測(cè)變量及其在假陰性患者中的分布。在假陰性預(yù)測(cè)的情況下,創(chuàng)傷臨床醫(yī)生和機(jī)器學(xué)習(xí)模型在變量 “兒茶酚胺使用”和“穿透性創(chuàng)傷”上的分歧最為明顯。在創(chuàng)傷臨床醫(yī)生預(yù)測(cè)的50個(gè)假陰性中,兒茶酚胺的使用占12.4%(6/50),而在該模型的81.2個(gè)假陰性中,存在18%(49/49)。相反,84%(21/50) 的臨床醫(yī)生衍生的假陰性發(fā)生了穿透?jìng)鴻C(jī)器學(xué)習(xí)模型的假陰性為28%(14/49)。
在臨床醫(yī)生經(jīng)驗(yàn)方面,非常缺乏經(jīng)驗(yàn)的臨床醫(yī)生(<3年執(zhí)業(yè)經(jīng)驗(yàn))和經(jīng)驗(yàn)豐富的臨床醫(yī)生(>9歲)的假陰性率較高(分別為38%和34%,與具有中級(jí)經(jīng)驗(yàn)的人相比(3-9歲)。沒有發(fā)現(xiàn)白班與夜班或工作日與周末班之間有顯著的相關(guān)性。參與的中心。人類和機(jī)器學(xué)習(xí)預(yù)測(cè)之間的一致性為中等,Cohen's kappa系數(shù)為0.51(95% CI:0.48-0.55)。未報(bào)告智能手機(jī)應(yīng)用程序的故障或技術(shù)問題,也未觀察到其使用對(duì)患者護(hù)理或傷害的影響。
五、結(jié)論
機(jī)器學(xué)習(xí)模型沒有替代醫(yī)生,但能增強(qiáng)其決策意識(shí),在不干擾臨床流程的前提下實(shí)現(xiàn)較好的可行性和效益。未來(lái)研究應(yīng)評(píng)估該工具對(duì)臨床工作流、指南依從性及資源使用的影響,并進(jìn)一步探討其成本效益與跨系統(tǒng)適用性。
上一篇:06.09-06.15 臨床預(yù)測(cè)模型研究頂刊快報(bào)