發(fā)布時(shí)間: 2025-03-27 10:04:24
2025年3月11日,Liu等人在《Ann Med》雜志上發(fā)表了一篇題為《Applying machine learning to predict bowel preparation adequacy in elderly patients for colonoscopy: development and validation of a web-based prediction tool》的文章。該文獻(xiàn)旨在開(kāi)發(fā)并驗(yàn)證了一個(gè)機(jī)器學(xué)習(xí)模型,用于預(yù)測(cè)老年患者在結(jié)腸鏡檢查前的腸道準(zhǔn)備充分性。
一
研究背景
結(jié)直腸癌是全球第四大致死癌癥,每年導(dǎo)致約90萬(wàn)人死亡,且發(fā)病率持續(xù)上升。結(jié)腸鏡檢查是早期篩查和腫瘤切除的關(guān)鍵手段,而腸道準(zhǔn)備充分性直接影響檢查效果。研究表明,10%-25%的患者存在腸道準(zhǔn)備不足,老年患者比例更高達(dá)34.6%。準(zhǔn)備不足可能導(dǎo)致腺瘤漏診、診斷準(zhǔn)確性下降、重復(fù)操作及醫(yī)療資源浪費(fèi)。老年患者因生理變化和合并癥更易出現(xiàn)腸道準(zhǔn)備失敗,但現(xiàn)有預(yù)測(cè)模型在老年群體中的準(zhǔn)確性有限。因此,本研究旨在開(kāi)發(fā)一種基于機(jī)器學(xué)習(xí)的預(yù)測(cè)工具,以識(shí)別高風(fēng)險(xiǎn)患者并指導(dǎo)早期干預(yù)。
二
數(shù)據(jù)來(lái)源
研究數(shù)據(jù)來(lái)自復(fù)旦大學(xué)附屬中山醫(yī)院廈門(mén)醫(yī)院消化內(nèi)科2023年2月至2023年12月接受結(jié)腸鏡檢查的老年患者471例,以及2024年3月至2024年6月的獨(dú)立隊(duì)列221例。納入標(biāo)準(zhǔn)為:年齡≥60歲、接受結(jié)腸鏡檢查或結(jié)直腸手術(shù)、采用3L聚乙二醇溶液進(jìn)行腸道準(zhǔn)備。排除標(biāo)準(zhǔn)包括:未完成3L聚乙二醇攝入、因非準(zhǔn)備因素(如腸道腫瘤或狹窄)導(dǎo)致檢查不完整、合并嚴(yán)重心血管/肺/腎疾病或認(rèn)知障礙。數(shù)據(jù)通過(guò)電子病歷系統(tǒng)和護(hù)理評(píng)估系統(tǒng)收集,經(jīng)雙人核對(duì)后整合,無(wú)缺失值。
三
研究方法
對(duì)23年的數(shù)據(jù)集按7:3的比例隨機(jī)劃分為訓(xùn)練集與測(cè)試集。對(duì)訓(xùn)練集采用Boruta算法進(jìn)行特征選擇,篩選出7個(gè)關(guān)鍵預(yù)測(cè)因子,對(duì)其建立和比較邏輯回歸(LR)、支持向量機(jī)(SVM)、決策樹(shù)(DT)、隨機(jī)森林(RF)、極端梯度提升(XGBoost)和輕量梯度提升機(jī)(LightGBM)等模型的性能。繪制相應(yīng)的受試者作員特征(ROC)、曲線和精度-召回(PR)曲線,模型評(píng)估指標(biāo)包括AUC、準(zhǔn)確率、靈敏度、特異性、陽(yáng)性預(yù)測(cè)值(PPV)、陰性預(yù)測(cè)值(NPV)和F1分?jǐn)?shù)。最終確定出最佳模型并對(duì)其進(jìn)行超參數(shù)調(diào)優(yōu),再對(duì)測(cè)試集通過(guò)1000次Boostrap進(jìn)行內(nèi)部驗(yàn)證。外部驗(yàn)證使用獨(dú)立隊(duì)列數(shù)據(jù)。SHAP算法用于解釋模型特征重要性,并基于Streamlit框架開(kāi)發(fā)了交互式網(wǎng)頁(yè)應(yīng)用,以提升臨床實(shí)用性。
四
結(jié)果
1. 基線特征
471例患者中,中位年齡66歲(IQR:63-71),50.32%為男性,76.86%腸道準(zhǔn)備充分。高血壓(37.58%)和糖尿病(20.17%)是最常見(jiàn)的合并癥,77.07%采用分劑量方案,63.69%在院內(nèi)完成腸道準(zhǔn)備。訓(xùn)練集(329例)與驗(yàn)證集(142例)在年齡、性別、BMI、合并癥等基線特征上無(wú)顯著差異(表1)。92.14%的患者末次排便為清液,81.95%日常活動(dòng)頻繁行走,44.80%教育水平為小學(xué)或以下(表1)。
2. 特征選擇與重要性
通過(guò)Boruta算法篩選出7個(gè)關(guān)鍵預(yù)測(cè)因子:分劑量方案、院內(nèi)準(zhǔn)備、教育水平、鈣通道阻滯劑(CCB)使用、排便狀態(tài)、活動(dòng)水平、末次排便為清液(圖2)。特征賦值如表2所示,例如分劑量方案(是=1,否=0)和排便狀態(tài)(正常=1,腹瀉=2,便秘=3)。
3. 模型性能比較
在訓(xùn)練集中,決策樹(shù)模型的AUC最高,為0.968(95%CI:0.948-0.988)。在測(cè)試集中,SVM模型的AUC最高,為0.895(95% CI: 0.822-0.969)(圖3a)。在森林圖中,SVM模型表現(xiàn)最好,AUC為0.895,標(biāo)準(zhǔn)誤差為0.005(圖3b)。決策曲線分析(DCA)表明,SVM在低決策閾值下凈收益最高(圖3c)。此外,SVM模型在訓(xùn)練集與測(cè)試集中都顯示出高平均精度(AP分別為0.853和0.821)(圖3d)。對(duì)于其他性能指標(biāo),如圖3所示,XGB模型的靈敏度最高(0.766),而SVM模型的準(zhǔn)確性最高(0.889)、特異性(0.932)和F1評(píng)分(0.752)。
為了評(píng)估特征選擇對(duì)模型性能的影響,使用所有特征以及按Boruta特征重要性排名的前7、10、13、16和19個(gè)特征構(gòu)建了多個(gè)模型。結(jié)果表明,SVM模型在所有特征集中始終保持最佳預(yù)測(cè)性能(圖4)。值得注意的是,當(dāng)使用Boruta選擇的前7個(gè)特征時(shí),SVM模型表現(xiàn)出強(qiáng)大的性能,僅次于由前13個(gè)特征構(gòu)建的模型(ΔAUC= 0.018,p = 0.985)。
總之,盡管Delong檢驗(yàn)顯示SVM模型與其他模型之間的AUC沒(méi)有統(tǒng)計(jì)學(xué)上的顯著差異(表4),但SVM模型在不同特征集上始終表現(xiàn)出穩(wěn)定和卓越的性能。值得注意的是,它在多個(gè)關(guān)鍵指標(biāo)上的一致表現(xiàn)凸顯了其在預(yù)測(cè)腸道準(zhǔn)備失敗方面的可靠性和實(shí)用價(jià)值。
4. 外部驗(yàn)證與穩(wěn)健性
在獨(dú)立外部驗(yàn)證隊(duì)列(n=221)中,SVM模型AUC為0.889,與內(nèi)部驗(yàn)證結(jié)果一致。排除“末次排便為清液”后,模型AUC仍為0.803,表明其適應(yīng)性強(qiáng),適用于未啟動(dòng)腸道準(zhǔn)備的患者。
5. 模型選擇和外部驗(yàn)證
為了平衡預(yù)測(cè)簡(jiǎn)單性和模型性能,使用Boruta算法確定的七個(gè)關(guān)鍵特征構(gòu)建了老年患者腸道準(zhǔn)備失敗的最終預(yù)測(cè)模型,并使用SVM方法實(shí)現(xiàn)。在獨(dú)立數(shù)據(jù)集上對(duì)該模型進(jìn)行外部驗(yàn)證,AUC為0.889,表明具有出色的預(yù)測(cè)性能。研究結(jié)果表明,最終的SVM模型不僅在外部驗(yàn)證中表現(xiàn)良好,而且即使在排除關(guān)鍵特征后也能保持可靠的準(zhǔn)確性,凸顯了其對(duì)更廣泛臨床應(yīng)用的適應(yīng)性。
6. 模型解釋
為了提高模型的透明度和可解釋性,利用SHAP算法來(lái)闡明模型的輸出。圖5a和b說(shuō)明了特征重要性的排名,反映了每個(gè)特征對(duì)模型輸出的平均影響。很明顯,“排便狀態(tài)”和“最后一次排便是清澈液體”是影響預(yù)測(cè)的兩個(gè)最有影響力的特征,緊隨其后的是“活動(dòng)水平”、“教育”和“CCB”(使用鈣通道阻滯劑)。這些特征在模型的決策過(guò)程中起著至關(guān)重要的作用。局部解釋側(cè)重于特征對(duì)單個(gè)樣品的影響,如圖5c所示。在圖中,紅色條和藍(lán)色條分別表示增加和減少預(yù)測(cè)值的特征。(圖5)
五
總結(jié)
本研究成功開(kāi)發(fā)了一個(gè)基于SVM可解釋的機(jī)器學(xué)習(xí)模型,用于預(yù)測(cè)老年患者在結(jié)腸鏡檢查前腸道準(zhǔn)備的充分性,并創(chuàng)建了相應(yīng)的Web應(yīng)用程序。通過(guò)將該模型應(yīng)用于臨床環(huán)境,有望準(zhǔn)確識(shí)別準(zhǔn)備失敗風(fēng)險(xiǎn)高的患者并實(shí)現(xiàn)早期干預(yù),從而大大提高老年患者腸道準(zhǔn)備的成功率并降低醫(yī)療成本。
上一篇:03.17-03.23 臨床預(yù)測(cè)模型研究頂刊快報(bào)
下一篇:基于中國(guó)CHARLS數(shù)據(jù)庫(kù)的老年人跌倒風(fēng)險(xiǎn)預(yù)測(cè)模型