[shpark] Machine Learning Prediction Models for Postoperative Stroke in Elderly Patients Analyses of the MIMIC Database 논문 리뷰

논문 게시일 : 2022.07.18

논문 링크 : https://www.frontiersin.org/articles/10.3389/fnagi.2022.897611/full

논문 리뷰 작성일 : 2025.02.17

Introduction

뇌졸중은 뇌혈관 사고라고도 불리며 ischema(허혈 ; 국소 부위에 혈액의 양이 감소한 상태) 또는 출혈로 인해 발생할 수 있는 뇌 동맥의 신경학적 병리를 포함합니다. 뇌졸중은 운동 및 인지 장애를 주는데, 이는 뇌졸중 호나자에게 피할 수 없는 후유증입니다. 고령자, 수술환자, 중환자실 환자는 뇌졸중 위험이 높습니다. 따라서 뇌졸중을 예측하고 진단하는 데 도움이 되는 모델을 만드는 것이중요합니다. 뇌졸중을 조기에 정확하게 감지하면 뇌졸중을 효율적으로 예방하고 치료할 수 있는 기반이 마련되고 수술 예후가 크게 향상될 것입니다.

지난 수십 년 동안 ML을 이용한 뇌줄중 진단에 관한 연구가 진행되었습니다. 예를 들어, EMG(근전도) 기반 근육 활동 모니터링 시스템, EEG(뇌파) 기반 신경 발화 활동 모니터링 시스템 및 ECG(심전도) 기반 모니터링 시스템은 뇌졸중의 조기 발견 및 예후에 적용되었습니다.

본 논문에서는 ML을 이용하여, 연령, 성별, 합병증 등 여러 변수를 이용하여 고령 환자의 뇌졸중을 예측해 보았고 여러 변수 중 뇌졸중과 관련이 매우 높은 변수를 발견하였습니다.

Metarials and Methods

Database and Study Design

2000년부터 2014년까지 입원 환자에 대한 Database인 MIMIC-III, 2014년부터 2018년까지 입원한 환자에 대한 Database인 MIMIC-VI, 두 Dataset을 활용하였습니다. Random하게 선택된 MIMIC-VI DATA set의 80%는 development set으로 활용하였고, 나머지 20%는 validation set으로 활용하였습니다. MIMIC-III Samples은 testing set으로 활용하였습니다.

Subjects and Outcomes

본 연구에서는 SICU(외과 중환자실)에 입원한 환자 중 55세 이상의 환자를 선택했습니다. MIMIC-VI에 등록된 데이터 중 누락된 Data는 iterativeSVDdata imputation method를 사용하였습니다. testing set인 MIMIC-III에서는 완전한 데이터 가 있는 환자만 유지했습니다. 마지막으로 MIMIC-III에서 661명의 환자와 MIMIC-VI에서 7,128명의 환자를 연구에 선별했습니다.

도식화하면 아래와 같습니다.

Predictors는 이전 연구를 참고하여 선별하였습니다. MIMIC-III, MIMIC VI에서 30% 이상 data가 누락된 bicarbonate(중탄산염)는 제외하였습니다. Predictors는 다음과 같습니다.

(a) Demographic information: age, sex, ethnicity, and BMI index;
(b) Comorbidities: peripheral vascular disease, hypertension, chronic pulmonary disease, diabetes, renal disease, liver disease, peptic ulcer disease, sepsis, congestive heart failure, cancer, and rheumatic disease;
(c) The first-day laboratory results in the ICU: the mean level of glucose; the lowest and mean levels of SpO2; the lowest and highest levels of anion gap, albumin, bilirubin total, creatinine, hematocrit, hemoglobin, WBC (white blood cells), lactate, platelets, potassium, PTT (partial thromboplastin time), PT (prothrombin time), INR (international normalized ratio), and BUN (blood urea nitrogen);
(d) The first-day vital signs in the ICU: the highest and mean levels of heart rate, SBP (systolic blood pressure), DBP (diastolic blood pressure), and MBP (mean blood pressure).

navicat premium12 software를 사용하여 data를 추출하였고, Stata software로 data를 정리하였습니다.

MIMIC-VI의 데이터의 경우 예측 특성의 5% 이상을 차지하는 누락 값이 있는 피험자를 제외했습니다.

설별된 Predictors와 정리된 data는 아래와 같습니다.

Statistical Analysis

이전 연구에 따르면, Data balancing을 적용한 Machine learning이 imbalanced data를 적용한 ML보다 좋은 성과가 났습니다. 이번 연구에서도 SMOTE의 변형인 SMOTE-NC를 imbalance 문제를 해결하기 위해 사용하였습니다. 모든 classifiers는 oversamling을 통해 동일한 수만큼 학습되었습니다.

본 논문에서는 여러 종류의 classfiers를 사용하여 뇌졸중을 판별하는 Machine learning 방법을 설명합니다.

Scikit-learn이라는 Python library를 사용하여 classifier를 만들었습니다.

뇌졸중 예측모델은 KNN(k-nearest neighbor), SVM(support vector machine), MLP(multilayer perceptron), LR(logistic regression), DT(decision tree), RF(random forest), XGBoost(extreme gradient boosting) 7개의 Machine learning Algorithms를 사용했습니다. 7개의 machine learning에서 사용한 hyperparameter는 scikit-learn의 기본 설정에서 가져왔습니다. 예: KNN의 hyperparameter는 k이고 scikit-learn의 기본 설정은 "k=3"이며, 이 연구에서 이를 사용했습니다.

RESULTS

Patient Characteristics

Table 1을 참고하면, 뇌졸중 대상자는 나이가 더 많았고 (74.0±10.5 vs. 72.1±10.4) 고혈압 발병률이 더 높았습니다. 또한 뇌졸중 그룹과 비뇌졸중 그룹은 모두 BMI와 성별 분포가 유사했습니다.

Prediction Models

예츠 모델을 수행하는 과정은 다음과 같습니다. 이 연구에서 뇌졸중 환자와 비뇌졸중 환자의 비율이 불균형하기 때문에 모델을 수립하기 전에 SMOTE-NC balancing method를 training data set에 적용하였습니다. 데이터가 정규화된 후 KNN, SVM, MLP, LR, DT, RF 및 XGBoost machine learning algorithm을 적용하여 학습하였습니다. Validation data와 Test Data가 적용된 7개의 모델에 대한 ROC곡선은 다음과 같습니다.

7개 모델의 평균 AUC 값은 각각 0.69, 0.76, 0.74, 0.75, 0.59, 0.78, 0.78이었습니다. ROC 곡선을 고려하면, XGB 모델이accuracy, sensitivity, specificity, and AUC values에서 가장 좋은 성능을 보였습니다. 각각 0.68(0.57‒0.78), 0.77(0.63‒0.9), 0.67(0.53 0.8), 0.78(0.75‒0.81)입니다.

Validation set와 Test set 결과에는 차이가 있지만, XGB 모델이 가장 좋은 성능을 보였습니다.

XGB 모델을 활용하여 뇌졸중과 관련이 깊은 상위 5개의 predictors는 hypertension, cancer, congestive heart failure, chronic pulmonary disease and peripheral vascular disease (importance values of 0.275, 0.104, 0.080, 0.063, and 0.054, respectively)입니다.

Discussion

ML을 이용하여 수술을 받은 고령 환자의 뇌졸중 발생률이 다양한 clinicla features와 연관 있음을 확인할 수 있었습니다.7개의 모델 중 XGB 모델이 수행 능력이 가장 좋았습니다. XGB의 Confussion matrix는 다음과 같습니다.

위의 table에서도 알 수 있듯이, 본 연구에는 한계가 있습니다. 첫째, 뇌졸중을 최대한 예방할 수 있는 predictors를 발견한건 맞지만, 뇌졸중을 식별하기에는 아직 부족함이 있습니다. 이 부분은 이전의 연구에서 사용된 EMG, EEG, ECG 기반 모니터링 시스템의 식별 성능이 더 높습니다.

둘째, missing data가 있습니다. Database에 missing data들이 있었고, Dataset을 만드는 과정에서 몇 몇 데이터는 제외했습니다. 따라서 missing data와 이 실험에서 포함되지 않은 variables도 포함하는 연구가 필요합니다.

Conclusion

본 연구에서 ML을 이용하여, 기존 질환이 SICU 고령 환자의 뇌졸중과 밀접한 관련이 있음을 보여주었습니다. 7개의 ML 모델을 사용했고 그 중에서 XGBoost 모델의 성과가 가장 좋았습니다. SICU 고령 환자의 뇌졸중을 예방하기 위해서는 합병증에 많은 주의를 기울여야 하며, 특히 뇌졸중과 관련이 깊은 고혈압 예방을 위해 혈압 유지가 중요합니다. 그러나 실험 과정에서 missing data가 있었고 제외된 variables도 있기 때문에 추가적인 연구가 필요합니다.

'Paper_Review' 카테고리의 다른 글

[mjkwon] Knowledge-enhanced visual-language pretraining on chest radiology images (0)	2025.02.17
[nyyoon] Predicting 30-days mortality for MIMIC-III patients with sepsis-3: a machine learning approach using XGboost (0)	2025.02.17
[nyyoon] VoxelMorph: A Learning Framework for Deformable Medical Image Registration (0)	2025.02.13
[shpark] A Deep Learning Model for Automated Sleep Stages Classification Using PSG Signals 논문 리뷰 (0)	2025.02.08
[hsjung] [논문리뷰] The false hope of current approaches to explainable artificial intelligence in health care (0)	2025.02.08

Introduction

Metarials and Methods

Database and Study Design

Subjects and Outcomes

Statistical Analysis

RESULTS

Patient Characteristics

Prediction Models

Discussion

Conclusion

'Paper_Review' 카테고리의 다른 글

티스토리툴바