Imbalanced Data Problem Solving in Classification of Diabetes Patients

  • Witwisit Kesornsit วิชญ์วิสิฐ เกษรสิทธิ์ นักศึกษา หลักสูตรวิทยาศาสตรมหาบัณฑิต สาขาสถิติ คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
  • Dr.Vichit Lorchirachoonkul ดร.วิชิต หล่อจีระชุณห์กุล รองศาสตราจารย์ สาขาสถิติ คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
  • Dr.Jirawan Jitthavech ดร.จิราวัลย์ จิตรถเวช ศาสตราจารย์ สาขาสถิติ คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
Keywords: Classification, Imbalanced data, Decision tree, Multinomial logistic regression


Classification techniques when using imbalanced data is a challenging problem in the classification research area. The classification techniques of imbalanced data will cause the data in a majority class to have some features that obscure the characteristics of the minority class and make the classification performance of the minority class unacceptable. This research intends to compare the efficiency of solving the imbalanced data of diabetes patients using Data Level Solutions by 4 methods: Oversampling, Undersampling, Hybrid method and Synthetic Minority Oversampling TEchnique (SMOTE) in the classification using the multinomial logistic regression and decision tree techniques. By comparing the statistics and algorithms in the classification, it can be concluded that the classification by decision tree technique using SMOTE method to solve the imbalanced data by using decision tree technique yields the best result.


Download data is not yet available.


