A Data Change Based Under-Sampling Approach for Solving Imbalanced Data Classification
Main Article Content
Abstract
One of the most important factors for improving the accuracy of machine learning classification techniques is the quality of the training data. However, real-world data are mostly imbalanced, that is, most of the data are in majority class and little data are in minority class. This paper introduces an approach for under-sampling samples of the majority class by keeping only its representative data. A data change based selection technique is proposed to reduce the majority class data. The experimental results show that our data change based selection mechanism is able to improve the accuracy of the minority class for both under sampling and mixed sampling techniques.
Article Details

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
References
C. Romero, and S. Ventura. “Data mining in education,” Wiley Interdisciplinary Reviews Data Mining Knowledge Discovery., Vol. 3(1), pp. 12-27, 2013.
วิชญ์วิสิฐ เกษรสิทธิ์ ดร.วิชิต หล่อจีระชุณห์กุล และ ดร.จิราวัลย์ จิตรถเวช, “การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสำหรับการจำแนกผู้ป่วยโรคเบาหวาน,” วารสารวิจัยมหาวิทยาลัยขอนแก่น (ฉบับบัณฑิตศึกษา)., ปีที่ 18(ฉบับที่ 3), หน้า 11-21, 2561.
Y. Pristyanto, I. Pratama, and A.F. Nugraha. “Data level approach for imbalanced class handling on educational data mining multiclass classification”. International Conference on Information and Communications Technology (ICOIACT). 6-7 Mar. Yogyakarta Indonesia : pp. 310-314, 2018.
E. Rendon, R. Alejo, C. Castorena, F.J. Isidro-Ortega and E.E. Granda-Gutierrez, “Data sampling methods to deal with the big data multi-class imbalance problem,” Applied Sciences., Vol. 10(4):1276, 2020.
ภาณุภณ จิระอัมพร และ เอกสิทธิ์ พัชรวงศ์ศักดา. การปรับปรุงวิธีการสุ่มตัวอย่างใหม่สำหรับข้อมูลไม่สมดุลด้วยเทคนิคแบบผสม DB2SM. วิศวกรรมศาสตรมหาบัณฑิต. วิศวกรรมข้อมูลขนาดใหญ่. วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์, 2564.
F. Thabtah, S. Hammoud, F. Kamalov, and A. Gonsalves. “Data imbalance in classification: Experimental evaluation,” Information Sciences., Vol. 513, pp. 429-441, 2020.
รักชนก ปิยพาณิชยกุล และ กฤษณะ ไวยมัย. การแก้ปัญหาข้อมูลไม่สมดุลแบบหลายคลาสสำหรับการทำนายการยกเลิกการใช้บริการอินเทอร์เน็ต. วิทยาศาสตรมหาบัณฑิต. เทคโนโลยีสารสนเทศ. ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์, 2023.
N.V. Chawla, K.W. Bowyer, L.O. Hall and W.P. Kegelmeyer. “SMOTE: synthetic minority over-sampling technique,” Journal of artificial intelligence research., Vol. 16, pp. 321-357, 2002.
T. Elhassan, M. Aljurf, F.Al-Mohanna and M. Shoukri, “Classification of imbalance data using tomek link (t-link) combined with random under-sampling (rus) as a data reduction method,” Global Journal of Technology and Optimization., Special Issues, pp. 1-11, 2016.
R.I. Rashu, N. Haq, and R.M. Rahman. “Data mining approaches to predict final grade by overcoming class imbalance problem”. 17th International conference on computer and information technology (ICCIT). 22-23 Dec. Dhaka Bangladesh : pp. 14-19, 2014.
E.F. Swana, W. Doorsamy, and P. Bokoro, “Tomek Link and SMOTE Approaches for Machine Fault Classification with an Imbalanced Dataset,” Sensors (Basel)., Vol. 22(9), pp. 1-21, 2022.
A. Hanskunatai. “A New Hybrid Sampling Approach for Classification of Imbalanced Datasets”. 3rd International Conference on Computer and Communication Systems. 27-30 Apr. Nagoya Japan : pp. 67-71, 2018.