การประยุกต์ใช้ความเปลี่ยนแปลงของข้อมูลเพื่อสุ่มลดข้อมูลสำหรับการแก้ปัญหา การจัดประเภทข้อมูลที่ไม่สมดุล
Main Article Content
บทคัดย่อ
ปัจจัยที่สำคัญที่สุดอย่างหนึ่งในการพัฒนาความแม่นยำในการจำแนกประเภทโดยเทคนิคการเรียนรู้ของเครื่อง (Machine Learning) คือคุณภาพของข้อมูลที่ใช้ในการเรียนรู้ อย่างไรก็ตามข้อมูลในโลกของความเป็นจริงโดยมากนั้นไม่สมดุล กล่าวคือข้อมูลส่วนใหญ่จัดอยู่ในกลุ่มข้อมูลหลัก (Majority Class) และส่วนน้อยจัดอยู่ในกลุ่มข้อมูลย่อย (Minority Class) บทความนี้นำเสนอแนวทางสำหรับการสุ่มลดข้อมูลของกลุ่มข้อมูลตัวอย่างโดยการคงไว้เฉพาะตัวแทนของกลุ่มข้อมูลนั้น ความเปลี่ยนแปลงของข้อมูลมาจากการใช้เทคนิคในการเลือกข้อมูลโดยมีเป้าหมายเพื่อลดกลุ่มข้อมูลหลักให้มีขนาดเล็กลง ผลการศึกษาแสดงให้เห็นว่ากลไกการเลือกข้อมูลจากความเปลี่ยนแปลงของข้อมูลสามารถเพิ่มความแม่นยำของข้อมูลกลุ่มย่อยได้ทั้งเทคนิคการสุ่มลดข้อมูล (Under-Sampling) และเทคนิคการสุ่มแบบผสม (Mixed Sampling)
Article Details
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
References
C. Romero, and S. Ventura. “Data mining in education,” Wiley Interdisciplinary Reviews Data Mining Knowledge Discovery., Vol. 3(1), pp. 12-27, 2013.
วิชญ์วิสิฐ เกษรสิทธิ์ ดร.วิชิต หล่อจีระชุณห์กุล และ ดร.จิราวัลย์ จิตรถเวช, “การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสำหรับการจำแนกผู้ป่วยโรคเบาหวาน,” วารสารวิจัยมหาวิทยาลัยขอนแก่น (ฉบับบัณฑิตศึกษา)., ปีที่ 18(ฉบับที่ 3), หน้า 11-21, 2561.
Y. Pristyanto, I. Pratama, and A.F. Nugraha. “Data level approach for imbalanced class handling on educational data mining multiclass classification”. International Conference on Information and Communications Technology (ICOIACT). 6-7 Mar. Yogyakarta Indonesia : pp. 310-314, 2018.
E. Rendon, R. Alejo, C. Castorena, F.J. Isidro-Ortega and E.E. Granda-Gutierrez, “Data sampling methods to deal with the big data multi-class imbalance problem,” Applied Sciences., Vol. 10(4):1276, 2020.
ภาณุภณ จิระอัมพร และ เอกสิทธิ์ พัชรวงศ์ศักดา. การปรับปรุงวิธีการสุ่มตัวอย่างใหม่สำหรับข้อมูลไม่สมดุลด้วยเทคนิคแบบผสม DB2SM. วิศวกรรมศาสตรมหาบัณฑิต. วิศวกรรมข้อมูลขนาดใหญ่. วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์, 2564.
F. Thabtah, S. Hammoud, F. Kamalov, and A. Gonsalves. “Data imbalance in classification: Experimental evaluation,” Information Sciences., Vol. 513, pp. 429-441, 2020.
รักชนก ปิยพาณิชยกุล และ กฤษณะ ไวยมัย. การแก้ปัญหาข้อมูลไม่สมดุลแบบหลายคลาสสำหรับการทำนายการยกเลิกการใช้บริการอินเทอร์เน็ต. วิทยาศาสตรมหาบัณฑิต. เทคโนโลยีสารสนเทศ. ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์, 2023.
N.V. Chawla, K.W. Bowyer, L.O. Hall and W.P. Kegelmeyer. “SMOTE: synthetic minority over-sampling technique,” Journal of artificial intelligence research., Vol. 16, pp. 321-357, 2002.
T. Elhassan, M. Aljurf, F.Al-Mohanna and M. Shoukri, “Classification of imbalance data using tomek link (t-link) combined with random under-sampling (rus) as a data reduction method,” Global Journal of Technology and Optimization., Special Issues, pp. 1-11, 2016.
R.I. Rashu, N. Haq, and R.M. Rahman. “Data mining approaches to predict final grade by overcoming class imbalance problem”. 17th International conference on computer and information technology (ICCIT). 22-23 Dec. Dhaka Bangladesh : pp. 14-19, 2014.
E.F. Swana, W. Doorsamy, and P. Bokoro, “Tomek Link and SMOTE Approaches for Machine Fault Classification with an Imbalanced Dataset,” Sensors (Basel)., Vol. 22(9), pp. 1-21, 2022.
A. Hanskunatai. “A New Hybrid Sampling Approach for Classification of Imbalanced Datasets”. 3rd International Conference on Computer and Communication Systems. 27-30 Apr. Nagoya Japan : pp. 67-71, 2018.