การประยุกต์ใช้ความเปลี่ยนแปลงของข้อมูลเพื่อสุ่มลดข้อมูลสำหรับการแก้ปัญหา การจัดประเภทข้อมูลที่ไม่สมดุล

วราพรรณ ธิยานันท์; กฤษณะ ไวยมัย

doi:10.37936/ectiard.2023-3-3.250447

PDF

เผยแพร่แล้ว: ธ.ค. 31, 2023

DOI: https://doi.org/10.37936/ectiard.2023-3-3.250447

คำสำคัญ:

ความเปลี่ยนแปลงข้อมูล ปัญหาข้อมูลไม่สมดุล ต้นไม้ตัดสินใจ การเรียนรู้ของเครื่อง

วราพรรณ ธิยานันท์

มหาวิทยาลัยเกษตรศาสตร์

กฤษณะ ไวยมัย

ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์

บทคัดย่อ

ปัจจัยที่สำคัญที่สุดอย่างหนึ่งในการพัฒนาความแม่นยำในการจำแนกประเภทโดยเทคนิคการเรียนรู้ของเครื่อง (Machine Learning) คือคุณภาพของข้อมูลที่ใช้ในการเรียนรู้ อย่างไรก็ตามข้อมูลในโลกของความเป็นจริงโดยมากนั้นไม่สมดุล กล่าวคือข้อมูลส่วนใหญ่จัดอยู่ในกลุ่มข้อมูลหลัก (Majority Class) และส่วนน้อยจัดอยู่ในกลุ่มข้อมูลย่อย (Minority Class) บทความนี้นำเสนอแนวทางสำหรับการสุ่มลดข้อมูลของกลุ่มข้อมูลตัวอย่างโดยการคงไว้เฉพาะตัวแทนของกลุ่มข้อมูลนั้น ความเปลี่ยนแปลงของข้อมูลมาจากการใช้เทคนิคในการเลือกข้อมูลโดยมีเป้าหมายเพื่อลดกลุ่มข้อมูลหลักให้มีขนาดเล็กลง ผลการศึกษาแสดงให้เห็นว่ากลไกการเลือกข้อมูลจากความเปลี่ยนแปลงของข้อมูลสามารถเพิ่มความแม่นยำของข้อมูลกลุ่มย่อยได้ทั้งเทคนิคการสุ่มลดข้อมูล (Under-Sampling) และเทคนิคการสุ่มแบบผสม (Mixed Sampling)

ฉบับ

ปีที่ 3 ฉบับที่ 3 (2023): กันยายน - ธันวาคม 2566

ประเภทบทความ

บทความวิจัย

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

เอกสารอ้างอิง

C. Romero, and S. Ventura. “Data mining in education,” Wiley Interdisciplinary Reviews Data Mining Knowledge Discovery., Vol. 3(1), pp. 12-27, 2013.

วิชญ์วิสิฐ เกษรสิทธิ์ ดร.วิชิต หล่อจีระชุณห์กุล และ ดร.จิราวัลย์ จิตรถเวช, “การแก้ปัญหาข้อมูลไม่สมดุลของข้อมูลสำหรับการจำแนกผู้ป่วยโรคเบาหวาน,” วารสารวิจัยมหาวิทยาลัยขอนแก่น (ฉบับบัณฑิตศึกษา)., ปีที่ 18(ฉบับที่ 3), หน้า 11-21, 2561.

Y. Pristyanto, I. Pratama, and A.F. Nugraha. “Data level approach for imbalanced class handling on educational data mining multiclass classification”. International Conference on Information and Communications Technology (ICOIACT). 6-7 Mar. Yogyakarta Indonesia : pp. 310-314, 2018.

E. Rendon, R. Alejo, C. Castorena, F.J. Isidro-Ortega and E.E. Granda-Gutierrez, “Data sampling methods to deal with the big data multi-class imbalance problem,” Applied Sciences., Vol. 10(4):1276, 2020.

ภาณุภณ จิระอัมพร และ เอกสิทธิ์ พัชรวงศ์ศักดา. การปรับปรุงวิธีการสุ่มตัวอย่างใหม่สำหรับข้อมูลไม่สมดุลด้วยเทคนิคแบบผสม DB2SM. วิศวกรรมศาสตรมหาบัณฑิต. วิศวกรรมข้อมูลขนาดใหญ่. วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์, 2564.

F. Thabtah, S. Hammoud, F. Kamalov, and A. Gonsalves. “Data imbalance in classification: Experimental evaluation,” Information Sciences., Vol. 513, pp. 429-441, 2020.

รักชนก ปิยพาณิชยกุล และ กฤษณะ ไวยมัย. การแก้ปัญหาข้อมูลไม่สมดุลแบบหลายคลาสสำหรับการทำนายการยกเลิกการใช้บริการอินเทอร์เน็ต. วิทยาศาสตรมหาบัณฑิต. เทคโนโลยีสารสนเทศ. ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์, 2023.

N.V. Chawla, K.W. Bowyer, L.O. Hall and W.P. Kegelmeyer. “SMOTE: synthetic minority over-sampling technique,” Journal of artificial intelligence research., Vol. 16, pp. 321-357, 2002.

T. Elhassan, M. Aljurf, F.Al-Mohanna and M. Shoukri, “Classification of imbalance data using tomek link (t-link) combined with random under-sampling (rus) as a data reduction method,” Global Journal of Technology and Optimization., Special Issues, pp. 1-11, 2016.

R.I. Rashu, N. Haq, and R.M. Rahman. “Data mining approaches to predict final grade by overcoming class imbalance problem”. 17th International conference on computer and information technology (ICCIT). 22-23 Dec. Dhaka Bangladesh : pp. 14-19, 2014.

E.F. Swana, W. Doorsamy, and P. Bokoro, “Tomek Link and SMOTE Approaches for Machine Fault Classification with an Imbalanced Dataset,” Sensors (Basel)., Vol. 22(9), pp. 1-21, 2022.

A. Hanskunatai. “A New Hybrid Sampling Approach for Classification of Imbalanced Datasets”. 3rd International Conference on Computer and Communication Systems. 27-30 Apr. Nagoya Japan : pp. 67-71, 2018.

Article Sidebar

Main Article Content

บทคัดย่อ

Article Details

เอกสารอ้างอิง