การเพิ่มประสิทธิภาพการสุ่มเพิ่มข้อมูลสำหรับข้อมูลไม่สมดุลในการจำแนกประเภท

ผู้แต่ง

  • นพมาศ อัครจันทโชติ สาขาวิชาวิทยาการคำนวณและเทคโนโลยีดิจิทัล คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยหัวเฉียวเฉลิมพระเกียรติ
  • ศิลา เต็มศิริฤกษ์กุล สาขาวิชาวิทยาการคำนวณและเทคโนโลยีดิจิทัล คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยหัวเฉียวเฉลิมพระเกียรติ
  • วรนุช มีภูมิรู้ สาขาวิชาวิทยาการคำนวณและเทคโนโลยีดิจิทัล คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยหัวเฉียวเฉลิมพระเกียรติ
  • ยุวธิดา ชิวปรีชา สาขาวิชาวิทยาการคำนวณและเทคโนโลยีดิจิทัล คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยหัวเฉียวเฉลิมพระเกียรติ

คำสำคัญ:

ข้อมูลที่ไม่สมดุล, วิธีการสุ่มเพิ่มข้อมูล, โฮเทลลิงทีสแควร์, การจำแนกประเภท

บทคัดย่อ

การดำเนินงานกับปัญหาการจำแนกประเภท ข้อมูลที่ไม่สมดุลเป็นความท้าทายที่พบได้บ่อย ซึ่งตัวจำแนกประเภทมีแนวโน้มที่จะจำแนกหน่วยตัวอย่างใหม่เป็นกลุ่มส่วนใหญ่ ทำให้การทำนายกลุ่มส่วนน้อยมีประสิทธิภาพต่ำ ดังนั้นจึงควรคำนึงถึงการแก้ปัญหาข้อมูลไม่สมดุล การสุ่มเพิ่มข้อมูลเป็นวิธีการหนึ่งที่ไม่ซับซ้อนในการจัดการกับข้อมูลไม่สมดุล แต่หน่วยตัวอย่างที่ถูกสุ่มซ้ำบางตัวอาจไม่ได้เป็นหน่วยตัวอย่างที่สำคัญต่อการจำแนกประเภท งานวิจัยนี้จึงได้นำเสนอวิธีการใหม่ในการจัดการกับข้อมูลที่ไม่สมดุลด้วย Hotelling Important Data Point Oversampling Algorithm (HIDPO) ซึ่งเป็นการปรับปรุงแนวทางการสุ่มเพิ่มข้อมูล วัตถุประสงค์ของงานวิจัยเพื่อเปรียบเทียบประสิทธิภาพการจำแนกประเภท เมื่อใช้ข้อมูลดั้งเดิม ข้อมูลจากการสุ่มเพิ่มข้อมูลระหว่างวิธีสุ่มเพิ่มข้อมูลกลุ่มส่วนน้อย (Random Oversampling: ROS) และวิธีที่นำเสนอใหม่ HIDPO บนข้อมูลจำลอง 96 สถานการณ์ของ 4 พารามิเตอร์ ได้แก่ 1) อัตราความไม่สมดุล (IR)  2) จำนวนตัวแปรทำนายที่เกี่ยวข้องกับการจำแนกประเภท (RelVar) 3) ความแตกต่างของค่าเฉลี่ยของตัวแปรทำนายที่เกี่ยวข้องกับการจำแนกระหว่างกลุ่มส่วนน้อยกับกลุ่มส่วนใหญ่ (ClassDif) และ 4) ขนาดตัวอย่าง (n) โดยจำแนกประเภทด้วยการสร้างตัวแบบการถดถอย    ลอจิสติก ผลการทดลองพบว่า วิธี HIDPO ให้ค่าการวัดเอฟสูงสุดในสถานการณ์ที่มีความแตกต่างกันน้อยระหว่างกลุ่มส่วนน้อยและกลุ่มส่วนใหญ่ โดยเฉพาะเมื่อมีความไม่สมดุลกันมาก อันเป็นสถานการณ์ที่มีความยากในการจำแนกประเภท ส่วนอัตราความถูกต้องในการทำนายกลุ่มส่วนน้อย และอัตราความถูกต้องในการทำนายกลุ่มส่วนใหญ่ วิธี HIDPO ให้ค่าปานกลาง

References

Sara F, Shahrokh A, Michael WK. A comprehensive data level analysis for cancer diagnosis on imbalanced data. J Biomed Inf 2019;90:103089.

Soh WW, Rika MY. Predicting Credit Card Fraud on an Imbalanced Data. Int J Data Sci Adv Anal 2019;1(1):12-7.

Meryem C, Mohamed H. A sight on defect detection methods for imbalanced industrial data. ITM Web of Conferences 2022;43:01012.

กิตติภพ แซ่เตีย, จิรภัทร์ หยกรัตนศักดิ์. การจัดการข้อมูลไม่สมดุลของการทำกลยุทธ์เสนอขายประกันต่อยอดสำหรับผู้ถือบัตรเครดิต. ใน: เอกสารประกอบการประชุมวิชาการระดับชาติ ครั้งที่ 13 วันที่ 8 - 9 กรกฎาคม 2564. มหาวิทยาลัยราชภัฏนครปฐม. นครปฐม; 2564. หน้า 514-23.

Andrea B. Imbalanced Data Classification with Neural Networks and Classifiers. [Internet]. 2021 [cited 2024 Apr 14]. Available from: https://aboskovic21.github.io/projects/thesis.pdf

Aida A, Siti MS, Anca LR. Classification with class imbalance problem: A Review. Int J Advance Soft Compu Appl 2015;7(3):176-204.

Firuz K, Ho-Hon L, Aswani KC. Keep it simple: random oversampling for imbalanced data. In: proceedings of Advances in Science and Engineering Technology International Conferences (ASET), February 20-23, 2023; Dubai, United Arab Emirates; 2023. p. 1-4.

Michelle J, Maria M. A Comparison of Resampling Techniques to Handle the Class Imbalance Problem in Machine Learning Conversion prediction of Spotify Users - A Case Study. [Internet]. 2017 [cited 2024 Apr 14]. Available from: https://www.kth.se/social/files/5a5ad14056be5b323d61de10/MJagelid.MMovin.pdf

กัลยา วานิชย์บัญชา. การวิเคราะห์ข้อมูลหลายตัวแปร. กรุงเทพฯ: บริษัทธรรมสารจำกัด; 2552.

Ronald EW, Raymond HM. Probability and Statistics for Engineers and Scientists. 5th ed. New York: Macmillan Publishing Company; 1993.

Qianyou M. Recent Applications and Perspectives of Logistic Regression Modelling in Healthcare. In: proceedings of the 2nd International Conference on Mathematical Physics and Computational Simulation, August 9, 2024; Glasgow, UK; 2024. p.185-90.

Mingze S. Research on Influencing Factors of Video Game Sales using Binary Logistic Regression. In: 3rd International Conference on Applied Mathematics, Modeling Simulation and Automatic Control (AMMSAC 2024), June 22-23, 2024; San Diego, USA; 2024. p. 65-70.

Abdulrashid S, Zahriya LH, Anas TB. A Logistic Regression-based Model for Identifying Credit Card Fraudulent Transactions. Asian J Res Com Sci 2024;17(7):41-54.

Prabhakaran N, Nedunchelian R. Combined Feature Set with Logistic Regression Model to Detect Credit Card Frauds in Real Time Applications. J Mach Comput 2024;4(3):804-12.

Art BO. Infinitely Imbalanced Logistic Regression. J Mach Learn Res 2007;8:761-73.

Pang-Ning T, Michael S, Vipin K. Introduction to Data Mining. Boston: Pearson Education, Inc.; 2006.

Lian Y, Nengfeng Z. Survey of Imbalanced Data Methodologies. [Internet]. 2021 [cited 2024 Apr 14]. Available from: https://arxiv.org/pdf/2104.02240

Himanshu T. What Is Balanced And Imbalanced Dataset?. [Internet]. 2019 [cited 2024 Apr 14]. Available from: https://medium.com/analytics-vidhya/what-is-balance-and-imbalance-dataset-89e8d7f46bc5

Downloads

เผยแพร่แล้ว

2024-11-15