วิธีการเลือกข้อมูลที่ไม่มีป้ายกำกับอย่างอัตโนมัติเพื่อการสร้าง โมเดลการเรียนรู้ร่วมแบบกึ่งมีผู้สอน

Main Article Content

ศิริขวัญ คีรีสุวรรณกุล
เอกสิทธิ์ พัชรวงศ์ศักดา

บทคัดย่อ

งานวิจัยนี้มีวัตถุประสงค์เพื่อปรับปรุงประสิทธิภาพโมเดลพยากรณ์ ด้วยวิธีการเลือกข้อมูลที่ไม่มีป้ายกำกับอย่างอัตโนมัติ เพื่อสร้างโมเดลการเรียนรู้ร่วมแบบกึ่งมีผู้สอน (semi-supervised Learning) ซึ่งเหมาะสำหรับข้อมูลที่มีป้ายกำกับ (labeled data) ปริมาณน้อยมาก โดยวิธีการที่นำเสนอนี้จะใช้ประโยชน์จากข้อมูลที่ไม่มีป้ายกำกับ (unlabeled data) ที่มีอยู่ปริมาณมากมาช่วยเพิ่มประสิทธิภาพของการสร้างโมเดลจำแนกประเภทข้อมูล (classification) หรือการประมาณค่า (regression) วิธีการที่นำเสนอนี้เริ่มด้วยการใช้โมเดล 2 โมเดลทำการกำกับค่าให้กับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นนำข้อมูลเหล่านี้มาทำการจัดกลุ่ม (clustering) ให้ข้อมูลที่มีความคล้ายคลึงกันอยู่ในกลุ่มเดียวกัน และแยกข้อมูลที่ต่างกันออกให้อยู่ต่างกลุ่มกัน ถัดมาจึงเลือกตัวแทนแต่ละกลุ่มเพื่อหาข้อมูลที่ทำให้โมเดลการพยากรณ์มีความคลาดเคลื่อนน้อยที่สุดเข้าไปเป็นชุดข้อมูลสอน (training data) ในรอบถัดไปและสร้างโมเดลพยากรณ์ใหม่ ทำซ้ำจนเพิ่มข้อมูลเข้าไปในชุดสอนได้ครบ จากนั้นการพยากรณ์ขั้นสุดท้ายทำได้โดยการหาค่าเฉลี่ยของการพยากรณ์จากทั้งสองโมเดลที่สร้างขึ้น จากการทดสอบด้วยข้อมูลจำนวน 3 ชุดแสดงให้เห็นว่าวิธีการที่นำเสนอ (AU-COREG) สามารถปรับปรุงประสิทธิภาพของโมเดลได้อย่างมีนัยสำคัญและช่วยลดเวลาลงไปมากกว่า 84% เมื่อเทียบกับวิธีการเดิม

Article Details

รูปแบบการอ้างอิง
[1]
คีรีสุวรรณกุล ศ. และ พัชรวงศ์ศักดา เ., “วิธีการเลือกข้อมูลที่ไม่มีป้ายกำกับอย่างอัตโนมัติเพื่อการสร้าง โมเดลการเรียนรู้ร่วมแบบกึ่งมีผู้สอน”, JIST, ปี 10, ฉบับที่ 1, น. 10–23, มิ.ย. 2020.
ประเภทบทความ
บทความวิจัย Soft Computing:

เอกสารอ้างอิง

Bizibl Marketing, “10 Key Marketing Trends for 2017 and Ideas for Exceeding Customer Expectations,” Bizibl Marketing, June 16, 2019. [Online]. Available: https://bizibl.com/marketing/download/10-key-marketing-trends-2017-and-ideas-exceeding-customer-expectations. [Accessed: June 16, 2020].

Blum A., Mitchell T., “Combining labeled and unlabeled data with co-training,” COLT' 98 Proceedings of the eleventh annual conference on Computational learning theory, July, 1998, pp. 92-100.

Didaci L., Fumera, G., Roli, F., “Analysis of co-training algorithm with very small training sets,” Gimel’farb, G., et al. (eds.) SSPR/SPR 2012. LNCS., Springer, Heidelberg., vol. 7626, 2012.

R. Wang and L. Li, "The performance improvement algorithm of co-training by committee," 2016 5th International Conference on Computer Science and Network Technology (ICCSNT), Changchun, 2016, pp. 407-412, doi: 10.1109/ICCSNT.2016.8070190.

Sousa R., Gama J., “Co-training Semi-Supervised Learning for Single-Target Regression in Data Streams Using AMRules,” In: Kryszkiewicz M., Appice A., Ślęzak D., Rybinski H., Skowron A., Raś Z. (eds) Foundations of Intelligent Systems, ISMIS 2017, Lecture Notes in Computer Science, Vol. 10352, 2017.

F Ma, D Meng, Q Xie, Z Li, X Don, “Self-paced co-training,” Proceedings of the 34th International Conference on Machine Learning, Vol. 70, pp. 2275-2284, 2017.

Zhi Hua., Ming Li., “Semi-supervised regression with co-training,” IJCAI’05 proceeding of the 19th international joint conference on artificial intelligence, July, 2005, pp. 908–913.