การสร้างตัวแบบหัวข้อ และตัวแบบจัดประเภทการเกลียดกลัวคนต่างชาติบนทวิตเตอร์ในช่วงการแพร่ระบาดของ COVID-19
คำสำคัญ:
การสร้างตัวแบบหัวข้อ, แบบจำลอง LDA, คุณสมบัติเฉพาะจากข้อความ, TF-IDF, Word2vec, การจำแนกข้อความบทคัดย่อ
งานวิจัยนี้นำเสนอการสร้างตัวแบบหัวข้อด้วยวิธี Latent Dirichlet Allocation (LDA) และตัวแบบจัดประเภทการเกลียดกลัวคนต่างชาติบนทวิตเตอร์ 2 อัลกอริทึม คือ Random Forest และ Support Vector Machine โดยมีการใช้ Word Embedding หรือ วิธีคัดเลือกคุณสมบัติเฉพาะทั้งหมด 3 วิธี คือ TF-IDF, Word2vec และ GloVe ในการเพิ่มความแม่นยำของตัวแบบ งานวิจัยนี้ใช้ข้อมูล Xenophobia on Twitter During COVID-19 จาก Kaggle จำนวน 1,000,000 Tweets โดยมีวัตถุประสงค์เพื่อสร้างตัวแบบหัวข้อการเกลียดกลัวคนต่างชาติบนทวิตเตอร์ในช่วงการแพร่ระบาดของ COVID-19 ซึ่งเป็นแนวทางในการหาสาเหตุ หรือ ประเด็นสำคัญที่พูดถึงในกลุ่มผู้ที่เกลียดกลัวคนต่างชาติ และเพื่อศึกษาอัลกอริทึมจัดประเภทที่เหมาะสมสำหรับการแบ่งแยกทวีตการเกลียดกลัว และไม่เกลียดกลัวคนต่างชาติ ทั้งยังเป็นแนวทางให้ทวิตเตอร์กรองทวีตที่อาจก่อให้เกิดความรุนแรง และสามารถออกมาตรการแก้ไข หรือป้องกันความรุนแรงที่จะเกิดขึ้นได้ ผลการศึกษาการสร้างตัวแบบหัวข้อ ผู้วิจัยได้ทำการแบ่งประเด็นสำคัญที่เหมาะสมออกเป็น 3 หัวข้อซึ่งให้ค่า Perplexity ต่ำที่สุด เท่ากับ 114186.86 ได้แก่ (1) Arrestment (การต่อต้านผู้ป่วยที่ติดเชื้อโดยให้จับกุม หรือควบคุมผู้ป่วยไม่ให้อยู่ร่วมกันในสังคม) (2) Disgusting
(การรังเกียจผู้ป่วยที่ติดเชื้อซึ่งถูกกักตัวอยู่ใกล้บริเวณถิ่นฐานที่อยู่) (3) Damnation (การประณาม หรือสาปแช่งผู้ป่วยที่ติดเชื้อให้เสียชีวิต เพื่อไม่ให้ไวรัสแพร่กระจาย) และผลการศึกษาตัวแบบจัดประเภทพบว่า อัลกอริทึม Random Forest เมื่อใช้ Word Embedding ด้วยวิธี TF-IDF ให้ค่าความแม่นยำ F1-Score, Recall และ ROC ไม่แตกต่างกัน เมื่อเปรียบเทียบกับวิธี Word2vec และ GloVe ทั้งนี้เมื่อพิจารณาด้วยค่า Precision วิธี TF-IDF ให้ค่าความแม่นยำสูงที่สุดเท่ากับ 0.35 ดังนั้น Random Forest เมื่อใช้ TF-IDF เป็นอัลกอริทึมที่เหมาะสมที่สุดกับการจัดประเภทข้อความการเกลียดกลัวและไม่เกลียดกลัวคนต่างชาติบนทวิตเตอร์ในช่วงการแพร่ระบาดของ COVID-19 ส่วนอัลกอริทึม Support Vector Machine เมื่อใช้ Word Embedding ด้วยวิธี Word2vec ให้ค่าความแม่นยำ F1-Score และ Precision สูงที่สุดเท่ากับ 0.43 และ 0.28 ตามลำดับ ดังนั้น Support Vector Machine เมื่อใช้ Word2vec เป็นอัลกอริทึมที่เหมาะสมที่สุดกับการจัดประเภทข้อความการเกลียดกลัวและไม่เกลียดกลัวคนต่างชาติบนทวิตเตอร์ในช่วงการแพร่ระบาดของ COVID-19
References
2. J. Bauomy, “COVID-19 and xenophobia: Why outbreaks are often accompanied by racism,” [Online]. Available: https://www.euronews.com/2020/03/05/covid-19-and-xenophobia-why-outbreaks-are-often-accompanied-by-racism. [Accessed 9 October 2020].
3. A. Kelly, “Attacks on Asian Americans skyrocket to 100 per day during coronavirus pandemic,” [Online]. Available: https://thehill.com/changing-america/respect/equality/490373-attacks-onasian-americans-at-about-100-per-day-due-to. [Accessed 9 October 2020].
4. J. B. Trauner, “Chinese as Medical Scapegoats,1870-1905,” [Online]. Available: https://www.foundsf.org/index.php?title=Chinese_as_Medical_Scapegoats%2C_1870-1905. [Accessed 9 October 2020].
5. S. O. Cheng, “Xenophobia due to the coronavirus outbreak – a letter to the editor in response to The socio-economic implications of the coronavirus pandemic (COVID-19): A review,” International Journal of Surgery., vol. 79, pp. 13-14, 2020.
6. Anti-Defamation League, “Reports of Anti-Asian Assaults, Harassment and Hate Crimes Rise as Coronavirus Spreads,” [Online]. Available: https://www.adl.org/blog/reports-of-anti-asian-assaults-harassment-and-hate-crimes-rise-as-coronavirus-spreads. [Accessed 9 October 2020].
7. J. Huang and R. Liu, “Xenophobia in America in the Age of Coronavirus and Beyond,” Journal of Vascular and Interventional Radiology., vol. 31, no. 7, pp. 1187-1188, 2020.
8. N. V. Chawla, N. Japkowicz and A. Kolcz, “Editorial: Special Issue on Learning from Imbalanced Data Sets,” ACM SIGKDD Explorations Newsletter., vol. 6, no. 1, pp. 1-6, 2004.
9. A. Estabrooks and N. Japkowicz, “A Mixture-of-Experts Framework for Learning from Imbalanced Data Sets,” in Proceedings of the 4th International Conference on Advances in Intelligent Data Analysis, Cascais, Portugal, 2001.
10. S. Cateni, V. Colla and M. Vannucci, “A method for resampling imbalanced datasets in binary classification tasks for real-world problems,” Neurocomputing., vol. 135, pp. 32–41, 2014.
11. U. Erra, S. Senatore, F. Minnella and G. Caggianese, “Approximate TF–IDF based on topic extraction from massive message stream using the GPU,” Information Sciences., vol. 292, pp. 143–161, 2015.
12. ปฏิญญา หัสกุล, “การวิเคราะห์ SMS ด้วยคุณสมบติเฉพาะจาก Bag-of-Words และทำนายอัตราการคลิก,” ปริญญามหาบัณฑิต, สาขาการวิเคราะห์ธุรกิจและวิทยาการข้อมูล, คณะสถิติประยุกต์, สถาบันบัณฑิตพัฒนบริหารศาสตร์, 2563.
13. T. Mikolov, I. Sutskever, K. Chen, G. Corrado and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proceedings of the 26th International Conference on Neural Information Processing Systems, Lake Tahoe, Nevada, 2013.
14. ศุภวัจน์ แต่รุ่งเรือง, “การตรวจเทียบภายนอกหาการลักลอกในงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ,” วิทยานิพนธ์ ปริญญาอักษรศาสตร์ดุษฎีบัณฑิต, สาขาวิชาภาษาศาสตร์, คณะอักษรศาสตร์, จุฬาลงกรณ์มหาวิทยาลัย, 2560.
15. J. Pennington, R. Socher and C. D. Manning, “Glove: Global vectors for word representation,” in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, United States, 2014.
16. A. Khatua, A. Khatua and E. Cambria, “A tale of two epidemics: Contextual Word2Vec for classifying twitter streams during outbreaks,” Information Processing & Management., vol. 56, no. 1, pp. 247–257, 2019.
17. D. M. Blei, A. Y. Ng and M. I. Jordan, “Latent Dirichlet Allocation,” Journal of Machine Learning Research., vol. 3, pp. 993-1022, 2003.
18. I. Vayansky and S. A. P. Kumar, “A review of topic modeling methods,” Information Systems., vol. 94, 2020.
19. ผไทรัช สีดา, “การแยกประเด็นสำคัญโดยอัตโนมัติจากข้อความรีวิวอาหารภาษาไทย,” ปริญญามหาบัณฑิต, สาขาปัญญาและการวิเคราะห์ธุรกิจ, คณะสถิติประยุกต์, สถาบันบัณฑิตพัฒนบริหารศาสตร์, 2563.
20. W. Ali, S. M. Shamsuddin and A. S. Ismail, “Web Proxy Cache Content Classification based on Support Vector Machine,” Journal of Artificial Intelligence., vol. 4, no. 1, pp. 100-109, 2011.
21. วลัยลักษณ์ สุขสมบูรณ์ และ สมชาย ปราการเจริญ, “การเปรียบเทียบประสิทธิภาพการจำแนกประเภทปัญหาสำหรับระบบถามตอบโดยใช้ซัพพอร์ตเวกเตอร์แมชชีน นาอีฟเบย์ และเคเนียรเรสต์เนเบอร์,” ใน รายงานสืบเนื่องการประชุมวิชาการมหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน ครั้งที่ 7, มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน, 2553.
22. L. Breiman, “Random Forests,” Machine Learning., vol. 45, no. 1, pp. 5-32, 2001.
23. วัชรีวรรณ จิตต์สกุล, “การวิเคราะห์การจำแนกข้อความด้วยการเปรียบเทียบความเสถียรของอัลกอริทึม,” ปริญญาดุษฎีบัณฑิต, สาขาวิชาเทคโนโลยีสารสนเทศ, คณะเทคโนโลยีสารสนเทศ, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2560.