Topic Modeling and Text Classification for Xenophobia on Twitter during COVID-19
Keywords:
Topic modeling, LDA model, Word Embedding, TF-IDF, Word2vec, Text ClassificationAbstract
This research presents a topic modeling using the Latent Dirichlet Allocation (LDA) and two classification algorithms, which are Random Forest and Support Vector Machine for Xenophobia on Twitter during COVID-19 with three methods of Word Embedding - TF-IDF, Word2vec and GloVe. The dataset contains Xenophobia on Twitter During COVID-19 around 1,000,000 tweets from Kaggle. This research aimed to build the topic model for Xenophobia on Twitter during COVID-19 and study suitable classification algorithms for Xenophobic or Non-Xenophobic and also provides a way for Twitter to filter out tweets that are potentially violent. The results of topic modeling was showed 3 unique important topics that given the lowest Perplexity of 114186.86 which are (1) Arrestment (2) Disgusting (3) Damnation. As the results of classification algorithms were showed that Random Forest when using TF-IDF given F1-Score, Recall and ROC were not different but Precision was the highest value of 0.35. Therefore, Random Forest when using TF-IDF was the most suitable algorithm for Xenophobic or Non-Xenophobic classify during COVID-19. In addition, Support Vector Machine when using Word2vec given the highest F1-Score and Precision value of 0.43 and 0.28, respectively. Therefore, Support Vector Machine when using Word2vec was the most suitable algorithm for Xenophobic or Non-Xenophobic classify during COVID-19.
References
2. J. Bauomy, “COVID-19 and xenophobia: Why outbreaks are often accompanied by racism,” [Online]. Available: https://www.euronews.com/2020/03/05/covid-19-and-xenophobia-why-outbreaks-are-often-accompanied-by-racism. [Accessed 9 October 2020].
3. A. Kelly, “Attacks on Asian Americans skyrocket to 100 per day during coronavirus pandemic,” [Online]. Available: https://thehill.com/changing-america/respect/equality/490373-attacks-onasian-americans-at-about-100-per-day-due-to. [Accessed 9 October 2020].
4. J. B. Trauner, “Chinese as Medical Scapegoats,1870-1905,” [Online]. Available: https://www.foundsf.org/index.php?title=Chinese_as_Medical_Scapegoats%2C_1870-1905. [Accessed 9 October 2020].
5. S. O. Cheng, “Xenophobia due to the coronavirus outbreak – a letter to the editor in response to The socio-economic implications of the coronavirus pandemic (COVID-19): A review,” International Journal of Surgery., vol. 79, pp. 13-14, 2020.
6. Anti-Defamation League, “Reports of Anti-Asian Assaults, Harassment and Hate Crimes Rise as Coronavirus Spreads,” [Online]. Available: https://www.adl.org/blog/reports-of-anti-asian-assaults-harassment-and-hate-crimes-rise-as-coronavirus-spreads. [Accessed 9 October 2020].
7. J. Huang and R. Liu, “Xenophobia in America in the Age of Coronavirus and Beyond,” Journal of Vascular and Interventional Radiology., vol. 31, no. 7, pp. 1187-1188, 2020.
8. N. V. Chawla, N. Japkowicz and A. Kolcz, “Editorial: Special Issue on Learning from Imbalanced Data Sets,” ACM SIGKDD Explorations Newsletter., vol. 6, no. 1, pp. 1-6, 2004.
9. A. Estabrooks and N. Japkowicz, “A Mixture-of-Experts Framework for Learning from Imbalanced Data Sets,” in Proceedings of the 4th International Conference on Advances in Intelligent Data Analysis, Cascais, Portugal, 2001.
10. S. Cateni, V. Colla and M. Vannucci, “A method for resampling imbalanced datasets in binary classification tasks for real-world problems,” Neurocomputing., vol. 135, pp. 32–41, 2014.
11. U. Erra, S. Senatore, F. Minnella and G. Caggianese, “Approximate TF–IDF based on topic extraction from massive message stream using the GPU,” Information Sciences., vol. 292, pp. 143–161, 2015.
12. ปฏิญญา หัสกุล, “การวิเคราะห์ SMS ด้วยคุณสมบติเฉพาะจาก Bag-of-Words และทำนายอัตราการคลิก,” ปริญญามหาบัณฑิต, สาขาการวิเคราะห์ธุรกิจและวิทยาการข้อมูล, คณะสถิติประยุกต์, สถาบันบัณฑิตพัฒนบริหารศาสตร์, 2563.
13. T. Mikolov, I. Sutskever, K. Chen, G. Corrado and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proceedings of the 26th International Conference on Neural Information Processing Systems, Lake Tahoe, Nevada, 2013.
14. ศุภวัจน์ แต่รุ่งเรือง, “การตรวจเทียบภายนอกหาการลักลอกในงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ,” วิทยานิพนธ์ ปริญญาอักษรศาสตร์ดุษฎีบัณฑิต, สาขาวิชาภาษาศาสตร์, คณะอักษรศาสตร์, จุฬาลงกรณ์มหาวิทยาลัย, 2560.
15. J. Pennington, R. Socher and C. D. Manning, “Glove: Global vectors for word representation,” in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, United States, 2014.
16. A. Khatua, A. Khatua and E. Cambria, “A tale of two epidemics: Contextual Word2Vec for classifying twitter streams during outbreaks,” Information Processing & Management., vol. 56, no. 1, pp. 247–257, 2019.
17. D. M. Blei, A. Y. Ng and M. I. Jordan, “Latent Dirichlet Allocation,” Journal of Machine Learning Research., vol. 3, pp. 993-1022, 2003.
18. I. Vayansky and S. A. P. Kumar, “A review of topic modeling methods,” Information Systems., vol. 94, 2020.
19. ผไทรัช สีดา, “การแยกประเด็นสำคัญโดยอัตโนมัติจากข้อความรีวิวอาหารภาษาไทย,” ปริญญามหาบัณฑิต, สาขาปัญญาและการวิเคราะห์ธุรกิจ, คณะสถิติประยุกต์, สถาบันบัณฑิตพัฒนบริหารศาสตร์, 2563.
20. W. Ali, S. M. Shamsuddin and A. S. Ismail, “Web Proxy Cache Content Classification based on Support Vector Machine,” Journal of Artificial Intelligence., vol. 4, no. 1, pp. 100-109, 2011.
21. วลัยลักษณ์ สุขสมบูรณ์ และ สมชาย ปราการเจริญ, “การเปรียบเทียบประสิทธิภาพการจำแนกประเภทปัญหาสำหรับระบบถามตอบโดยใช้ซัพพอร์ตเวกเตอร์แมชชีน นาอีฟเบย์ และเคเนียรเรสต์เนเบอร์,” ใน รายงานสืบเนื่องการประชุมวิชาการมหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน ครั้งที่ 7, มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน, 2553.
22. L. Breiman, “Random Forests,” Machine Learning., vol. 45, no. 1, pp. 5-32, 2001.
23. วัชรีวรรณ จิตต์สกุล, “การวิเคราะห์การจำแนกข้อความด้วยการเปรียบเทียบความเสถียรของอัลกอริทึม,” ปริญญาดุษฎีบัณฑิต, สาขาวิชาเทคโนโลยีสารสนเทศ, คณะเทคโนโลยีสารสนเทศ, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2560.