TEXT CLASSIFICATION ANALYSIS BY STABILITY COMPARISON OF ALGORITHMS
Main Article Content
Abstract
This research presents a text classification analysis aiming to compare the stability of
four major types of classifiers, which are a rule based classifier, tree based classifier, probability based classifier, and learning based classifier. In this work, three-benchmark comment datasets, which were collected from “www.imdb.com”, “www.yelp.com”, and “www.amazon.com” (Accessed: 11 November 2016) were used to evaluate the stability of mentioned classifiers, by concerning a Receiver Operating Characteristic (ROC) and a paired t-test of predicted accuracy. The results showed that the tree based classifier, which is called Random Forest, presented the greatest stability performance with ROC > 0.80 and the difference of predicted accuracy between 10-fold cross validation and test dataset were “0”.
Article Details
References
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์.
จุฑาทิพย์ ทิพย์พูล และนิเวศ จิระวิชิตชัย. 2559.“การจำแนกจดหมายอิเล็กทรอนิกส์ที่เป็นสแปมโดยใช้เทคนิคเหมืองข้อมูล.” วารสารวิทยาศาสตร์และเทคโนโลยี มทร.ธัญบุรี 6, 1: 102-109.
ชูชาติ หฤไชยะศักดิ์. 2554. Material: Text mining. สืบค้นวันที่ 11 พฤศจิกายน 2559
ทิชากร เนตรสุวรรณ์ และไกรศักดิ์ เกษร. 2558.“การจำแนกข่ายภาษาอังกฤษด้านอาชญากรรมออนไลน์ ด้วยเทคนิคการทำเหมืองข้อความ.” รายงานสืบเนื่องการประชุมวิชาการระดับชาติ NCCIT2015 ครั้งที่ 11 วันที่ 2-3 กรกฎาคม 2558 ณ โรงแรมอโนมา กรุงเทพ, หน้า 61-65.
พนิดา ทรงรัมย์. 2559. “การจำแนกความคิดเห็นทางการเมืองบนเครือข่ายสังคมออนไลน์ โดยใช้วิธีการจำแนกแบบสัมพันธ์.” วารสารวิทยาศาสตร์และเทคโนโลยี มทร.ธัญบุรี 6, 1: 83-93.
ราชวิทย์ ทิพย์เสนา ฉัตรเกล้า เจริญผล และ แกมกาญจน์ สมประเสริฐศรี. 2557. “การจำแนกกลุ่มคำถามอัตโนมัติบนกระดานสนทนา.” วารสารวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม 33, 5: 493-502.
วลัยลักษณ์ สุขสมบูรณ์ และสมชาย ปราการเจริญ. 2553. “การเปรียบเทียบประสิทธิภาพการจำแนกประเภทปัญหาสำหรับระบบถามตอบโดยใช้ซัพพอร์ตเวกเตอร์แมชชีน นาอีฟเบย์และเคเนียรเรสต์เนเบอร์.” รายงานสืบเนื่องการประชุมวิชาการ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน ครั้งที่ 7 วันที่ 7-8 ธันวาคม 2553 ณ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน, หน้า 747-756.
Ali, W., Shamsuddin and Ismail A.S. 2011. “Web Proxy Cache Content Classification based on Support Vector Machine.” Journal of Artificial Intelligence 4, 1: 100-109.
Brian Kulis. 2012. Lecture 6: Bayesian Logistic Regression. CSE 788.04: Topics in Machine Learning.
Changki Lee and Gary Geunbae Lee, 2006. “Information Gain and Divergence - base Feature Selection for Machine Learning-based Text Categorization.” Journal of Information Processing and Management: an International Journal - Special issue: Formal methods for information retrieval 42, 1: 155-165.
Choochart tHaruechaiyasak, Wittawat Jitkrittum, Chatchawal Sangkeettrakarn, and Chaianun Damrongrat. 2008. “Implementing News Article Category Browsing Based on Text Categorization Technique.” In: IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, pp. 143-146.
Kanimozhi K. V. and Venkatesan M. 2015. “Unstructured Data Analysis - A Survey.” International Journal of Advanced Research in Computer and Communication Engineering 4, 3: 223-225.
Leo Breiman, 2001. “Random Forests.” Machine Learning 45, 1: 5-32.
Mohd Fauzi bin Othman and Thomas Moh Shan Yau. 2007. “Comparison of Different Classification Techniques Using WEKA for Breast Cancer.” In: 3rd Kuala Lumpur International Conference on Biomedical Engineering, pp. 520-523.
Quadri M. and Kalyankar. D. N. V. 2010. “Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques.” Global Journal of Computer Science and Technology 10, 2: 2-5.
Qiang Ding, Qin Ding, and William Perrizo. 2002. “Decision tree classification of spatial data streams using Peano Count Trees.” In: Proceedings of the 2002 ACM symposium on Applied computing, pp. 413-417.
Trupti A. Kumbhare and Santosh V. Chobe 2014. “An Overview of Association Rule Mining Algorithms.” International Journal of Computer Science and Information Technologies 5, 1: 927-930.