การวิเคราะห์การจำแนกข้อความด้วยการเปรียบเทียบความเสถียรของอัลกอริทึ
Main Article Content
บทคัดย่อ
งานวิจัยนี้นำเสนอการวิเคราะห์การจำแนกข้อความ เพื่อศึกษาความเสถียรของอัลกอริทึมเพื่อ
การจำแนก 4 รูปแบบพื้นฐานได้แก่ ฐานกฎ ฐานต้นไม้ตัดสินใจ ฐานความน่าจะเป็น และฐานการเรียนรู้ กับข้อความทดสอบ 3 ชุด จากเว็บไซต์ www.imdb.com, www.yelp.com และ www.amazon.com (ข้อมูล ณ วันที่ 11 พฤศจิกายน 2559) เพื่อศึกษาความเสถียรของอัลกอริทึม การวิเคราะห์เส้นโค้งคุณลักษณะสมบัติการทำงาน (ROC) และการทดสอบความแตกต่างของค่ากลางความถูกต้องของอัลกอริทึม (Paired-t Test) ถูกนำมานำเสนอความเสถียรของอัลกอริทึมที่ศึกษา ทั้งนี้ผลการวิเคราะห์แสดงให้เห็นว่า อัลกอริทึมฐานต้นไม้ตัดสินใจ ได้แก่ Random Forest แสดงความเสถียรการจำแนกข้อความทดสอบได้สูงกว่าอัลกอริทึมที่ศึกษาอื่นๆ ด้วยค่าเฉลี่ย ROC > 0.80 และผลต่างของค่ากลางความถูกต้องของการทดสอบระหว่างการแบ่งข้อมูลออกเป็น 10 ส่วน และวิธีข้อมูลทดสอบเท่ากับ 0 อย่างมีนัยสำคัญ
Article Details
เอกสารอ้างอิง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์.
จุฑาทิพย์ ทิพย์พูล และนิเวศ จิระวิชิตชัย. 2559.“การจำแนกจดหมายอิเล็กทรอนิกส์ที่เป็นสแปมโดยใช้เทคนิคเหมืองข้อมูล.” วารสารวิทยาศาสตร์และเทคโนโลยี มทร.ธัญบุรี 6, 1: 102-109.
ชูชาติ หฤไชยะศักดิ์. 2554. Material: Text mining. สืบค้นวันที่ 11 พฤศจิกายน 2559
ทิชากร เนตรสุวรรณ์ และไกรศักดิ์ เกษร. 2558.“การจำแนกข่ายภาษาอังกฤษด้านอาชญากรรมออนไลน์ ด้วยเทคนิคการทำเหมืองข้อความ.” รายงานสืบเนื่องการประชุมวิชาการระดับชาติ NCCIT2015 ครั้งที่ 11 วันที่ 2-3 กรกฎาคม 2558 ณ โรงแรมอโนมา กรุงเทพ, หน้า 61-65.
พนิดา ทรงรัมย์. 2559. “การจำแนกความคิดเห็นทางการเมืองบนเครือข่ายสังคมออนไลน์ โดยใช้วิธีการจำแนกแบบสัมพันธ์.” วารสารวิทยาศาสตร์และเทคโนโลยี มทร.ธัญบุรี 6, 1: 83-93.
ราชวิทย์ ทิพย์เสนา ฉัตรเกล้า เจริญผล และ แกมกาญจน์ สมประเสริฐศรี. 2557. “การจำแนกกลุ่มคำถามอัตโนมัติบนกระดานสนทนา.” วารสารวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยมหาสารคาม 33, 5: 493-502.
วลัยลักษณ์ สุขสมบูรณ์ และสมชาย ปราการเจริญ. 2553. “การเปรียบเทียบประสิทธิภาพการจำแนกประเภทปัญหาสำหรับระบบถามตอบโดยใช้ซัพพอร์ตเวกเตอร์แมชชีน นาอีฟเบย์และเคเนียรเรสต์เนเบอร์.” รายงานสืบเนื่องการประชุมวิชาการ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน ครั้งที่ 7 วันที่ 7-8 ธันวาคม 2553 ณ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกำแพงแสน, หน้า 747-756.
Ali, W., Shamsuddin and Ismail A.S. 2011. “Web Proxy Cache Content Classification based on Support Vector Machine.” Journal of Artificial Intelligence 4, 1: 100-109.
Brian Kulis. 2012. Lecture 6: Bayesian Logistic Regression. CSE 788.04: Topics in Machine Learning.
Changki Lee and Gary Geunbae Lee, 2006. “Information Gain and Divergence - base Feature Selection for Machine Learning-based Text Categorization.” Journal of Information Processing and Management: an International Journal - Special issue: Formal methods for information retrieval 42, 1: 155-165.
Choochart tHaruechaiyasak, Wittawat Jitkrittum, Chatchawal Sangkeettrakarn, and Chaianun Damrongrat. 2008. “Implementing News Article Category Browsing Based on Text Categorization Technique.” In: IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, pp. 143-146.
Kanimozhi K. V. and Venkatesan M. 2015. “Unstructured Data Analysis - A Survey.” International Journal of Advanced Research in Computer and Communication Engineering 4, 3: 223-225.
Leo Breiman, 2001. “Random Forests.” Machine Learning 45, 1: 5-32.
Mohd Fauzi bin Othman and Thomas Moh Shan Yau. 2007. “Comparison of Different Classification Techniques Using WEKA for Breast Cancer.” In: 3rd Kuala Lumpur International Conference on Biomedical Engineering, pp. 520-523.
Quadri M. and Kalyankar. D. N. V. 2010. “Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques.” Global Journal of Computer Science and Technology 10, 2: 2-5.
Qiang Ding, Qin Ding, and William Perrizo. 2002. “Decision tree classification of spatial data streams using Peano Count Trees.” In: Proceedings of the 2002 ACM symposium on Applied computing, pp. 413-417.
Trupti A. Kumbhare and Santosh V. Chobe 2014. “An Overview of Association Rule Mining Algorithms.” International Journal of Computer Science and Information Technologies 5, 1: 927-930.