มาตรวัดระยะห่างสำหรับข้อมูลแบบผสมกับการวิเคราะห์กลุ่ม
คำสำคัญ:
ตัวแปรเชิงปริมาณ, ตัวแปรนามบัญญัติ, ตัวแปรอันดับ, ข้อมูลแบบผสม, ระยะห่างบทคัดย่อ
การศึกษาวิจัยนี้ได้เปรียบเทียบประสิทธิภาพการวิเคราะห์กลุ่มข้อมูลแบบผสม ซึ่งประกอบด้วยตัวแปรนามบัญญัติ ตัวแปรอันดับ และตัวแปรเชิงปริมาณ ด้วยอัลกอริทึมจัดกลุ่มโดยรอบมีดอยด์ โดยใช้มาตรวัดระยะห่างแบบต่าง ๆ คือ ระยะห่างของ Kaufman and Rousseeuw (KR) ระยะห่างของ Podani (P) ซึ่งทั้งสองพัฒนามาจากความคล้ายของ Gower และมาตรวัดระยะห่างที่เสนอขึ้นใหม่โดยประยุกต์ระยะห่างสำหรับตัวแปรนามบัญญัติของ Noorbehbahani et al. (N) ร่วมกับ KR และ P ทำให้ระบุความต่างระหว่างข้อมูลได้ละเอียดยิ่งขึ้น โดยจำลองข้อมูลแบบผสมที่กำหนดให้ทราบกลุ่มแน่ชัด รวมถึงพิจารณากรณีที่ความถี่ของแต่ละประเภทหรืออันดับข้อมูลไม่แตกต่างและแตกต่างกัน ผลการศึกษาพบว่ากรณีที่ความถี่ของแต่ละประเภทหรืออันดับแตกต่างกัน การวิเคราะห์กลุ่มด้วยอัลกอริทึมจัดกลุ่มโดยรอบมีดอยด์ที่ใช้ระยะห่างแบบผสม KR ร่วมกับ N มีประสิทธิภาพดีกว่าการวิเคราะห์กลุ่มด้วยระยะห่างแบบอื่น ๆ แต่กรณีที่ความถี่ของแต่ละประเภทหรืออันดับไม่แตกต่างกัน พบว่าการวิเคราะห์กลุ่มด้วยระยะห่างแบบต่าง ๆ มีประสิทธิภาพใกล้เคียงกัน
References
Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 27 (4), 857-871.
Kaufman, L. & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. USA: A Wiley-Interscience Publication.
Madhulatha, T. S. (2011). Comparison between K-Means and K-Medoids Clustering Algorithms. Communications in Computer and Information Science, 198, 472-481.
Noorbehbahani, F. Mousavi, S. R., & Mirzaei, A. (2014). An incremental mixed data clustering method using a new distance measure. Springer-Verlag Berlin Heidelberg,
Podani, J. (1999). Extending Gower’s general coefficient of similarity to ordinal characters, International Association for Plant Taxonomy, 48 (2), 331-340.
Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, (20), 53-65.
Downloads
เผยแพร่แล้ว
How to Cite
ฉบับ
บท
License
เนื้อหาและข้อมูลที่ปรากฏในบทความที่ตีพิมพ์ในวารสารสถิติประยุกต์และเทคโนโลยีสารสนเทศถือเป็นความคิดเห็นส่วนบุคคลของผู้เขียนแต่ละท่าน ความผิดพลาดของข้อความและผลที่อาจเกิดจากนำข้อความเหล่านั้นไปใช้ผู้เขียนบทความจะเป็นผู้รับผิดชอบแต่เพียงผู้เดียว
บทความ ข้อมูล เนื้อหา รูปภาพ ฯลฯ ที่ได้รับการตีพิมพ์ในวารสารถือเป็นลิขสิทธิ์ของวารสาร หากบุคคลหรือหน่วยงานใดต้องการนำทั้งหมดหรือส่วนหนึ่งส่วนใดไปเผยแพร่ต่อหรือเพื่อกระทำการใดๆ จะต้องได้รับอนุญาตเป็นลายลักอักษรณ์จากวารสาร ก่อนเท่านั้น