มาตรวัดระยะห่างสำหรับข้อมูลแบบผสมกับการวิเคราะห์กลุ่ม

ผู้แต่ง

  • พิชญา บุตรขุนทอง
  • อัครินทร์ ไพบูลย์พานิช

คำสำคัญ:

ตัวแปรเชิงปริมาณ, ตัวแปรนามบัญญัติ, ตัวแปรอันดับ, ข้อมูลแบบผสม, ระยะห่าง

บทคัดย่อ

การศึกษาวิจัยนี้ได้เปรียบเทียบประสิทธิภาพการวิเคราะห์กลุ่มข้อมูลแบบผสม ซึ่งประกอบด้วยตัวแปรนามบัญญัติ ตัวแปรอันดับ และตัวแปรเชิงปริมาณ ด้วยอัลกอริทึมจัดกลุ่มโดยรอบมีดอยด์ โดยใช้มาตรวัดระยะห่างแบบต่าง ๆ คือ ระยะห่างของ Kaufman and Rousseeuw (KR) ระยะห่างของ Podani (P) ซึ่งทั้งสองพัฒนามาจากความคล้ายของ Gower และมาตรวัดระยะห่างที่เสนอขึ้นใหม่โดยประยุกต์ระยะห่างสำหรับตัวแปรนามบัญญัติของ Noorbehbahani et al. (N) ร่วมกับ KR และ P ทำให้ระบุความต่างระหว่างข้อมูลได้ละเอียดยิ่งขึ้น โดยจำลองข้อมูลแบบผสมที่กำหนดให้ทราบกลุ่มแน่ชัด รวมถึงพิจารณากรณีที่ความถี่ของแต่ละประเภทหรืออันดับข้อมูลไม่แตกต่างและแตกต่างกัน ผลการศึกษาพบว่ากรณีที่ความถี่ของแต่ละประเภทหรืออันดับแตกต่างกัน การวิเคราะห์กลุ่มด้วยอัลกอริทึมจัดกลุ่มโดยรอบมีดอยด์ที่ใช้ระยะห่างแบบผสม KR ร่วมกับ N มีประสิทธิภาพดีกว่าการวิเคราะห์กลุ่มด้วยระยะห่างแบบอื่น ๆ แต่กรณีที่ความถี่ของแต่ละประเภทหรืออันดับไม่แตกต่างกัน พบว่าการวิเคราะห์กลุ่มด้วยระยะห่างแบบต่าง ๆ มีประสิทธิภาพใกล้เคียงกัน

Author Biographies

พิชญา บุตรขุนทอง

ภาควิชาสถิติ คณะพาณิชยศาสตร์และการบัญชี จุฬาลงกรณ์มหาวิทยาลัย

อัครินทร์ ไพบูลย์พานิช

ภาควิชาสถิติ คณะพาณิชยศาสตร์และการบัญชี จุฬาลงกรณ์มหาวิทยาลัย

References

Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis. 5th ed. London: A John Wiley and Sons, Ltd., Publication.

Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 27 (4), 857-871.

Kaufman, L. & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. USA: A Wiley-Interscience Publication.

Madhulatha, T. S. (2011). Comparison between K-Means and K-Medoids Clustering Algorithms. Communications in Computer and Information Science, 198, 472-481.

Noorbehbahani, F. Mousavi, S. R., & Mirzaei, A. (2014). An incremental mixed data clustering method using a new distance measure. Springer-Verlag Berlin Heidelberg,

Podani, J. (1999). Extending Gower’s general coefficient of similarity to ordinal characters, International Association for Plant Taxonomy, 48 (2), 331-340.

Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, (20), 53-65.

Downloads

เผยแพร่แล้ว

2019-01-03

How to Cite

บุตรขุนทอง พ., & ไพบูลย์พานิช อ. (2019). มาตรวัดระยะห่างสำหรับข้อมูลแบบผสมกับการวิเคราะห์กลุ่ม. วารสารสถิติประยุกต์และเทคโนโลยีสารสนเทศ, 1(1), 31–45. สืบค้น จาก https://ph02.tci-thaijo.org/index.php/asit-journal/article/view/164670