การตรวจจับพฤติกรรมผิดปกติของเหตุการณ์การเข้าถึงไฟล์บนระบบคลาวด์แบบเรียลไทม์โดยใช้เทคนิคการเรียนรู้ของเครื่องแบบสตรีม

พงษ์พิชญ์  เลิศเจริญวุฒา; เสกสรรค์  ศิวิลัย; ธงรบ  อักษร

ผู้แต่ง

พงษ์พิชญ์ เลิศเจริญวุฒา สาขาวิชาเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏพิบูลสงคราม
เสกสรรค์ ศิวิลัย สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏพิบูลสงคราม
ธงรบ อักษร สาขาวิชาเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏพิบูลสงคราม

คำสำคัญ:

การตรวจจับวัตถุ, ความผิดปกติ, เหตุการณ์การเข้าถึงไฟล์, ระบบคลาวด์ , การเรียนรู้ของเครื่องแบบสตรีม

บทคัดย่อ

งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาแนวทางการตรวจจับพฤติกรรมผิดปกติของเหตุการณ์การเข้าถึงไฟล์บนระบบคลาวด์แบบเรียลไทม์ โดยใช้เทคนิคการเรียนรู้ของเครื่องแบบสตรีม งานวิจัยดำเนินการเป็น 5 ระยะ ได้แก่ การสร้างแบบจำลองพื้นฐาน การตรวจสอบเสถียรภาพของโมเดล การจัดอันดับความสำคัญของฟีเจอร์ การเปรียบเทียบผลภายใต้ชุดฟีเจอร์ที่ลดลง และการทดลองหลักบนข้อมูลแบบสตรีมที่จำลองขึ้นโดยการปรับโครงสร้างข้อมูลบันทึกเหตุการณ์ HDFS ให้สอดคล้องกับโครงสร้างเหตุการณ์การเข้าถึงไฟล์บนระบบคลาวด์ ซึ่งใช้ชุดข้อมูลรวมทั้งสิ้น 250,000 เหตุการณ์ (แบ่งเป็นเหตุการณ์ปกติ 225,000 เหตุการณ์ และเหตุการณ์ผิดปกติ 25,000 เหตุการณ์) โมเดลที่ใช้ในการศึกษา ได้แก่ Half-Space Trees (HST), Logistic Regression (LR) และ Adaptive Random Forest (ARF) โดยประเมินผลด้วยวิธีพรีเควนเซียล ซึ่งเหมาะสมกับข้อมูลที่ไหลเข้าต่อเนื่องตามเวลา ผลการศึกษาพบว่า ARF ให้ผลดีที่สุดเชิงตัวเลขเมื่อใช้ชุดฟีเจอร์หลักร่วมกับฟีเจอร์ที่สร้างเพิ่มเติม 11 ตัว โดยมี Accuracy เท่ากับ 0.849965 และ F1-score เท่ากับ 0.839121 อย่างไรก็ตามเมื่อพิจารณาร่วมกับจำนวนฟีเจอร์และความซับซ้อนของระบบ พบว่าชุดฟีเจอร์หลักร่วมกับฟีเจอร์ที่สร้างเพิ่มเติม 5 ตัว มีความเหมาะสมมากกว่าสำหรับการนำไปใช้จริง โดยยังคงให้ Accuracy เท่ากับ 0.803863 และ F1-score เท่ากับ 0.782305 สรุปได้ว่า ARF เป็นโมเดลหลักที่เหมาะสมที่สุดสำหรับการตรวจจับความผิดปกติในข้อมูลสตรีมของระบบไฟล์บนคลาวด์ และผลที่ได้สามารถใช้เป็นฐานสำหรับการพัฒนาระบบตรวจจับและแจ้งเตือนความเสี่ยงในสภาพแวดล้อมจริงต่อไป

ประวัติผู้แต่ง

เสกสรรค์ ศิวิลัย, สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏพิบูลสงคราม

เอกสารอ้างอิง

Attou H, Guezzaz A, Benkirane S, Azrour M, Farhaoui Y. Cloud-based intrusion detection approach using machine learning techniques. Big Data Min Anal 2023;6(3):311-20.

Al-Ghuwairi AR, Sharrab Y, Al-Fraihat D, AlElaimat M, Alsarhan A, Algarni A. Intrusion detection in cloud computing based on time series anomalies utilizing machine learning. J Cloud Comput 2023;12(1):127.

Nassif AB, Talib MA, Nasir Q, Albadani H, Dakalbab FM. Machine learning for cloud security: a systematic review. IEEE Access 2021;9:20717-35.

Auxsorn T. A performance measurement framework for IaaS logging system with threat mitigation. Ph.D. Thesis, Naresuan University. Phitsanulok; 2022.

Padhiar S, Patel R. Outside the Closed World: On Using Machine Learning for Network Intrusion. in: Proceedings of Information and Communication Technology for Intelligent Systems (ICTIS), September 8, 2023; Singapore; 2023. p. 265-70.

Lu T, Wang L, Zhao X. Review of anomaly detection algorithms for data streams. Appl Sci 2023;13(10):6353.

Cao Y, Ma Y, Zhu Y, Ting KM. Revisiting streaming anomaly detection: Benchmark and evaluation. Artif Intell Rev 2025;58(1):8.

Suarez-Cetrulo AL, Quintana D, Cervantes A. A survey on machine learning for recurring concept drifting data streams. Expert Syst Appl 2023;213:118934.

Quickwit. Index a logging dataset locally. Quickwit Documentation [Internet]. 2026 [cited 2026 May 13]. Available from: https://quickwit.io/docs/0.7.1/get-started/tutorials/tutorial-hdfs-logs

MITRE. ATT&CK Matrix for Enterprise. The MITRE Corporation [Internet]. 2026 [cited 2026 May 22]. Available from: https://attack.mitre.org/

Al-Sada B, Sadighian A, Oligeri G. MITRE ATT&CK: State of the art and way forward. ACM Comput Surv 2024;57(1):1-37.

Liu JJ, Cassales GW, Liu FT, Pfahringer B, Bifet A. Adaptive Isolation Forest. In: International Conference on Discovery Science, September 22, 2025; Slovenia; 2025. p. 363-78.

AlQabbany AO, Azmi AM. Measuring the effectiveness of adaptive random forest for handling concept drift in big data streams. Entropy 2021;23(7):859.

Cano A, Krawczyk B. ROSE: robust online self-adjusting ensemble for continual learning on imbalanced drifting data streams. Mach Learn 2022;111(7):2561-99.

Garcia-Mendez S, de Arriba-Perez F, Leal F, Veloso B, Malheiro B, Burguillo-Rial JC. An explainable machine learning framework for railway predictive maintenance using data streams from the metro operator of Portugal. Sci Rep 2025;15(1):27495.

Xu J, Lin C, Liu F, Wang Y, Xiong W, Li Z, et al. StreamAD: A cloud platform metrics-oriented benchmark for unsupervised online anomaly detection. BenchCouncil Trans Benchmarks Stand Eval 2023;3(2):100121.

Dhal P, Azad C. A fine-tuning deep learning with multi-objective-based feature selection approach for the classification of text. Neural Comput Appl 2024;36(7):3525–53.

Gama J, Zliobaite I, Bifet A, Pechenizkiy M, Bouchachia A. A survey on concept drift adaptation. ACM Comput Surv 2014;46(4):1-37.

Souiden I, Omri MN, Brahmi Z. A survey of outlier detection in high dimensional data streams. Comput Sci Rev 2022;44:100463.

Saiyed AM. Experimental Evaluation of Real-Time Data Streaming Analytics Using Reinforcement Learning. J Integr Des Res 2024;5(4):51-61.

Bifet A, Gavalda R, Holmes G, Pfahringer B. Machine learning for data streams: with practical examples in MOA. Massachusetts: The MIT Press; 2017.

ผู้แต่ง

คำสำคัญ:

บทคัดย่อ

ประวัติผู้แต่ง

เสกสรรค์ ศิวิลัย, สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏพิบูลสงคราม

เอกสารอ้างอิง

ดาวน์โหลด

เผยแพร่แล้ว

รูปแบบการอ้างอิง

ฉบับ

ประเภทบทความ

สัญญาอนุญาต

journalinfo

Information

ภาษา