ระบบตรวจจับวัตถุและจำแนกแยกแยะประเภทของสินค้าจากภาพถ่ายด้วยการยืนยันผ่านเทคนิค OCR ร่วมกับเทคนิคการเรียนรู้ข้อมูลที่ไม่สมดุล
คำสำคัญ:
การจำแนกวัตถุจากรูปภาพ, การตรวจจับวัตถุจากรูปภาพ, การเรียนรู้ของเครื่อง, การเรียนรู้จากข้อมูลที่ไม่สมดุลบทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาแนวทางและเพิ่มประสิทธิภาพของการจำแนกและตรวจจับวัตถุในตู้คอนเทนเนอร์ระหว่างพิธีการทางศุลกากรโดยใช้ภาพถ่ายบรรจุภัณฑ์ จากรูปภาพ 5,113 รูปที่เก็บจากบริษัทขนส่งสินค้าระหว่างประเทศ 3 แห่งในกรุงเทพฯ โดยใช้แบบจำลองการเรียนรู้ของเครื่องเพื่อจำแนกสินค้าเป็น 5 ประเภท พบว่าอัลกอริทึม YOLOv4 มีความแม่นยำสูงสุดเมื่อไม่ใช้เทคนิค Resampling ในขณะที่เทคนิค Resampling เช่น SMOTE และ Borderline SMOTE ช่วยเพิ่มประสิทธิภาพการจำแนกในกรณีข้อมูลไม่สมดุล เทคนิค Undersampling ไม่เพิ่มความแม่นยำเนื่องจากทำให้ข้อมูลสำคัญสูญหาย การผสมผสานการตรวจจับวัตถุและ OCR ช่วยให้ระบบสามารถระบุประเภทสินค้าจากภาพถ่ายได้แม่นยำและรวดเร็วมากขึ้น กลไกที่เสนอในงานวิจัยนี้จะช่วยลดความเสี่ยงในการลักลอบนำเข้าสินค้าผิดกฎหมายและเพิ่มประสิทธิภาพในการดำเนินกระบวนการพิธีการทางศุลกากร
References
Prexawanprasut, T., Santiworarak, L., Nurarak, P., & Juasiripukdee, P. (2023). Employing Machine Learning and an OCR Validation Technique to Identify Product Category Based on Visible Packaging Features. In Proceedings of the 2023 6th International Conference on Machine Vision and Applications (ICMVA '23) (pp. 114–119). Association for Computing Machinery. https://doi.org/10.1145/3589572.3589589.
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324. https://doi.org/10.1109/5.726791.
Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Ren, S., He, K., Girshick, R., and Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks, Vol. 28. Advances in neural information processing systems, ISBN: 9781510825024.
Ren, S., He, K., Girshick, R., & Sun, J. (2017). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR) (pp. 779-788).
Redmon, J., & Farhadi, A. (2017). YOLO9000: Better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR) (pp. 7263-7271).
Redmon, J., & Farhadi, A. (2018). YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767.
Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv preprint arXiv:2004.10934.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
Han, H., Wang, W. Y., & Mao, B. H. (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In International conference on intelligent computing (pp. 878-887). Springer, Berlin, Heidelberg.
He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284.
Tappert, C. C., Suen, C. Y., & Wakahara, T. (1990). The state of the art in online handwriting recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(8), 787-808.
Prexawanprasut, T., Santiworarak, L., Nurarak, P., & Juasiripukdee, P. (2023). Employing Machine Learning and an OCR Validation Technique to Identify Product Category Based on Visible Packaging Features. In Proceedings of the 2023 6th International Conference on Machine Vision and Applications (ICMVA '23) (pp. 114–119). Association for Computing Machinery. https://doi.org/10.1145/3589572.3589589.
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324. https://doi.org/10.1109/5.726791.
Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Ren, S., He, K., Girshick, R., and Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks, Vol. 28. Advances in neural information processing systems, ISBN: 9781510825024.
Ren, S., He, K., Girshick, R., & Sun, J. (2017). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR) (pp. 779-788).
Redmon, J., & Farhadi, A. (2017). YOLO9000: Better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR) (pp. 7263-7271).
Redmon, J., & Farhadi, A. (2018). YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767.
Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv preprint arXiv:2004.10934.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
Han, H., Wang, W. Y., & Mao, B. H. (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In International conference on intelligent computing (pp. 878-887). Springer, Berlin, Heidelberg.
He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284.
Tappert, C. C., Suen, C. Y., & Wakahara, T. (1990). The state of the art in online handwriting recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(8), 787-808.