การสร้างคำบรรยายภาพด้วยแบบจำลอง CLIP Prefix Caption บนชุดข้อมูล Traffy Fondue

Main Article Content

วสิศ ลิ้มประเสริฐ

บทคัดย่อ

Traffy Fondue เป็นระบบรับแจ้งเรื่องร้องเรียนที่กรุงเทพมหานครในการรับความคิดเห็นและข้อเสนอแนะที่ประชาชนมีต่อเมือง อย่างไรก็ตาม พบว่าจำนวนข้อมูลจากผู้ใช้งานจำนวนมากยังมีความไม่ชัดเจนในการแจ้งเรื่อง เช่น คำอธิบายและรูปภาพไม่สอดคล้องกัน ทำให้ยากต่อการทำงานของเจ้าหน้าที่ผู้รับเรื่องในการประสานงานเพื่อแก้ปัญหา ทีมวิจัยจึงเสนอวิธีการจัดกลุ่มข้อมูลเพื่อเพิ่มความสามารถในการจัดกลุ่มข้อมูลให้สะดวกขึ้นโดยใช้เทคนิคการประมวลผลข้อมูล โดยงานวิจัยนี้ เป็นการประยุกต์ใช้แบบจำลองโมเดล CLIP Prefix Caption สำหรับสร้างคำบรรยายรูปภาพและให้ระบบนำคำที่ได้ไปจัดกลุ่มหรือค้นหาปัญหาที่เกี่ยวข้องต่อไป โดยนำแบบจำลอง CLIP, CLIP Prefix Caption และ GPT-2 มาสร้างคำบรรยายภาพโดยใช้ภาพจาก Traffy Fondue ซึ่งผลการทดลองสรุปได้ว่า ค่า BLEU เท่ากับ 0.93% และ ROUGE-1 เท่ากับ 16.39% ซึ่งผลลัพธ์นี้ยังไม่ดีพอสำหรับการประยุกต์ใช้งานจริง ดังนั้น จึงทดลองเพิ่มโดยเสนอให้ใช้เป็นการจัดกลุ่มรูปภาพโดยใช้ค่าจาก Prefix Embeddings แทนการสร้างคำบรรยายจากภาพโดยตรง ซึ่งผลลัพธ์ชี้ให้เห็นว่าการศึกษานี้สามารถใช้เป็นแนวทางการพัฒนาต่อยอดได้

Article Details

ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

Li, C., Xu, H., Tian, J., Wang, W., Yan, M., Bi, B., Ye, J., Chen, H., Xu, G., Cao, Z., Zhang, J., Huang, S., Huang, F., Zhou, J., & Si, L. (2022). mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. arXiv:2205.12005v2 [cs.CL]. https://doi.org/10.48550/ arXiv.2205.12005

Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research 9(86), 2579−2605. http://www.jmlr.org/papers/v9/vandermaaten08a.html

McInnes, L., Healy, J., & Melville, J. (2018). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv:1802.03426v3 [stat.ML]. https://doi.org/10.48550 /arXiv.1802.03426

Meister, C., Vieira, T., & Cotterell, R. (2020). Best-first beam search. Transactions of the Association for Computational Linguistics 8, 795-809. https://doi.org/10.1162/tacl_a_ 00346/96473.

Mokady, R., Hertz, A., & Bermano, A. H. (2021). ClipCap: CLIP Prefix for Image Captioning. arXiv:2111.09734v1. https://doi.org/10.48550/arXiv.2111.09734

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020v1. https://doi.org/10.48550/arXiv.2103. 00020

Wang, P., Yang, A., Men, R., Lin, J., Bai, S., Li, Z., Ma, J., Zhou, C., Zhou, J., & Yang, H. (17-23 Jul 2022). OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework. In K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvari, G. Niu, & S. Sabato (Eds.), Proceedings of the 39th International Conference on Machine Learning Vol. 162 (pp. 23318–23340). https://proceedings.mlr.press/v162/wang22al/ wang22al.pdf