การสร้างคำบรรยายภาพด้วยแบบจำลอง CLIP Prefix Caption บนชุดข้อมูล Traffy Fondue
Main Article Content
บทคัดย่อ
Traffy Fondue เป็นระบบรับแจ้งเรื่องร้องเรียนที่กรุงเทพมหานครในการรับความคิดเห็นและข้อเสนอแนะที่ประชาชนมีต่อเมือง อย่างไรก็ตาม พบว่าจำนวนข้อมูลจากผู้ใช้งานจำนวนมากยังมีความไม่ชัดเจนในการแจ้งเรื่อง เช่น คำอธิบายและรูปภาพไม่สอดคล้องกัน ทำให้ยากต่อการทำงานของเจ้าหน้าที่ผู้รับเรื่องในการประสานงานเพื่อแก้ปัญหา ทีมวิจัยจึงเสนอวิธีการจัดกลุ่มข้อมูลเพื่อเพิ่มความสามารถในการจัดกลุ่มข้อมูลให้สะดวกขึ้นโดยใช้เทคนิคการประมวลผลข้อมูล โดยงานวิจัยนี้ เป็นการประยุกต์ใช้แบบจำลองโมเดล CLIP Prefix Caption สำหรับสร้างคำบรรยายรูปภาพและให้ระบบนำคำที่ได้ไปจัดกลุ่มหรือค้นหาปัญหาที่เกี่ยวข้องต่อไป โดยนำแบบจำลอง CLIP, CLIP Prefix Caption และ GPT-2 มาสร้างคำบรรยายภาพโดยใช้ภาพจาก Traffy Fondue ซึ่งผลการทดลองสรุปได้ว่า ค่า BLEU เท่ากับ 0.93% และ ROUGE-1 เท่ากับ 16.39% ซึ่งผลลัพธ์นี้ยังไม่ดีพอสำหรับการประยุกต์ใช้งานจริง ดังนั้น จึงทดลองเพิ่มโดยเสนอให้ใช้เป็นการจัดกลุ่มรูปภาพโดยใช้ค่าจาก Prefix Embeddings แทนการสร้างคำบรรยายจากภาพโดยตรง ซึ่งผลลัพธ์ชี้ให้เห็นว่าการศึกษานี้สามารถใช้เป็นแนวทางการพัฒนาต่อยอดได้
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
เอกสารอ้างอิง
Li, C., Xu, H., Tian, J., Wang, W., Yan, M., Bi, B., Ye, J., Chen, H., Xu, G., Cao, Z., Zhang, J., Huang, S., Huang, F., Zhou, J., & Si, L. (2022). mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. arXiv:2205.12005v2 [cs.CL]. https://doi.org/10.48550/ arXiv.2205.12005
Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research 9(86), 2579−2605. http://www.jmlr.org/papers/v9/vandermaaten08a.html
McInnes, L., Healy, J., & Melville, J. (2018). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv:1802.03426v3 [stat.ML]. https://doi.org/10.48550 /arXiv.1802.03426
Meister, C., Vieira, T., & Cotterell, R. (2020). Best-first beam search. Transactions of the Association for Computational Linguistics 8, 795-809. https://doi.org/10.1162/tacl_a_ 00346/96473.
Mokady, R., Hertz, A., & Bermano, A. H. (2021). ClipCap: CLIP Prefix for Image Captioning. arXiv:2111.09734v1. https://doi.org/10.48550/arXiv.2111.09734
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020v1. https://doi.org/10.48550/arXiv.2103. 00020
Wang, P., Yang, A., Men, R., Lin, J., Bai, S., Li, Z., Ma, J., Zhou, C., Zhou, J., & Yang, H. (17-23 Jul 2022). OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework. In K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvari, G. Niu, & S. Sabato (Eds.), Proceedings of the 39th International Conference on Machine Learning Vol. 162 (pp. 23318–23340). https://proceedings.mlr.press/v162/wang22al/ wang22al.pdf