การสร้างคำบรรยายภาพด้วยแบบจำลอง CLIP Prefix Caption บนชุดข้อมูล Traffy Fondue
คำสำคัญ:
CLIP, CLIP Prefix Caption, GPT-2, Prefix Embeddings, การสร้างคำบรรยายภาพ, Traffy Fondueบทคัดย่อ
Traffy Fondue เป็นระบบรับแจ้งเรื่องร้องเรียนที่กรุงเทพมหานครในการรับความคิดเห็นและข้อเสนอแนะที่ประชาชนมีต่อเมือง อย่างไรก็ตาม พบว่าจำนวนข้อมูลจากผู้ใช้งานจำนวนมากยังมีความไม่ชัดเจนในการแจ้งเรื่อง เช่น คำอธิบายและรูปภาพไม่สอดคล้องกัน ทำให้ยากต่อการทำงานของเจ้าหน้าที่ผู้รับเรื่องในการประสานงานเพื่อแก้ปัญหา ทีมวิจัยจึงเสนอวิธีการจัดกลุ่มข้อมูลเพื่อเพิ่มความสามารถในการจัดกลุ่มข้อมูลให้สะดวกขึ้นโดยใช้เทคนิคการประมวลผลข้อมูล โดยงานวิจัยนี้ เป็นการประยุกต์ใช้แบบจำลองโมเดล CLIP Prefix Caption สำหรับสร้างคำบรรยายรูปภาพและให้ระบบนำคำที่ได้ไปจัดกลุ่มหรือค้นหาปัญหาที่เกี่ยวข้องต่อไป โดยนำแบบจำลอง CLIP, CLIP Prefix Caption และ GPT-2 มาสร้างคำบรรยายภาพโดยใช้ภาพจาก Traffy Fondue ซึ่งผลการทดลองสรุปได้ว่า ค่า BLEU เท่ากับ 0.93% และ ROUGE-1 เท่ากับ 16.39% ซึ่งผลลัพธ์นี้ยังไม่ดีพอสำหรับการประยุกต์ใช้งานจริง ดังนั้น จึงทดลองเพิ่มโดยเสนอให้ใช้เป็นการจัดกลุ่มรูปภาพโดยใช้ค่าจาก Prefix Embeddings แทนการสร้างคำบรรยายจากภาพโดยตรง ซึ่งผลลัพธ์ชี้ให้เห็นว่าการศึกษานี้สามารถใช้เป็นแนวทางการพัฒนาต่อยอดได้
เอกสารอ้างอิง
Li, C., Xu, H., Tian, J., Wang, W., Yan, M., Bi, B., Ye, J., Chen, H., Xu, G., Cao, Z., Zhang, J., Huang, S., Huang, F., Zhou, J., & Si, L. (2022). mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. arXiv:2205.12005v2 [cs.CL]. https://doi.org/10.48550/ arXiv.2205.12005
Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research 9(86), 2579−2605. http://www.jmlr.org/papers/v9/vandermaaten08a.html
McInnes, L., Healy, J., & Melville, J. (2018). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv:1802.03426v3 [stat.ML]. https://doi.org/10.48550 /arXiv.1802.03426
Meister, C., Vieira, T., & Cotterell, R. (2020). Best-first beam search. Transactions of the Association for Computational Linguistics 8, 795-809. https://doi.org/10.1162/tacl_a_ 00346/96473.
Mokady, R., Hertz, A., & Bermano, A. H. (2021). ClipCap: CLIP Prefix for Image Captioning. arXiv:2111.09734v1. https://doi.org/10.48550/arXiv.2111.09734
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020v1. https://doi.org/10.48550/arXiv.2103. 00020
Wang, P., Yang, A., Men, R., Lin, J., Bai, S., Li, Z., Ma, J., Zhou, C., Zhou, J., & Yang, H. (17-23 Jul 2022). OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework. In K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvari, G. Niu, & S. Sabato (Eds.), Proceedings of the 39th International Conference on Machine Learning Vol. 162 (pp. 23318–23340). https://proceedings.mlr.press/v162/wang22al/ wang22al.pdf
ดาวน์โหลด
เผยแพร่แล้ว
ฉบับ
ประเภทบทความ
สัญญาอนุญาต

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.