การพัฒนาแบบจำลองการค้นคืนรูปภาพเชิงความหมาย โดยใช้การฝึกฝนตัวแบบล่วงหน้าแบบคอนทราสต์ระหว่างรูปภาพและข้อความ


  • จักรินทร์ สันติรัตนภักดี สำนักวิชาศาสตร์และศิลป์ดิจิทัล มหาวิทยาลัยเทคโนโลยีสุรนารี , สาขาวิชาเทคโนโลยีธุรกิจดิจิทัล คณะบริหารธุรกิจ มหาวิทยาลัยวงษ์ชวลิตกุล
  • ศุภกฤษฏิ์ นิวัฒนากูล สำนักวิชาศาสตร์และศิลป์ดิจิทัล มหาวิทยาลัยเทคโนโลยีสุรนารี


การค้นคืนรูปภาพ, การฝึกฝนล่วงหน้า, การเรียนรู้แบบคอนทราสต์, การเรียนรู้เชิงลึก


งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาและประเมินประสิทธิภาพแบบจำลองการค้นคืนรูปภาพเชิงความหมาย โดยใช้ การฝึกฝนล่วงหน้าแบบคอนทราสต์ ประกอบด้วย 3 โมดูล ได้แก่ 1) โมดูลการสร้างชุดคำอธิบายรูปภาพ เพื่อฝึกฝนตัวเข้ารหัสรูปภาพ และตัวเข้ารหัสข้อความตามความคล้ายคลึงโคไซน์บนพื้นที่การฝังหลายรูปแบบ ก่อนจะแจกแจงความน่าจะเป็นของค่าเอาต์พุตด้วยฟังก์ชันซอฟต์แม็กซ์ จากนั้นจะคำนวณค่าการสูญเสียเพื่อเปรียบเทียบระหว่างผลประเมินความหมายของรูปภาพจากผู้เชี่ยวชาญกับผลการพยากรณ์ความน่าจะเป็นของป้ายกำกับจากตัวแบบ เพื่อปรับพารามิเตอร์ในการเรียนรู้ความหมายของรูปภาพตามแนวคิดการแผ่กระจายย้อนหลังเพื่อเรียนรู้ซ้ำอีกครั้งด้วยการเรียนรู้ด้วยตนเอง และถ่ายโอนการเรียนรู้เพื่อติดป้ายกำกับข้อมูลให้กับรูปภาพด้วยแนวคิดระดับสูงในรูปแบบนามธรรมของรูปภาพที่ได้จากการเรียนรู้ความคล้ายคลึงเชิงความหมาย ก่อนจะสร้างเป็นเวกเตอร์คุณลักษณะรูปภาพ 2) โมดูลการประมวลผลข้อความค้นหาจากผู้ใช้ในรูปแบบภาษาธรรมชาติสำหรับเข้ารหัสข้อความ เพื่อสร้างเวกเตอร์คุณลักษณะข้อความค้นหา 3) โมดูลการจับคู่เวกเตอร์คุณลักษณะรูปภาพและเวกเตอร์คุณลักษณะข้อความค้นหาจากค่าความคล้ายคลึงของเวกเตอร์ ก่อนจะเรียงลำดับตามความเกี่ยวข้อง และแสดงเป็นผลลัพธ์การค้นคืนรูปภาพแก่ผู้ใช้ ผลประเมินประสิทธิภาพการค้นคืนรูปภาพเชิงความหมายพบว่า 1) ค่าเฉลี่ยส่วนกลับของลำดับบนชุดข้อมูล Flickr30k และชุดข้อมูลที่ผู้วิจัยรวบรวมเองมีค่าเท่ากับ 0.628 และ 0.617 ตามลำดับ ที่ตำแหน่ง k = 5 และ 2) ค่าความครบถ้วนที่ k ลำดับ จำนวน 1, 3 และ 5 รูปภาพบนชุดข้อมูล Flickr30k มีค่าความครบถ้วนเฉลี่ย 0.585, 0.664 และ 0.761 เมื่อเปรียบเทียบกับชุดข้อมูลที่ผู้วิจัยรวบรวมเองพบว่าค่าความครบถ้วนที่ k ลำดับลดลงเล็กน้อยแต่เป็นไปในทิศทางเดียวกัน ผลลัพธ์จากงานวิจัยนี้จะช่วยลดปัญหาช่องว่างความหมาย และช่วยสนับสนุนผู้ใช้ด้วยคำค้นหาในรูปแบบภาษาธรรมชาติที่ยึดโยงกับความหมายของรูปภาพแทนที่จะยึดตามหลักไวยากรณ์ของภาษา


