การพัฒนาประสิทธิภาพตัวแบบค้นหาเชิงความหมายจากเทคนิค Doc2Vec เพื่อประยุกต์ใช้สำหรับการสืบค้นเพลงด้วยเสียงร้อง

Main Article Content

พิศาล สุขขี

บทคัดย่อ

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อ 1) พัฒนาประสิทธิภาพตัวแบบค้นหาเชิงความหมายจากเทคนิค Doc2Vec 2) พัฒนาระบบการค้นหาเพลงจากเสียงร้องด้วยตัวแบบการค้นหาเชิงความหมายจากเทคนิค Doc2Vec สำหรับข้อมูลที่ใช้ในการศึกษาวิจัยคือ เนื้อเพลงภาษาไทยประเภทเพลงลูกทุ่งจำนวน 1,500 เพลง ในการพัฒนาประสิทธิภาพของตัวแบบ ผู้วิจัยได้ทำการค้นหาค่าไฮเปอร์พารามิเตอร์ที่เหมาะสมเพื่อเพิ่มประสิทธิภาพของตัวแบบ การค้นหาขนาดของคำสอบถามที่มีความเหมาะสม และส่งผลต่อความแม่นยำในการค้นหาของตัวแบบ ตลอดจนการนำตัวแบบที่ผ่านการพัฒนาประสิทธิภาพไปพัฒนาระบบต้นแบบเพื่อใช้สำหรับสืบค้นเพลงด้วยเสียงร้อง


ผลการวิจัยพบว่า 1) การศึกษาเพื่อพัฒนาประสิทธิภาพตัวแบบทำให้ทราบขนาดของคำสอบถามที่ส่งผลต่อประสิทธิภาพการค้นหาของตัวแบบอยู่ที่ขนาดความยาวมากกว่าร้อยละ 30 ของเนื้อเพลงต้นฉบับที่ต้องการสืบค้น และขนาดของเวกเตอร์ หรือมิติข้อมูลที่มีความเหมาะสมต่อการนำมาสร้างตัวแบบจากชุดข้อมูล เนื้อเพลงลูกทุ่งอยู่ที่ขนาดเท่ากับ 200 และการคงคำหยุดไว้เนื้อเพลงจะส่งผลต่อประสิทธิภาพในการสืบค้น ของตัวแบบสูงกว่าการกำจัดคำหยุดออกไป 2) การพัฒนาโปรแกรมสำหรับสืบค้นเพลงด้วยเสียงร้อง ซึ่งผู้วิจัยใช้ Web Speech API เป็นโปรแกรมสำหรับรับเสียงร้องจากผู้ใช้งาน และนำไปสืบค้นกับตัวแบบที่ถูกพัฒนาประสิทธิภาพให้เหมาะสม ซึ่งทำให้ทราบถึงความเหมาะสมว่าต้องร้องเนื้อเพลงด้วยความยาวเท่าใดที่จะทำให้สามารถสืบค้นบทเพลงตามที่ต้องการได้ โดยคำสอบถามนั้นไม่จำเป็นต้องมีความถูกต้องตามเนื้อของเพลงต้นฉบับ

Article Details

บท
บทความวิจัย

References

[1] สมจิน เปียโคกสูง, และนิศาชล จํานงศรี. (2553). ระบบนําทางความรู้เพื่อการเข้าถึงเนื้อหาในสื่อสิ่งพิมพ์. วารสารสารสนเทศ ศาสตร์, 28(3), 9-20.
[2] บุษบงก์ คชินทรโรจน์, เดือนเพ็ญ ธีรวรรณวิวัฒน์ และพาชิตชนัต ศิริพานิช. (2564). การสร้างระบบคัดกรองข้อความการเกลียดกลัวคนต่างชาติบนทวิตเตอร์ในช่วงการแพร่ระบาดของโรคติดเชื้อไวรัสโคโรนา 2019. Thai Journal of Operations Research: TJOR, 9(1), 31-44.
[3] Mikolov T., Chen K., Corrado G.S., & Dean J. (2013). Efficient Estimation of Word Representations in Vector Space. ICLR.
[4] Le Q., Mikolov T. (2014). Distributed Representations of Sentences and Document. Proceedings of the 31st International Conference on Machine Learning, Beijing, China.
[5] Dai A.M., Olah C., & Le Q.V. (2015). Document Embedding with Paragraph Vectors. ArXiv, abs/1507.07998.
[6] Lau J.H., & Baldwin T. (2016). An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation. Proceedings of the 1st Workshop on Representation Learning for NLP (pp. 78–86), Berlin, Germany: Association for Computational Linguistics.
[7] Kaothanthong N., Kongyoung S., & Theeramunkong T. (2021). Headline2Vec: A CNN-based Feature for Thai Clickbait Headlines Classification. International Scientific Journal of Engineering And Technology, 5(1), 20-31.
[8] Alshammeria M., Atwella E., Alsalkaa M.A. (2021). Detecting Semantic-based Similarity Between Verses of The Quran with Doc2vec. Procedia Computer Science, 189, 351-358.
[9] Budiarto A., Rahutomo R., Putra H. N., Cenggoro T. W., Kacamarga M. F., & Pardamean B. (2021). Unsupervised News Topic Modelling with Doc2Vec and Spherical Clustering. Procedia Computer Science, 179, 40-46.
[10] Patra B.G., Das D., and Bandyopadhyay S. (2017). Retrieving Similar Lyrics for Music Recommendation System. Proceeding of Conference on Natural Language Processing (pp. 290-297), Kolkata, India: NLP Association of India (NLPAI).