การประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์เชิงกำเนิดในการแปลงเสียง
Main Article Content
บทคัดย่อ
การวิจัยนี้มีวัตถุประสงค์ 1) เพื่อศึกษาแนวทางการประยุกต์เทคโนโลยีปัญญาประดิษฐ์ที่มีความเหมาะสมในการปลอมแปลงเสียงบุคคล 2) เพื่อพัฒนาแบบจำลองการปลอมแปลงเสียงด้วยเทคโนโลยีปัญญาประดิษฐ์เชิงกำเนิดและศึกษาแนวทางการปรับแต่งแบบจำลองให้มีความเหมาะสมกับการใช้งานบนมิติไซเบอร์ 3) เพื่อประเมินประสิทธิภาพและศักยภาพในการหลอกลวงโดยใช้เสียงปลอมแปลงที่สร้างจากแบบจำลอง 4) เพื่อนำเสนอแนวทางการประยุกต์ใช้งานเทคโนโลยีปัญญาประดิษฐ์เชิงกำเนิดในการปฏิบัติการทางไซเบอร์เชิงรุก
ผลการศึกษาพบว่า MaskCycleGAN-VC เป็นแบบจำลองปัญญาประดิษฐ์เชิงกำเนิดที่มีประสิทธิภาพสูงและเหมาะสมสำหรับการปลอมแปลงเสียงภาษาไทย แบบจำลองนี้สามารถสร้างเสียงปลอมที่มีความใกล้เคียงกับต้นฉบับได้อย่างเป็นธรรมชาติ ทั้งในด้านจังหวะการเว้นวรรค น้ำหนักเสียงและการถ่ายทอดอารมณ์ จุดเด่นสำคัญคือ ใช้เวลาเพียง 1 วันในการฝึกฝนแบบจำลองด้วยทรัพยากรคอมพิวเตอร์ระดับปานกลาง เสียงปลอมสามารถหลอกลวงผู้ฟังได้ 56% ขณะที่เสียงจริงถูกเข้าใจผิดว่าเป็นเสียงปลอมสูงสุด 59% สะท้อนถึงความท้าทายในการแยกแยะเสียงในสภาพแวดล้อมที่มีสัญญาณรบกวน โดยมีตัวชี้วัดดังนี้ 1) ค่าคะแนนความคิดเห็นเฉลี่ย (Mean Opinion Score: MOS) ความเป็นธรรมชาติสูงสุด 3.9 และความคล้ายคลึงสูงสุด 4.2 2) ค่าความผิดเพี้ยนของเมลเซปสตรัม (Mel Cepstral Distortion: MCD) ต่ำสุด 5 dB 3) ค่าระยะห่างเสียงเชิงลึกแบบเคอร์เนล (Kernel Deep Speech Distance: KDSD) ต่ำสุด 15.9 mKDSD แบบจำลองนี้มีศักยภาพสูงสำหรับการประยุกต์ใช้งานด้านความมั่นคงและการปฏิบัติการทางไซเบอร์เชิงรุกอย่างไรก็ตามการใช้งานควรดำเนินการอย่างระมัดระวัง เพื่อป้องกันการนำไปใช้ในทางที่ไม่เหมาะสม
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
- เนื้อหาและข้อมูลในบทความที่ตีพิมพ์ในวารสารวิทยาศาสตร์และเทคโนโลยีนายเรืออากาศ ถือเป็นข้อคิดเห็นและความรับผิดชอบของผู้เขียนบทความโดยตรง กองบรรณาธิการวารสาร ไม่จำเป็นต้องเห็นด้วย หรือร่วมรับผิดชอบใด ๆ
- บทความ ข้อมูล เนื้อหา รูปภาพ ฯลฯ ที่ได้รับการตีพิมพ์ในวารสารวิทยาศาสตร์และเทคโนโลยีนายเรืออากาศถือเป็นลิขสิทธิ์ของวารสารวิทยาศาสตร์และเทคโนโลยีนายเรืออากาศ หากบุคคลหรือหน่วยงานใดต้องการนำทั้งหมดหรือส่วนหนึ่งส่วนใดไปเผยแพร่ หรือเพื่อกระทำการใด ๆ จะต้องได้รับอนุญาตเป็นลายลักอักษรณ์จากวารสารวิทยาศาสตร์และเทคโนโลยีนายเรืออากาศ ก่อนเท่านั้น
เอกสารอ้างอิง
Gartner, “Gartner Identifies Top Cybersecurity Trends for 2024” [Online]. Available: https:// www.gartner.com/en/newsroom/press-releases/2024-02-22-gartner-identifies-top-cybersecurity- trends-for-2024. (Accessed: July. 20, 2024).
M. Jovanović and M. Campbell, “Generative Artificial Intelligence: Trends and Prospects,” IEEE Computer Society, vol. 55, no. 10, pp. 107-112, 2022.
ฐานเศรษฐกิจ, “มิจฉาชีพใช้ AI Clone เสียงหลอกโอนเงิน” [ออนไลน์]. Available: https://www.thansettak ij.com/technology/technology/576101. (เข้าถึงเมื่อ: 20 กรกฎาคม 2567).
สำนักงานตำรวจแห่งชาติ, “4 รูปแบบอาชญากรรมออนไลน์ที่ต้องจับตามองในปี 2567 เมื่อ AI ถูกใช้ในด้านมืด ปลอมได้สารพัด” [ออนไลน์]. Available: https://www.facebook.com/photo.php?fbid=766631268843499. (เข้าถึงเมื่อ: 20 กรกฎาคม 2567).
กระทรวงกลาโหม, “แผนการพัฒนาวิทยาศาสตร์และเทคโนโลยีป้องกันประเทศ พ.ศ. 2566-2570” [ออนไลน์]. Available: https://dstd.mod.go.th/getdoc/32fad3cd-50b1-46a0-b8b8-5c187ca9815a/planresearc h-66-70.aspx. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).
กองทัพอากาศ, “ยุทธศาสตร์กองทัพอากาศ 20 ปี (พ.ศ.2561-2580) (ฉบับปรับปรุงพ.ศ.2563)” [ออนไลน์]. Available: www.rtaf.mi.th/th/Documents/Publication/RTAF%20Strategy_Final_04122563.pdf. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).
กองทัพอากาศ, “นโยบายผู้บัญชาการทหารอากาศประจำปีพุทธศักราช 2567-2568” [ออนไลน์]. Available: https://heyzine.com/flipbook/e12bf07274.html#page/1. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).
สำนักเลขาธิการคณะรัฐมนตรี, “ยุทธศาสตร์ชาติ พ.ศ. 2561-2580” [ออนไลน์]. Available: https://www.rat chakitcha.soc.go.th/DATA/PDF/2561/A/082/T_0001.PDF. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).
ศูนย์ไซเบอร์กองทัพอากาศ, “ความรู้พื้นฐานสำหรับปฏิบัติการทางไซเบอร์ พ.ศ.2566” [ออนไลน์]. Available: https://cybercenter.rtaf.mi.th/wp-content/uploads/2024/02/01.วิชาความรู้พื้นฐานสำหรับปฏิบัติการทางไซเบอร์-1.pdf. (เข้าถึงเมื่อ: 25 กรกฎาคม 2567).
T. Walczyna and Z. Piotrowski, “Overview of voice conversion methods based on deep learning,” Applied Sciences, vol. 13, no. 5, pp. 3100, 2023.
T. Kaneko and H. Kameoka, “CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks,” in 2018 26th European Signal Processing Conference (EUSIPCO), 2018, pp. 2100-2104.
T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion,” in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6820–6824.
T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion,” in Proc. Interspeech, 2020.
T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in Frames,” in Proc. ICASSP, 2021, pp. 5919-5923.
I. H. Sarker, “Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions,” Springer Journal, vol. 2, no. 6, pp. 420, 2021.
พายัพ ศิรินาม และ ประสงค์ ปราณีตพลกรัง, “การพัฒนาโมเดลการเลียนเสียงเชิงลึกในการประยุกต์ใช้งานด้านสงครามไซเบอร์,” วารสารสถาบันวิชาการป้องกันประเทศ, ปีที่ 14, ฉบับที่ 1, หน้า 162–178, มกราคม-มิถุนายน, 2566.
F. Khanam, F. A. Munmun, N. A. Ritu, A. K. Saha, and M. F. Mridha, “Text to Speech Synthesis: A Systematic Review, Deep Learning Based Architecture and Future Research Direction,” Journal of Advances in Information Technology, vol. 13, no. 5, pp. 398-412, October 2022.
Y. A. Li, A. A. Zare, and N. Mesgarani, “StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion,”in Proc. Interspeech, 2021.
สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี, รายวิชาเพิ่มเติมวิทยาศาสตร์และเทคโนโลยี ฟิสิกส์ ชั้นมัธยมศึกษาปีที่ 5 เล่มที่ 4. พิมพ์ครั้งที่ 1. กรุงเทพมหานคร: สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี, 2563.
R. C. Streijl, S. Winkler, and D. S. Hands, “Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives,” Multimedia Systems, vol. 22, no. 2, pp. 213-227, March 2016.
X. Liang, Z. Bie, and S. Ma, “Pyramid Attention CycleGAN for Non-Parallel Voice Conversion,” in 2022 IEEE 8th International Conference on Computer and Communications (ICCC), 2022, pp. 139-143.
R. Kubichek, “Mel-cepstral distance measure for objective speech quality assessment,” in Proc. IEEE Pacific Rim Conference on Communications, Computers, and Signal Processing, 1993, pp. 125-128.
M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real-time applications,” IEICE Trans. Inf. Syst., vol. 99, no. 7, pp. 1877-1884, July 2016.
M. Shannon, “MCD: Mel-Cepstral Distortion” [Online]. Available: https://github.com/MattShan non/mcd. (Accessed: November. 12, 2024).
M. Binkowski, et al., “High fidelity speech synthesis with adversarial networks,” in Proc. ICLR, 2020.
D. Amodei, et al., “Deep Speech 2: End-to-end speech recognition in English and Mandarin,” in Proc. ICML, 2016, pp. 173-182.
Speechify, “Text-to-Speech Online in Thai,” [Online]. Available: https://speechify.com/text-to-speech-online/thai/. (Accessed: July. 25, 2024).
K. Sadov, M. Hutter, and A. Near, “Low-latency real-time voice conversion on CPU,” [Online]. Available: https://github.com/KoeAI/LLVC. (Accessed: July. 25, 2024).
J. Lorenzo-Trueba, et al., “The Voice Conversion Challenge 2018: Promoting development of parallel and nonparallel methods,” in Proc. The Speaker and Language Recognition Workshop (Odyssey 2018), Les Sables d’Olonne, France, Jun. 26–29, 2018.
S. Broughton, “Mel-Cepstral Distortion,” [Online]. Available: https://github.com/SamuelBrough ton/Mel-Cepstral-Distortion. (Accessed: November. 12, 2024).
HuggingFace, “wav2vec2-large-xlsr-53-th,” [Online]. Available: https://huggingface.co/airesearch /wav2vec2-large-xlsr-53-th. (Accessed: November. 12, 2024).
A. Baevski, H. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self-supervised learning of speech representations,” in Proc. 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada, 2020.
H. Y. Lwin, W. Kumwilaisak, C. Hansakunbuntheung, and N. Thatphithakkul, “Alaryngeal Speech Generation Using MaskCycleGAN-VC and Timbre-Enhanced Loss,” in Proc. 13th International Conference on Advances in Information Technology (IAIT 2023), December 06-09, Bangkok, Thailand, 2023.