The Application of Generative Artificial Intelligence Technology in Voice Conversion

Main Article Content

Anon Bangsan
Payap Sirinam

Abstract

This research aims to 1) explore the appropriate application of artificial intelligence (AI) technology for voice spoofing, 2) develop a generative AI-based voice spoofing model and investigate optimization strategies to enhance its suitability for cyber domain applications, 3) evaluate the performance and deception potential of synthetic voices generated by the model, and 4) propose practical applications of generative AI technology in offensive cyber operations.
The findings indicated that MaskCycleGAN-VC was a highly effective generative artificial intelligence model suitable for voice spoofing in the Thai language. This model could generate synthetic voices that closely resembled the original in terms of naturalness, including rhythm, intonation, and emotional expression. A key feature of the model was its ability to be developed and trained within just one day, using only moderate computational resources. The synthetic voices generated by the model could deceive listeners into believing they were genuine voices with an accuracy of up to 56%, while genuine voices were misclassified as synthetic in up to 59% of cases. This highlighted the challenges of distinguishing between genuine and synthetic voices in noisy environments. Performance metrics included a Mean Opinion Score (MOS) score for naturalness of up to 3.9 and similarity of up to 4.2, with a minimum Mel Cepstral Distortion (MCD) of 5 dB and Kernel Deep Speech Distance (KDSD) of 15.9 mKDSD. This model demonstrated significant potential for applications in security and offensive cyber operations, including support for intelligence activities, confusion in emergency scenarios, and simulated training exercises. However, its usage should be approached with caution to prevent misuse in unethical contexts.

Article Details

How to Cite
[1]
A. Bangsan and P. Sirinam, “The Application of Generative Artificial Intelligence Technology in Voice Conversion”, NKRAFA J.Sci Technol., vol. 21, no. 2, pp. 135–157, May 2025.
Section
Research Articles

References

Gartner, “Gartner Identifies Top Cybersecurity Trends for 2024” [Online]. Available: https:// www.gartner.com/en/newsroom/press-releases/2024-02-22-gartner-identifies-top-cybersecurity- trends-for-2024. (Accessed: July. 20, 2024).

M. Jovanović and M. Campbell, “Generative Artificial Intelligence: Trends and Prospects,” IEEE Computer Society, vol. 55, no. 10, pp. 107-112, 2022.

ฐานเศรษฐกิจ, “มิจฉาชีพใช้ AI Clone เสียงหลอกโอนเงิน” [ออนไลน์]. Available: https://www.thansettak ij.com/technology/technology/576101. (เข้าถึงเมื่อ: 20 กรกฎาคม 2567).

สำนักงานตำรวจแห่งชาติ, “4 รูปแบบอาชญากรรมออนไลน์ที่ต้องจับตามองในปี 2567 เมื่อ AI ถูกใช้ในด้านมืด ปลอมได้สารพัด” [ออนไลน์]. Available: https://www.facebook.com/photo.php?fbid=766631268843499. (เข้าถึงเมื่อ: 20 กรกฎาคม 2567).

กระทรวงกลาโหม, “แผนการพัฒนาวิทยาศาสตร์และเทคโนโลยีป้องกันประเทศ พ.ศ. 2566-2570” [ออนไลน์]. Available: https://dstd.mod.go.th/getdoc/32fad3cd-50b1-46a0-b8b8-5c187ca9815a/planresearc h-66-70.aspx. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).

กองทัพอากาศ, “ยุทธศาสตร์กองทัพอากาศ 20 ปี (พ.ศ.2561-2580) (ฉบับปรับปรุงพ.ศ.2563)” [ออนไลน์]. Available: www.rtaf.mi.th/th/Documents/Publication/RTAF%20Strategy_Final_04122563.pdf. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).

กองทัพอากาศ, “นโยบายผู้บัญชาการทหารอากาศประจำปีพุทธศักราช 2567-2568” [ออนไลน์]. Available: https://heyzine.com/flipbook/e12bf07274.html#page/1. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).

สำนักเลขาธิการคณะรัฐมนตรี, “ยุทธศาสตร์ชาติ พ.ศ. 2561-2580” [ออนไลน์]. Available: https://www.rat chakitcha.soc.go.th/DATA/PDF/2561/A/082/T_0001.PDF. (เข้าถึงเมื่อ: 23 กรกฎาคม 2567).

ศูนย์ไซเบอร์กองทัพอากาศ, “ความรู้พื้นฐานสำหรับปฏิบัติการทางไซเบอร์ พ.ศ.2566” [ออนไลน์]. Available: https://cybercenter.rtaf.mi.th/wp-content/uploads/2024/02/01.วิชาความรู้พื้นฐานสำหรับปฏิบัติการทางไซเบอร์-1.pdf. (เข้าถึงเมื่อ: 25 กรกฎาคม 2567).

T. Walczyna and Z. Piotrowski, “Overview of voice conversion methods based on deep learning,” Applied Sciences, vol. 13, no. 5, pp. 3100, 2023.

T. Kaneko and H. Kameoka, “CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks,” in 2018 26th European Signal Processing Conference (EUSIPCO), 2018, pp. 2100-2104.

T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion,” in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6820–6824.

T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion,” in Proc. Interspeech, 2020.

T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in Frames,” in Proc. ICASSP, 2021, pp. 5919-5923.

I. H. Sarker, “Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions,” Springer Journal, vol. 2, no. 6, pp. 420, 2021.

พายัพ ศิรินาม และ ประสงค์ ปราณีตพลกรัง, “การพัฒนาโมเดลการเลียนเสียงเชิงลึกในการประยุกต์ใช้งานด้านสงครามไซเบอร์,” วารสารสถาบันวิชาการป้องกันประเทศ, ปีที่ 14, ฉบับที่ 1, หน้า 162–178, มกราคม-มิถุนายน, 2566.

F. Khanam, F. A. Munmun, N. A. Ritu, A. K. Saha, and M. F. Mridha, “Text to Speech Synthesis: A Systematic Review, Deep Learning Based Architecture and Future Research Direction,” Journal of Advances in Information Technology, vol. 13, no. 5, pp. 398-412, October 2022.

Y. A. Li, A. A. Zare, and N. Mesgarani, “StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion,”in Proc. Interspeech, 2021.

สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี, รายวิชาเพิ่มเติมวิทยาศาสตร์และเทคโนโลยี ฟิสิกส์ ชั้นมัธยมศึกษาปีที่ 5 เล่มที่ 4. พิมพ์ครั้งที่ 1. กรุงเทพมหานคร: สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี, 2563.

R. C. Streijl, S. Winkler, and D. S. Hands, “Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives,” Multimedia Systems, vol. 22, no. 2, pp. 213-227, March 2016.

X. Liang, Z. Bie, and S. Ma, “Pyramid Attention CycleGAN for Non-Parallel Voice Conversion,” in 2022 IEEE 8th International Conference on Computer and Communications (ICCC), 2022, pp. 139-143.

R. Kubichek, “Mel-cepstral distance measure for objective speech quality assessment,” in Proc. IEEE Pacific Rim Conference on Communications, Computers, and Signal Processing, 1993, pp. 125-128.

M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real-time applications,” IEICE Trans. Inf. Syst., vol. 99, no. 7, pp. 1877-1884, July 2016.

M. Shannon, “MCD: Mel-Cepstral Distortion” [Online]. Available: https://github.com/MattShan non/mcd. (Accessed: November. 12, 2024).

M. Binkowski, et al., “High fidelity speech synthesis with adversarial networks,” in Proc. ICLR, 2020.

D. Amodei, et al., “Deep Speech 2: End-to-end speech recognition in English and Mandarin,” in Proc. ICML, 2016, pp. 173-182.

Speechify, “Text-to-Speech Online in Thai,” [Online]. Available: https://speechify.com/text-to-speech-online/thai/. (Accessed: July. 25, 2024).

K. Sadov, M. Hutter, and A. Near, “Low-latency real-time voice conversion on CPU,” [Online]. Available: https://github.com/KoeAI/LLVC. (Accessed: July. 25, 2024).

J. Lorenzo-Trueba, et al., “The Voice Conversion Challenge 2018: Promoting development of parallel and nonparallel methods,” in Proc. The Speaker and Language Recognition Workshop (Odyssey 2018), Les Sables d’Olonne, France, Jun. 26–29, 2018.

S. Broughton, “Mel-Cepstral Distortion,” [Online]. Available: https://github.com/SamuelBrough ton/Mel-Cepstral-Distortion. (Accessed: November. 12, 2024).

HuggingFace, “wav2vec2-large-xlsr-53-th,” [Online]. Available: https://huggingface.co/airesearch /wav2vec2-large-xlsr-53-th. (Accessed: November. 12, 2024).

A. Baevski, H. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self-supervised learning of speech representations,” in Proc. 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada, 2020.

H. Y. Lwin, W. Kumwilaisak, C. Hansakunbuntheung, and N. Thatphithakkul, “Alaryngeal Speech Generation Using MaskCycleGAN-VC and Timbre-Enhanced Loss,” in Proc. 13th International Conference on Advances in Information Technology (IAIT 2023), December 06-09, Bangkok, Thailand, 2023.