ขั้นตอนวิธีการบีบอัดข้อความภาษาไทยโดยอาศัยรูปแบบการสร้างคำ
Main Article Content
บทคัดย่อ
การบีบอัดข้อความแบบไม่มีการสูญเสียข้อมูลเป็นหลักทางวิทยาการคอมพิวเตอร์ที่จำเป็นอย่างยิ่งต่อการลดขนาดพื้นที่จัดเก็บข้อมูลขนาดใหญ่ให้เหลือน้อยที่สุด หลักการนี้ถูกพัฒนาต่อเนื่องมายาวนาน ทั้งยังอยู่ในความสนใจของนักวิจัยเสมอมา บทความวิจัยนี้นำเสนอการออกแบบขั้นตอนวิธีบีบอัดข้อมูลใหม่ที่มีประสิทธิภาพสูง สำหรับใช้บีบอัดข้อความภาษาไทย กลไกขั้นตอนวิธีคือการสร้างแบบพจนานุกรมแบบใหม่เรียกว่าส่วนเตรียมการประมวลผล (Pre-Processing) โดยอาศัยรูปแบบของสร้างคำศัพท์ของภาษาไทย เพื่อใช้การอ้างอิงคำศัพท์ระหว่างการบีบอัดและคลายบีบอัดข้อมูล ดำเนินการบีบอัดจัดเก็บข้อมูลในแฟ้มแบบบิตด้วยขั้นตอนวิธีที่พัฒนาขั้น (Word-Formation Thai Text Compression Algorithm (WFTTCA)) กระบวนการบีบอัดตามขั้นตอนวิธีที่พัฒนาขึ้นใหม่นี้ สามารถบีบอัดข้อมูลในเชิงทฤษฎีที่แทนด้วยรหัสแอสกี-ทีไอเอส 620 ได้ถึงร้อยละ 37.50-79.17 ที่ค่าเฉลี่ยมากสุดถึง 63.75 รหัสยูนิโค้ด ร้อยละ 68.75-89.58 ที่ค่าเฉลี่ยมากสุด 81.88 และรหัสยูทีเอฟ-8 ร้อยละ 79.17-93.06 ที่ค่าเฉลี่ยมากสุด 87.92 ด้วยอัตราการบีบอัดอยู่ระหว่าง 3.51-10.5 เท่าของข้อมูลต้นฉบับ ผลทดลองจากการพัฒนาโปรแกรมตามขั้นตอนวิธีที่ออกแบบใหม่ ใช้บีบอัดข้อมูลภาษาไทยขนาด 1 ถึง 100 กิโลไบต์ ที่มาจากการสุ่มและนำเข้าข้อมูลจริงจากข่าวในเว็บไซต์ พบว่า โปรแกรมที่นำเสนอสามารถบีบอัดข้อมูล รหัสแอสกี-ทีไอเอส 620 ได้ร้อยละ 78.09-84.55 รหัสยูนิโค้ดบีบอัดได้ร้อยละ 81.05-86.62 และรหัสยูทีเอฟ-8 บีบอัดได้ร้อยละ 88.09-91.11 และเมื่อเปรียบเทียบประสิทธิภาพการบีบอัดที่ได้กับซอฟต์แวร์บีบอัดข้อมูลที่นิยมใช้ในปัจจุบัน พบว่า โปรแกรมที่พัฒนาขึ้นจากขั้นตอนวิธีใหม่สามารถบีบอัดได้สูงมากอย่างมีนัยสำคัญทั้งร้อยละการบีบอัดและอัตราการบีบอัด
Article Details
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
I/we certify that I/we have participated sufficiently in the intellectual content, conception and design of this work or the analysis and interpretation of the data (when applicable), as well as the writing of the manuscript, to take public responsibility for it and have agreed to have my/our name listed as a contributor. I/we believe the manuscript represents valid work. Neither this manuscript nor one with substantially similar content under my/our authorship has been published or is being considered for publication elsewhere, except as described in the covering letter. I/we certify that all the data collected during the study is presented in this manuscript and no data from the study has been or will be published separately. I/we attest that, if requested by the editors, I/we will provide the data/information or will cooperate fully in obtaining and providing the data/information on which the manuscript is based, for examination by the editors or their assignees. Financial interests, direct or indirect, that exist or may be perceived to exist for individual contributors in connection with the content of this paper have been disclosed in the cover letter. Sources of outside support of the project are named in the cover letter.
I/We hereby transfer(s), assign(s), or otherwise convey(s) all copyright ownership, including any and all rights incidental thereto, exclusively to the Journal, in the event that such work is published by the Journal. The Journal shall own the work, including 1) copyright; 2) the right to grant permission to republish the article in whole or in part, with or without fee; 3) the right to produce preprints or reprints and translate into languages other than English for sale or free distribution; and 4) the right to republish the work in a collection of articles in any other mechanical or electronic format.
We give the rights to the corresponding author to make necessary changes as per the request of the journal, do the rest of the correspondence on our behalf and he/she will act as the guarantor for the manuscript on our behalf.
All persons who have made substantial contributions to the work reported in the manuscript, but who are not contributors, are named in the Acknowledgment and have given me/us their written permission to be named. If I/we do not include an Acknowledgment that means I/we have not received substantial contributions from non-contributors and no contributor has been omitted.
References
Z. Karim Zia, D. Fayzur Rahman, and C. Mofizur Rahman. Two-Level Dictionary-Based Text Compression Scheme . Proceedings of 11th International Conference on Computer and Information Technology (ICCIT 2008) 25-27 December, 2008, Khulna, Bangladesh, 13-18.
W. Wen-Yen and J. W. Mao-Jiun, "Two-dimensional object recognition through two-stage string matching," Image Processing, IEEE Transactions on, vol. 8, 978-981, 1999.
F. Amar Mukherjee. Data Compression Using Encrypted Text Robert. Proceedings of ADL ’96 ,1996, 130-138.
G. Hwee Ong and S. Ying Huang. A Data Compression Scheme for Chinese Text Files Using Huffman Coding and a Two-Level Dictionary. INFORMATION SCIENCES 84, 85 99 (1995) 85-99.
A. A. Sharieh. An enhancement of Huffman coding for the compression of multimedia file. Transactions of Engineering Computing and Technology, Vol. 3, No. 1, 2004, 303-305.
C. Khancome. Bit-level Text Compression Algorithm Using Position of Characters. 2010 2nd International Conference on Information and Multimedia Technology (ICIMT 2010). Vol. 1-242, 2010, 242-245.
C. Khancome. New Full Text Compression Algorithm Based on Position of Character. 2010 3rd International Conference on Computer and Electrical Engineering (ICCEE 2010). IEEE Conference, Vol. 5, 2010, 631-634.
ประหยัด เลวัน เชาวลิต ขันคำ, "ขั้นตอนวิธีการบีบอัดข้อความภาษาไทยด้วยรูปแบบสระ" The 15th National Conference on Information Technology (NCIT2023), เชียงราย, ประเทศไทย, 2566, หน้า 50-55.
สัญฉกร วุฒิสิทธิกุลกิจ, สุวิทย์ นาคพีระยุทธ, ปิติฉัตร สุทธาโรจน์ และ สมภพ โชคชัยธรรม. เทคโนโลยีการบีบอัดข้อมูลเบื้องต้น, สำนักพิมพ์จุฬาลงกรณ์มหาวิทยาลัย: กรุงเพพฯ, 2549.
M. Crochemore, and W. Rytter, (2023, March, 18). Text Algorithms. Available: http://monge.univ-mlv.fr/~mac/REC/ text-algorithms.pdf.
A. Mofat, and R.Y.K. Isal. Word-based text compression using the burrows-wheeler transform. Information Processing and Management, Vol. 41, No. 5, 2005, 1175-1192.
J. Adiego, and P. de. la Feunte, On the use of words as source alphabet symbols in PPM. In Proceedings of Data Compression Conference, IEEE, 2006, 435.
J. Lánský and M. Žemlička. Text compression: Syllables. In Proceedings of the Dateso Workshop on Database, Texts, Specifications and Objects, 2005, 32-45.
H. Al-Bahadili and S. M. Hussain. An adaptive character wordlength algorithm for data compression. Computers & Mathematics with Applications, Vol. 55, No. 6, 2008, 1250-1256.
S. Nofal. Bit-level text compression. In Proceedings of the 1st International Conference on Digital Communications and Computer Applications, Irbid, Jordan, 2007, 486-488.
A. Rababáa. An Adaptive Bit-Level Text Compression Scheme Based on the HCDC Algorithm. M.Sc., dissertation, Amman Arab University for Graduate Studies, Amman, Jordan, 2008.
H. Al-Bahadili and S. M. Hussain. A Bit-level Text Compression Scheme Based on the ACW Algorithm. International Journal of Automation and Computing, Vol. 7 No. 1, 2010, 123-131.
C. Khancome. Text Compression Algorithm Using Bits for Character Representation. International Journal of Advanced Computer Science. Vol. 1, No. 6, 2010, 215-219.
เศกสิทธิ์ พจมารและจารี ทองคำ “การเปรียบเทียบขั้นตอนวิธีการบีบอัดข้อมูลแบบไม่สูญเสียข้อมูลบนเว็บแอปพลิเคชัน” RMUTT JOURNAL Science and Technology Vol.13 No. 3, pp 120-133, Sep-Dec. 2020.
ชนาภา ศิลาวงษ์และธนภัทร์ อนุศาสน์อมรกุล “การศึกษาเปรียบเทียบวิธีบีบอัดข้อมูลที่เหมาะสมสำหรับแต่ละประเภทข้อมูล” วารสารวิศวกรรม มก.. ฉบับที่ 91 ปีที่ 28 หน้า 83-92 มกราคม-มีนาคม 2558.
บรรพต ดลวิทยา “ศึกษาการบีบอัดเอกสารเอชทีเอ็มแอลบนฝั่งเซิร์ฟเวอร์ด้วยการขั้นตอนวิธีแบบ Huffman” วิทยานิพนธ์วิทยาศาสตร์มหาบัญฑิต สาขาวิทยการคอมพิวเตอร์ มหาวิทยาลัยศิลปากร 2550.
ทีมงานทรูปลูกปัญญา, หลักการสร้างคำในภาษาไทย, (Access 4 ธ.ค. 66), [Online] Available: https://www.trueplookpanya.com/learning/detail/34513.
รัฐบาลไทย-ข่าวทำเนียบรัฐบาล. (Access 4 ธ.ค. 66), [Online] Available: https://www.thaigov.go.th/news/ contents/details/31431.