คลังต้นไม้ภาษาไทย: แนวคิด การสร้าง และการประยุกต์ใช้ บทความวิชาการ
Main Article Content
บทคัดย่อ
การสร้างคลังต้นไม้เป็นทรัพยากรพื้นฐานที่สำคัญในการประมวลผลภาษาธรรมชาติ เพื่อใช้ประโยชน์จากโครงสร้างไวยากรณ์ในรูปแบบต้นไม้ซึ่งช่วยให้การตีความประโยคมีความถูกต้อง คลังต้นไม้สามารถสร้างได้ทั้งแบบไม่มีเครื่องมือช่วย หรือกึ่งอัตโนมัติ และแบ่งเป็นสองกลุ่มหลักคือ คลังต้นไม้แบบโครงสร้างวลี และคลังต้นไม้พึ่งพา ภาษาไทยมีคลังต้นไม้เช่น CG Treebank และคลังต้นไม้ของสุธีที่ใช้ไวยากรณ์พึ่งพา คลังต้นไม้ไวยากรณ์ ถือเป็นคลังข้อมูลที่บรรจุประโยคพร้อมการวิเคราะห์เชิงวากยสัมพันธ์ในรูปแบบโครงสร้างต้นไม้ เพื่อสะท้อนความสัมพันธ์เชิงไวยากรณ์ระหว่างคำหรือวลี องค์ประกอบสำคัญของคลังต้นไม้ ได้แก่ ชุดข้อมูลข้อความต้นฉบับ, การตัดคำที่แม่นยำ, การตัดแบ่งชนิดของคำ โดยใช้ระบบการตัดคำที่เหมาะสมกับภาษาไทย, โครงสร้างต้นไม้ไวยากรณ์, คำอธิบายประกอบมาตรฐาน, และรูปแบบข้อมูล การเปรียบเทียบกับภาษาอื่น ๆ เช่น Penn Treebank และ Universal Dependencies แสดงให้เห็นว่าภาษาไทยมีลักษณะเฉพาะ เช่น การไม่มีการเว้นวรรคระหว่างคำ, การละองค์ประกอบในประโยค, และการใช้คำหลายหน้าที่ บทความนี้ใช้แนวคิดทฤษฎีไวยากรณ์ X-bar ที่อธิบายโครงสร้างภายในวลี การสร้างคลังต้นไม้ไวยากรณ์ภาษาไทยมีความท้าทายเนื่องจากลักษณะเฉพาะของภาษา โดยมีการประยุกต์ใช้ X-bar กับไวยากรณ์ภาษาไทยโดยการดัดแปลงให้เข้ากับลักษณะเฉพาะ เช่น การไม่มี ส่วนขยายด้านซ้าย (specifier) ชัดเจน และการจัดการโครงสร้างซ้อน รวมถึงการรองรับการละองค์ประกอบในประโยคโดยแสดงโหนดที่ถูกละ การกำหนดมาตรฐานการจัดโครงสร้างที่ดีควรประกอบด้วยคู่มือที่ครอบคลุม ระบบตรวจสอบความสอดคล้อง และตัวอย่างที่หลากหลาย คลังต้นไม้ภาษาไทยมีความสำคัญต่อการพัฒนาเทคโนโลยีภาษาศาสตร์คอมพิวเตอร์อย่างมาก เช่น การพัฒนาระบบวิเคราะห์ไวยากรณ์อัตโนมัติ การปรับปรุงระบบแปลภาษา และการสอนภาษาไทยและภาษาศาสตร์ คลังต้นไม้ไม่เพียงเป็นทรัพยากรเชิงเทคนิค แต่ยังเป็นฐานข้อมูลที่มีคุณค่าทางภาษาศาสตร์ วัฒนธรรม และการอนุรักษ์ภาษา เพื่อต่อยอดงานวิจัยและนวัตกรรมด้านภาษาศาสตร์คอมพิวเตอร์ของไทย
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
บทความที่ได้รับการตีพิมพ์และเป็นลิขสิทธิ์ของวารสารวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยเซาธ์อีสท์บางกอก
เอกสารอ้างอิง
T. Ruangrajitpakorn, K. Trakultaweekoon, and T. Supnithi, "A syntactic resource for Thai: CG treebank," in Proc. of the 7th Workshop on Asian Language Resources, pp. 96-101, 2009. (in Thai)
S. Sudprasert, “A Dependency Tree Annotation Manual for Thai Language (Version 1.4),” 2008. [Online]. Available: http://github.com/crishoj/thcg. [Accessed: May 30, 2024]. (in Thai)
M. P. Marcus, B. Santorini, and M. A. Marcinkiewicz, “Building a large annotated corpus of English: The Penn Treebank,” Computational Linguistics, vol. 19, no. 2, pp. 313–330, 1993.
J. Nivre, M.-C. de Marneffe, F. Ginter, Y. Goldberg, J. Hajič, C. D. Manning, et al., "Universal Dependencies v1: A multilingual treebank collection," in Proc. of the 10th International Conference on Language Resources and Evaluation (LREC), 2016.
K. Kosawat, M. Boriboon, T. Charoenporn, and V. Sornlertlamvanich, "The Thai National Corpus (TNC): Corpus-based linguistic resources for Thai language processing," in Proc. of the 7th Workshop on Asian Language Resources, 2009.
H. Isahara, C. Kruengkrai, and S. Shirai, “Thai Treebank and applications,” in Proc. 6th Workshop on Asian Language Resources (ALR), Hyderabad, India, pp. 65–72, 2008.
P. Boonkwan, N. Thanachart, and T. Charoenporn, "Thai Dependency Treebank: Annotation guideline and corpus," in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), pp. 1234-1240, 2016.
T. Aroonmanakun, “Issues in tagging and parsing the Thai language,” in Proc. 17th Pacific Asia Conf. on Language, Information and Computation (PACLIC 17), Sentosa, Singapore, pp. 219–226, 2003.
C. Wirote and V. Sornlertlamvanich, “Thai grammar extraction using statistical and rule-based approach,” in Proc. 4th Int. Conf. on Language Resources and Evaluation (LREC’04), Lisbon, Portugal, 2004.
NECTEC, "Thai Treebank Project: Guidelines and Corpus Development," 2010. [Online]. Available: http://www.thaicorpora.net. [Accessed: Jun. 9, 2023]. (in Thai)
K. M. K. Boriboon, K. Kriengket, P. Chootrakool, S. Phaholphinyo, S. Purodakananda, T. Thanakulwarapas, and K. Kosawat, “Best corpus development and analysis,” in Proc. 2009 Int. Conf. on Asian Language Processing, pp. 322–327, 2009.
J. Nivre, M.-C. de Marneffe, F. Ginter, J. Hajič, C. D. Manning, S. Pyysalo, S. Schuster, F. Tyers, and D. Zeman, “Universal Dependencies v2: An evergrowing multilingual treebank collection,” arXiv preprint arXiv:2004.10643, 2020.
S. Sornlertlamvanich, K. Charoenporn, and T. Aroonmanakun, “A deep syntactic parsing approach for Thai using Universal Dependencies,” in Proc. 34th Pacific Asia Conf. on Language, Information and Computation (PACLIC 34), 2020.
A. Piamsa-Nga, “Improving Thai-English machine translation via syntactic reordering based on treebank,” Kasetsart Journal of Social Sciences, vol. 39, no. 2, pp. 235–244, 2018. (in Thai)
D. Li, N. Noordin, L. Ismail, and D. Cao, “A systematic review of corpus-based instruction in EFL classroom,” Heliyon, vol. 11, no. 2, pp. 1–14, 2025.