การตรวจการโจรกรรมทางวิชาการด้วยใช้เทคนิค N-gram ร่วมกับเทคนิคการตรวจสอบเชิงความหมายสาหรับเอกสารภาษาไทย

Main Article Content

สรวัตร ประภานิติเสถียร
ไกรศักดิ์ เกษร

บทคัดย่อ

- การตรวจจับการคัดลอกเชิงวิชาการเป็นสิ่งที่ได้รับความสนใจอย่างมาก โดยเฉพาะในสถาบันการศึกษาเนื่องจากนักศึกษามักจะกระทาผิดโดยการนาเอาผลงานหรือแนวคิดผู้อื่นมาแอบอ้างเป็นงานของตนเอง แต่เทคนิคในการตรวจจับการคัดลอกของเอกสารที่นิยมใช้กันในปัจจุบันนั้น เมื่อนามาใช้กับเอกสารภาษาไทยพบว่ามีประสิทธิภาพที่ต่าเนื่องจากปัญหาด้านโครงสร้างไวยากรณ์ของภาษาไทย งานวิจัยนี้จึงนาเสนอการนาหลักไวยากรณ์และการตารางความน่าจะเป็นแบบ 5 และ 3 แกรม (N-gram) ที่สร้างจากตัวแบบทานายต้นไม้ในการปรับปรุงโครงสร้างของประโยคและเทคนิค Semantic Role Labeling ร่วมกับการให้ค่าน้าหนักของคาในการเปรียบเทียบเชิงความหมาย จากการทดลองพบว่าทาการปรับปรุงโครงสร้างของประโยคแล้วมีประสิทธิภาพในการตรวจจับมากยิ่งขึ้นกว่าการใช้เทคนิค Semantic Role Labeling ร่วมกับการให้ค่าน้าหนักของคาเพียงอย่างเดียว

Article Details

รูปแบบการอ้างอิง
[1]
ประภานิติเสถียร ส. และ เกษร ไ., “การตรวจการโจรกรรมทางวิชาการด้วยใช้เทคนิค N-gram ร่วมกับเทคนิคการตรวจสอบเชิงความหมายสาหรับเอกสารภาษาไทย”, JIST, ปี 5, ฉบับที่ 1, น. 42–50, มิ.ย. 2015.
ประเภทบทความ
บทความวิจัย Soft Computing:

เอกสารอ้างอิง

1. S. Schleimer, et al., "Winnowing: local algorithms for document fingerprinting," in Proceedings of the 2003 ACM SIGMOD international conference on Management of data,ed. New York, NY, USA: ACM, 2003, pp. 76–85

2. L. Nick, "Learning Quickly When Irrelevant Attributes Abound: A New Linear-threshold Algorithm," vol. 1988, pp. 285–318(2).

3. Z. Du, et al., "A Cluster-Based Plagiarism Detection Method " in Conference and Labs of the Evaluation Forum, 2010.

4. B. Gipp and N. Meuschke, "Citation pattern matching algorithms for citation-based plagiarism detection: greedy citation tiling, citation chunking and longest common citation sequence," in Proceedings of the 11th ACM symposium on ocument engineering, ed. New York, NY, USA: ACM, 2011, pp. 249–258.

5. A. H. Osman, et al., "An improved plagiarism detection scheme based on semantic role labeling," Appl. Soft Comput., vol. 12, pp. 1493–1502 2012.

6. ศ. น. สิทธิโชค ปัญญาฤกษ์ชัย, "Information Retrieval System Using N-Gram Technique," presented at the The 5th National Conference on Computing and Information Technology, 2009.

7. ช. จ. อัษฎางค์ แตงไทย "การย่อความเอกสาร ภาษาไทยโดยกรรมวิธีการแยกค่าแบบเดี่ยว," presented at the National Computer Science and Engineering Conference, 2004.

8. อ. เอกวงศ์อนันต์, "การระบุคาไทยและคาทับ ศัพท์ด้วยแบบจาลองเอ็นแกรม," วิทยานิพนธ์มหาบัณฑิต ภาควิชาภาษาศาสตร์, จุฬาลงกรณ์ มหาวิทยาลัย, 2548

9. T. Chumwatana, "Using N-gram and Frequent Max Substring Techniques for Index-Term Extraction from Non-Segmented Texts: A Comparison of Two Techniques," Journal of Information Science and Technology, vol. 3, pp. 8-15, JANUARY - JUNE 2012 2012.

10. R. Pankhuenkhat, "การวิเคราะห์ประโยค ภาษาไทย (Immediate Constituents)," สารภาษาไทยและวัฒนธรรมไทย vol. June - November 2007, 2007.