เอ็กซ์แซค : เครื่องมือการบีบอัดและการค้นคืนเอกสารเอ็กซ์เอ็มแอล
Main Article Content
Abstract
บทคัดย่อ
งานวิจัย XZAQ นำเสนอวิธีสำหรับการบีบอัดและการค้นคืนข้อมูลเอกซ์เอ็มแอลที่ผ่านการบีบอัดแล้วด้วยวิธีเชิงไวยากรณ์ทำให้สามารถบีบอัดเอกสารและค้นคืนข้อมูลได้โดยไม่จำเป็นต้องคลายเอกสารทั้งหมดก่อน XZaQ ใช้วิธีบีบอัดแบบ Non-homomorphic เพื่อแยกโครงสร้างและข้อมูลของเอกสารเอกซ์เอ็มแอลออกจากกัน XZaQ เข้ารหัสโครงสร้างเอกสารพร้อมทั้งเชื่อมโยงความสัมพันธ์ระหว่างโครงสร้างและข้อมูลของเอกสารด้วยวิธีเชิงไวยากรณ์ XZaQ สามารถสนับสนุนการค้นคืนข้อมูลบนเอกสารที่ผ่านการบีบอัดแล้วด้วยการคลายข้อมูลเพียงบางส่วนเท่านั้น จากผลการทดลองพบว่าการบีบอัดเอกสารเอ็กซ์เอ็มแอลด้วยวิธี Non-homomorphic และวิธีการเชิงไวยากรณ์ทำให้เอกสารมีขนาดเล็กลงโดยเฉลี่ย 70% เมื่อเปรียบเทียบกับขนาดเอกสารก่อนการบีบอัด และยังสามารถบีบอัดเอกสารได้ขนาดเล็กกว่า XGRIND ประมาณ 10% งานวิจัย XZaQ ออกแบบการเก็บข้อมูลเพื่อรองรับสำหรับการค้นคืนข้อมูล (Query) ได้ทั้งแบบ Simple Query และ Complex Query ด้วยเงื่อนไขชนิด Exact-match หรือ Range Query ได้ในขณะที่ XGRIND สามารถบอกได้เพียงว่าพบหรือไม่พบข้อมูลในการค้นคืนเท่านั้น
Abstract
This paper proposes a new method for XML compression, called XML Zipping and Querying (XZAQ), which can compress a regular XML file and query the compressed XML file without doing full decompression. XZAQ is based on non-homomorphic method, which does not preserve an interleaving between an element structure and data content. XZAQ is implemented by using grammar-based method to encode an element structure and to maintain links between the element structure and the data content. XZAQ can partially decompress a block of compressed data in order to support querying of XML data. From the experiments, XZAQ had an average compression ratio of 70% smaller than original size. It also provided better compression ratio of 10% less than XGRIND. Moreover, XZAQ could support either exact-match or range query in both simple and complex query types whereas XGRIND could provide only found or not found match.