Malicious Code Detection on Android Operating Systems by using Byte-Code Analysis

Main Article Content

วรวัฒน์ เชิญสวัสดิ์
โกมล นารัง

Abstract

- This research presents a model for malware detection on mobile operating system based on machine learning technique. The objective is to reduce the risk of installing harmful application when the user did not update the anti-virus program in time. The proposed model is different to other anti-virus is that most of anti-virus software used virus signature to identify malware. However, the virus signature-based detection approach requires frequent updates of the virus signature dictionary. The signature-based approaches are not effective against new, unknown viruses while the proposed model based on machine learning can detect new malware even some parts of the code have been modified. The research processes are as follows: (1) achieving of both malicious and benign codes on android operating system, (2) Extracting features based on the distribution of n-grams frequency, and (3) constructing a model for classification the malicious codes using the extracted features for both malicious and benign codes. In the experiment, 500 malicious codes, 400 benign codes and 100 system files were used to construct the model. The experiment shows that the model achieved more than 88.9% accuracy. For the sensitivity and specificity, the model achieved 95.0% and 82.8%, respectively.

Article Details

How to Cite
[1]
เชิญสวัสดิ์ ว. and นารัง โ., “Malicious Code Detection on Android Operating Systems by using Byte-Code Analysis”, JIST, vol. 5, no. 2, pp. 25–33, Dec. 2015.
Section
Research Article: Soft Computing (Detail in Scope of Journal)

References

1. สำนักงานพัฒนาธุรกรรมทางอิเล็กทอรนิกส์ (องค์การมหาชน) กระทรวงเทคโนโลยีสารสนเทศและการสื่อสาร, Thailand Internet User Profile 2014 รายงานผลการสำรวจพฤติกรรมผู้ใช้อินเทอร์เน็ตในประเทศไทย ปี 2557, https://www.etda.or.th/download-publishing/12/ สืบค้นเมื่อวันที่ 1 ตุลาคม 2558.

2. ธนาคารแห่งประเทศไทย, รายงานระบบการชำระเงิน 2557, https://www.bot.or.th/Thai/Pay mentSystems/ Documents/Payment_2014_T.pdf, สืบค้นเมื่อวันที่ 1 ตุลาคม 2558.

3. Jennifer Scott, Adroid set to reach one billion users in 2014, http://www.computerweek ly.com/news/2240212085 /Android-set-to-reach-one-billion-users-in-2014, สืบค้นเมื่อวันที่ 1 ตุลาคม 2558.

4. Makan, Keith, and Scott Alexander-Bown. Android Security Cookbook. Packt Publishing Ltd, 2013.

5. Dilrukshi, Inoshika, Kasun De Zoysa, and Amitha Caldera. "Twitter news classification using SVM." Computer Science & Education (ICCSE), 2013 8th International Conference on. IEEE, 2013.

6. สมภพ ปฐมนพ, กฤษฎา ศรีแผ้ว และ ม.ล.กุลธร เกษมสันต์ "ข้อมูลเชิงเวลากับการจำแนกประเภทผู้เป็นโรคเบาหวานในประเทศไทย," Journal of Information Science and Technology, Vol.4, No.1 , pp.49-56.

7. Moskovitch, Robert, Yuval Elovici, and Lior Rokach. "Detection of unknown computer worms based on behavioral classification of the host." Computational Statistics & Data Analysis 52.9 (2008): 4544-4566.

8. Abou-Assaleh, Tony, Nick Cercone, Vlado Keselj, and Ray Sweidan. "N-gram-based detection of new malicious code." In Computer Software and Applications Conference, 2004. COMPSAC 2004. Proceedings of the 28th Annual International, vol. 2, pp. 41-42. IEEE, 2004.

9. Kolter, Jeremy Z., and Marcus A. Maloof. "Learning to detect malicious executables in the wild." Journal of Machine Learning Research. Vol. 7, 2006. 2721-2744

10. Zheng, M., Sun, M., & Lui, J. Droid analytics: A signature based analytic system to collect, extract, analyze and associate android malware. In Trust, Security and Privacy in Computing and Communications (TrustCom), 2013 12th IEEE International Conference on (pp. 163-171).

11. สรวัตร ประภานิติเสถียร และ, ไกรศักดิ์ เกษร "การตรวจการโจรกรรมทางวิชาการด้วยใช้เทคนิค N-gram ร่วมกับเทคนิคการตรวจสอบเชิงความหมายสาหรับเอกสารภาษาไทย", Journal of Information Science and Technology, Vol.5, No.1 , pp.42-50.

12. Vapnik, V. The Nature of Statistical Learning Theory, Springer-Verlag, New York, 1995.

13. Lewis, David D. "Naive (Bayes) at forty: The independence assumption in information retrieval." Machine learning: ECML-98. Springer Berlin Heidelberg, 1998. 4-15.