การจัดการวัตถุดิบคงคลังของร้านอาหาร โดยใช้ Proximal Policy Optimization

ผู้แต่ง

  • ณัฐวัฒน์ เอกธรรมนิตย์ คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
  • วรพล พงษ์เพ็ชร คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

คำสำคัญ:

การเรียนแบบเสริมกำลัง, การเรียนรู้ของเครื่อง, วัตถุดิบคงคลัง

บทคัดย่อ

   งานวิจัยนี้มีวัตถุประสงค์ในการจัดทำขึ้นเพื่อศึกษาหลักการ Proximal Policy Optimization ของกระบวนการ Reinforcement Learning ในการสร้างแบบจำลองการพยากรณ์จำนวนการสั่งวัตถุดิบของร้านอาหาร เนื่องมาจากปัญหาการสั่งวัตถุดิบของร้านอาหารในแต่ละวัน เกิดความคลาดเคลื่อนจากจำนวนการใช้วัตถุดิบจริงสูง วัตถุดิบที่เหลือจึงกลายเป็นขยะอาหาร ทำให้เกิดการหมักและก่อตัวเป็นก๊าซมีเทนลอยขึ้นไปทำลายโอโซนในชั้นบรรยากาศ ซึ่งเป็นสาเหตุหลักที่ก่อให้เกิดปัญหาภาวะเรือนกระจก โดยแบ่งการศึกษาออกเป็น 2 รูปแบบหลักๆ คือ 1. แบบจำลองแบบหนึ่งแอตทริบิวต์ 2. แบบจำลองแบบหลายแอตทริบิวต์ และชุดข้อมูลจำลองที่ใช้มาจากการจำลองโดยอาศัยหลักการจำลองข้อมูลแบบแจกแจงปกติ ส่วนการประเมินประสิทธิภาพของแบบจำลองจะใช้เครื่องมือ 3 อย่าง คือ F-Statistics ,R-Square และRMSE ในการศึกษาครั้งนี้แต่ละแบบจำลองจะมีการเรียนรู้ทั้งหมด 12 ล้านไทม์สเต็ป ผลจากการศึกษาในงานวิจัยนี้ พบว่า ในการเรียนรู้ของแบบจำลองทั้งหมด 12 ล้านไทม์สเต็ป แบบจำลองแบบหลายแอตทริบิวต์ จะเกิดการลู่เข้าหาค่าที่เหมาะสมของแบบจำลอง ได้เร็วกว่าแบบจำลองแบบหนึ่งแอตทริบิวต์ และประสิทธิภาพของค่าความถูกต้องในการพยากรณ์จำนวนการสั่งวัตถุดิบ อยู่ที่ร้อยละ 82 ของค่าการพยากรณ์ทั้งหมด ซึ่งจำนวนค่าที่ใช้ในการทดสอบทั้งหมด คือ 1,000 ค่า จากงานวิจัยนี้ทำให้ทราบถึงแนวทางในการนำหลักการ Proximal Policy Optimization ของกระบวนการ Reinforcement Learning ไปสร้างแบบจำลองการพยากรณ์จำนวนการสั่งวัตถุดิบ ให้สามารถพยากรณ์จำนวนวัตถุดิบที่จะสั่ง ได้ใกล้เคียงกับจำนวนวัตถุดิบที่ใช้จริงมากที่สุด และสามารถลดจำนวนขยะอาหารให้มีจำนวนเหลือน้อยลง

Downloads

เผยแพร่แล้ว

2021-05-31

How to Cite

[1]
เอกธรรมนิตย์ ณ. และ พงษ์เพ็ชร ว. ., “การจัดการวัตถุดิบคงคลังของร้านอาหาร โดยใช้ Proximal Policy Optimization”, TJOR, ปี 9, ฉบับที่ 1, น. 45–54, พ.ค. 2021.