Credit: Dataigu
อย่างที่ทุกคนทราบกันดีว่าเมื่อปี 2017 ทาง AWS ได้ปล่อย service ที่ชื่อ Amazon SageMaker ออกมาให้ผู้คนได้ใช้งานกันโดยเป็น service เกี่ยวกับการพัฒนา Machine Learning (ML) แต่ทั้งนี้ตัว service และเครื่องมือต่าง ๆ ที่ออกมายังมีความซับซ้อนต่อการใช้งาน “เนื่องจากผู้ใช้จะต้องจัดการและควบคุมเองทั้งหมด ทำให้ยากต่อการใช้งาน AWS จึงได้ออกโปรแกรมตัวใหม่มาเพื่อช่วยแบ่งเบาภาระของผู้ใช้งาน นั่นก็คือ Amazon SageMaker Studio
Credit: AWS Amazon
การเรียนรู้ของเครื่องหรือ Machine Learning (ML) คือกระบวนการหรือวิธีที่เครื่องจักรได้เรียนรู้และทำความเข้าใจกับปัญหาหรือระบบบางอย่างจนมีความเข้าใจในระดับที่สามารถเทียบเคียงได้กับการเรียนรู้ของมนุษย์ เปรียบเสมือนเป็นสมองของปัญญาประดิษฐ์ Artificial Intelligence (AI) โดยตัวอย่าง ML ที่ใช้งานและพบเห็นในปัจจุบันก็คือ
- การทำนายรูปภาพของสิ่งของหรือสิ่งมีชีวิตต่าง ๆ
- แอพพลิเคชีน Apple Siri
- Google Translate
- การแนะนำหนังที่น่าสนใจใน Netflix
SageMaker Studio เป็นเครื่องมือสำหรับสร้างและเทรนโมเดลด้าน ML โดยมีเครื่องมือที่เราจะต้องใช้ในการทำงานของ Data Scientist และ Data Engineer เช่น Notebook, Data Set, Model, Code นอกจากนี้ยังสามารถแบ่งปัน Project ให้กับผู้ร่วมงานอื่นในทีมเดียวกันได้อีกด้วย โดยประโยชน์ของ AWS SageMaker มีดังต่อไปนี้
- ทำให้ ML เข้าถึงได้มากขึ้น
ช่วยให้ผู้ใช้งานสามารถสร้างนวัตกรรม (innovation) หรือสินค้า (product) ด้วย ML ผ่านตัวเลือกเครื่องมือต่าง ๆ โดยเป็นสภาพแวดล้อมในการพัฒนาแบบผสานรวมสำหรับนักวิทยาศาสตร์ข้อมูล และอินเทอร์เฟซแบบภาพที่ไม่ต้องเขียนโค้ดสำหรับนักวิเคราะห์ธุรกิจ
- เตรียมข้อมูลในทุกระดับขนาด
เข้าถึง ติดป้าย และประมวลผลข้อมูลแบบมีโครงสร้าง (ข้อมูลในรูปแบบตาราง) และข้อมูลแบบไม่มีโครงสร้าง (รูปถ่าย วิดีโอ และเสียง) เป็นจำนวนมากสำหรับ ML
- เร่งการพัฒนา ML
ลดเวลาในการฝึกอบรมจากหลายชั่วโมงเหลือเพียงระดับนาทีด้วยโครงสร้างพื้นฐานที่ได้รับการปรับให้เหมาะสมที่สุด เพิ่มผลิตภาพของทีมงานได้ถึง 10 เท่าด้วยเครื่องมือที่สร้างขึ้นมาโดยเฉพาะ
- ปรับปรุงประสิทธิภาพให้กับวงจรการใช้งานของ ML
ทำระบบอัตโนมัติและสร้างมาตรฐานให้กับการดำเนินการ MLOps ทั่วองค์กรของผู้ใช้งานเพื่อสร้าง ฝึก ปรับใช้ และจัดการโมเดลในทุกระดับขนาด
เนื่องจากว่า AWS SageMaker นั้นมี service ย่อย ๆ หลายตัวมาก ในบทความนี้ผู้เขียนจะขอเตาะลึกแค่ AutoPilot ซึ่งเป็น tool ที่ช่วยให้ผู้ใช้งานสร้าง ML model ได้อย่างอัตโนมัติ (ตามชื่อเลยคือ Autopilot หรือนักบินอัตโนมัติ) โดยเริ่มตั้งแต่การจัดเตรียมข้อมูล การปรับแต่งข้อมูล Preprocess Data, การเทรนและปรับโมเดล Model Tuning และการเลือกอัลกอริธิมที่เหมาะสมที่สุด Algorithm Selection ด้วย API Call ตัวเดียวเท่านั้น
กระบวนการทำงานของ Autopilot คือจะเริ่มจากการที่เรามีข้อมูลดิบหรือ raw data แล้วนำข้อมูลนี้ใส่เข้าไปใส่ Tabular format โดยอาจจะลิงก์มาจาก AWS S3 ก็ได้ ขั้นตอนต่อไปคือการเทรนโมเดล ML และทำการเลือก column ที่เป็น target สำหรับการทำนาย โดยตัว Autopilot จะทำการสร้างโมเดลให้เราหลาย ๆ รูปแบบ และจะทำการเลือกโมเดลที่ดีที่สุดออกมา หลังจากนั้นจะแสดงผลออกมาในรูปแบบของ Leaderboard แสดงค่าคะแนนของโมเดลแต่ละตัว และอธิบาย ๆ รายละเอียดต่าง ๆ และขั้นตอนสุดท้ายคือการ deploy เพื่อใช้งานโมเดลใน production จริง
จุดเด่นของ Autopilot (Feature)
- Automatic data pre-processing and feature engineering
- Automatic ML model selection
- Model leaderboard
- Automatic notebook creation
- Feature importance
เรามาดูคำอธิบายของจุดเด่นแต่ละข้อกันเลยดีกว่า
Credit: AWS Amazon
Automatic data pre-processing and feature engineering
Autopilot ช่วยแก้ไขข้อมูลและเติ่มข้อมูลที่หายไปให้เราโดยอัตโนมัติ แสดงค่าทางสถิติต่าง ๆ ให้เราเพื่อวิเคราะห์ข้อมูลแบบเชิงลึก
Credit: AWS Amazon
Automatic ML model selection
Autopilot สามารถเป็นผู้ช่วยในการเลือกโมเดลที่ดีที่สุดสำหรับข้อมูลของเรา เช่น Binary classification, multi-class classification, หรือ regression โดย Autopilot สามารถใช้ algorithm ที่มีประสิทธิภาพสูง เช่น Gradient boosting decision tree, feedforward neural network, logistic regression เพื่อมาเทรนและปรับปรุงโมเดลได้อีกด้วย
Credit: AWS Amazon
Model leaderboard
แสดงอันดับของโมเดลเรียงตามคะแนน score ที่ Autopilot เตรียมไว้ให้ โดยเรียงตาม metrics เช่น ค่าความถูกต้อง (accuracy) ค่าความแม่นยำ (precision) และ พื้นที่ใต้กราฟ (area under the surce)
Credit: AWS Amazon
Automatic notebook creation
ช่วยสร้าง Notebook ให้เราเพื่อนำไปใช้งานต่อได้ในอนาคตได้อย่างรวดเร็ว โดย Notebook จะถูกบันทึกเก็บไว้
Credit: AWS Amazon
Feature importance
Autopilot ช่วยคำนวณค่าความสำคัญของ feature ช่วยให้เราวิเคราะห์ว่า feature ของข้อมูลของเราตัวไหนที่มีความสำคัญมากที่สุดหรือน้อยที่สุด เป็นประโยชน์อย่างมากต่อ Data Engineer ที่จะต้องทำความสะอาดข้อมูลในระดับเบื้อต้นก่อนจะส่งต่อไปให้ Data Scientists
อ่านมาจนถึงจุดนี้แล้วถ้าหากผู้อ่านมีความสนใจในบริการของ AWS โดยเฉพาะ SageMaker ก็สามารถติดต่อ Cloud HM ได้โดยตรงเลย เพราะเรามีการให้บริการ Cloud Platform ครบวงจร ทั้ง Domestic Cloud และ Global Cloud เพื่อตอบสนองความต้องการรอบด้านของลูกค้าครับ
— Cloud HM