AWS Data Analytics: จาก Data Lake สู่ Insights แบบ Real-Time

ในยุคปัจจุบันการแข่งขันในวงการของธุรกิจและ IT มีแนวโน้มที่สูงมากและตัวที่เป็นปัจจัยสำคัญนั้นคือ “ข้อมูล” มันกลายเป็นหัวใจสำคัญของการตัดสินใจที่จะออกกลยุทธ์ต่าง ๆ ที่เอามาใช้ในองค์กรหรือภาคธุรกิจ เราสามารถวิเคราะห์ข้อมูลเพื่อสร้างความรู้ใหม่ที่จะเอามาใช้ประโยชน์ในการทำธุรกิจและยกระดับสินค้าและบริการให้ลูกค้าได้ดีขึ้นไปอีกขั้น โดยผู้ให้บริการคลาวด์ยักษ์ใหญ่ของโลกอย่าง Amazon Web Services (AWS) เค้าก็มีเครื่องมือและบริการที่ครบครันสำหรับการสร้างโซลูชันการวิเคราะห์ข้อมูลครบวงจร โดยในบทความนี้ผมจะพาทุกคนไปดูว่าจาก Data Lakes สู่การวิเคราะห์ข้อมูลแบบเรียลไทม์บน AWS มันจะช่วยให้เราสามารถขับเคลื่อนธุรกิจได้ดีขึ้นยังไง?

Data Lake คืออะไร?

ก่อนอื่นเรามาทำความรู้จักกับ Data Lake กันก่อนดีกว่า โดย Data Lake เป็นเหมือนแหล่งที่เราจะทำการโยนข้อมูลลงไป เหมือนชื่อมันเลย Lake ก็คือทะเลสาบ เราก็จะโยนข้อมูลลงไปใน Data Lake เก็บข้อมูลรวมกันที่เดียวทั้งองค์กร ทำให้ที่สามารถเก็บข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างได้ทุกขนาด 

จากประโยชน์ของ Data Lake มันสามารถช่วยให้เราสามารถเก็บข้อมูลได้ตามที่มันเป็นอยู่โดยเราไม่ต้องปรับโครงสร้างหรือจัดการรูปแบบของข้อมูลก่อน ทำให้เราสามารถรันวิเคราะห์ข้อมูลในรูปแบบต่าง ๆ ได้ 

เราสามารถนำข้อมูลเหล่านี้มาทำเป็นแดชบอร์ด กราฟต่าง ๆ เพื่อแสดงผลให้ข้อมูลเข้าใจได้ง่ายขึ้น รวมไปถึงสามารถนำข้อมูลเหล่านี้มาวิเคราะห์ประมวลผลได้แบบเรียลไทม์ เหมาะสำหรับการเอาข้อมูลเหล่านี้ไปทำ Machine Learning แล้วเราก็จะได้โมเดลที่ช่วยในการตัดสินใจที่ดียิ่งขึ้น

ส่วนของประโยชน์ของ Data Lakes บน AWS

AWS มีข้อดีหลายอย่างที่เหมาะจะเอามาสร้างและจัดการ Data Lakes โดยส่วนที่เด่น ๆ เลยก็คือการสเกลเพิ่มขนาดหรือความจุในการเก็บข้อมูลได้เรื่อย ๆ รองรับการเติบโตของข้อมูล โดยบริการที่เราพูดถึงนี้คือ Amazon S3 มีพื้นที่จัดเก็บที่ไม่จำกัดในราคาต่ำ ส่วนของเรื่องความปลอดภัยก็หายห่วง เพราะ AWS มีการป้องกันข้อมูลด้วยการเข้ารหัสและการจัดการการเข้าถึง Amazon S3 เช่นฟีเจอร์อย่าง Bucket Policies และ AWS Identity and Access Management (IAM)

การใช้งาน AWS สำหรับ Data Lakes จะมีการใช้งาน Amazon S3 สำหรับพื้นที่จัดเก็บข้อมูลที่รองรับข้อมูลหลายประเภท AWS Glue ที่เป็นบริการ ETL (Extract, Transform, Load) ที่มีการจัดการเต็มรูปแบบ ทำให้ง่ายต่อการเตรียมและแปลงข้อมูลสำหรับการวิเคราะห์ สุดท้ายก็จะเป็น AWS Lake Formation ที่ทำให้การตั้งค่า การรักษาความปลอดภัย และการจัดการ Data Lakes ง่ายขึ้น

การเปลี่ยนข้อมูลดิบ ๆ ให้มาเป็น Insight

เราสามารถใช้ข้อมูลถูกเก็บไว้ใน Data Lake แล้วเอามาทำการแปลงและวิเคราะห์ข้อมูลนี้เพื่อให้ได้ข้อมูลเชิงลึกที่มีความหมาย หรือที่เรียกว่า Insight โดยการจะเปลี่ยนจาก Data ไปเป็น Insight เราสามารถใช้ Amazon Athena ที่เป็นบริการวิเคราะห์ข้อมูลเชิงโต้ตอบแบบ Serverless เรียกได้ว่าวิเคราะห์บนคลาวด์โดยที่ไม่ต้องติดตั้งเครื่องมือหรือดูแลเซิร์ฟเวอร์เองเลย เราสามารถเขียน SQL ตามที่คุ้นเคยบน Athena เพื่อรันคิวรีและดูผลลัพธ์ได้เลย

ต่อมาจะเป็น Amazon Redshift เป็นบริการคลังข้อมูล (Data Warehouse) แบบเต็มรูปแบบที่อยู่บน Amazon Web Services (AWS) มันออกแบบมาเพื่อรองรับการวิเคราะห์ข้อมูลขนาดใหญ่บนคลาวด์โดยเฉพาะ ตัวต่อมาจะเป็น Amazon EMR แพลตฟอร์ม Big Data ที่ทำงานบนคลาวด์ที่ประมวลผลข้อมูลปริมาณมหาศาลโดยใช้ Apache Hadoop และ Spark

เราสามารถเอาบริการข้อมูลที่วิเคราะห์มาสร้างมูลค่าเพิ่มได้อีกจากบริการด้าน Machine Learning และ AI โดยการใช้บริการอย่าง Amazon SageMaker ที่มีการจัดการเต็มรูปแบบที่ให้เหล่า Developer พัฒนาและ Data Scientist สามารถสร้าง เทรน และ Deploy Machine Learning โมเดลได้อย่างง่ายและรวดเร็ว รวมไปถึง AWS Deep Learning AMIs มีโมเดล Deep Learning ที่ถูกเทรนมาให้แล้วสามารถเอาไปใช้ได้เลย

การวิเคราะห์แบบเรียลไทม์

ซึ่งบริการเหล่านี้ในอุตสาหกรรม IT ที่ไปเร็วมาก ๆ จะมีข้อมูลที่เป็นแบบ Insight แบบเรียลไทม์สามารถใช้เป็นตัวเปลี่ยนเกมได้ โดยการวิเคราะห์แบบเรียลไทม์ช่วยให้องค์กรปรับกลยุทธ์ให้ทันต่อตลาดและการเปลี่ยนแปลงได้อย่างทันท่วงทีและจุดนี้ก็จะทำให้เราได้เปรียบต่อคู่แข่งอีกด้วย

หากเรามาทำการเจาะที่การวิเคราะห์แบบเรียลไทม์บน AWS มันจะมีบริการหลายอย่างที่ออกแบบมาสำหรับการประมวลผลและการวิเคราะห์ข้อมูลแบบเรียลไทม์ ไม่ว่าจะเป็น Amazon Kinesis ที่เป็นแพลตฟอร์มสำหรับการสตรีมข้อมูลแบบเรียลไทม์ที่สามารถเก็บ ประมวลผล และวิเคราะห์ข้อมูลสตรีมมิ่งขนาดใหญ่ได้ ส่วนตัวต่อมา AWS Lambda บริการนี้จะเป็นรูปแบบ Serverless ที่ช่วยให้เราสามารถรันโค้ดได้โดยไม่ต้องจัดการเซิร์ฟเวอร์เอง เรามีหน้าที่ในการเขียนโค้ด กำหนดลอจิกและก็ทำการ Deploy แล้วใช้งานได้เลย เหมาะสำหรับงานประมวลผลข้อมูลแบบเรียลไทม์แบบสุด ๆ ตัวสุดท้ายจะเป็น Amazon Managed Streaming for Apache Kafka (MSK) ตัวนี้จะทำให้เราสามารถสร้างและรันแอปพลิเคชันที่ใช้ Apache Kafka เพื่อประมวลผลข้อมูลสตรีมมิ่งได้บน AWS

ขับเคลื่อนด้วยข้อมูล

อีกสิ่งที่สำคัญสำหรับธุรกิจคือขับเคลื่อนด้วยข้อมูล หรือที่เรามักจะได้ยินว่า “Data Driven Business” มันเป็น Culture ที่จะขับเคลื่อนธุรกิจด้วยข้อมูล เอาข้อมูลเข้าไปในแกนกลางของกลยุทธ์ธุรกิจ เพื่อทำให้กลยุทธ์ของธุรกิจ เชื่อถือได้ และถูกใช้เพื่อการตัดสินใจในทุกระดับขององค์กร

ประโยชน์หลัก ๆ ของธุรกิจที่ขับเคลื่อนด้วยข้อมูล คือองค์กรจะตัดสินใจได้ง่ายและดีขึ้นบนพื้นฐานของหลักฐานที่แน่นอน นำไปสู่ผลลัพธ์ที่ถูกต้องและมีประสิทธิภาพมากขึ้น และด้วยความที่เราได้ข้อมูลเชิงลึกแบบเรียลไทม์ ธุรกิจสามารถปรับตัวเข้ากับการเปลี่ยนแปลงของตลาดและแนวโน้มที่เกิดขึ้นใหม่ได้อย่างรวดเร็ว ทันท่วงที สามารถส่งมอบประสบการณ์ลูกค้าที่ดีขึ้น เข้าใจพฤติกรรมของลูกค้าได้ลึกซึ้งยิ่งขึ้นนั่นเอง

ซึ่งเพื่อให้เห็นภาพมากยิ่งขึ้นผมขอยกตัวอย่างบริษัทสตรีมมิ่งแบบเรียลไทม์ยักษ์ใหญ่ของโลกอย่าง Netflix ที่มีการเก็บและประมวลผลข้อมูลมหาศาล แถมยังทำงานได้อย่างรวดเร็วและมีประสิทธิภาพ เป็นระบบมีการแนะนำหนัง ภาพยนต์ หรือคอนเทนต์ต่าง ๆ ที่ตรงจุดตรงใจผู้ใช้งานได้ดีที่สุด 

แต่ก่อนหน้านี้ Netflix ต้องเผชิญกับปัญหาในการรองรับสมาชิกมากกว่า 100 ล้านคนในกว่า 190 ประเทศในการบริการสตรีมมิ่งแบบเรียลไทม์และการแนะนำเนื้อหาที่ตรงใจสมาชิก ส่วนนี้เป็นเรื่องที่ท้าทายมาก 

ในการแก้ไขปัญหาเหล่านี้ Netflix เลือกใช้ AWS โดยการใช้ Amazon Kinesis Streams ในการประมวลผลข้อมูล Logs หลาย Terabyte ต่อวัน โดยมักจะใช้ประมาณ 1,000 Kinesis shards ในการประมวลผลข้อมูลแบบขนาน ทำให้สามารถตรวจสอบและตอบสนองต่อปัญหาแบบเรียลไทม์ได้อย่างมีประสิทธิภาพ นอกจากนี้ Netflix ยังใช้ AWS Lambda และ Amazon Route 53 เพื่อให้โครงสร้างพื้นฐานของบริษัทมีความเสถียรในหลายภูมิภาค แม้จะให้บริการในหลาย AWS Regions พร้อมกัน ระบบนี้ทำให้ Netflix สามารถย้ายผู้ชม 89 ล้านคนไปยัง AWS region อื่นได้ในเวลาน้อยกว่า 40 นาที ทำให้มีความยืดหยุ่นสูงและสามารถรองรับการทำงานในสถานการณ์ต่าง ๆ ได้อย่างมีประสิทธิภาพ

จากตัวอย่างนี้ทำให้เห็นว่าการใช้ AWS ทำให้ Netflix สามารถประมวลผลและเก็บข้อมูลได้อย่างรวดเร็วและมีประสิทธิภาพ ส่งผลให้สมาชิกได้รับประสบการณ์การใช้งานที่ดีและได้รับความพึงพอใจสูง

หากใครกำลังมองหาวิธีการนำข้อมูลมาขับเคลื่อนธุรกิจ Cloud HM เป็นตัวเลือกที่ดีที่สุดสำหรับการนำ AWS มาใช้ในการวิเคราะห์ข้อมูล เพราะเรามีทีมงานผู้เชี่ยวชาญที่พร้อมให้คำปรึกษาและช่วยดูแลให้คุณใช้งาน AWS ในการวิเคราะห์ข้อมูลได้อย่างราบรื่น สนใจติดต่อเราได้ที่ https://www.cloudhm.co.th/contact

อ้างอิง

Analytics on AWS.
https://aws.amazon.com/big-data/datalakes-and-analytics/

Netflix & Amazon Kinesis Data Streams Case Study
https://www.linkedin.com/pulse/netflix-amazon-kinesis-data-streams-case-study-govind-singh/