สวัสดีครับผู้อ่านทุกท่านในบทความนี้ผู้เขียนจะพาผู้อ่านทุกท่านมาเจาะลึกรายละเอียดของ Big Data บน AWS กันครับ แน่นอนว่า AWS เป็นผู้ให้บริการคลาวด์ที่ใหญ่ที่สุดในโลก ดังนั้นข้อมูลที่ไหลผ่านเข้าออกศูนย์ข้อมูลของ AWS มีมากมายมหาศาลหลายเพตะไบต์ต่อวัน
Big Data!!!!
สำหรับนิยามของ Big Data นั้น ถ้าเอาแบบทางการก็จะประมาณนี้ครับ
“การนำข้อมูลที่มีปริมาณมาก ๆ มาผ่านการประมวลผล การวิเคราะห์ และแสดงผล ด้วยวิธีที่เหมาะสม ไม่ว่าจะเป็นข้อมูลด้านการเงิน ข้อมูลการดำาเนินงาน ข้อมูลเกี่ยวกับผู้รับบริการ ข้อมูลเกี่ยวกับบุคลากร รวมไปถึงข้อมูลที่ได้มีการจัดเก็บในระบบฐานข้อมูลซึ่งจะมีปริมาณที่เพิ่ม มากขึ้นเรื่อย ๆ จนมากมายมหาศาล”
ถ้าหากใครอยากได้นิยามและคำอธิบายแบบชัดเจนกว่านี้ก็ไปอ่านกันได้ที่ What is Big Data? – Amazon Web Services (AWS) เลยครับ รับรองข้อมูลแน่นสะใจแน่นอน
สำหรับคุณสมบัติของสิ่งที่จะถูกเรียกว่าเป็น Big Data ได้นั้นประกอบไปด้วยสิ่งเหล่านี้ครับ
- ปริมาณข้อมูลต้องเยอะ (Big Data นะ ไม่ใช้ Small Data)
- ความหลากหลายของข้อมูล
- ความถูกต้องและชัดเจนของข้อมูล
- ความเร็วในการเพิ่มขึ้นของข้อมูล
- ความเชื่อมโยงกันของข้อมูล
นอกจากนี้ประเภทของ Big Data ยังสามารถแบ่งออกเป็น 3 ประเภทย่อยได้ดังนี้ครับ (ผู้เขียนแบ่งตามชนิดของโครงสร้างของข้อมูล)
- ข้อมูลที่มีโครงสร้างชัดเจน (Structured Data)
เป็นชุดข้อมูลที่มีการจัดเรียงโครงสร้างอย่างเป็นระเบียบ มีความชัดเจน หรือระบุได้ด้วยตัวเลข พร้อมใช้งานได้ทันที ตัวอย่างของข้อมูลประเภทนี้ก็อย่างเช่น จำนวนการซื้อขายกับลูกค้า ปริมาณของเงินที่หมุนเวียนต่อชั่วโมง หรือเปอร์เซ็นต์ความเคลื่อนไหวภายในตลาดหุ้น รวมไปถึงคริปโตด้วยนะ (ใครติดดอยยกมือขึ้น 555+)
- ข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data)
เป็นชุดข้อมูลที่มีโครงสร้างไม่ชัดเจน หรือไม่สามารถระบุความแน่นอนของข้อมูลนั้น ๆ ได้ ซึ่งก็ตามชื่อเลยถูกไหมครับ กล่าวคือข้อมูลชนิดนี้เรายังไม่สามารถนำมันมาประมวลผลแล้วนำไปใช้ได้ทันที เพราะว่าอาจจะมีข้อมูลผิด ๆ หรือไม่เกี่ยวข้องกับสิ่งที่เราต้องการจะวิเคราะห์ปะปนอยู่ ตัวอย่างของข้อมูลประเภทนี้ก็อย่างเช่น บทสนทนาโต้ตอบกับลูกค้าทาง Social Media ไม่ว่าจะทางโทรศัพท์หรือข้อความ
- ข้อมูลกึ่งมีโครงสร้าง (Semi-Structured Data)
เป็นชุดข้อมูลที่มีโครงสร้างระดับหนึ่งแต่ยังไม่สมบูรณ์ (เป็นลูกผสมระหว่างข้อมูลแบบมีโครงสร้างชัดเจนกับแบบที่ไม่มีโครงสร้างนั่นเอง) เช่น สถานะหรือสเตตัสใน Social Media เป็นข้อมูลที่ไม่มีโครงสร้าง แต่ในกรณีที่เมื่อเราก็ตามเราทำการเพิ่มบางสิ่งบางอย่างที่ทำให้เกิดการเชื่อมโยงกัน นั่นคือเรากำลังทำให้ข้อมูลนั้นเป็นแบบ Semi-Structured ครับ เช่น เราใช้ Hashtag (#) ในโพสต์ของเรา ซึ่ง # นี้มีหน้าที่คือเข้ามาช่วยในการจัดหมวดหมู่และทำให้ข้อมูลมีความเป็นระเบียบขึ้นมา(เล็กน้อย)
การวิเคราะห์เชิงข้อมูลขนาดใหญ่คืออะไร ทำไมถึงสำคัญ
นอกจากจะมีคำศัพท์ว่า Big Data ที่หมายถึงการเก็บรวบรวมข้อมูลที่มีอย่างมหาศาลแล้ว ก็ยังมีอีกหนึ่งคำที่ควรรู้นั่นก็คือ “Big Data Analytics” ซึ่งแปลเป็นไทยได้ง่าย ๆ “การวิเคราะห์ของข้อมูลขนาดใหญ่” ซึ่งก็คือการวิเคราะห์เพื่อการจัดเก็บข้อมูลที่มีขนาดใหญ่ให้มีประสิทธิภาพและนำข้อมูลเหล่านั้นมาเชื่อมโยงกันและหาความสัมพันธ์เพื่อให้ได้ผลลัพธ์ที่ตรงกับพฤติกรรมของมนุษย์มากที่สุดนั่นเอง ซึ่งการทำงานของการวิเคราะห์ข้อมูลขนาดใหญ่นั้นส่วนใหญ่จะใช้กันในสายงานที่เกี่ยวข้อกับธุรกิจต่าง ๆ เพื่อการนำไปใช้ในการสร้างกำไรเกี่ยวกับการตลาด และสามารถนำเสนอสิ่งที่ลูกค้าของเราสนใจได้มากยิ่งขึ้นครับ
Big Data ในชีวิตประจำวัน
สำหรับในเรื่องของ Big Data ในชีวิตประจำวันนั้น เป็นอะไรที่เราเห็นได้ชัดเจนมาก เช่น “พฤติกรรมการใช้สื่อโซเชียล” ที่เราใช้กันอยู่ในปัจจุบัน ซึ่งการใช้โซเชียลนั้นก็เป็นเรื่องปกติที่ผู้คนส่วนใหญ่มักจะใช้งานกันอยู่แล้ว แล้วคุณรู้หรือไม่ว่า Facebook , Twitter , หรือแม้กระทั่ง INSTAGRAM ที่คุณใช้กันอยู่ในปัจจุบันนั้น มีการเก็บข้อมูลพฤติกรรมการใช้งานของคุณอยู่ตลอดเวลา ว่าคุณมีพฤติกรรมในการใช้งานบนแอพพลิเคชันนั้น ๆ หรือเว็บไซต์นั้น ๆ อย่างไรบ้างและทางผู้พัฒนาก็จะนำข้อมูลต่าง ๆ ของคุณมาปรับปรุงและแสดงสิ่งที่คุณสนใจขึ้นมา
Big Data กับธุรกิจ
ถ้าหากไม่พูดถึงเรื่องธุรกิจกับ Big Data ก็คงจะไม่ได้เพราะถือว่าทั้งคู่นี้เป็นสิ่งที่สำคัญมาก ๆ ต่อการทำธุรกิจทางด้าน Cloud เพราะว่า Big Data สามารถเข้ามาช่วยให้การวิเคราะห์ข้อมูลของลูกค้านั้นถูกต้องและแม่นยำมากขึ้นนั่นเอง ซึ่ง Big Data กับธุรกิจนั้นจะต้องมีอีกหนึ่งองค์ประกอบที่สำคัญเลยนั่นก็คือ Data Science ที่แปลเป็นภาษาไทยได้ว่า “วิทยาศาสตร์ข้อมูล” เพราะองค์ประกอบนี้จะมีการใช้เครื่องมือทางคณิตศาสตร์และวิทยาศาสตร์เข้ามาช่วยในการเก็บรวบรวมข้อมูล ทำให้สามารถได้ข้อมูลเชิงสถิติที่ดียิ่งขึ้นและสามารถเชื่อมโยงรวมถึงหาความสัมพันธ์เกี่ยวกับพฤติกรรมการใช้งานสื่อของลูกค้า เพื่อนำไปใช้ประโยชน์ทางธุรกิจได้
ประโยชน์ Big Data
ประโยชน์ของ Big Data นั้นมีเยอะมาก เยอะแบบนับไม่ถ้วน (จริง ๆ นับถ้วนแหละแต่ผู้เขียนพูดให้เว่อไปอย่างงั้นเองครับ) ซึ่งแน่นอนว่าประโยชน์ส่วนใหญ่ก็จะมีความเกี่ยวข้องกับเรื่องของทางธุรกิจโดยเฉพาะสื่อ Social Media และการตลาดออนไลน์ต่าง ๆ ซึ่งผู้เขียนสรุปมาได้คร่าว ๆ ดังนี้ครับ
- Big Data ช่วยในการวิเคราะห์พฤติกรรมการใช้งานแอพพลิเคชันและเว็บไซต์ของมนุษย์ได้ดีกว่าการใช้แบบสำรวจ
- Big Data สามารถวิเคราะห์ข้อมูลในด้านต่าง ๆ ของลูกค้าได้ เช่น ความชอบในผลิตภัณฑ์ตัวนั้น ๆ ของลูกค้า ซึ่งเมื่อลูกค้าทำการค้นหาสินค้าตัวนั้นบ่อย ๆ Big Data ก็จะเข้ามาช่วยในเรื่องของการทำให้สินค้าตัวนั้น ๆ แล้วก็แสดงให้ลูกค้าดูบ่อย ๆ นั่นเอง (ที่เราสงสัยกันบ่อย ๆ ว่าแอพในโทรศัทท์แอบฟังเราพูดนั่นแหละครับ อิอิ)
- ช่วยทำให้การทำธุรกิจเป็นเรื่องง่ายขึ้นเพราะ Data Scientist สามารถวิเคราะห์ข้อมูลทางสถิติ รวมถึงใช้ภาษาทางคอมพิวเตอร์หรือโปรแกรมมิ่งมาเชื่อมโยงกับข้อมูลของลูกค้า และสามารถนำข้อมูลเหล่านั้นมาใช้ให้เกิดประโยชน์สูงสุดต่อธุรกิจได้
ประเภทของงานที่ถูกจัดการบนระบบคลาวด์ของ AWS สามารถแบ่งออกได้เป็นสองแบบคือ
- งาน Data Science
งานประเภทนี้มีสิ่งที่ท้าทายก็คือใช้พื้นที่เก็บข้อมูลแบบมหาศาลมาก ๆ (ซึ่งก็ตรงกับคอนเส็ปของ Big Data เลยคือมีปริมาณข้อมูลที่เยอะ ๆ) ซึ่งถ้าเราจะเก็บข้อมูลไว้เองต้องซื้อ Storage แพง ๆ เช่น Hard drive ซึ่งก็จะยากต่อการดูแลหรือ maintenance อีก แล้วเราก็ต้องมาเสียเวลาคอยตรวจสอบปัญหาเองอีก ซึ่งถ้าหากตัว hardware มีปัญหาเราก็ไม่รู้จะไปถามใคร แต่ถ้าหากเราใช้ AWS Cloud แล้วเราก็หมดห่วงได้เพราะมีเจ้าหน้าที่คอยให้บริการตลอดเวลา นอกจากนี้งานทางด้าน Data Science ก็จะเกี่ยวข้องกับเทคนิคทางสถิติที่เรียกว่าปัญญาประดิษฐ์หรือที่เรียกจนได้ยินติดหูเป็นภาษาอังกฤษว่า Machine Learning ซึ่งต้องใช้คอมพิวเตอร์ที่มีพลังประมวลผลสูงในการฝึกสอนหรือเทรนโมเดล โดยเฉพาะสาย Deep Learning ที่ต้องใช้เฟรมเวิร์คอย่างเช่น Tensorflow หรือ PyTorch
- งาน Big Data
สำหรับประเภทที่สองก็คืองานทางด้าน Big Data ซึ่งเรามาพูดถึงประโยชน์ของ Cloud สำหรับสายวิศวกรข้อมูล (Data Engineer) กันก่อนครับ โดยทั่วไปแล้วบริษัทเทคโนโลยีใหญ่ ๆ นิยมมาใช้ Cloud ในการเก็บข้อมูลเยอะขึ้นเพราะ Cloud มีพื้นที่ไม่จำกัด (จริง ๆ จำกัดแหละแต่ว่าทางผู้ให้บริการ Cloud นั้นเพิ่มพื้นที่เก็บข้อมูลขึ้นเรื่อย ๆ) ถ้าเทียบกับการที่เราไม่ใช้ Cloud แล้วก็คือถ้าหากบริษัทต้องการเพิ่มพื้นที่โดยการซื้อเครื่องเซิร์ฟเวอร์ใหม่ก็จะต้องผ่านการทดสอบจากทีม Network Security นานหลายสัปดาห์หรืออาจจะหลายเดือนกว่าจะได้เครื่องมาใช้ แต่พอเป็น Cloud ไม่ต้องผ่านอะไรเลย ได้พื้นที่เพิ่มทันที ซึ่งนี่ก็เป็นข้อดีมาก ๆ ของการใช้บริการผู้ให้บริการ Cloud แต่ข้อเสียที่จะไม่พูดถึงก็ไม่ได้ก็คือเรื่องของค่าใช้จ่าย ซึ่งลูกค้าต้องหาคำแนะนำและตัดสินให้ดีถึงความคุ้มค่าในการลงทุนครับ
การบริการเกี่ยวกับ Big Data ของ AWS
AWS มีบริการมากมายเกี่ยวกับ Big Data ครับ เช่น บริการที่เกี่ยวกับการวิเคราะห์และ Data warehousing ก็จะมี Amazon Athena, Amazon EMR และ Amazon Redshift ส่วนถ้าเป็นบริการเกี่ยวกับ Data lake ก็จะมีตัวที่เราคุ้นเคยกันดีนั่นก็คือ AWS S3 และผองเพื่อน AWS Lake Formation, Amazon S3 Glacier และ AWS Backup นอกจากนี้ยังมีบริการอื่น ๆ อีกมากมายซึ่งสามารถดูรายละเอียดได้ที่ Data Lakes and Analytics on AWS – Amazon Web Services ครับ
อ่านมาจนถึงจุดนี้แล้วถ้าหากผู้อ่านมีความสนใจในบริการของ AWS โดยเฉพาะถ้าอยากจะปรึกษาเกี่ยวกับการให้บริการ AWS สำหรับการจัดการข้อมูลขนาดใหญ่ของบริษัทหรือธุรกิจของผู้อ่าน ก็สามารถติดต่อ Cloud HM ได้โดยตรงเลยครับ เพราะเรามีการให้บริการ Cloud Platform ครบวงจร ทั้ง Domestic Cloud และ Global Cloud เพื่อตอบสนองความต้องการรอบด้านของลูกค้าครับ
— Cloud HM