ธุรกิจในยุคนี้มี Data ให้เก็บเพิ่มขึ้นอย่างมหาศาล ไม่ว่าจะเป็นข้อมูลลูกค้า ข้อมูลการขาย ข้อมูลการโฆษณา ฯลฯ ที่สำคัญ ข้อมูลหลากที่มาก็ถูกเก็บไว้ในที่ที่แตกต่างกัน ในฐานข้อมูลบ้าง ใน Data Lake บ้าง หรือแม้แต่ในบริการ Cloud หลากหลายเจ้า
ปัญหาที่จะตามมาอย่างเลี่ยงไม่ได้ คือ “แล้วองค์กรจะจัดการ Data ที่อยู่กระจายกันได้อย่างไร”
รูปจากวีดิโอ What is Dataplex https://www.youtube.com/watch?v=bbFeAt7cw1g
ก่อนหน้านี้ หลายบริษัทพยายามสร้าง Data Platform ของตัวเองขึ้นมา ที่ใช้ Data Pipeline ในการคัดลอกข้อมูลจากที่ทุกที่มารวมกันไว้ในที่เดียว เพื่อให้ทีมอื่นสามารถนำข้อมูลไปใช้งานต่อได้ง่าย ไม่ว่าจะเป็นการใช้ SQL ดึงข้อมูลโดยตรง หรือแม้แต่การดึงข้อมูลแบบเชื่อมต่อ API
อย่างไรก็ตาม การสร้าง Data Pipeline เป็นงานที่ต้องใช้ทรัพยากรในการพัฒนาอย่างมาก ยิ่งข้อมูลอยู่กระจัดกระจายกันมากเท่าไหร่ ก็ยิ่งเพิ่มความยากให้ทีมที่สร้าง Data Platform ในการสร้างและดูแลรักษามากขึ้นเท่านั้น
ยิ่งไปกว่านั้น งานของทีม Data Platform ก็จะหนักขึ้นอีกในตอนที่ทีมที่ต้องการใช้ข้อมูลมีมากขึ้น ความต้องการแต่ละทีมก็หลากหลาย บางทีมอาจจะอยากได้ API แบบ GraphQL หรือบางทีมอาจจะต้องการ API ที่ดึงข้อมูลตามความต้องการทางธุรกิจที่แตกต่างออกไป
จึงทำให้บริษัทที่พยายามสร้าง Data Platform ของตัวเองอาจจะเริ่มเจอว่าทีม Data Platform ทำงานไม่ทันกับความต้องการขององค์กร
Google ได้เปิดตัวบริการใหม่ล่าสุด ชื่อ Dataplex ที่จะเข้ามาช่วยแก้ปัญหานี้ได้
Dataplex คืออะไร
รูปจากวีดิโอ What is Dataplex https://www.youtube.com/watch?v=bbFeAt7cw1g
DataPlex เป็นบริการ Data Fabric ของ Google Cloud Platform ซึ่ง Data Fabric เป็นคอนเซปต์ในการรวม Data ที่กระจายอยู่ในหลาย ๆ ที่ให้สามารถเห็นได้จากที่เดียว โดยไม่ต้องย้าย Data มารวมกัน ทำให้ไม่ว่าข้อมูลจะอยู่บนบริการที่แตกต่างกัน หรือแม้แต่อยู่ต่าง Server กันเลย ก็สามารถนำมาดูในที่เดียวกันได้
จุดขายหลัก ของ Dataplex คือ ไม่ว่าจะเป็นข้อมูลจาก On-premise, ข้อมูลบน GCP, หรือข้อมูลบนผู้ให้บริการ Cloud เจ้าอื่น ๆ (เช่น AWS, Azure) ก็สามารดูได้ทั้งหมดจากบน Dataplex
นอกจากจะดูข้อมูลได้แล้ว เรายังสามารถจัดการ Data Security & Governance ได้จากที่เดียว ไม่ว่าจะเป็นการสร้างกฏ (Policy) หรือการบังคับใช้กฏ ก็สามารถทำได้บน Dataplex โดยไม่ต้องใช้หลายบริการ
และสำหรับองค์กรที่มีกฏในการจัดเก็บข้อมูล เราก็สามารถใช้ Dataplex ในการจัดการข้อมูลได้อีกด้วย เช่น การย้ายข้อมูลไปสู่ Bucket Tier ที่แตกต่างกันตามอายุของข้อมูล พร้อมมีการ Monitor การทำงานเพื่อให้คนที่ดูแลด้าน Data Governance ของบริษัทตรวจเช็คได้ ทำให้เรามั่นใจได้ว่าข้อมูลที่เรามีอยู่จะได้มาตรฐานถูกต้องตามกฏที่เรากำหนดไว้
จุดขายต่อมาของ Dataplex ที่ทำให้บริการนี้น่าสนใจมากยิ่งขึ้นไปอีก คือ ความสามารถด้าน Data Intelligence
Dataplex จะเก็บข้อมูลเกี่ยวกับชุดข้อมูลแต่ละตัว (Metadata) และรูปแบบ (Schema) ของชุดข้อมูลแบบอัตโนมัติ ทำให้เราตรวจเช็คได้แบบ Real-time ว่าข้อมูลที่เข้ามาอยู่ในรูปแบบที่ถูกต้อง พร้อมให้เราไปใช้งานต่อมั้ย
และหากต้องการนำข้อมูลไปวิเคราะห์ต่อ บน Dataplex เองก็มีบริการ SQL Query ด้วย Serverless Spark ความเร็วสูง หรือหากอยากเปิด Jupyter Notebook มาวิเคราะห์ก็สามารถทำได้ด้วย
จุดขายสุดท้ายของ Dataplex คือ การที่ตัวบริการนี้สามารถทำงานร่วมกับบริการ Data อื่น ๆ บน GCP ได้อย่างสะดวก เช่น BigQuery, Dataflow, Dataproc ฯลฯ เรียกได้ว่าเป็นบริการที่ครบเครื่อง และช่วยแก้ปัญหาสำคัญของการทำงานกับ Data ได้ดีมาก
หากองค์กรของคุณกำลังตามหาระบบและบริการที่รองรับการเติบโตขององค์กร เช่น Dataplex ตัวนี้ หรือต้องการที่ปรึกษาด้านเทคโนโลยีเกี่ยวกับ Data และ Google Cloud สามารถติดต่อพูดคุยกับทีมงาน Cloud HM ได้เลยนะครับ
สำหรับในโอกาสหน้า เราจะหาบริการที่น่าสนใจมาเล่าให้ฟังกันอีกครับ
— Cloud HM